$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] SOA 기반 서비스 사이의 오류 데이터 정제 서비스 개발
Developing dirty data cleansing service between SOA-based services 원문보기

정보처리학회논문지. The KIPS transactions. Part D. Part D, v.14D no.7, 2007년, pp.829 - 840  

지은미 (이화여자대학교 컴퓨터학과) ,  최병주 (이화여자대학교 컴퓨터학과) ,  이정원 (아주대학교 정보통신대학 전자공학부)

초록
AI-Helper 아이콘AI-Helper

현재까지 오류 데이터를 정제하는 기법은 여러 소스로부터 대량의 데이터를 통합하여 데이터베이스에 저장되어 있는 데이터의 품질을 관리함으로써 의미 있는 정보를 추출하기 위함이었다. 급변하는 비즈니스 환경과 무한경쟁 사회에서 지속적으로 생존하려면 환경 변화에 빠르게 대처해야 한다. 최근 시스템의 요구사항이 복잡해짐에 따라 대규모의 분산 시스템을 통합 구축하기 위한 서비스 기반 구조 (Service Oriented Architecture)로 확산되고 있으며, 여기에서도 각 서비스간의 데이터 정제기법을 통한 신뢰성 있는 데이터 교환이 필수적이다. 따라서 본 논문에서는 서비스들이 하나의 시스템으로 통합되는 과정에서 이벤트를 통해 서비스 간에 전송되는 XML데이터의 품질 관리를 수행하여, 이미 통합되어 저장된 데이터베이스 데이터의 오류를 탐지하여 정제하는 것이 아니라 상호 작용하는 서비스간의 데이터 정제에 초점을 두고 SOA를 기반으로 하는 오류 데이터 정제 서비스를 개발한다.

Abstract AI-Helper 아이콘AI-Helper

Dirty Data Cleansing technique so far have aimed to integrate large amount of data from various sources and manage data quality resided in DB so that it enables to extract meaningful information. Prompt response to varying environment is required in order to persistently survive in rapidly changing ...

Keyword

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 SOA의 기본 원리에 충실하면서 서비스간의 상호 작용하는 데이터의 품질을 보장할 수 있도록 서비스 간의 실시간 데이터의 오류를 탐지하고 정제할 수 있는 방법을 제안하고, SOA를 지원하는 표준으로 XML을 사용하여 데이터 집합과 제약 조건에 대한 변화를 융통성 있게 처리할 수 있는 서비스로 개발한다. 먼저 서비스간의 정제되어야 할 오류 데이터의 체계를 확립하고 오류를 탐지하고 정제하기 위한 규칙을 제안하며, 제안된 규칙을 기반으로 SOA의 기본 원리를 만족시키기 위한 서비스를 설계하고 개발 절차를 확립한다.
  • 그러나 이미 데이터가 모두 수집된 데이터베이스 내에서의 데이터 정제 기법만을 고려한다면 웹 서비스를 이용하는 SOA기반 시스템들에서 상호 작용하는 데이터의 품질을 고려할 수 있는 방법이 없다. 본 논문에서는 서비스 통합시 데이터의 품질을 보장할 수 있는 방법을 제안한다. 이는 최근의 데이터 품질의 정의와 같이 프로세스 자체에 데이터 품질을 개선하려는 노력과 SOA의 서비스 작성과 관리를 위한 기본 원리를 따르는 목적에 부합한다.
  • 따라서 본 논문에서는 데이터품질 정제 도구를 종속되는 시스템이나 어플리케이션과는 독립적으로 동작할 수 있는 서비스를 개발한다. 아래의 <표 1>은 지금까지 설명한 기존의 데이터 정제 도구들의 특성과 본 논문에서 제안한 CleanS (dirty data Clean Service) 서비스 데이터 정제 도구를 비교한 표이다.
  • 따라서 본 논문에서는 SOA의 기본 원리에 충실하면서 서비스간의 상호 작용하는 데이터의 품질을 보장할 수 있도록 서비스 간의 데이터의 품질을 탐지하고 정제할 수 있는 방법을 제안하고 이를 서비스로 개발한다.
  • 아직까지 대부분의 연구에서의 정제 과정은 도메인 전문가에게 맡기고 있다. 따라서 본 논문에서도 정제 행위의 주체는 서비스 사용자로서 앞의 탐지 과정에서 위배된 규칙과 카테고리를 제시함으로써 정제를 위한 최대 정보를 제공하는 것을 목표로 한다. 만약 서비스 사용자도 정제할 수 없는 데이터라면 그대로 처리하지 않고 본 서비스의 앞 단에 결합된(여기에서는 서비스 A) 서비스에 피드백 메시지를 줄 필요가 있다.
  • 서비스들로 시스템을 구성하고 데이터 품질을 관리하면, 서비스가 실행된 후 서비스가 사용하는 데이터에 적합한 오류 데이터 측정 기준을 한번 설정한 이후 반복적인 이벤트 발생을 통해 입력된 데이터의 오류를 측정한 결과를 사용자가 얻게 된다. 본 논문에서는 개발한 서비스가 과연 얼마나 오류 데이터를 정제하는 데 효과적인지 보이기 위해 CRM에서 ERP로 총 데이터 이벤트를 200회 발생 시켰다.

가설 설정

  • 개발된 서비스의 입력 변환, 탐지 및 정제 , 결과에 대한 단계별 사용자 시나리오를 시퀀스 다이어그램으로 표현하였다. 시나리오는 하나의 입력 이벤트에 대한 사용자의 시나리오를 가정하였고 여러 이벤트에 대한 통계는 5.3절의 적용 결과에서 설명한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
현재 개발된 데이터 정제를 수행하는 다양한 도구에 대해 설명하라. MonArch는 CRM 솔루션으로 .NET 기반의 컴포넌트로 개발되어 다양한 CRM 기능과 고객의 정보에 관련된 데이터를 정제하는 것이 특징이며, 컴포넌트 기반으로 개발되어 재사용 및 타 어플리케이션으로의 확장에 유리하다. 하지만, 플랫폼과 구현언어에 독립적이지 못하여 상호 운용 시 문제가 발생하게 된다. SLAAM(Systematic List Analysis And March)은 고객의 주소 이전 추적이나 중복자 검색 등에 사용하고 있으나 독립적인 컴포넌트나 서비스로 개발되어 있지 않다. ZipIt[11]은 우편번호 데이터의 정제를 수행하는 도구로 자신의 자료 특성에 맞는 동의어를 쉽게 등록하여 활용할 수 있으며, Eye checking 기능과 동의어 추가 기능을 활용하여 정제 효율을 높일 수 있는 특징을 가진다. ZipIt 또한 SLAMM과 유사하여, 컴포넌트 기반의 어플리케이션 개발에 사용하기가 어렵다는 문제점을 가진다. 더불어 우편번호 데이터라는 특정된 데이터만을 정제할 수 있어 활용범위가 좁다. The AscentialTM Enterprise Integration Suite은 기업에서 사용하는 데이터의 프로파일링, 데이터 평가, 데이터 정제, 메타데이터 관리와 데이터 통합을 위한 ETL(Extraction, Transform, and Load) 도구이다. 이 도구는 다양한 데이터 소스로부터 데이터를 가져 올 수도 있고 다시 소스나 타겟, 프레임 등을 고려하지 않고서도 데이터를 통합 할 수 있는 API를 제공한다. 그러나 순수한 데이터 정제를 위한 측면에서 활용되기 어렵고 독립적인 서비스로 작동할 수 없다. HummingBird는 기업의 포털, 문서, 기록, 지식관리 및 협업, BI(Business Intelligence), 데이터 통합을 위한 기술을 포함하는 어플리케이션의 통합 솔루션으로 BI 솔루션이 기업의 정보를 보고 및 분석하는 동안 정제 도구가 그 정보를 변환 및 정제하게 된다. 그러나 BI에 종속된 하나의 기능으로 독립적으로 사용될 수 있는 컴포넌트도, 서비스도 아니다. 이러한 기존의 데이터 정제 도구들은 데이터 소스로 이동하기 전 과정에서 데이터를 정제함으로써 어플리케이션 및 엔터프라이즈의 데이터 표준에 부합할 수 있도록 해주나, 개발된 어플리케이션에서 지원해주는 특정 데이터만 정제하는 단점을 가진다.
ESB란? SOA를 지원하기 위한 대표적인 최신 통합 기술로서 ESB(Enterprise Service Bus) 개념이 등장하였다. ESB는 SOA의 기본 원리를 따르면서 통합 인프라 구조를 제공하고 이벤트 중심의 분산 시스템 환경을 가능하도록 SOA를 지원하는 논리적인 버스의 개념이다.
데이터 정제를 수행하는 다양한 도구에는 무엇이 있나? 데이터 마이닝에서는 정제된 데이터가 필수적이기에 데이터 마이닝을 기초로 하는 ERP, CRM과 같은 다양한 어플리케이션에서는 데이터 정제 도구를 필요로 하고 있으며, 이러한 이유로 MonArch[11], SLAAM[12], ZipIt[13], The AscentialTM Enterprise Integration Suite[14], HummingBird[15]와 같은 데이터 정제를 수행하는 다양한 도구들이 개발되었다.
질의응답 정보가 도움이 되었나요?

참고문헌 (19)

  1. P. Krogdahl, G. Luef, and C. Steindl, 'Service-Oriented Agility: An initial analysis for the Use of Agile methods for SOA development,' In Proceedings of the 2005 IEEE International Conference on Service Computing(SCC '05). Vol.2, pp.93-100, July, 2005 

  2. 이경하, 이규철, '웹 서비스의 표준화 동향과 발전 방향', 한국정보과학회 데이터베이스 연구회지, 제19권 제1호, pp.80-87, March, 2003 

  3. M. P. Papazoglou and D. Georgakopoulos, 'Service-Oriented Computing,' Communication of the ACM, Vol.46, No.10, pp.25-28, Oct., 2003 

  4. 지은미, 최병주, 이정원, 'SOA에서의 오류 데이터 정제 서비스 개발', 정보처리학회 2007년도 춘계학술발표대회 논문집(상) 우수논문, 제14권 제1호, pp.649-652, 2007 

  5. Theodore Johnson, and Tamraparni Dasu, 'Data Quality and Data Cleaning,' Tutorials of 10th SIGKDD, Aug., 2004 

  6. T. Dasu, T. Johnson, S. Muthukrishnan, V. Shkapenyuk, 'Mining Data Structure; Or, How to Build a Data Quality Browser,' In Proceedings of SIGMOD Conf., pp. 240-251, 2002 

  7. M. Hernandez and S. Stolfo, 'Real-world data is dirty: data cleansing and the merge/purge problem,' Data Mining and Knowledge Discovery, Vol.2, No.1, pp.9-37, 1998 

  8. M. Lee, H Lu, T Ling, and Y. Ko., 'Cleansing Data for Mining and Warehousing,' In Proceedings of 10th DEXA, 1999 

  9. M. Hernandez, R. Miller, and L. Hass, 'Schema Mappings as Query Discovery,' In Proceedings of Intl. Conf. VLDB, 2001 

  10. M. M. Breunig, H.-P. Kriegel, R. Ng, J. Sander, 'LOF: Identifying Density-Based Local Outliers,' In Proceedings of SIGMOD Conf., 2000 

  11. MonArch, www.00db.co.kr 

  12. SLAAM, www.slaam.co.kr 

  13. ZipIt, www.sujiewon.co.kr 

  14. The AscentialTM Enterprise Integration Suite, www.ascential.com 

  15. HummingBird, www.hummingbird.com 

  16. Ortiz Jr., Sixto; 'Getting on Board the Enterprise Service Bus,' Published by the IEEE computer Society, pp.15-17, 2007 

  17. Won Kim, Byoung-Ju Choi, Eui-Kyeoung Hong, Soo-Kyoung Kim, Doheon Lee, 'A Taxonomy of Dirty Data,' The Data Mining and Knowledge Discovery Journal, Vol.7 No.1, pp.81-99, 2003 

  18. J. W. Lee, E. Y. Moon, and B. J. Choi, 'Data cleansing for Service-Oriented Architecture,' Springer-Verlag, Lecture Notes in Computer Science Vol 3590, pp.87-97, 2005 

  19. G. Shankaranarayanan and Y. Cai, 'A Web Services Application for the Data Quality Management in the B2B Networked Environment,' In Proceedings of 38th Hawaii International Conference on System Sciences, IEEE, 2005 

저자의 다른 논문 :

LOADING...

활용도 분석정보

상세보기
다운로드
내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로