[논문]머신러닝을 이용한 빅데이터 도메인 자동 판별에 관한 연구

공성원; 황덕열

머신러닝을 이용한 빅데이터 도메인 자동 판별에 관한 연구
A Study of Big Data Domain Automatic Classification Using Machine Learning 원문보기

The journal of Bigdata = 한국빅데이터학회지, v.3 no.2, 2018년, pp.11 - 18

공성원 ((주)위세아이텍) , 황덕열 ((주)위세아이텍)

초록
AI-Helper

본 연구는 빅데이터 품질 진단의 핵심 요소인 도메인 기반 품질 진단을 위한 도메인 자동 판별에 관한 연구다. 빅데이터의 가치와 활용도의 증가와 4차 산업혁명의 대두로, 법률, 의료, 금융 등 IT와 융합된 다양한 분야에서 빅데이터를 활용하여 새로운 가치를 창출하려는 노력을 진행중이다. 하지만, 신뢰도가 낮은 데이터에 기반한 분석은 과정과 결과 모두에서 치명적인 문제를 발생하며, 분석 결과에 따른 판단 또한 신뢰하기 어려워 진다. 이처럼 신뢰도가 높은 데이터의 필요성 또한 증가하였지만, 데이터의 품질 확보에 대한 연구와 그에 대한 결과는 미비하다. 본 연구는 데이터 품질 향상을 위한 진단 평가의 핵심적 요소인 도메인 기반 품질 진단에서, 수작업으로 진행되었던 도메인 판별 작업을 머신러닝을 이용하여 자동화 함으로써, 작업시간을 단축하는 것을 목표로 한다. 데이터 베이스에 저장된, 도메인이 판별되어 있는 데이터의 특성에 관한 정보들을 추출하여 변수화하고, 이를 머신러닝을 이용하여 도메인 판별을 자동화 한다. 이를 빅데이터 품질 진단에 활용하고, 품질 향상에 기여하도록 한다.

Abstract ▼ AI-Helper

This study is a study on domain automatic classification for domain - based quality diagnosis which is a key element of big data quality diagnosis. With the increase of the value and utilization of Big Data and the rise of the Fourth Industrial Revolution, the world is making efforts to create new value by utilizing big data in various fields converged with IT such as law, medical, and finance. However, analysis based on low-reliability data results in critical problems in both the process and the result, and it is also difficult to believe that judgments based on the analysis results. Although the need of highly reliable data has also increased, research on the quality of data and its results have been insufficient. The purpose of this study is to shorten the work time to automizing the domain classification work which was performed from manually to using machine learning in the domain - based quality diagnosis, which is a key element of diagnostic evaluation for improving data quality. Extracts information about the characteristics of the data that is stored in the database and identifies the domain, and then featurize it, and automizes the domain classification using machine learning. We will use it for big data quality diagnosis and contribute to quality improvement.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

데이터 품질이란 <데이터의 최신성, 정확성, 상호연계성 등을 확보하고, 이를 이용하여 사용자에게 유용한 가치를 줄 수 있는 수준>으로 정의 하고 있다. 데이터 품질 진단을 실시하는 목적은 데이터 품질을 체계적, 지속적으로 유지하고 향상시키기 위함이다.
본 논문은 머신러닝을 사용하여 데이터 품질 진단 평가에 적용한 연구다. 도메인 품질 진단평가를 위해서 수작업으로 진행되었던, 도메인판별 작업을 머신러닝을 이용하여 자동화 함으로써, 작업시간을 단축하는 것을 목표로 하였다.
앞서 설명 하였듯, 도메인 기반 데이터 품질을 진단하기 위해서는 많은 물리적, 시간적, 인적 재원을 투자해야 했다. 때문에 ㈜위세아이텍에서는 이러한 자원의 소모를 줄이기 위한 연구를 진행하고 있으며, 그 일환으로 도메인 자동화 분류 시스템의 문제점을 제안하였다. 프로파일 기반 품질 진단 데이터를 이용하여, 의사결정 트리 알고리즘을 학습시켜 도메인 자동 판별 시스템을 구성하였다.
본 논문은 머신러닝을 사용하여 데이터 품질 진단 평가에 적용한 연구다. 도메인 품질 진단평가를 위해서 수작업으로 진행되었던, 도메인판별 작업을 머신러닝을 이용하여 자동화 함으로써, 작업시간을 단축하는 것을 목표로 하였다.
데이터 품질에 관한 이슈는 데이터 마이닝으로 인한 가치 창출과 인공지능 산업 전반에 걸친 문제가 될 수 있다. 이번 연구에서는 데이터 품질 진단 방법 중, 도메인 기반 데이터 품질진단에서, 기존에 제안하였던 머신러닝 기반 도메인 자동 분류 시스템의 문제점을 개선하고 발전시킨 방법의 연구를 진행하였다.

제안 방법

[9] 라벨링은 에 나온 도메인 영역 중 Key와 공통을 제외한, 번호, 금액, 명칭, 수(량), 분류(플래그> 날짜, 율, 내용, 코드에 더하여 사업 분야에서 많이 다루고 요구되는 연락처를 추가한 총 10개의 영역으로 라벨링 하였다.
표준화 여부와 상관없이, 데이터베이스와 SQL문을 사용하여 추출할 수 있는 정보만을 변수로 선택하여 파생 변수화 하였다. 각각의 변수들의 선택기준은 도메인 분류 시에 점검 내용의 기준이 되는 사항들을 파생변수화 하였다.
표준화되어 있지 않은 데이터베이스에서 도메인 판별을 수행하기 위하여, 기존의 변수를 수정하고 추가하였다. 그 과정에서 반드시 표준화가 되어 있어야 추출이 가능한 파생 변수들은 삭제하고, 데이터의 대표값을 파생 변수화 하였다. 파생 변수들은 다음과 같다.
머신러닝을 사용한 도메인 자동 판별 알고리즘을 위해서 데이터베이스에서 얻을 수 있는 파생변수들을 제안하였고, 파생변수에 대해서 설명하였다. 그리고 학습 알고리즘에 대한 파생변수의 영향도를 평가하고, 축소하였다. 이를 이용하여 도메인 자동 판별 알고리즘을 구성하고 평가하였다.
도메인 기반 데이터 품질 진단은 데이터에 대한 프로파일링 기법을 사용하기 위한 작업으로, 도메인을 분류된 컬럼을 이용하여 각각의 도메인의 특성에 맞게 컬럼 분석, 날짜 분석, 패턴 분석 등을 수행하여 평가한다. 이를 수행하기 위해서는 해당 칼럼에 대한 도메인이 분류가 되어있어야한다.
머신러닝을 사용한 도메인 자동 판별 알고리즘을 위해서 데이터베이스에서 얻을 수 있는 파생변수들을 제안하였고, 파생변수에 대해서 설명하였다. 그리고 학습 알고리즘에 대한 파생변수의 영향도를 평가하고, 축소하였다.
영향도가 1%가 되지 않는, 소수점 아래 길이, 엔터 포함 여부, 영어 작성 여부를 제외하고 학습모델로 구성하여, 최종적으로 11개의 변수를 사용하여 자동화 시스템을 구성하였다.
[6] 업무 규칙 기반 품질 진단을 하기 위해서는 업무 규칙을 파악하고, 조건 또는 제약을 설정하여 규칙을 SQL 등을 이용하여 실제 운영 데이터베이스에 적용한다. 적용한 데이터베이스에서 오류데이터를 추출하고 오류율을 확인함으로써 품질을 진단한다
표준화 여부와 상관없이, 데이터베이스와 SQL문을 사용하여 추출할 수 있는 정보만을 변수로 선택하여 파생 변수화 하였다. 각각의 변수들의 선택기준은 도메인 분류 시에 점검 내용의 기준이 되는 사항들을 파생변수화 하였다.
표준화되어 있지 않은 데이터베이스에서 도메인 판별을 수행하기 위하여, 기존의 변수를 수정하고 추가하였다. 그 과정에서 반드시 표준화가 되어 있어야 추출이 가능한 파생 변수들은 삭제하고, 데이터의 대표값을 파생 변수화 하였다.
때문에 ㈜위세아이텍에서는 이러한 자원의 소모를 줄이기 위한 연구를 진행하고 있으며, 그 일환으로 도메인 자동화 분류 시스템의 문제점을 제안하였다. 프로파일 기반 품질 진단 데이터를 이용하여, 의사결정 트리 알고리즘을 학습시켜 도메인 자동 판별 시스템을 구성하였다.[1]

대상 데이터

공공데이터로부터 수집된 3400개의 데이터셋을 라벨링하여 학습 및 예측을 실행하였다. <표5>는 사용된 데이터셋의 Sample 데이티이다.
데이터의 수집은 오픈되어있는 공공데이터들을 이용하여 수집하고 라벨링을 수행하였다. [9] 라벨링은 <표>에 나온 도메인 영역 중 Key와 공통을 제외한, 번호, 금액, 명칭, 수(량), 분류(플래그> 날짜, 율, 내용, 코드에 더하여 사업 분야에서 많이 다루고 요구되는 연락처를 추가한 총 10개의 영역으로 라벨링 하였다.

이론/모형

10개의 도메인으로 구분한 데이터셋을 랜덤포레스트 모델을 사용하여 학습하였다. 학습된 모델에서 변수의 영향도를 확인한 결과는 다음과 같다.
그리고 학습 알고리즘에 대한 파생변수의 영향도를 평가하고, 축소하였다. 이를 이용하여 도메인 자동 판별 알고리즘을 구성하고 평가하였다.

성능/효과

정확도는 정밀도, 재현률 모두 85 %이상의 결과를 도출하였다. 수집된 데이터들의 숫자가 늘어나면 성능이 향상될 것으로 기대된다.

후속연구

정확도를 높이기 위해서, 구분하기 힘든 와 를 통합하여 나머지 도메인들과 같이 머신러닝을 이용하여 구분한 다음, 규칙을 이용하여 코드와 플래그를 구분하는 방법을 사용하면 정확도, 정밀도, 재현율을 높일 수 있을 것으로 기대 된다.
추후, 연구과제의 목표로는 다양한 산업군에서 수집한 파생변수들을 수집하고, 학습 및 평가하여 도메인 통합, 머신러닝과 규칙을 통한한 알고리즘 개발 등에 대한 연구를 지속적으로 진행하여, 빅데이터 품질 평가를 위한 도메인 자동화 판별 도구를 개발하여 빅데이터의 품질향상에 기여할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	현대 사회에서 빅데이터는 어떤 분야에서 활용되고 있나요?	현대 사회에서 빅데이터의 가치는 높아져서 IT 뿐 아니라, 공공기관, 법률, 의료, 금융 등 다양한 분야에서 빅데이터를 활용하여 새로운 가치를 창출하고 있다. 정부에서도 이러한 움직임에 발맞춰, 빅데이터 관련 산업에 많은 투자를 시작하였다.
	빅데이터를 이용하여 새로운 가치를 창출하기 위해서는 무엇이 전제되어야 하나요?	빅데이터를 이용하여 새로운 가치를 창출하기 위해서는 신뢰도가 높은 데이터가 전제되어야 한다. 낮은 신뢰도 데이터 기반의 분석은 분석 과정에서부터 문제가 생길 뿐더러, 분석 결과에 따른 판단에도 오류를 범할 수 있다.
	신뢰도가 높은 데이터가 필요한 이유는 무엇인가요?	빅데이터를 이용하여 새로운 가치를 창출하기 위해서는 신뢰도가 높은 데이터가 전제되어야 한다. 낮은 신뢰도 데이터 기반의 분석은 분석 과정에서부터 문제가 생길 뿐더러, 분석 결과에 따른 판단에도 오류를 범할 수 있다. 때문에 전 세계적으로 민간부분의 데이터 신뢰성과 품질확보를 위해 년간 6000억 달러 이상의 비용을 소비하고 있으며, 품질관리 수준을 평가하기 위한 지표 등에 관한 연구들도 진행 중이다.

참고문헌 (18)

이진형, "머신러닝을 이용한 빅데이터 품질진단 자동화에 관한 연구", 한국빅데이터논문지, 제2권 제2호, 2017
Robert E. Schapire, "Random Forests", Machine Learning, 45, 5-32, 2001
A Liaw, M Wiener, Classification and regression by randomForest, R news, 2002
B.P.Weidema, M.S.Wesnæs, Data quality management for life cycle inventories-an example of using data quality indicators, Vol4, Issues 3-4, 1996, Pages 167-174

상세보기
이상기, 채철주, 홍의경," 데이터 프로파일링과 정규 표현식 활용 비정형 과학기술 빅데이터 품질관리 방안", 한국콘텐츠학회논문지, 제14권, 제12호, p486-793, 2014
명재호, 안희진 이창수, 김성현 임동진, 오경조, 이종규, 김선영, 최용준, 데이터 품질 가이드라인, 한국데이터진흥원, 2011
데이터 품질관리 지침, 한국데이터베이스진흥센터, 2006
데이터 산업 백서, 한국데이터진흥원, 2017
차경엽, 심광호, "공공부문 정보시스템 데이터의 신뢰성 점검기법 개발", 한국통계학회논문집, 제17권, P745-753, 2010

원문보기 상세보기
데이터 분석 전문가 가이드, 한국데이터베이스진흥원, 2016
J. VanderPlas, Python Data Science Handbook: Essential Tools for Working with Data, 2016
T.F. Cootes, M.C.Ionita, C.Lindner, P.Sauer, "Robust and Accurate Shape Model Fitting Using Random Forest Regression Voting", Computer Vision - ECCV 2012, pp 278-291, 2012
김선호, 이창수, "데이터 품질관리 프로세스 평가를 위한 프로세스 참조모델", 한국전자거래학회지, 제18권, 2013

원문보기 상세보기
Caballero, I., Caro, A., Calero, C., Piattini, M., "IQM3 : Information Quality, Management Maturity Model," Journal of Universal Computer Science Vol. 14, No. 22, pp. 3658-3685, 2008.
ISO 8000-1 Data quality-Part1 : Overview, ISO, 2009
Pipino, L. L., Lee, Y. W., Wang R. Y., "Data quality as-sessment", Communications of the ACM, Vol. 45, No. 4, pp. 211-218, 2002.

상세보기
Ryu, K. S., Park, J. S., Park, J. H., "A data quality management maturity model," ETRI Journal, Vol. 28, No. 2, 2006.

원문보기 상세보기
Leo L. Pipino, Yang W. Lee, and Richard Y. Wang, "Data Quality Assessment," Communications of the ACM, vol. 45, no. 4, Apr. 2002, pp. 211-218.

상세보기

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증