$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

머신러닝을 이용한 빅데이터 품질진단 자동화에 관한 연구
A Study on Automation of Big Data Quality Diagnosis Using Machine Learning 원문보기

The journal of Bigdata = 한국빅데이터학회지, v.2 no.2, 2017년, pp.75 - 86  

이진형 (위세아이텍 인공지능팀)

초록
AI-Helper 아이콘AI-Helper

본 연구에서는 빅데이터의 품질을 진단하는 방법을 자동화하는 방법을 제안하고 있다. 빅데이터의 품질진단을 자동화해야 하는 이유는 4차 산업혁명이 이슈화 되면서 과거보다 더 많은 볼륨의 데이터를 발생시키고 이 데이터들을 활용 하려는 요구가 증가하기 때문이다. 데이터는 급증하지만 데이터의 품질을 진단하기 위해 많은 시간이 소비된다면 데이터를 활용하기 위해 많은 시간이 걸리거나 데이터의 품질이 낮아질 수 있다. 그러면 이러한 낮은 품질의 데이터로부터 의사결정이나 예측을 한다면 그 결과 또한 잘못된 방향을 제시할 것이다. 이러한 문제를 해결하기 위해 많은 데이터를 신속하게 진단하고 개선할 수 있는 머신러닝 이용한 빅데이터 품질 향상을 위한 진단을 자동화 할 수 있는 모델을 개발하였다. 머신러닝을 이용하여 도메인 분류 작업을 자동화하여 도메인 분류 작업 시 발생할 수 있는 오류를 예방하고 작업 시간을 단축시켰다. 연구 결과를 토대로 데이터 변환의 중요성, 학습되지 않은 데이터에 대한 학습 시킬 수 있는 방안 모색, 도메인별 분류 모델을 개발에 대한 연구를 지속적으로 진행한다면 빅데이터를 활용하기 위한 데이터 품질 향상에 기여할 수 있을 것이다.

Abstract AI-Helper 아이콘AI-Helper

In this study, I propose a method to automate the method to diagnose the quality of big data. The reason for automating the quality diagnosis of Big Data is that as the Fourth Industrial Revolution becomes a issue, there is a growing demand for more volumes of data to be generated and utilized. Data...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문은 빅데이터의 품질 진단을 자동화 모델 개발에 대하여 연구하였다. 자동화 모델 개발 절차는 데이터 확보, 데이터 전처리, 자동화 모델 개발, 모델 검증 및 보완과 같이 네 단계로 구성된다.
  • 데이터품질을 진단하는 방법은 크게 도메인 기반 데이터 품질 진단과 업무규칙 기반 데이터 품질 진단이 있다. 이번 연구에서는 도메인 분류 작업을 자동화하여 수작업으로 도메인 분류 시 발생할 수 있는 오류를 예방하고, 작업 시간을 단축시켜 데이터품질을 진단하고 개선하는 핵심 업무에 집중할 수 있도록 도메인 분류를 머신러닝 알고리즘을 사용하여 자동화 하는 것이다.

가설 설정

  • 그 이유는 다음과 같다. 첫 번째, 데이터 도메인의 중요성이다. 데이터 도메인이 정확하게 정의되었다면 전혀 다른 의미의 데이터가 입력되는 문제가 발생하지 않을 것이다.
  • 첫 번째, 모델 생성에 필요한 데이터를 확보해야 한다. 지도학습 알고리즘을 사용하기 때문에 모델링 시 학습에 필요한 올바른 데이터가 있어야 모델의 정확도가 향상된다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
데이터 품질이란 무엇인가? 데이터 품질이란 다양한 자료에서 발생한 데이터를 이용하기 위해 데이터를 활용할 대상이 데이터에 대한 신뢰를 가질 수 있는 수준을 의미한다. 명재호 는 “데이터 품질관리란 조직이 운영하는 정보시스템과 데이터베이스를 활용하는 이용자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리 활동을 의미한다.
지도학습에서 교차 검증을 하는 데 필요한 데이터셋에는 무엇이 있는가? 이와 같은 평가하기 위해서 교차 검증을 이용하는데 이를 위해 세 가지의 데이터 셋이 필요하다. 첫 번째는 훈련 셋(Training Set)으로 학습에 사용할 데이터이고, 두 번째로 검증 셋(Validation Set)으로 앞에서 만든 모델이 최적의 모델인지 검증에 사용된다. 마지막으로 테스트 셋(Test Set)으로 실제 발생하는 데이터라고 가정하고 정확도를 확인하는 단계이다. 생성된 모델을 이용하여 아직 발생하지 않은 데이터에 대해서 검증을 할 수 없기 때문에 학습 데이터의 일부를 사용하여 미래에 발생할 데이터에 대한 예측을 진행한다.
데이터 품질을 진단하는 종류는 무엇이 있는가? 데이터 품질 진단은 데이터를 소유하고 있는 조직이 데이터를 관리하기 위해서 데이터의 품질을 측정하고, 데이터 품질의 신뢰성이 낮은 원인을 파악하고 개선하는 과정을 의미한다[7]. 데이터 품질을 진단하는 종류는 데이터 값 진단, 데이터구조 진단, 데이터 관리 프로세스 진단이 있다. 데이터 값 진단은 데이터베이스의 테이블, 칼럼, 코드, 관계, 업무 규칙 등을 기준으로 데이터를 분석하여 품질을 진단하는 것이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (11)

  1. 김선호, 이창수, 이진우, "공공데이터 품질관리 성숙 수준에 대한 연구", 대한산업공학회 추계학술대회논문집, pp.159-165, 2016. 

  2. 명재호, 안희진, 이창수, 김성현, 임동진, 오경조, 이종규, 김선영, 최용준, 데이터 품질 가이드라인, 한국데이터진흥원, 2011. 

  3. 이상기, 채철주, 홍의경, "데이터프로파일링과 정규 표현식 활용 비정형 과학기술 빅데이터 품질관리 방안", 한국콘텐츠학회논문지, 제14권, 제12호, pp.486-493, 2014. 

  4. 이용구, 김병구, "학술지 기사에 대한 메타데이터 품질의 계량화 방법에 관한 연구", 정보관리학회지, 제28권, 제1호, pp.309-326, 2011. 

  5. 이현호, R과 SQL을 활용한 실전 데이터전처리, 카오스북, 2016. 

  6. 차경엽, 심광호, "공공부문 정보시스템 데이터의 신뢰성 점검기법 개발", 한국통계학회논문집, 제17권, 제5호, pp.745-753, 2010. 

  7. 호진원, 이미영, "IT활용 감사의 효과성 향상을 위한 데이터 품질관리 방안 연구", 한국사회와 행정연구, 제23권, 제4호, pp.31-53, 2013. 

  8. Sungho Kwon, A Study on the Standardization Method of Inventory Item Master Data Using Text Mining and Standardization Approaches, Masters dissertation. University of Seoul, Seoul 2010. 

  9. http://news.hankyung.com/article/2017060160031. 

  10. http://biz.chosun.com/site/data/html_dir/2017/03/08/2017030801954.html. 

  11. http://www.yonhapnews.co.kr/bulletin/2017/05/24/0200000000AKR20170524044700089.HTML. 

관련 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로