[논문]한국어 텍스트 데이터의 품질 평가 요소 및 방법

김정욱; 홍초희; 이새벽

한국어 텍스트 데이터의 품질 평가 요소 및 방법
Methods of Korean Text Data Quality Assessment 원문보기

김정욱 ((주)와이즈넛) , 홍초희 ((주)와이즈넛) , 이새벽 ((주)와이즈넛)

최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 비정형 한국어텍스트 데이터 품질 평가를 위하여 문법 오류, 일관성(응집성), 가독성, 분류 적합성의 4가지 평가 방법을 제안한다. 그리고 품질 평가를 위해 뉴스 기사와 커뮤니티의 글을 수집하여 평가 데이터 셋을 구축하고, 앞서 제시한 4가지 평가 방법을 적용하여 품질을 측정하고 결과에 대해서 논의한다.
본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 요소를 정의하고, 실제 비정형 데이터를 사용하여 각 요소 별 품질을 측정하여 그 결과에 대해서 고찰하였다.
본 연구에서는 4가지의 요소로 텍스트 데이터의 품질을 평가하였다. 각 품질 요소는 데이터의 특성을 반영한다고 볼 수 있다.

가설 설정

데이터1:[기사] 내년부터 의약사들이 다국적제약사들로부터 달력 등 판촉물을 받기 어려울 것으로 보인다. ￦n￦n한국글로벌의약산업협회(회장 아비 벤쇼산)는 세계제약협회(IFPMA)가 보건의료전문가에게 기념품?판촉물 제공을 금지하도록 관련 윤리규정을 따르기로 했다고 밝혔다.
는 평균 문장 길이이다. 위의 회귀 모형 공식의 값이 높으면 텍스트의 수준이 높은 것이다.

제안 방법

[데이터 1]은 기사 1건을 하나의 문서로, [데이터 2]는 질의, 답변을 하나의 문서로 간주하여 품질 평가 실험을 하였다. 아래 표 1은 실험 데이터의 예시이다.
또한, 문서 도메인의 특성에 따른 응집성을 구하기 위해 문장 간의 상호 참조 관계 요소로 유사 단어(형태소)들을 고려할 수 있다. word2vec을 사용하여 해당 도메인의 데이터를 학습시킨 뒤 각 단어 벡터들간의 유사도를 검사한다. i번째 문장에서 특정 임계치 이상의 유사도를 가지는 단어들의 리스트가 j 번째 문장에 있다면 R(i, i+1)의 값은 1로 지정할 수 있다.
본 논문에서는 비정형 한국어텍스트 데이터 품질 평가를 위하여 문법 오류, 일관성(응집성), 가독성, 분류 적합성의 4가지 평가 방법을 제안한다. 그리고 품질 평가를 위해 뉴스 기사와 커뮤니티의 글을 수집하여 평가 데이터 셋을 구축하고, 앞서 제시한 4가지 평가 방법을 적용하여 품질을 측정하고 결과에 대해서 논의한다.
또한, 분류 적합성 실험 결과는 표 4와 같다. 데이터에서 두 가지의 카테고리를 선택하여 각 데이터 별로 지도 학습과 비지도 학습 모델을 생성하여 평가하였다.
단어 범주를지정하는 것은 일반적으로 시소러스같은 단어 간의 계층적 구조를 가지고 있는 사전에서 검색해서 얻을 수 있지만, 시소러스를 구축하는 것은 비용이 많이 들고 도메인에 따라 단어 범주의 성격이 달라진다. 따라서, 본 논문은 문장 간의 상호 참조 관계 요소로 한국어 특성(교착어)상 형태소 단위로 정하고, 명사, 형용사, 동사, 어근과 같이 의미를 가지는 품사로 한정하였다. 즉, 두 문장에 적어도 하나 이상의 상호 참조 관계가 있는 경우 R(i, i+1)의 값은 1이고, 그렇지 않을 경우에는 0으로 정의하였다.
문법 오류가 있는 텍스트는 구조나 의미 분석의 오류를 발생시킬 확률이 높기 때문에 데이터의 품질 평가 중요한 지표가 될 수 있다. 문법 오류 검사는 텍스트를 이루는 문장에서의 문법 오류 여부를 판별하고 텍스트의 문법 오류율을 측정하였다.
지도 학습 분류기 데이터의 일부를 학습하여 모델을 생성하고, 나머지를 분류 모델의 실험 데이터로 사용하여 정확도를 계산한다. 비지도 학습 분류기의 경우는 클러스터링 모델을 생성하고, Adjusted Rand Index(ARI)를 사용하여 클러스터링의 일치 정도를 정량화 하였다. ARI Score는 -1.
실험 데이터는 문장 분리기를 사용하여 각 문서별로 문장을 분리 하였다. 분리된 문장은 응집성과 가독성 검사 그리고 문법 오류 검사의 대상이 된다.
텍스트 데이터에 카테고리가 있는 경우는 지도 학습과 비지도 학습을 사용하였다. 지도 학습 분류기 데이터의 일부를 학습하여 모델을 생성하고, 나머지를 분류 모델의 실험 데이터로 사용하여 정확도를 계산한다. 비지도 학습 분류기의 경우는 클러스터링 모델을 생성하고, Adjusted Rand Index(ARI)를 사용하여 클러스터링의 일치 정도를 정량화 하였다.
텍스트 데이터에 카테고리가 있는 경우는 지도 학습과 비지도 학습을 사용하였다. 지도 학습 분류기 데이터의 일부를 학습하여 모델을 생성하고, 나머지를 분류 모델의 실험 데이터로 사용하여 정확도를 계산한다.

대상 데이터

3장에서 정의한 품질 평가 지표를 실험하기 위하여 두 가지 형태의 데이터 셋을 사용하였다. [데이터 1]은 문체가 비교적 정형화된 의료 전문 뉴스 10,000건, [데이터 2]는 텍스트의 형식과 문체가 비교적 자유로운 의료 관련 질의, 답변 데이터10,000만 건을 수집하여 사용하였다.
3장에서 정의한 품질 평가 지표를 실험하기 위하여 두 가지 형태의 데이터 셋을 사용하였다. [데이터 1]은 문체가 비교적 정형화된 의료 전문 뉴스 10,000건, [데이터 2]는 텍스트의 형식과 문체가 비교적 자유로운 의료 관련 질의, 답변 데이터10,000만 건을 수집하여 사용하였다.

이론/모형

또한, 어휘 수준을 고려한 접근은 텍스트 처리에 있어서 정확성 확보 및 고비용의 문제가 있다. 따라서, 본 논문은 [17]에서 제시한 문단 길이와 문장 길이로 구성된 회귀 모형 공식을 이용하여 평가하였다.
n은 전체 문서의 수이며, E(w_i)는 문서에서 출현한 i번째 단어가 오류일 경우 1, 아닐 경우 0으로 반환한다. 문법 오류 검사기는 오픈소스로 사용 가능한 Hunspell과 한국어 사전 hunspell-dict-ko를 사용하였다.

성능/효과

표 2의 lcc는 국소적 응집성, gcc는 전역 응집성, gcc_w는 거리 가중치 전역 응집성이다. [데이터 1]의 국소적 응집성, 전역 응집성, 거리 가중치 전역 응집성이[데이터 2]보다 높은 것으로 나타났다. 표 3에서는 [데이터 1]이[데이터 2]의 가독성 값보다 높게 나타났다.
16을 보였다. [데이터 2]는 [데이터 1]의 비하여 평균 문법 오류율은 약 0.06 높았고, 표준편차도 약 0.09 높음을 알 수 있다.
각 요소별 실험 결과는 [데이터 1]이 [데이터 2]에 비하여 문법 오류율이 낮고, 분류 적합성이 높으며, 응집성과 가독성(텍스트의 수준)이 높음을 확인하였다. 따라서, 각 데이터 셋의 특성을 제안한 품질평가 요소를 통해서 확인할 수 있었다.

후속연구

하지만, 제안한 품질 요소만으로 전체적인 데이터의 품질을 진단하는 데는 한계가 있다. 이 요소를 바탕으로 기준이 될만한 데이터 셋을 통해 각 요소들의 정규화된 값을 도출한다면, 데이터 품질을 좀 더 명확하게 판단할 수 있을 것이다.

핵심어

질문

논문에서 추출한 답변

텍스트의 응집성에는 어떤 측정 기준이 있는가?

텍스트의 응집성은 두 가지 측정 기준이 있다[9][10]. 하나는 인접한 문장들간의 관련성에 대한 국소적 응집성(local coreference cohesion)이며 다른 하나는 문서 내에 존재하는 모든 문장을 한 주제에 관련 지어 요약적인 정보를 지니고 있는 전역 응집성(global coreference cohesion)으로 다음과 같이 정의할 수 있다.

데이터는 일반적으로 어떤 종류로 나뉘어지는가?

데이터는 일반적으로 정형 데이터와 비정형 데이터로 나눌 수 있으며, 최근 생성되는 데이터는 정형 데이터보다 비정형 데이터가 높은 비율을 차지한다. 그러나, 데이터의 품질 관리에 대한 중요성이 높음에도 불구하고, 현재의 데이터 품질 관리는 관계형 데이터베이스 기반의 정형 데이터에 치중되어 있다.

문법 오류 지표가 데이터 품질 평가에서 중요한 지표가 되는 이유는 무엇인가?

문법 오류 지표는 텍스트가 포함하고 있는 문법 오류율로 정의할 수 있다. 문법 오류가 있는 텍스트는 구조나 의미 분석의 오류를 발생시킬 확률이 높기 때문에 데이터의 품질 평가 중요한 지표가 될 수 있다. 문법 오류 검사는 텍스트를 이루는 문장에서의 문법 오류 여부를 판별하고 텍스트의 문법 오류율을 측정하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어 텍스트 데이터의 품질 평가 요소 및 방법
Methods of Korean Text Data Quality Assessment 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국어 텍스트 데이터의 품질 평가 요소 및 방법 Methods of Korean Text Data Quality Assessment 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국어 텍스트 데이터의 품질 평가 요소 및 방법
Methods of Korean Text Data Quality Assessment 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper