[논문]한국어 위키피디아를 이용한 분류체계 생성과 개체명 사전 자동 구축

배상준; 고영중

문제 정의

개체명은 대부분 문서에서 중요한 역할을 하지만 한정된 것이 아니라 계속 생성되고, 그 수 또한 방대하기 때문에 생성될 때마다 사전에 등록시키는 것은 현실적으로 불가능하다. 따라서, 본 논문에서는 개체명을 효과적이고 지속적으로 추출하여 자동으로 사전을 구축하기 위해 현재 널리 이용되고 있는 위키피디아(wikipedia.org)를 이용하고자 한다.
본 논문에서는 다음과 같은 방법에 의해서 개체명 사전을 구축하는 방법을 제안한다. 먼저 위키피디아 문서 내에 있는 분류정보를 추출하여 분류정보의 빈도수를 중심으로 분류체계를 구성한다.
본 논문에서는 다중 타입의 엔트리에 대해서 구분하고 있지 않기 때문에 정확률을 구하기 위해서 다중 타입 올 포함하는 위키피디아 엔트리와 ETRI 개체명 사전의 공통 개체명을 사용하였다. 재현율은 41절에서 설명한 전체 정답셋을 사용하였다.
본 논문에서는 위키피디아의 자원을 이용하여 분류체계를 생성하고 개체명 사전을 구축하는 방법을 제안하고 있다. 분류체계를 생성하고 엔트리를 매핑하는 과정에서 나타나는 오류를 분석해본 결과 분류정보의 단어 수가 영향을 미친다는 것을 알았다.

가설 설정

1. 분류정보 내에서 가장 우측에 있는 단어가 중요하다.
2. 출현 빈도수가 높은 분류정보 내의 단어가 상위 계층에 위치한다.

제안 방법

먼저 위키피디아 문서 내에 있는 분류정보를 추출하여 분류정보의 빈도수를 중심으로 분류체계를 구성한다. 다음으로 분류체계에 엔트리(entry)를 매핑(mapping)시키고, 매핑된 엔트리에 대한 노이즈(noise)를 줄이기 위하여 불확실성(entropy) 을 측정한다. 마지막으로 임계값 이상의 불확실성을 가지는 분류체계를 제거함으로써 최종적인 개체명 사전을 구축한다.
다중 타입의 엔트리를 제외하기 위해서 엔트로피 기법을 이용하여 분류체계의 최상위 계층에 엔트로피 값을 부여하고 임계값을 찾기 위한 실험을 하였다. 그 결과는 표 4와 같다.
하지만, 분류정보의 수가 너무 많기 때문에 각각의 분류정보에 대해서 개체명 타입을 결정하는 일은 시간과 비용이 많이 든다. 따라서 본 논문에서는 이러한 분류정보들을 사용해서 자동으로 분류체계를 생성하고 각 엔트리를 분류체계에 매핑한다.
분류체계를 생성하고 엔트리를 매핑하는 과정에서 나타나는 오류를 분석해본 결과 분류정보의 단어 수가 영향을 미친다는 것을 알았다. 또한 다중으로 개체명 타입이 태깅되는 엔트리에 대해서 분류계층의 최상위 계증의 엔트로피 값을 계산하고 분류체계를 제거하기 위한 임계값을 실험을 통해서 찾아내었다.
다음으로 분류체계에 엔트리(entry)를 매핑(mapping)시키고, 매핑된 엔트리에 대한 노이즈(noise)를 줄이기 위하여 불확실성(entropy) 을 측정한다. 마지막으로 임계값 이상의 불확실성을 가지는 분류체계를 제거함으로써 최종적인 개체명 사전을 구축한다. 그 결과 불확실성 값 1.
과정을 거친다. 매핑된 엔트리 중에 ETRI 개체명사 전의 등록이 되어 있는 엔트리는 ETRI 개체명 태그를 부여하여 성능을 측정하였다.
구축하는 방법을 제안한다. 먼저 위키피디아 문서 내에 있는 분류정보를 추출하여 분류정보의 빈도수를 중심으로 분류체계를 구성한다. 다음으로 분류체계에 엔트리(entry)를 매핑(mapping)시키고, 매핑된 엔트리에 대한 노이즈(noise)를 줄이기 위하여 불확실성(entropy) 을 측정한다.
본 논문에서 제안하는 방법을 실험하기 위하여 ETRI 에서 제공하는 개체명 사전을 이용하였다. 이 개체명 사전은 17개의 대분류와 139개의 소분류로 나뉘어져 있다.
본 논문에서 제안하는 방법의 순서에 따라서 전체 분류정보를 추출하여 분류체계를 만들고 엔트리를 매핑하는 과정을 거친다. 매핑된 엔트리 중에 ETRI 개체명사 전의 등록이 되어 있는 엔트리는 ETRI 개체명 태그를 부여하여 성능을 측정하였다.
그리고, 이러한 엔트로피를 계산하려면 이미 분류되어 있는 개체명 사전이 필요하다. 본 논문에서는 ETRI 개체명 사전을 이용하여 ETRI 개체명 사전과 위키피디아에 공통으로 출현한 엔트리들을 정답집합으로 고려하여 엔트로피도 구하고 최종 성능도 측* 정하였다 만약 어느 분류체계에 ETRI 개체명 사전에 의해서 “조직명”, “인공물”, “지역명” 등과 같은 여러가지 형태를 가지는 개체명들이 포함되어 있다면, 이 분류체계는 정확한 정보를 제공하고 있는 것이 아니기 때문에 엔트로피 값이 높게 측정되고, 높은 엔트로피 값을 가지는 분류체계를 제거함으로써 정확한 분류체계를 생성할 수 있다.
예를 들어, '경복궁'은 생성된 분류체계의 최상위 계층에 따라서 '인공물'과 문명/문화'의 태그를 부여받을 수 있다. 본 논문에서는 이와 같은 경우 구분을 하지 않고 전부 추출한 다음, 성능 평가 시에는 ETRI 개체명 사전에 태깅된 분류 태그가 나왔을 시에만 맞는정답으로 간주하였다. 위 예에서 '경복궁의 경우 ETRI 개체명 사전에서 '인공물'로 태깅되어 있다면 '문명/문화' 가 태깅된 '경복궁'은 틀린 정답으로 처리된다.
예를 들어, 그림 2와 같이 분류정보가 있을 때 각 분류정보들을 오른쪽부터 띄어쓰기를 기준으로 구분을 하면, '선수', '야구 선수', 미국의 야구 선수', '선수', '골프 선수', '여자 골프 선수', '선수', '축구 선수', '리버풀의 축구 선수'와 같이 나누어질 수 있고, 각 단어들의 출현 빈도수를 조사하여 빈도수가 높은 단어가 상위 계층이 된다. 본 논문에서는 최대 3계층까지의 분류체계만을 생성한다. 따라서 그림 2의 오른쪽과 같은 계층이 생성된다.
본 논문에서는 최상위 계층에 대해서 엔트로피 값을 계산하고, 실험을 통해서 엔트로피의 임계값을 설정하였다. 그 실험에 대한 결과는 4절 성능 평가 부분에서 설명할 것이다.
분류체계를 생성하기 위하여 위키피디아 문서에 있는 분류정보를 추출하고, 위의 가정을 바탕으로 분류체계를 생성한다. 예를 들어, 그림 2와 같이 분류정보가 있을 때 각 분류정보들을 오른쪽부터 띄어쓰기를 기준으로 구분을 하면, '선수', '야구 선수', 미국의 야구 선수', '선수', '골프 선수', '여자 골프 선수', '선수', '축구 선수', '리버풀의 축구 선수'와 같이 나누어질 수 있고, 각 단어들의 출현 빈도수를 조사하여 빈도수가 높은 단어가 상위 계층이 된다.
이 개체명 사전을 이용하여 ETRI 개체명 사전의 개체명과 분류계층에 매핑된 엔트리가 공통으로 속해있는 개체명만을 가지고 실험을 하였다. 여기에서 분류계층에 매핑된 엔트리의 정답 태그(tag)를 ETRI 개체명 사전에 17 개의 대분류 타입으로 태깅(t姻ging)하고 이것을 전체정답 셋으로 정하였다. 그 수는 표 1과 같이 26, 090개이다.
이 개체명 사전은 17개의 대분류와 139개의 소분류로 나뉘어져 있다. 이 개체명 사전을 이용하여 ETRI 개체명 사전의 개체명과 분류계층에 매핑된 엔트리가 공통으로 속해있는 개체명만을 가지고 실험을 하였다. 여기에서 분류계층에 매핑된 엔트리의 정답 태그(tag)를 ETRI 개체명 사전에 17 개의 대분류 타입으로 태깅(t姻ging)하고 이것을 전체정답 셋으로 정하였다.
개체명에 해당하는 엔트리와 개체명을 설명하고 있는 본문정보, 그리고 비슷한 엔트리들을 분류 해놓은 분류정보 등이 있다. 이들 중에서 본 논문에서는 분류정보를 사용하여 분류체계를 생성한다.
이러한 분류체계의 특징은 여러 가지 형태(type)의 개체명을 포함하고 있다는 것이다. 이를 자동으로 측정하고 불량의 분류체계를 자동으로 제거하기 위해서 본 논문에서는 이미 구축되어 있는 ETRI 개체명 사전과 엔트로피(entropy)개념을 이용한 불확실성 측정기법을 사용한다.
이를 해소하기 위해서 단어수가 하나인 분류정보를 제외하고 분류체계를 생성하여 위와 같은 과정의 실험을 해보았다. 그 결과는 표 3과 같다.
이러한 링크 정보를 사용하여 언어학적인 패턴을 생성하고, 패턴에 일치하는 개체명들에 대한 인식이 이루어진다. 이에 비해 본 논문은 여러가지 링크 정보 중에서 분류정보 링크를 이용하여 체계를 생성하고, 생성된 분류체계를 통한 개체명 사전을 구축하는 방법을 제안한다.

대상 데이터

org). 본 논문에서 제안하는 방법의 실험을 위해서 2009년 1월 19일에 제공된 파일을 사용하였다.
공통 개체명을 사용하였다. 재현율은 41절에서 설명한 전체 정답셋을 사용하였다. 그 결과 75.

성능/효과

재현율은 41절에서 설명한 전체 정답셋을 사용하였다. 그 결과 75.62%의 Flmeasure 성능을 얻을 수 있었다.
마지막으로 임계값 이상의 불확실성을 가지는 분류체계를 제거함으로써 최종적인 개체명 사전을 구축한다. 그 결과 불확실성 값 1.0에서 최고의 성능을 얻었으며, 83.94%의 정확를과 78.48%의 재현율, 81.12% 의 Fl-measure 성능을 얻었다.
있다. 분류체계를 생성하고 엔트리를 매핑하는 과정에서 나타나는 오류를 분석해본 결과 분류정보의 단어 수가 영향을 미친다는 것을 알았다. 또한 다중으로 개체명 타입이 태깅되는 엔트리에 대해서 분류계층의 최상위 계증의 엔트로피 값을 계산하고 분류체계를 제거하기 위한 임계값을 실험을 통해서 찾아내었다.
오류분석을 통해 살펴본 결과 분류정보가 하나의 단어로 이루어진 경우가 오류를 많이 일으키는 것으로 관찰되었다. 이를 해소하기 위해서 단어수가 하나인 분류정보를 제외하고 분류체계를 생성하여 위와 같은 과정의 실험을 해보았다.
가장 좋았다. 이 실험결과를 바탕으로 1.0 이하의 엔트로피 값을 가지는 분류체계에 매핑된 엔트리에 대해서 81.119%는 정답 태그가 부여된다는 것을 유추할 수 있다. 표 5는 각 임계값에서의 분류체계에 매핑되고 ETRI 개체명 사전에 포함되지 않는 엔트리를 포함하는 모든 엔트리에 대한 개수이다.
표 3에서 보는 것처럼 단어 수가 하나인 분류정보를 제외했을 경우 그렇지 않은 경우보다 2%가량이 오른 77.721%의 Fl-measure 성능을 보였다.

후속연구

이처럼 한국어 문서의 양도 시간이 갈수록 증가하게 될 것이다. 따라서, 본 논문에서 제안하는 방법을 사용하여 자동으로 개체명 사전을 구축한다면 지속적으로 많은 양의 양질의 개체명을 추가해 나갈 수 있다.
하지만 위의 연구들은 영어권에서만 속하는 언어 의존적인 정보들을 사용하므로 한국어에 대한 개체명을 추출하기 위해서는 불합리적이다. 또한 본 논문에서 제안하는 방식은 위키피디아라는 신뢰도가 높은 웹페이지로부터 개체명을 추출하는 것이기 때문에 높은 성능을 기대할 수 있다.
향후에는 아직까지 다중으로 개체명 타입이 태깅되는 엔트리를 줄일 수 있는 방법을 연구하고, 최하위 계층의 엔트로피 값을 계산해서 최하위 계층의 분류체계를 제거 할 수 있는 방법을 연구하겠다. 또한 위키피디아에서 제공하는 다른 자원 중에서 개체명 사전을 구죽하는 데 영향을 줄 수 있는 자원의 모색도 필요하겠다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 한국어 위키피디아를 이용한 분류체계 생성과 개체명 사전 자동 구축
Automatic Construction of Class Hierarchies and Named Entity Dictionaries using Korean Wikipedia 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 한국어 위키피디아를 이용한 분류체계 생성과 개체명 사전 자동 구축 Automatic Construction of Class Hierarchies and Named Entity Dictionaries using Korean Wikipedia 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

배상준 (2) 고영중 (22)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 한국어 위키피디아를 이용한 분류체계 생성과 개체명 사전 자동 구축
Automatic Construction of Class Hierarchies and Named Entity Dictionaries using Korean Wikipedia 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper