[논문]비감독 학습 기법에 의한 한국어의 키워드 추출

신성윤; 이양원

doi:10.6109/jkiice.2010.14.6.1403

비감독 학습 기법에 의한 한국어의 키워드 추출
Keyword Extraction in Korean Using Unsupervised Learning Method 원문보기

한국해양정보통신학회논문지 = The journal of the Korea Institute of Maritime Information & Communication Sciences, v.14 no.6, 2010년, pp.1403 - 1408

신성윤 (군산대학교 컴퓨터공학과) , 이양원 (군산대학교 컴퓨터공학과)

초록
AI-Helper

한국어 정보검색에서는 문서를 대표하는 색인어 또는 키워드로서 명사를 사용하는데, 이러한 명사 및 키워드 추출이란 문서 내에 존재하는 모든 명사를 찾아내는 작업이다. 본 논문에서는 기 구축된 사전을 이용하여 키워드를 추출하는 방법을 제시한다. 이 방법은 불필요한 연산을 줄여서 수행 시간을 단축시켰다. 그리고 대용량의 문서에서도 정확도에 크게 영향을 미치지 않으면서 명사를 추출할 수 있다. 본 논문에서는 명사의 출현 특성을 이용한 명사추출 방법 및 비감독 학습 기법에 의한 키워드 추출 방법을 제시한다.

Abstract ▼ AI-Helper

Korean information retrieval uses noun as index terms or keywords of representing the document. and noun and keyword extraction is to find all nouns presented in the document, In this paper, we proposes the method of keyword extraction using pre-built dictionary. This method reduces the execution time by reducing unnecessary operations. And noun, even large documents without affecting significantly the accuracy, can be extracted. This paper proposed noun extraction method using the appearance characteristics of the noun and keyword extraction method using unsupervised learning techniques.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 기 구축된 사전[1]을 이용하여, 불필요한 연산을 줄여서 수행 시간을 단축시키고, 대용량의 문서에서도 정확도에 크게 영향을 미치지 않으면서 명사를 추출할 수 있는 명사의 출현 특성을 이용한 명사 추출 방법 및 비감독 학습 기법에 의한 키워드 추출 방법을 제시한다.
본 논문에서는 명사의 출현 특성을 이용하여 명사를 추출하는 방법과 비감독 학습 기법에 의한 키워드를 추출 방법에 대해 제안하였다. 명사 추출은 제거 정보 검사, 단일어 검사, 명사 접미 음절열 분석, 그리고 음운 현상 복원을 통해 수행되었고, 키워드 추출은 데이터 마이닝 기법 중 하나인 연관 규칙 탐사 알고리즘을 사용하여 비감독 학습 기법에 의한 키워드 추출 기법을 제시하였다.
본 연구에서는 데이터 마이닝 기법 중 하나인 연관 규칙 탐사 알고리즘을 사용하여 비감독 학습 기법에 의한 키워드 추출 방법을 제시하였다. 다시 말해서, 사전에 분류되지 않은 대량의 문장으로부터 직접 키워드를 추출 하기 위한 방법이다.

제안 방법

전체 문장에서 연관 규칙 탐사 알고리즘을 적용하여 전문 용어들 간의 연관성을 분석하고 연관 용어 집합을 구성하였다. 그리고 핵심 키워드 별로 연관성이 높은 단어들을 하나의 집합으로 구성하였다. 핵심 키워드 집합이란 각 카테고리를 대표하는 특징단어 집합이다.
다음으로 단일어 검사를 수행하는데, 단일어가 명사와 다른 품사를 모두 가질 수 있는 경우에 명사와 부사인 경우는 부사로 결정하고, 단음절 명사와 다른 품사인 경우는 다른 품사로 결정하며, 2음절 이상의 명사와 다른 품사인 경우는 명사로 결정하는 순위에 따라 분석한다.
다음으로 명사접미 음절열 분석을 수행한다. 명사 접미 음절열은 체언 뒤에 결합되는 음절의 열로서 정의하는데 명사의 출현에 대한 좋은 단서가된다.
본 논문에서는 명사의 출현 특성을 이용하여 명사를 추출하는 방법과 비감독 학습 기법에 의한 키워드를 추출 방법에 대해 제안하였다. 명사 추출은 제거 정보 검사, 단일어 검사, 명사 접미 음절열 분석, 그리고 음운 현상 복원을 통해 수행되었고, 키워드 추출은 데이터 마이닝 기법 중 하나인 연관 규칙 탐사 알고리즘을 사용하여 비감독 학습 기법에 의한 키워드 추출 기법을 제시하였다. 실험 결과 제안된 방법은 감독 학습 기법의 키워드 추출기법 중에서 우수하다고 알려진 X² 기법과 DF 기법보다 우수한 분류 성능을 보였다.
최근 연구에서는 웹 기반 접근 방법으로 검색 결과를 분석하여 단어의 쌍을 추출하는 방법[10][11] 등이 제안되었다. 본 논문에서는 명사의 출현 특성을 이용한 효율적인 한국어 명사 추출 방법[12]과 효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법[13]을 각각 변형하고 하나로 통합하여 명사 및 키워드를 추출하도록 한다.
본 논문에서는 제안된 키워드 추출 기법의 정확성을 검증하기 위하여 δ=1 즉, Recall 값과 Precision 값에 동일한 가중치를 적용하여 분류 성능을 평가하였다.
연관 규칙을 발견하기 위한 트랜잭션 단위는 하나의 문장에 서 추출된 전문 용어집합이다. 전문 용어 집합은 전처리 과정에서 형태소 분석 사전에 수록된 용어를 추출하여 구성하였다. 그리고 같은 의미를 가지는 동의어를 표준화하고 불필요한 연산이나 연관규칙을 양산할 수 있는 특수용어도 제거하였다.
전체 문장에서 연관 규칙 탐사 알고리즘을 적용하여 전문 용어들 간의 연관성을 분석하고 연관 용어 집합을 구성하였다. 그리고 핵심 키워드 별로 연관성이 높은 단어들을 하나의 집합으로 구성하였다.
표 2는 분류대상 문장에 대하여 코사인 계수를 사용 하여 분야별 키워드와 분류대상 문장간의 유사도를 계산하여 해당문장을 가장 유사한 카테고리에 분류하였다.

이론/모형

제안된 키워드 추출 기법의 성능 평가는 다음과 같다. 문장 분류 결과에 대한 성능 평가를 위한 척도 Recall, Precision, F-measure 값을 주로 사용한다. Recall 값은 식 (2)와 같이 카테고리 내의 전체 문장(Qt) 중에서 정확하게 분류된 문장(Qc)의 분류 비율을 의미한다.

성능/효과

65로 다른 기법에 비해가장 우수한 성능을 보였다. 그리고 제안기법의 분야별 평균 Precision 값도 0.7로 다른 기법에 비해 가장 우수한 성능을 보였다.
또한, 제안 기법은 모든 분야에서 높은 F-Measure 값을 가지며, 분야별 평균 F-measure 값은 0.65이다. X² 기법은 제안 기법보다는 낮지만 DF 분야보다는 높은 F-measure 값을 가지며, 분야별 F-measure 값은 0.
명사 추출은 제거 정보 검사, 단일어 검사, 명사 접미 음절열 분석, 그리고 음운 현상 복원을 통해 수행되었고, 키워드 추출은 데이터 마이닝 기법 중 하나인 연관 규칙 탐사 알고리즘을 사용하여 비감독 학습 기법에 의한 키워드 추출 기법을 제시하였다. 실험 결과 제안된 방법은 감독 학습 기법의 키워드 추출기법 중에서 우수하다고 알려진 X² 기법과 DF 기법보다 우수한 분류 성능을 보였다.
53이다. 제안 기법은 분야별 평균 F-measure 값이 0.65로 다른 기법에 비해 가장 우수한 성능을 보였다.
제안 기법의 분야별 평균 Recall 값은 0.65로 다른 기법에 비해가장 우수한 성능을 보였다. 그리고 제안기법의 분야별 평균 Precision 값도 0.

질의응답

핵심어	질문	논문에서 추출한 답변
	어절은 어떻게 나눌 수 있는가?	한국어 정보처리에서 한국어 문장은 여러 개의 어절로 구성되고 복잡하다. 어절은 체언, 용언, 그리고 수식언 등으로 나눌 수 있으며, 대부분의 명사들은 체언에 속한다. 명사를 찾기 위해서는 어절들 중에서 일단 체언을 찾아야 한다.
	언어의 정보 처리에는 어떤 기술이 있는가?	언어의 정보 처리에는 기반 기술과 어플리케이션 기술이 있다. 한국어 정보처리는 기반 기술이 매우 취약한 상태에서, 기반 기술 보다는 어플리케이션 기술에 전념하여 타 나라에 비해 어플리케이션 기술 분야는 크게 성장 하였다.
	명사가 존재하지 않는 어절을 제거 하기 위한 제거 정보란 무엇인가?	제거 정보를 이용하여 복잡한 분석을 수행하기 전에 명사가 존재하지 않는 어절을 제거한다. 제거 정보란 한국어 어절에서 명사가 나타나지 않는 특성에 대한 정보를 말한다. 제거 정보를 종류별로 분류하여 나타낸 것은 다음과 같다.

참고문헌 (14)

정민수, "코퍼스로부터 구문분석을 위한 사전 구성," 군산대학교 대학원 석사학위 논문, 1999.
이재성, 박재득, 차건희, 박세영, "형태소 분석기 및 품사 태거 평가대회(MATEC99) 개요," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.13-22, 1999.
김남철, 서영훈, "형태소 분석기 CMKMA와 색인어추출기 CBKMA/IX," 제1회 형태소 분석기 및 품사태거평가 워크숍 논문집, p.50-59, 1999.
이중영, 신병훈, 이공주, 김지은, 안상규, "COM 기반의 다목적 형태소 본석기를 이용한 명사 추출기," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.167-172, 1999.
안동언, "좌우접속정보를 이용한 명사추출기," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.173-178, 1999.
심준혁, 김준석, 이근배, "통계와 규칙을 이용한 강인한 품사태거," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.60-75, 1999.
권오옥, 정유진, 김미영, 류동원, 이문기, 이종혁, "음절 단위 CYK 알고리즘에 기반한 형태소 분석기 및 품사 태거", 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.76-88, 1999.
이운재, 김선배, 김길연, 최기선, "모듈화된 형태소 분석기의 구현," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.123-136. 1999.
장동현, 맹성현, "학습데이타를 이용하여 생성한 규칙과 사전을 이용한 명사 추출기," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.151-156, 1999.
Masaaki NAGATA, Teruka SAITO, Kenji SUZUKI, "Using the web as a bilingual dictionary", Proceedings of the workshop on Data-driven methods in machine translation, pp. 1-8, 2001
QING LI, SUNG HYON MYAENG, YUN JIN, KANG Bo-Yeong, " Translation of Unknown Terms via Web Mining for Information Retrieval", Asia Information Retrieval Symposium No 3, vol. 4182, pp. 258-269, 2006
Lee D. G., Lee S. Z., Rim H. C., "An Efficient Method for Korean Noun Extraction Using Noun Patterns, Journal of Korean Institute of Information Scientists and Engineers, Vol. 30, No. 2, 2003
김지숙, 김영지, 문현정, 우용태, "효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법", 정보기술과 데이터베이스저널, 제8권 제1호, 2001
D. D. Lewis and W. A. Gale., "A sequential algorithm for training text classifiers," In Proceedings of the Seventeenth Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 3-12, 1994.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

비감독 학습 기법에 의한 한국어의 키워드 추출
Keyword Extraction in Korean Using Unsupervised Learning Method 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

비감독 학습 기법에 의한 한국어의 키워드 추출 Keyword Extraction in Korean Using Unsupervised Learning Method 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

신성윤 (106) 이양원 (55)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

비감독 학습 기법에 의한 한국어의 키워드 추출
Keyword Extraction in Korean Using Unsupervised Learning Method 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper