[논문]한국어 기준명사 추출 및 그 응용

김재훈

doi:10.3745/kipstb.2008.15-b.6.613

한국어 기준명사 추출 및 그 응용
Korean Base-Noun Extraction and its Application 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.15B no.6, 2008년, pp.613 - 620

초록
AI-Helper

정보검색, 문서요약 등의 분야에서 명사추출은 매우 중요하다. 본 논문은 대량의 문서로부터 기준명사를 효과적으로 추출하기 위한 한국어 기준명사 추출 시스템을 제안하고 이를 문서요약 시스템에 적용한다. 기준명사는 명사들 중에서 기본이 되는 명사이며 복합명사는 포함되지 않는다. 본 논문에서는 두 가지 기술 즉 여과기법과 분리기법을 사용한다. 먼저 여과기법을 이용해서 명사를 포함하지 않은 어절을 미리 제거하고, 그리고 분리기법을 이용해서 명사가 포함된 어절에서 명사와 조사를 분리하고, 복합명사에 해당할 경우에는 각 명사를 분리하여 기준명사를 추출한다. ETRI 말뭉치를 대상으로 실험한 결과, 재현율과 정확률 모두 약 89% 정도의 성능을 보였으며, 제안된 시스템을 한국어 문서요약 시스템에 적용해 보았을 때, 좋은 결과를 얻을 수 있었다.

Abstract ▼ AI-Helper

Noun extraction plays an important part in the fields of information retrieval, text summarization, and so on. In this paper, we present a Korean base-noun extraction system and apply it to text summarization to deal with a huge amount of text effectively. The base-noun is an atomic noun but not a compound noun and we use tow techniques, filtering and segmenting. The filtering technique is used for removing non-nominal words from text before extracting base-nouns and the segmenting technique is employed for separating a particle from a nominal and for dividing a compound noun into base-nouns. We have shown that both of the recall and the precision of the proposed system are about 89% on the average under experimental conditions of ETRI corpus. The proposed system has applied to Korean text summarization system and is shown satisfactory results.

주제어

질의응답

핵심어	질문	논문에서 추출한 답변
	한국어 명사 추출 시스템은 무엇으로 분류되는가?	한국어 명사 추출 시스템은 크게 세 가지로 분류된다. 첫째, 품사 태거를 이용한 경우이고[3,4], 둘째, 형태소 분석기를 이용하는 경우이고[5-7], 셋째, 아무런 언어분석 도구를 사용하지 않는 경우이다[8].
	명사추출 시스템이 사용되는 분야는 무엇이 있는가?	방대한 정보공간에서 유용한 정보를 찾기 위해 널리 사용되는 도구가 검색엔진이며, 검색엔진을 구축하기 위한 필수적인 도구 중 하나가 명사추출 시스템이다. 명사추출 시스템은 색인어 추출, 자연언어 질의어 분석, 시소러스 구축 등에서 널리 사용되고 있다[1]. 이 밖에도 정보추출이나 문서요약 등 대량의 자연언어 문서를 다루는 분야에서 널리 사용되고 있다[2].
	복합명사는 무엇인가?	복합명사란 두 개 이상의 기준명사가 결합하여 새로운 의미를 가지게 되는 단어(예: 인공지능, 정보검색)를 말하며, 구문적으로는 단일단어와 같은 역할을 한다. 한국어 복합명사 분해는 크게 통계적 방법[9,10]과 규칙기반 방법[11,12]으로 나눌 수 있다.

참고문헌 (20)

Baeza-Yates, R. and Ribeiro-Neto, B., Modern Information Retrieval, Addison Wesley, 1999
Mani, I. and Maybury Mark T., Advances in Automatic Text, The MIT Press, 1999
김재훈, 선충녕, 홍상욱, 이성욱, 서정연, 조정미, “KTAG99: 새로운 환경에 쉽게 적응하는 한국어 품사 태깅 시스템”, 제1회 형태소분석기 및 품사태거 평가 워크숍 발표논문집, pp. 99-105, 1999
심준혁, 김준석, 이근배, “통계와 규칙을 이용한 강인한 품사태거”, 제1회 형태소 분석기 및 품사태거 평가 워크숍 발표논문집, pp.60-75, 1999
안동언, “좌우접속정보를 이용한 명사추출기”, 제1회 형태소분석기 및 품사태거 평가 워크숍 발표논문집, pp.173-178, 1999
이중영, 신병훈, 이공주, 김지은, 안상규, “COM기반의 다목적 형태소 분석기를 이용한 명사추출기”, 제1회 형태소분석기 및 품사태거 평가 워크숍 발표논문집, pp.167-171, 1999
최재혁, “형태소 분석을 통한 한영 자동 색인어 추출,” 정보과학회논문지(B), 제23권 제12호, pp.1279-1288, 1996
장동현, 맹성현, “학습데이터를 이용하여 생성한 규칙과 사전을 이용한 명사추출기”, 제1회 형태소분석기 및 품사태거평가 워크숍 발표논문집, pp.151-156, 1999
윤보현, 조민정, 임해창, “통계정보와 선호 규칙을 이용한 한국어 복합 명사의 분해”, 정보과학회논문지(B), 제24권, 제8호, pp.900-909, 1997

상세보기
박혁로, 신중호, “비터비 학습 알고리즘을 이용한 한글 복합명사 분석”, 1997 한국정보과학회 가을 학술 발표논문집, Vol.24, No.2, pp.219-222, 1997
강승식, “한국어 복합명사 분해 알고리즘”, 정보과학회논문지(B), 제25권, 제1호, pp.172-182, 1998

상세보기
최재혁, “음절수에 따른 한국어 복합명사 분리 방안”, 제8회 한글 및 한국어 정보처리 학술대회 발표논문집, pp.262-267, 1996
Aho, V. A. and Ullman, J. D. The Theory of Parsing, Translation, and Compiling, Prentice-Hall, 1972
김재훈, 김길창, 한국어에서의 품사 부착 말뭉치의 작성 요령 : KAIST 말뭉치, 한국과학기술원, 전산학과, 기술문서, CS/TR-95-9, 1995
이현아, 이원일 임선숙, 허은경, 이재성, 차건희, 박재득, “표준안에 따른 품사 부착 말뭉치 구축”, 제1회 형태소 분석기 및 품사 태거 평가 워크숍 발표 논문집, pp.40-43, 1999
Manning, C. D. and Schutze, H. Foundations of Statistical Natural Language Processing, The MIT Press, 1999
김준홍, 도합유사도를 이용한 추출요약 시스템, 한국해양대학교, 컴퓨터공학과, 석사학위 논문, 2000
이도길, 류원호, 임해창, “분석 배제 정보와 후절어를 이용한 한국어 명사추출”, 제12회 한글 및 한국어 정보처리 학술대회발표논문집, 서울, 성공회대학교, pp.19-25, 2000
Teufel, S. and Moens, M., “Argumentative classification of extracted sentences as a first step towards flexible abstracting,” in Mani, I. and Maybury, M. T., editors, Advances in Automatic Text Summarization, pp.155-171. The MIT Press, 1999
김태희, 박혁로, 신중호 “검색/요약/필터링을 위한 텍스트 이해 모형 연구”, 제3회 소프트과학 워크숍, 1999

저자의 다른 논문 :

원문 URL 링크

DOI : 10.3745/KIPSTB.2008.15-B.6.613
한국학술정보 : 저널
한국정보처리학회 : 저널
Korea Open Access Journals : 저널
AccessON : 저널

*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내

내보내기 메뉴

내보내기 구분

파일저장
인쇄
메일전송

구성항목

기본정보
상세정보

관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관

저장형식

Text(ASCII format)
Excel format
RefWorks Direct Export
RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley

메일정보

받는사람 (필수): @
보내는사람 (선택): @
제목
내용: KISTI 검색결과 이메일 서비스

안내

총 건의 자료가 검색되었습니다.

다운받으실 자료의 인덱스를 입력하세요. (1-10,000)

검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다.

데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요)

다운로드 파일은 UTF-8 형태로 저장됩니다.
파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오.

Text(ASCII format)
Excel format

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

AI-Helper ※ AI-Helper는 을 사용합니다.

AI-Helper

안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

연합인증