[논문]U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템

이용훈; 옥철영; 이응봉

doi:10.3745/kipstb.2012.19b.1.063

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템
Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.19B no.1, 2012년, pp.63 - 76

이용훈 (울산대학교 컴퓨터정보통신공학과) , 옥철영 (울산대학교 컴퓨터정보통신공학과) , 이응봉 (충남대학교 문헌정보학과)

초록
AI-Helper

본 논문에서는 통계기반의 복합명사 분해 방법과 어휘의미망(U-WIN)과 사전 뜻풀이에서 추출한 의미관계 정보를 이용하는 한국어 복합명사 의미 태깅 시스템을 제안한다. 본 시스템은 크게 복합명사 분해, 의미제약, 그리고 의미 태깅의 세 가지 부분으로 이루어진다. 분해과정은 세종말뭉치에서 추출한 위치별명사 빈도를 사용하여 최적의 구성 명사 분해 후보를 선정하고 의미제약을 위한 구성 명사 재분해와 외래어 복원의 과정을 수행한다. 의미범위 제약과정은 유사도 비교의 계산량을 줄이고 정확도를 높이기 위해 원어 정보와 Naive Bayes Classifier를 이용해 가능한 경우 구성 명사의 의미를 선 제약한다. 의미 분석 및 태깅 과정에서는 bigram 구성 명사의 각 의미 유사도를 구하고 하나의 체인을 만들어가며 태깅을 수행한다. 본 시스템의 성능 평가를 위해 표준국어대사전에서 추출한 3음절 이상의 40,717개의 복합명사를 대상으로 의미 태깅된 테스트 셋을 구축하였다. 이를 이용한 실험에서 99.26%의 분해 정확도를 보였으며, 95.38%의 의미 분석 정확도를 보였다.

Abstract ▼ AI-Helper

We propose a Korean compound noun semantic tagging system using statistical compound noun decomposition and semantic relation information extracted from a lexical semantic network(U-WIN) and dictionary definitions. The system consists of three phases including compound noun decomposition, semantic constraint, and semantic tagging. In compound noun decomposition, best candidates are selected using noun location frequencies extracted from a Sejong corpus, and re-decomposes noun for semantic constraint and restores foreign nouns. The semantic constraints phase finds possible semantic combinations by using origin information in dictionary and Naive Bayes Classifier, in order to decrease the computation time and increase the accuracy of semantic tagging. The semantic tagging phase calculates the semantic similarity between decomposed nouns and decides the semantic tags. We have constructed 40,717 experimental compound nouns data set from Standard Korean Language Dictionary, which consists of more than 3 characters and is semantically tagged. From the experiments, the accuracy of compound noun decomposition is 99.26%, and the accuracy of semantic tagging is 95.38% respectively.

주제어

질의응답

핵심어	질문	논문에서 추출한 답변
	통계데이터를 이용한 복합명사 분해 연구는 어떤 방법인가?	통계데이터를 이용한 복합명사 분해 연구는 자연언어가 실세계에서 사용되는 용례들과 부속 정보를 포함하는 다량의 말뭉치를 분석하여 얻은 통계정보를 이용하여 중의성 문제를 확률적으로 해결하는 방법이다
	복합명사 분해에 관한 초기 연구로 어떤 방법이 있는가?	복합명사 분해에 관한 초기 연구에는 크게 음절 길이에 따른 선호 분해 패턴들을 이용하는 방법과 통계데이터를 이용해 중의적 분해를 해결하는 방법들이 있다. 전자는 복합명사의 음절별 선호 분해 패턴을 이용해 차례로 분해를 시도한다.
	음절 길이에 따른 선호 분해 패턴들을 이용하는 방법의 장점은 무엇인가?	전자는 복합명사의 음절별 선호 분해 패턴을 이용해 차례로 분해를 시도한다. 이는 분해 속도 향상과 개념이 단순해 알고리즘의 적용이 쉽다는 장점이 있으나, 음절의 제한이 없는 복합명사의 결합 특성상 모든 복합명사를 대상으로 할 수 없다는 단점이 있다.

참고문헌 (22)

최재혁, "음절수에 따른 한국어 복합 명사 분리 방안", 한국정보 과학회 언어공학연구회, 제8회 한글 및 한국어 정보처리 학술대회 pp.262-267, 1996.
강승식, "한국어 복합명사 분해 알고리즘", 한국정보과학회, 정보과학회논문지(B), 제25권 제1호, pp.172-182, 1998.
윤보현, 임희석, 임해창, "통계 정보를 이용한 한국어 복합 명사의 분석 방법", 한국정보과학회 봄 학술발표논문집 제22권 제1 호, pp.925-928, 1995
J.T. Yoon, K.S. Choi, and M.S. Song, "Corpus-based approach for nominal compound analysis for Korean based on linguistic and statistical information." In Proceedings of the 1999 Joint SIGDAT Conference on EMNLP/VLC. College Park, MD, pp.292-300, 2001.
강유환, 서영훈, "미등록어의 의미 범주 분석을 이용한 복합명사 분해", 한국데이타베이스학회, 정보기술과 데이타베이스 저널 제 11권 제4호, pp.95-102, 2004.
임해창, 임희석, 윤보현, "자연어 처리 연구동향: 통계 기반의 자연어 처리", 한국정보과학회지, 제12권, 제9호, pp.20-30, 1994.
박재한, 김명선, 노대욱, 나동열, "백오프 통계정보를 이용한 미 등록어 포함 복합명사의 분해", 한국정보과학회 언어공학연구회, 제16회 한글 및 한국어 정보처리 학술대회 발표자료집 제16 권 제1호 pp.65-72, 2004.
강민규, 강승식, "한국어 복합명사 분해 오류 교정 기법", 한국정보과학회, 한국 컴퓨터 종합 학술 발표 논문집 제37권 제1호 (C), pp.254-259, 2010.
원상연, 김수남, 김광영, 남현숙, 권혁철, "한국어 문법검사기에서 의미정보를 이용한 복합명사의 분석제약", 한국정보과학회 언어공학연구회, 제11회 한글 및 한국어 정보처리 학술대회 pp.288-293, 1999.
김도완, 이경순, 김길창, "의미관계와 문형정보를 이용한 복합 명사 해석", 한국정보과학회 언어공학연구회, 제11회 한글 및 한국어 정보처리 학술대회 pp.310-315, 1999.
강유환, 정천영, 서영훈, "명사의 의미 정보를 이용한 복합명사 분석의 중의성 해결", 한국정보과학회 언어공학연구회, 제14회 한글 및 한국어 정보처리 학술대회 pp.171-175, 2002.
허정, 옥철영, "사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템", 한국정보과학회, 정보과학회 논문지, 소프트웨어 및 응용, 제28권 제9호 pp.688-698, 2001.
허정, 서희철, 장명길, "상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해결", 한국정보과학회, 정보과학회논문지, 소프트웨어 및 응용, 제33권 제12호 pp.1073-1089, 2006.
M. Lesk, "Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone," In Proceedings of the 5th annual international conference on Systems documentation, pp.24-26, 1986.
Cowie, J., L. Guthrie, J. Guthrie, "Lexical disambiguation using simulated annealing," In Proceedings of COLING, 1992.
Yarowsky D., "Word-Sense Disambiguation using Statistical Models of Roget's Categories Trained on Large Corpora," In Proceedings of Coling-92, 1992.
최호섭(2007), "대규모 사용자 어휘지능망 구축과 활용", 울산대학교 대학원 컴퓨터정보통신공학부 박사학위논문.
한국어의 한자어, 위키백과 - http://ko.wikipedia.org/wiki/한국어의_한자어
이용훈, 옥철영, "Naive Bayes Classifier를 이용한 의미제약이 강화된 한국어 복합명사 의미 분석", 한국정보과학회 언어공학 연구회, 제23회 한글 및 한국어 정보처리 학술대회 pp.102-106, 2011.
Escudero, G., Marquez, L., and Rigau, G. "Naive Bayes and exemplar-based approaches to word sense disambiguation revisited". In Proceedings of the 14th European Conference on Artificial Intelligence (ECAI, Berlin, Germany), pp.421-425, 2000.
이용훈, 옥철영, "의미기반 한국어 복합명사 분석", 한국정보과학회 한국컴퓨터종합학술대회 논문집(C) pp.221-224, 2011.
UTagger, 2011년 국어정보처리시스템 경진대회 출품, 울산대학교 한국어처리연구실

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템
Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

질의응답

참고문헌 (22)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템 Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

질의응답

참고문헌 (22)

이 논문을 인용한 문헌

저자의 다른 논문 :

옥철영 (41) 이응봉 (51)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템
Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network 원문보기

초록
AI-Helper