[논문]어휘망(U-WIN)의 구문관계 자동구축

임지희; 최호섭; 옥철영

어휘망(U-WIN)의 구문관계 자동구축
Automatic Construction of Syntactic Relation in Lexical Network(U-WIN) 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.35 no.10, 2008년, pp.627 - 635

임지희 (울산대학교 컴퓨터정보통신공학부) , 최호섭 (한국과학기술정보연구원 정보기술개발단) , 옥철영 (울산대학교 컴퓨터정보통신공학부)

초록
AI-Helper

본 연구에서는 사용자 어휘지능망(U-WIN)의 어휘 관계 중의 하나인 구문관계를 자동으로 구축하는 방법을 제시하고자 한다. 먼저, 구문관계를 형성할 수 있는 후보명사를 용언의 용례에서 문형 정보를 기준으로 추출함으로써, 용언의 세분화된 의미별로 정확하고 다양한 후보명사를 추출할 수 있다. 그러나 추출된 후보명사는 다양한 의미를 지니고 있으므로, 어휘간의 명확한 구문관계를 설정하기 위해서는 후보명사의 여러 의미 중에서 정확한 의미로 결정해야 한다. 그래서 본 연구에서는 용례 매칭 규칙, 구문 패턴, 의미 유사도, 빈도 정보 등을 이용하여 후보명사의 의미를 분별한다. 또한 구문패턴의 빈도 정보를 이용하여 용례에 나타나지 않지만 구문관계를 형성할 수 있는 명사를 추출하여 구문관계를 확장하고자 하였다. 이러한 연구는 명사 중심의 어휘망이 용언과의 구문관계 구축을 통해 형태소 분석, 구문 분석, 의미분석 등에 광범위하게 활용할 수 있는 어휘망의 기반을 다지는 작업이 될 수 있을 것이다.

Abstract ▼ AI-Helper

An extended form of lexical network is explored by presenting U-WIN, which applies lexical relations that include not only semantic relations but also conceptual relations, morphological relations and syntactic relations, in a way different with existing lexical networks that have been centered around linking structures with semantic relations. So, This study introduces the new methodology for constructing a syntactic relation automatically. First of all, we extract probable nouns which related to verb based on verb's sentence type. However we should decided the extracted noun's meaning because extracted noun has many meanings. So in this study, we propose that noun's meaning is decided by the example matching rule/syntactic pattern/semantic similarity, frequency information. In addition, syntactic pattern is expanded using nouns which have high frequency in corpora.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러므로 본 논문에서는 용언을 중심으로 구문관계를 형성할 수 있는 의미적 조응 관계가 성립하는 후보명사를 추출하고, 후보명사의 의미 분별을 통해 자동으로 구문관계를 구축하는 방법을 모색하고자 하였다. 의미적조응 관계가 성립하는 후보명사는 선택 제약이나 결합관계 등의 정보를 제공하는 용례와 구문정보를 제공하는 문형정보를 이용하여 추출하였으며, 추출한 후보명사는 용례 매칭 규칙, 구문패턴, 의미 유사도 등을 적용하여 의미를 분별하였다.
본 연구는 U-WIN의 어휘 관계 중의 하나인 구문관계를 자동 구축하는 방법을 제시하였다. 즉, 용언의 의미별 용례와 문형정보를 이용하여 다양한 후보명사를 추출한 다음, 용례 규칙, 구문패턴, 의미 유사도를 이용한 명사 의미 분별 과정을 수행함으로써 명사와 용언간의 구문관계를 자동으로 구축하는 방법을 제시하였다.
본 연구는 다양한 구문관계 중에서 명사와 용언의 관계가 가장 밀접한 술목관계를 대상으로 제시한 연구방법의 실효성을 검증함으로써, 술주관계, 술부관계 등의다양한 구문관계를 자동 구축하기 위한 기반 작업이라할 수 있다. 그러므로 본 연구의 실험결과를 통해, 제시한 연구방법은 술목관계, 술주관계, 술부관계 등의 다양한 구문관계의 자동 구축을 가능하도록 할 것이다.
할 수 있다. 특히 일반적인 어휘망이 의미 관계에 의한 연결 구조를 중심으로 연구 개발된 것과는 달리, U-WINe 의미관계를 비롯하여 개념 관계, 형태 관겨〕, 구문 관계 등과 같이 의미 관계의 범위를 확장한 어휘 관계를 적용함으로써 어휘망의 확장적 형태를 모색하고자 한다. 예를 들어 그림 1은 동사 '먹다'를 중심으로 상하관겨"동의관계의 의미관계, 사동관계.

제안 방법

다음과 같다. '먹다, 의 14개의 의미('먹다 _002001'~'먹다-002014')에서 26개의 후보명사를 추출한 다음, 그림 9와 같이 4단계의 후보명사 의미 분별을 통해 구문관계를 설정하고 고빈도 어휘를 이용하여 구문관계를 확장하였다. 그 결과 26개 후보명사 중 '골 _004005'와 '공금」)01001'을 제외한 24개의 명사가 정확하게 의미가 결정되었고, 구문패턴에서 추출한 고빈도어휘 중에서 '아침밥', '겁」)05000', '돈」)01001'이 추가적으로 구문관계를 설정하였다.
Rada, et. al⑸는 가장 기본적인 방법으로, 의학용어 시소러스(MeSH)를 대상으로 두 개념 간 최단 경로의 링크(Link) 개수를 기반으로 유사도를 측정하였다.
구문패턴 추출 방법은 중심어 후행의 원리에 의해, 본용언과 본용언 사이로 추출 범위를 지정하여 용언의 인접어절 정보를 중심으로 추출하였다. 용언의 선행 요소중에서 주격조사(JKS), 부사격조사(JK①), 목적격조사 (JKO)를 취하는 어절만을 추출하고, 용언의 후행 요소중에서 어미와 다음어절을 추출하였다.
그래서 본 연구에서는 용례 규칙, 의미 주석 말뭉치에서 추출한 구문패턴, 의미 유사도 등을 차례로 적용하여 후보 명사의 의미를 분별하였으며, 특히 구문패턴은 다의어 수준으로 의미 태그가 부착된 말뭉치에서 추출함으로써 의미 태그가 부착된 명사는 후보 명사의 의미 분별 및 구문관계 확장에 활용하였다.
그러므로 본 논문에서는 그림 3과 같이 '먹다」)02001'6) 와 '먹다—002005'의 문형정보(“...을”)를 기준으로 용례에서 각각 {밥, 술, 약, 물, 음식, 모이, 보약}과 {나이}의의미적 조응 관계가 성립하는 후보명사 목록을 구별하여 추출하였다.
용언의 문형정보5)를 활용하였다. 그러므로 본 연구에 맞게 표 2와 같이 U-WIN 어휘 사전 데이타베이스에 문형정보 항목을 추가하고, [표준국어대사전]에서 용언의 다의어별 문형정보를 추출하여 문형정보 항목에 할당하였다.
그러므로 본 연구에서는 링크기반 의미 유사도를 적용하여 후보명사의 의미를 결정한다. 본 논문에서는 식 (1)의 링크 기반 유사도 측정 방법을 식 (4)와 같이 최소 공통 상위어의 깊이(Dies)를 추가하여 수정하였다.
또한 용언 표제어의 용례는 문형정보별로 제시되어있으므로, 용례에서 문형정보를 기준으로 구문관계를 형성할 수 있는 의미적 조응 관계가 성립하는 후보명사를추출하였다.
본 논문에서는 식 (1)의 링크 기반 유사도 측정 방법에 최소 공통 상위어의 깊이(Dies)를 추가하여 수정하였다. 이것은 계층 구조에서 두 개념을 연결하는 최단경로의 링크(Link) 개수가 동일하더라도, 상위 계층에위치하는 어휘들의 링크들보다 하위 계층에 위치하는어휘들의 링크일수록 어휘간의 유사도가 더 높은 점을적용하기 위함이다.
후보명사의 의미를 결정한다. 본 논문에서는 식 (1)의 링크 기반 유사도 측정 방법을 식 (4)와 같이 최소 공통 상위어의 깊이(Dies)를 추가하여 수정하였다.
정보를 중심으로 추출하였다. 용언의 선행 요소중에서 주격조사(JKS), 부사격조사(JK①), 목적격조사 (JKO)를 취하는 어절만을 추출하고, 용언의 후행 요소중에서 어미와 다음어절을 추출하였다. 선행요소가 보조사(JX)를 취하는 어절은 그 격의 모호성 때문에 추출대상에서 제외하였다.
의미적조응 관계가 성립하는 후보명사는 선택 제약이나 결합관계 등의 정보를 제공하는 용례와 구문정보를 제공하는 문형정보를 이용하여 추출하였으며, 추출한 후보명사는 용례 매칭 규칙, 구문패턴, 의미 유사도 등을 적용하여 의미를 분별하였다.
자동 구축하는 방법을 제시하였다. 즉, 용언의 의미별 용례와 문형정보를 이용하여 다양한 후보명사를 추출한 다음, 용례 규칙, 구문패턴, 의미 유사도를 이용한 명사 의미 분별 과정을 수행함으로써 명사와 용언간의 구문관계를 자동으로 구축하는 방법을 제시하였다. 이러한 자동 구축방법은 향후 확장된 형태의 어휘망을 구축하는 기반을 다지는 작업이라고 할 수 있다.

대상 데이터

구문관계 구축 실험을 위한 대상 어휘는 한국어 사용 빈도 조사 결과를 바탕으로 하여 의미가 세분화되어 있으며, 문형정보를 가지고 있는 동사를 중심으로 5개('가다', '먹다', '만들다', '받다', 보다')를 선정하였다.

이론/모형

정보량(Information Content)은 대용량 말뭉치 내 개념의 발생 빈도를 기반으로 MLE(Maximum Likelihood Estimate)방법으로 얻는다. 많은 정보량이 할당된 개념은 특정 주제에 매우 세부적인 개념이고, 적은 정보량이 할당된 개념은 더 일반적인 개념으로 판단할 수 있다.

성능/효과

'먹다, 의 14개의 의미('먹다 _002001'~'먹다-002014')에서 26개의 후보명사를 추출한 다음, 그림 9와 같이 4단계의 후보명사 의미 분별을 통해 구문관계를 설정하고 고빈도 어휘를 이용하여 구문관계를 확장하였다. 그 결과 26개 후보명사 중 '골 _004005'와 '공금」)01001'을 제외한 24개의 명사가 정확하게 의미가 결정되었고, 구문패턴에서 추출한 고빈도어휘 중에서 '아침밥', '겁」)05000', '돈」)01001'이 추가적으로 구문관계를 설정하였다.
2~3개이다. 그리고 후보명사의 의미 분별 실험 결과, 정확하게 의미를 분별한 확률은 각각 '가다'(83%), '먹다'(92%), '만들다'(90%), '받다'(80%), '보다'(88%)로 나타났다.
본 논문에서 사용하는 U-WIN 어휘 사전 데이타베이스의 문형정보는 구문정보를 제공하고, 용례는 선택 제약이나 결합 관계 등의 정보를 추출할 수 있는 말뭉치 역할을 담당하고 있다. 그러므로 용언의 용례에서 문형 정보에 해당하는 논항을 추출하여, 해당 용언과 구문 관계를 형성할 수 있는 후보명사로 이용함으로써, 용언의 세분화된 의미별로 다양하고 명확한 후보명사를 추출할 수 있다.

후속연구

방언관계의 형태 관계, 술목관계의 구문관계 둥으로 어휘 간의 다양한 관계를 표현하고 있다. 그 중에서 형태 관계와 구문관계는 U-WIN을 구성하는 어휘 집합이 모든 품사를 대상으로 함으로써 고려한 어휘 관계로서 형태소 분석 및 구문 분석에 활용할 수 있을 것이다.
수 있다. 그러므로 본 연구의 실험결과를 통해, 제시한 연구방법은 술목관계, 술주관계, 술부관계 등의 다양한 구문관계의 자동 구축을 가능하도록 할 것이다.
이렇게 구축한 구문관계는 기존의 선택제약 정보와 달리 용언과 명사가 모두 다의어 수준으로 의미가 결정되어 있으므로, WSD, 격틀사전 구축, 정보검색, 클러스터링, 구문분석, 의미분석 등의 다양한 자연언어처리 분야에서의 활용을 기대해 볼 수 있을 것이다.

참고문헌 (12)

최호섭, "대규모 사용자 어휘지능망 구축과 활용", 울산대 박사학위논문, 2007
홍재성 외, "21세기 세종 계획 연구보고서", 국립국어원, 2005
전문용어언어공학센터[KORTERM], 다국어 어휘망 총3권, KAIST Press, 2005
최호섭, "한국어 명사 개념망 구축-경제용어를 중심으로", ETRI 지식정보검색연구팀 경제개념망 구축결과보고서, 2001
R. Rada, H. Mili, E. Bicknell, M. Blettner, Development and application of a metric on semantic nets, IEEE Transactions on Systems, Man and Cybernetics 19 (1) 17-30, 1989

상세보기
C. Leacock, M. Chodorow, Combining local context and WordNet similarity for word sense identification, in: C. Fellbaum (Ed.), WordNet: An electronic lexical database, MIT Press, pp. 265- 283, 1998
J. Jiang, D. Conrath, Semantic similarity based on corpus statistics and lexical taxonomy, in: Proceedings on International Conference on Research in Computational Linguistics, Taiwan, pp. 19-33, 1997
D. Lin, Using syntactic dependency as a local context to resolve word sense ambiguity, in: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics, Madrid, pp. 64-71, 1997
P. Resnik, Using information content to evaluate semantic similarity in a taxonomy, in: Proceedings of the 14th International Joint Conference onArtificial Intelligence, Montreal, pp. 448-453, 1995
Wu, Z., Palmer, Verb semantics and lexical selection, 32nd Annual Meeting of the Association for Computational Linguistics, New Mexico State University, LasCruces, New Mexico, 1994
Hirst, G. and D. St.Onge. Lexical Chains as Represenations of Context for the Detection and Correction of Malapropisms. WordNet. C. Fellbaum. Cambridge, MA, The Mit Press, 1995
국립국어연구원, " 편찬 지침 I-II", 국립국어연구원, 2000

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증