[논문]격틀 구조에 기반한 유사 동사 추출

조정현; 정현기; 김유섭

[국내논문] 격틀 구조에 기반한 유사 동사 추출
Similar Verb Words Extraction based on their Case Frame Structure 원문보기

조정현 (한림대학교 컴퓨터공학과) , 정현기 (한림대학교 컴퓨터공학과) , 김유섭 (한림대학교 컴퓨터공학과)

한국어 Propbank를 구축하기 위해서는 유사 동사를 군집화하고 군집에 포함되는 동사들의 구문 및 의미 특성을 모아놓은 정보가 필요하다. 본 연구에서는 이러한 군집화의 초기 단계로써 개별 동사들의 격틀 구조에 기반하여 동사간의 유사도를 추정하여 유사 동사를 추출하고자 하였다. 본 연구는 개별 동사의 격틀 정보를 추출하기 위하여 세종 계획의 용언 사전과 KAIST 언어자원의 동사 격틀 사전을 활용하였다. 또한 격틀을 세분화하여 보다 상세한 격틀 정보를 생성하기 위하여 격틀이 가지고 있는 논항의 특성을 활용하였다. 동사의 유사도를 측정하기 위하여 개별 동사들은 벡터로 표현하였고, 벡터의 원소는 해당 동사가 다른 동사와 세분화된 격틀을 공유하는 정도로 하였다. 실험에서는 두 용언 사전에서 개별적으로 위의 과정을 진행하여 각 동사와 유사한 동사들을 추출하였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구는 한국어 PropBank 구축의 가장 기초적인 단계로써 유사한 동사를 추출하고자 하였다. 이를 위하여 세종 계획 및 KAIST의 동사 격틀 사전을 활용하였고, 이들 언어 자원에서 제공되는 의미 체계를 활용하여 격틀의 논항을 분류하였으며, 이로써 격틀을 보다 세분화할 수 있었다.
본 연구팀에서는 이러한 어려움을 해소하고자 한국어 Propbank를 구축하고자 하는데, 이의 전 단계로서 기존의 구문 태그된 말뭉치에 술어-논항 정보를 초벌로 자동 태그해주는 자동 술어-논항 분석기[10]를 구현하고자 한다. 이 분석기의 구현을 위해서는 VerbNet[11]과 같은 동사 사전이 필요한데, 본 연구에서는 한국어 VerbNet의 기초 작업의 하나로써 격틀에 기반한 동사 유사도를 측정하여 개별 동사의 유사 동사를 추출하고자 하였다.
본 연구팀에서는 이러한 어려움을 해소하고자 한국어 Propbank를 구축하고자 하는데, 이의 전 단계로서 기존의 구문 태그된 말뭉치에 술어-논항 정보를 초벌로 자동 태그해주는 자동 술어-논항 분석기[10]를 구현하고자 한다. 이 분석기의 구현을 위해서는 VerbNet[11]과 같은 동사 사전이 필요한데, 본 연구에서는 한국어 VerbNet의 기초 작업의 하나로써 격틀에 기반한 동사 유사도를 측정하여 개별 동사의 유사 동사를 추출하고자 하였다.

제안 방법

세종 계획과 KAIST 언어자원은 모두 체언의 의미 체계를 가지고 있어, 논항 특성 분석에 이를 활용하였다. 개별 동사들은 유사도 측정을 위하여 벡터로 표현되었는데, 벡터의 원소를 계산하기 위하여 해당 동사가 다른 동사와 세분화된 격틀을 얼마나 공유하는 가를 계산하였다. 또한 유사도는 코사인 값을 계산하여 추정하였다.
동사들의 세부 유형 비교는 세종 용언 사전의 동사들과 KAIST 동사 격틀 사전의 동사들을 따로 비교한다. 먼저 하나의 동사는 다른 모든 동사와 세부 유형을 비교한다.
개별 동사들은 유사도 측정을 위하여 벡터로 표현되었는데, 벡터의 원소를 계산하기 위하여 해당 동사가 다른 동사와 세분화된 격틀을 얼마나 공유하는 가를 계산하였다. 또한 유사도는 코사인 값을 계산하여 추정하였다. 실험에서는 개별 동사와 유사한 것으로 나타난 동사의 예를 보여주는데, 이를 세종 계획 및 KAIST 용언 사전을 서로 비교하며 보여준다.
그림 3에서와 같이 세종 의미 부류 체계는 ‘구체물, 집단, 장소, 추상적 대상, 사태’ 5가지의 최상위 개념을 기준으로 총 645개의 개념들이 있다. 본 연구에서는 상위 2단계 개념 69개와 최상위 개념 5개를 통해 동사를 분류하였다. 예를 들면 ‘인간’의 경우는 세종 명사 부류 체계에서 ‘구체물/구체자연물/생물/인간’ 이다.
본 실험을 두 자원을 통합하지 않고 병렬적으로 사용하였는데, 이는 두 자원의 본 연구와의 적합도를 가늠하기 위함이다. 사전에서 추출된 격틀 정보는 그 자체만으로는 지나치게 광범위하여 직접 활용될 수 없기 때문에 격틀이 가지고 있는 논항의 특성을 활용하여 격틀 정보를 세분화 하였다. 세종 계획과 KAIST 언어자원은 모두 체언의 의미 체계를 가지고 있어, 논항 특성 분석에 이를 활용하였다.
사전에서 추출된 격틀 정보는 그 자체만으로는 지나치게 광범위하여 직접 활용될 수 없기 때문에 격틀이 가지고 있는 논항의 특성을 활용하여 격틀 정보를 세분화 하였다. 세종 계획과 KAIST 언어자원은 모두 체언의 의미 체계를 가지고 있어, 논항 특성 분석에 이를 활용하였다. 개별 동사들은 유사도 측정을 위하여 벡터로 표현되었는데, 벡터의 원소를 계산하기 위하여 해당 동사가 다른 동사와 세분화된 격틀을 얼마나 공유하는 가를 계산하였다.
세종 용언 사전과 KAIST 동사 격틀을 3장에서 계산된 각 동사별 유사도를 통해 동사들을 비교한다. 실험을 위하여 기초 어휘 빈도 조사 결과[14]에서 빈도가 높은 동사 10개와 상대적으로 빈도가 낮은 동사 10개를 추출하였고, 세종 용언 사전과 KAIST 격틀 사전에서 유사 단어를 각각 5개씩 뽑아서 어떤 동사들이 나오고 있는지 서로 비교하였다.
또한 유사도는 코사인 값을 계산하여 추정하였다. 실험에서는 개별 동사와 유사한 것으로 나타난 동사의 예를 보여주는데, 이를 세종 계획 및 KAIST 용언 사전을 서로 비교하며 보여준다.
세종 용언 사전과 KAIST 동사 격틀을 3장에서 계산된 각 동사별 유사도를 통해 동사들을 비교한다. 실험을 위하여 기초 어휘 빈도 조사 결과[14]에서 빈도가 높은 동사 10개와 상대적으로 빈도가 낮은 동사 10개를 추출하였고, 세종 용언 사전과 KAIST 격틀 사전에서 유사 단어를 각각 5개씩 뽑아서 어떤 동사들이 나오고 있는지 서로 비교하였다. 표 5는 세종 용언 사전 동사와 KAIST 격틀 사전 동사에서 고빈도 동사의 유사어를 뽑아 비교한 표이며 ( )안의 숫자는 유사도 이다.
이 두 개의 언어자원을 가지고 동사들을 분류 하기위해 먼저 각 언어자원의 격틀별로 동사를 나누고 다시 세부 유형별로 동사를 나눈다.
본 연구는 한국어 PropBank 구축의 가장 기초적인 단계로써 유사한 동사를 추출하고자 하였다. 이를 위하여 세종 계획 및 KAIST의 동사 격틀 사전을 활용하였고, 이들 언어 자원에서 제공되는 의미 체계를 활용하여 격틀의 논항을 분류하였으며, 이로써 격틀을 보다 세분화할 수 있었다. 또한 동사를 타 동사와 격틀을 공유하는 정도로 벡터를 구성하여 유사도를 추정할 수 있었다.

대상 데이터

본 연구에서 사용한 언어자원은 21세기 세종 계획의 용언 사전과 KAIST 언어자원의 동사 격틀 사전이다. 세종 계획 용언 사전은 총 15,174개의 동사와 1,269개 유형의 격틀로 이루어져 있고, KAIST 언어자원의 동사 격틀 사전은 2,731개의 동사와 304개 유형의 격틀로 되어있다.

이론/모형

본 연구에서는 기존의 격틀 정보를 추출하기 위하여 세종 계획[12]의 용언 사전과 KAIST 언어자원[13]의 동사격틀 사전을 활용하였다. 본 실험을 두 자원을 통합하지 않고 병렬적으로 사용하였는데, 이는 두 자원의 본 연구와의 적합도를 가늠하기 위함이다.

성능/효과

위 결과를 보면 고빈도 동사들에 비하여 저빈도 동사들이 직관적으로 더 유사한 동사들을 추출하는 것을 알 수 있다. 고빈도 동사의 경우 격틀의 수가 매우 많고 다의어인 경우가 많아 유사성이 집중되지 못하여 이러한 현상이 벌어지는 것으로 생각된다.

후속연구

비록 PropBank가 격틀에 기반한다고는 하지만 동사의 의미적인 측면 역시 매우 중요하기 때문에 부족함이 있다. 따라서 향후 연구로는 격틀 정보 뿐만 아니라 동사 의미 체계도 함께 활용하여 동사의 유사도를 추정해야 한다. 또한 한국어 VerbNet의 구축을 위해서는 이러한 유사도를 기반으로 결국 군집화를 해야 할 것이다.

핵심어

질문

논문에서 추출한 답변

PropBank는 무엇인가?

PropBank[1]은 동사의 술어-논항 (Predicate-Argument) 구조를 태그해 놓은 말뭉치로써 영어의 경우 의미 역 결정 (Semantic Role Labeling)에 단독 또는 복합적으로 활용되고 있다[2, 3, 4, 5, 6, 7]. 한국어의 경우 이러한 말뭉치가 아직 구축되지 않아 의미역 결정과 같은 문장 단위 의미 분석 관련 연구에 큰 어려움을 겪고 있다[8, 9].

본 연구에서 한국어 PropBank 구축을 위한 가장 기초적인 단계로 유사한 동사를 추출하는 데에 어떤 언어 자원을 활용하였는가?

본 연구는 한국어 PropBank 구축의 가장 기초적인 단계로써 유사한 동사를 추출하고자 하였다. 이를 위하여 세종 계획 및 KAIST의 동사 격틀 사전을 활용하였고, 이들 언어 자원에서 제공되는 의미 체계를 활용하여 격틀의 논항을 분류하였으며, 이로써 격틀을 보다 세분화할 수 있었다. 또한 동사를 타 동사와 격틀을 공유하는 정도로 벡터를 구성하여 유사도를 추정할 수 있었다.

세종 계획 용언 사전과 KAIST의 동사격틀 사전의 동사들은 각각 어떤 파일 형식으로 되어있는가?

세종 계획 용언 사전은 총 15,174개의 동사와 1,269개 유형의 격틀로 이루어져 있고, KAIST 언어자원의 동사 격틀 사전은 2,731개의 동사와 304개 유형의 격틀로 되어있다. 언어자원 파일의 형태는 세종 계획 용언 사전의 각 동사들은 XML 파일로 되어있고 KAIST의 동사격틀 사전의 각 동사들은 TEXT 파일로 되어있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 격틀 구조에 기반한 유사 동사 추출
Similar Verb Words Extraction based on their Case Frame Structure 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 격틀 구조에 기반한 유사 동사 추출 Similar Verb Words Extraction based on their Case Frame Structure 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 격틀 구조에 기반한 유사 동사 추출
Similar Verb Words Extraction based on their Case Frame Structure 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper