[논문]규칙 기반 한국어 시간 정보 추출

정영섭; 도효진; 임준호; 최호진

규칙 기반 한국어 시간 정보 추출
Rule-Based Temporal Information Extraction for Korean 원문보기

정영섭 (한국과학기술원) , 도효진 (한국과학기술원) , 임준호 (한국전자통신연구원) , 최호진 (한국과학기술원)

웹을 비롯한 다양한 곳에서 기하급수적으로 증가하고 있는 문서들로 인해, 자연어 텍스트로부터의 지식추출의 중요성이 점차 커지고 있다. 이 연구에서는 한국어로 작성된 자연어 텍스트로부터의 시간 정보 추출을 위해 개발된 시스템을 소개하고, 직접 구축한 한국어 데이터셋에 대한 성능 분석을 제공한다. 이 시스템은 사람이 직접 작성한 규칙들에 기반하여 작동하지만, 질의응답시스템 등에 적용될 수 있는 수준의 성능으로 향상시키기 위해 기계학습 기반의 시스템으로 업그레이드하는 등의 작업을 계속할 것이다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이 시간정보 추출 시스템은 기본적으로 TimeML 에 기반하여 시간 표현, 사건 표현, 그리고 시간 관계를 모두 추출하였으며, 구축한 한국어 데이터셋에 대한 실험을 수행하였다. 궁극적으로 한국어 기반의 질의응답 시스템에 적용될 수 있는 수준의 시간정보 추출 시스템을 개발하기 위해 연구를 지속할 것이다.
이 논문에서는 한국어 텍스트로부터 규칙 기반으로 시간정보를 추출하는 시스템을 소개하였다. 이 시간정보 추출 시스템은 기본적으로 TimeML 에 기반하여 시간 표현, 사건 표현, 그리고 시간 관계를 모두 추출하였으며, 구축한 한국어 데이터셋에 대한 실험을 수행하였다.
이 연구는 한국어를 대상으로 3가지 종류의 시간정보를 모두 추출하는 규칙 기반 시스템을 소개하며, 직접 구축한 소규모 한국어 데이터셋에 대한 성능 분석을 제공한다.
“현재 대한민국의 대통령은 누구인가?”라는 질문을 예로 들면, 질문하는 시점과 현재의 시간에 대한 정보가 없이는 질의응답시스템이 올바른 답변을 도출해내기 어렵다. 이 연구의 목표는 한국어로 작성된 자연어 텍스트로부터의 자동화된 시간 정보 추출 모듈을 개발하는 것이며, 이를 통해 궁극적으로는 질의응답시스템에서 시간과 관련된 사건 간의 관계 추출 및 추론을 보다 지능적으로 수행할 수 있도록 돕는 것이다. 이를 위해 규칙 기반의 시간정보 추출 모듈을 개발하였으며, 직접 구축한 한국어 데이터셋에 대한 성능 분석을 제공한다.

가설 설정

첫 번째, 각 형태소에 대하여 시간 표현인지 여부를 판단하여 TIMEX3 태그의 범위에 포함시킨다. 두 번째, TIMEX3 태그들의 type 속성을 결정한다. type 속성은 4가지(TIME, DATE, SET, DURATION) 중에서 하나가 된다.
첫 번째, 태깅된 TIMEX3 태그들과 MAKEINSTANCE 태그들을 대상으로, 각 쌍에 대하여 TLINK 태그의 범위에 포함되는지 판단한다. 두 번째, TLINK 태그들의 relType 속성을 결정한다. 이 relType 속성은 8가지(BEFORE, AFTER, INCLUDES, DURING, SIMULTANEOUS, IDENTITY, BEGINS, ENDS) 중에서 하나가 된다.

제안 방법

실험에 사용할 한국어 데이터셋을 구축하기 위해, TempEval-2에서 제공되는 한국어 데이터셋을 일부 수정 하여 소규모로 구축하였다. 구축된 데이터셋은 40개의 문장, 52개의 시간 표현, 191개의 사건 표현, 152개의 시간 관계를 가지고 있다.
이 논문에서는 한국어 텍스트로부터 규칙 기반으로 시간정보를 추출하는 시스템을 소개하였다. 이 시간정보 추출 시스템은 기본적으로 TimeML 에 기반하여 시간 표현, 사건 표현, 그리고 시간 관계를 모두 추출하였으며, 구축한 한국어 데이터셋에 대한 실험을 수행하였다. 궁극적으로 한국어 기반의 질의응답 시스템에 적용될 수 있는 수준의 시간정보 추출 시스템을 개발하기 위해 연구를 지속할 것이다.
표 1에 이 연구의 시간정보 범위를 표시하였다. 이 연구에서 배제된 태그는 SIGNAL 태그, SLINK 태그, ALINK 태그이며, 배제된 속성은 TLINK 태그의 signalID 속성, TIMEX3 태그의 beginPoint, endPoint, freq 속성, EVENT 태그와 MAKEINSTANCE 태그의 class, aspect, tense, polarity, modality, cardinality, signalID 속성이다. TLINK 태그는 한 문장 안에서의 TIMEX3 태그와 MAKEINSTANCE 태그 사이의 시간 관계로 국한하였다.
이 연구의 목표는 한국어로 작성된 자연어 텍스트로부터의 자동화된 시간 정보 추출 모듈을 개발하는 것이며, 이를 통해 궁극적으로는 질의응답시스템에서 시간과 관련된 사건 간의 관계 추출 및 추론을 보다 지능적으로 수행할 수 있도록 돕는 것이다. 이를 위해 규칙 기반의 시간정보 추출 모듈을 개발하였으며, 직접 구축한 한국어 데이터셋에 대한 성능 분석을 제공한다.
TLINK 태깅은 2단계에 걸쳐 이루어진다. 첫 번째, 태깅된 TIMEX3 태그들과 MAKEINSTANCE 태그들을 대상으로, 각 쌍에 대하여 TLINK 태그의 범위에 포함되는지 판단한다. 두 번째, TLINK 태그들의 relType 속성을 결정한다.

이론/모형

TIPSem (Temporal Information Processing based on Semantic) [14] 은 TempEval-2 의 Task 들을 모두 한번에 풀기 위해 소개되었으며 CRF (Conditional Random Fields) 학습에 SR (Semantic Role) 정보를 활용하였다. TimeTrails [12] 는 시간 정보를 UIMA (Unstructued Information Managerment Architecture)에 기반하여 분석하기 용이한 방식으로 표현하였다.
텍스트 상에서 시간 표현인 부분 찾기에 초점을 맞춘 [7] 에서는 Begin-Inside-Outside (BIO) 방식을 사용하였고, 규칙에 기반하여 시간 표현을 추출하기도 하였다 [11]. 시간 표현과 사건 표현을 모두 추출하기도 했고 [10], 시간 표현과 시간 관계를 Markov Logic Networks (MLN)을 사용하여 추출하기도 했다 [13].
위 모든 연구들은 영어에 초점을 맞추어 수행되었지만, [17] 는 TempEval-2 의 모든 언어 (영어, 스페인어, 이탈리아어, 중국어, 프랑스어, 한국어)를 대상으로 시간 정보 추출을 수행하였으며 규칙 기반의 K-best parser를 사용하였다. 각 언어의 특성에 맞는 규칙을 설계하지 않는 한, 언어에 따라서 성능이 크게 달라지며, 한국어 데이터셋에 대하여 시간 표현의 타입 예측 성능은 약 82%, 시간 표현 값 예측 성능은 약 42% 였다.
3가지 종류의 시간 정보를 한꺼번에 추출하는 것은 매우 어려우므로, 많은 연구들이 시간정보의 일부에 초점을 맞춰 수행되었다. 텍스트 상에서 시간 표현인 부분 찾기에 초점을 맞춘 [7] 에서는 Begin-Inside-Outside (BIO) 방식을 사용하였고, 규칙에 기반하여 시간 표현을 추출하기도 하였다 [11]. 시간 표현과 사건 표현을 모두 추출하기도 했고 [10], 시간 표현과 시간 관계를 Markov Logic Networks (MLN)을 사용하여 추출하기도 했다 [13].

성능/효과

위 모든 연구들은 영어에 초점을 맞추어 수행되었지만, [17] 는 TempEval-2 의 모든 언어 (영어, 스페인어, 이탈리아어, 중국어, 프랑스어, 한국어)를 대상으로 시간 정보 추출을 수행하였으며 규칙 기반의 K-best parser를 사용하였다. 각 언어의 특성에 맞는 규칙을 설계하지 않는 한, 언어에 따라서 성능이 크게 달라지며, 한국어 데이터셋에 대하여 시간 표현의 타입 예측 성능은 약 82%, 시간 표현 값 예측 성능은 약 42% 였다.
예를 들어, signalID 속성은 최종 서비스 관점에서 보면 거의 정보가 없는 속성이나 마찬가지이다. 둘 째, 문장으로부터 시간 정보를 자동으로 추출하는 시스템 개발의 측면에서 보았을 때 비효율적인 속성이나 태그는 배제되었다. 예를 들어, modality, cardinality, signalID 속성 등을 자세하게 알아내는 것은 개발 측면에서 매우 어려운 부분이며, 이런 속성에서 얻는 정보들은 서비스 관점에서 봤을 때에도 무의미한 경우가 많다.
배제된 태그 및 속성들은 크게 두 가지 측면에서 문제가 되기 때문에 배제되었다. 첫 째, 최종 서비스에서 크게 중요하지 않을 수 있는 너무 자세한 정보를 담는 태그나 속성들은 배제되었다. 예를 들어, signalID 속성은 최종 서비스 관점에서 보면 거의 정보가 없는 속성이나 마찬가지이다.

후속연구

데이터가 부족하기 때문에 불충분한 정보를 토대로 규칙이 생성되었기 때문이다. 따라서, 더 많은 데이터를 확보하고, 보다 다양한 상황에서 TIMEX3 태그 및 MAKEINSTANCE 태그들 간의 TLINK 태그 생성에 대한 자질을 발굴하는 작업에 집중할 것이다.
시간정보 3가지를 모두 추출하는 것은 매우 어려운 작업이므로, 본 연구는 3가지 시간정보의 범위를 위와 같이 국한하여 시간정보 추출 시스템을 개발하였지만, 추후 시간정보 범위를 늘려가고 성능 개선을 지속할 것이다.
예를 들어, modality, cardinality, signalID 속성 등을 자세하게 알아내는 것은 개발 측면에서 매우 어려운 부분이며, 이런 속성에서 얻는 정보들은 서비스 관점에서 봤을 때에도 무의미한 경우가 많다. 예외적으로, beginPoint, endPoint, freq 속성 등은 이번 연구에서는 일단 배제되었지만, 서비스 관점에서 유용한 정보를 담을 수 있으므로 향후 시스템에 다시 포함할 것이다.
34 이다. 현재의 전반적인 성능은 질의응답시스템에 적용되기에는 부족하지만, 추후 기계학습 기반으로 시스템을 업그레이드하며 성능개선을 지속할 것이다. 특히, 성능개선이 이루어져야 할 부분은 precision 보다는 recall 이며 TLINK 태그의 searching link부터 recall 성능이 급감되고 있다.

핵심어

질문

논문에서 추출한 답변

자연어 텍스트로부터의 지식추출의 중요성이 커지는 이유는?

웹을 비롯한 다양한 곳에서 기하급수적으로 증가하고 있는 문서들로 인해, 자연어 텍스트로부터의 지식추출의 중요성이 점차 커지고 있다. 이 연구에서는 한국어로 작성된 자연어 텍스트로부터의 시간 정보 추출을 위해 개발된 시스템을 소개하고, 직접 구축한 한국어 데이터셋에 대한 성능 분석을 제공한다.

TIMEX3 태깅을 수행하는 3단계 작업은 무엇인가?

예를 들어, TIMEX3 태깅은 3단계의 작업을 통해 이루어진다. 첫 번째, 각 형태소에 대하여 시간 표현인지 여부를 판단하여 TIMEX3 태그의 범위에 포함시킨다. 두 번째, TIMEX3 태그들의 type 속성을 결정한다. type 속성은 4가지(TIME, DATE, SET, DURATION) 중에서 하나가 된다. 세 번째, TIMEX3 태그들의 value 속성의 값을 ISO-8601 에 입력한다. EVENT 태그와 MAKEINSTANCE 태그의 태깅도 위와 비슷한 과정을 거쳐서 수행된다.

TimeML에서는 어떤 정보에 대해서 정의하고 있는가?

TimeML (Time Meta Language) [1] 에서는 시간 표현, 사건 표현, 시간 관계라는 3가지 시간 정보에 대하여 정의하고 있다. 시간 표현은 시간과 관련된 내용을 텍스트에서 직접 표현하며, 예로는 ‘9월 30일’, ‘어제’ 등이 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

규칙 기반 한국어 시간 정보 추출
Rule-Based Temporal Information Extraction for Korean 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

규칙 기반 한국어 시간 정보 추출 Rule-Based Temporal Information Extraction for Korean 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

규칙 기반 한국어 시간 정보 추출
Rule-Based Temporal Information Extraction for Korean 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper