$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

규칙 기반 한국어 시간 정보 추출
Rule-Based Temporal Information Extraction for Korean 원문보기

한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회, 2014 Oct. 07, 2014년, pp.242 - 246  

정영섭 (한국과학기술원) ,  도효진 (한국과학기술원) ,  임준호 (한국전자통신연구원) ,  최호진 (한국과학기술원)

초록
AI-Helper 아이콘AI-Helper

웹을 비롯한 다양한 곳에서 기하급수적으로 증가하고 있는 문서들로 인해, 자연어 텍스트로부터의 지식추출의 중요성이 점차 커지고 있다. 이 연구에서는 한국어로 작성된 자연어 텍스트로부터의 시간 정보 추출을 위해 개발된 시스템을 소개하고, 직접 구축한 한국어 데이터셋에 대한 성능 분석을 제공한다. 이 시스템은 사람이 직접 작성한 규칙들에 기반하여 작동하지만, 질의응답시스템 등에 적용될 수 있는 수준의 성능으로 향상시키기 위해 기계학습 기반의 시스템으로 업그레이드하는 등의 작업을 계속할 것이다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이 시간정보 추출 시스템은 기본적으로 TimeML 에 기반하여 시간 표현, 사건 표현, 그리고 시간 관계를 모두 추출하였으며, 구축한 한국어 데이터셋에 대한 실험을 수행하였다. 궁극적으로 한국어 기반의 질의응답 시스템에 적용될 수 있는 수준의 시간정보 추출 시스템을 개발하기 위해 연구를 지속할 것이다.
  • 이 논문에서는 한국어 텍스트로부터 규칙 기반으로 시간정보를 추출하는 시스템을 소개하였다. 이 시간정보 추출 시스템은 기본적으로 TimeML 에 기반하여 시간 표현, 사건 표현, 그리고 시간 관계를 모두 추출하였으며, 구축한 한국어 데이터셋에 대한 실험을 수행하였다.
  • 이 연구는 한국어를 대상으로 3가지 종류의 시간정보를 모두 추출하는 규칙 기반 시스템을 소개하며, 직접 구축한 소규모 한국어 데이터셋에 대한 성능 분석을 제공한다.
  • “현재 대한민국의 대통령은 누구인가?”라는 질문을 예로 들면, 질문하는 시점과 현재의 시간에 대한 정보가 없이는 질의응답시스템이 올바른 답변을 도출해내기 어렵다. 이 연구의 목표는 한국어로 작성된 자연어 텍스트로부터의 자동화된 시간 정보 추출 모듈을 개발하는 것이며, 이를 통해 궁극적으로는 질의응답시스템에서 시간과 관련된 사건 간의 관계 추출 및 추론을 보다 지능적으로 수행할 수 있도록 돕는 것이다. 이를 위해 규칙 기반의 시간정보 추출 모듈을 개발하였으며, 직접 구축한 한국어 데이터셋에 대한 성능 분석을 제공한다.

가설 설정

  • 첫 번째, 각 형태소에 대하여 시간 표현인지 여부를 판단하여 TIMEX3 태그의 범위에 포함시킨다. 두 번째, TIMEX3 태그들의 type 속성을 결정한다. type 속성은 4가지(TIME, DATE, SET, DURATION) 중에서 하나가 된다.
  • 첫 번째, 태깅된 TIMEX3 태그들과 MAKEINSTANCE 태그들을 대상으로, 각 쌍에 대하여 TLINK 태그의 범위에 포함되는지 판단한다. 두 번째, TLINK 태그들의 relType 속성을 결정한다. 이 relType 속성은 8가지(BEFORE, AFTER, INCLUDES, DURING, SIMULTANEOUS, IDENTITY, BEGINS, ENDS) 중에서 하나가 된다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
자연어 텍스트로부터의 지식추출의 중요성이 커지는 이유는? 웹을 비롯한 다양한 곳에서 기하급수적으로 증가하고 있는 문서들로 인해, 자연어 텍스트로부터의 지식추출의 중요성이 점차 커지고 있다. 이 연구에서는 한국어로 작성된 자연어 텍스트로부터의 시간 정보 추출을 위해 개발된 시스템을 소개하고, 직접 구축한 한국어 데이터셋에 대한 성능 분석을 제공한다.
TIMEX3 태깅을 수행하는 3단계 작업은 무엇인가? 예를 들어, TIMEX3 태깅은 3단계의 작업을 통해 이루어진다. 첫 번째, 각 형태소에 대하여 시간 표현인지 여부를 판단하여 TIMEX3 태그의 범위에 포함시킨다. 두 번째, TIMEX3 태그들의 type 속성을 결정한다. type 속성은 4가지(TIME, DATE, SET, DURATION) 중에서 하나가 된다. 세 번째, TIMEX3 태그들의 value 속성의 값을 ISO-8601 에 입력한다. EVENT 태그와 MAKEINSTANCE 태그의 태깅도 위와 비슷한 과정을 거쳐서 수행된다.
TimeML에서는 어떤 정보에 대해서 정의하고 있는가? TimeML (Time Meta Language) [1] 에서는 시간 표현, 사건 표현, 시간 관계라는 3가지 시간 정보에 대하여 정의하고 있다. 시간 표현은 시간과 관련된 내용을 텍스트에서 직접 표현하며, 예로는 ‘9월 30일’, ‘어제’ 등이 있다.
질의응답 정보가 도움이 되었나요?

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로