$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

통계 기법을 이용한 연어 추출 모형 연구
The Study on the Model of Extracting Collocations from Corpus in Korean Using the Statistical Tools 원문보기

한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회, 2010 Oct. 08, 2010년, pp.162 - 165  

안성민 (충남대학교)

초록
AI-Helper 아이콘AI-Helper

공기하여 나타나는 구 정보 중에서 언어에 대한 연구는 응용 언어학에 발전에 기여할 수 있는 부분이 크다. 연어란 어휘들 간의 제한된 결합 관계를 갖는 공기 확률이 높은 구 구성이다. 이러한 연어 구성에 대한 연구는 특히 기계 번역이나 사전 편찬 등의 분야에서 관심이 높아지고 있다. 본 연구에서는 언어를 추출하기 위해 T-test와 상호 정보, 조건 확률 등의 여러 통계 기법의 사용을 제시한다. 각 기법을 적용하였을 때 연어 추출에 어떠한 변화를 보이는지 조사하였고, 가장 적절한 기법의 적용도 모색함으로써 향후 언어 추출의 방향을 제시하고자 한다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 즉, 연어란 공기 확률이 높은 구성일 뿐만 아니라 어휘들 간의 제한된 결합 관계를 갖는다는 관점 하에 연구를 진행하였다. 그리고 선행연구에서 연어를 추출하기 위해 사용된 많은 통계 기법들 중 한국어 말뭉치에서 연어를 추출해내는 데에 조금 더 나은 성능을 보여주는 기법은 무엇인지를 실험하여 향후 한국어 연어 추출의 연구 방향을 모색하고자 하였다.
  • 기존에 제시된 여러 통계 기법을 사용하여 어떤 통계 기법을 적용시킬 때, 연어 추출을 극대화 할 수 있는지 살펴보았다. MI와 T-score, #값을 적용한 수치가 연어의 손실을 줄이면서 코퍼스에서 연어가 포함된 Bigram을 확보할 수 있는 가장 좋은 방법임을 증명하였다.
  • 그러나 연어를 추출해내는 데에는 연어의 정의가 명확히 되어야 한다. 본 논문에서는 신효필(2007)11]이 제시한 이론적 관점과 전산적 관점을 동시에 수렴하는 연어의 정의를 제시하고, 상호 정보와 T-test, 조건 확률 등을 이용하여 연어를 보다 손쉽게 추출해 낼 수 있는 방법을 연구하고자 한다.
  • 본 연구는 태깅이 된 코퍼스에 여러가지 통계 기법을 적용하여 자동적으로 연어를 추출하는 방법을 연구하였다. 기존에 제시된 여러 통계 기법을 사용하여 어떤 통계 기법을 적용시킬 때, 연어 추출을 극대화 할 수 있는지 살펴보았다.
  • 그 이후 많은 학자들에 의해 연어에대한 연구가 진행되었는데, 한국어에 관련한 전산 언어학적 연구를 간략히 살펴보자면 이공주 외(1995)(3)는다양한 통계 기법을 여섯 단계에 거쳐 적용하여 연어를추출해내는 작업을 하였고, 홍종선 외 (2000)14]에서는인접하고 있는 어절과 논항 자리에 오는 어휘들의 연어성에 대한 연구를 하였으며, 박경미 외 (2002)15]는 엔트로피를 이용하여 한국어 연어를 추출하였고, 임근석 (2002)16]은 분포 제약과 t-score, 상대비율 등을 반영하여 어휘적 연어를 추출하였다. 본 연구에서는 연어의정의를 통계적인 기술에만 국한시킨 것이 아니라 이론언어학적 측면도 최대한 도입시키고자 노력하였다. 즉, 연어란 공기 확률이 높은 구성일 뿐만 아니라 어휘들 간의 제한된 결합 관계를 갖는다는 관점 하에 연구를 진행하였다.
  • " 라고 명시하고 있다. 따라서 조건 확률식 (Conditional Probability)!, !을 통하여 선택 제약을 추출하여 실제 데이터에 적용시켜 결과 값을 비교해보고자한다.
  • 본 연구에서는 연어의정의를 통계적인 기술에만 국한시킨 것이 아니라 이론언어학적 측면도 최대한 도입시키고자 노력하였다. 즉, 연어란 공기 확률이 높은 구성일 뿐만 아니라 어휘들 간의 제한된 결합 관계를 갖는다는 관점 하에 연구를 진행하였다. 그리고 선행연구에서 연어를 추출하기 위해 사용된 많은 통계 기법들 중 한국어 말뭉치에서 연어를 추출해내는 데에 조금 더 나은 성능을 보여주는 기법은 무엇인지를 실험하여 향후 한국어 연어 추출의 연구 방향을 모색하고자 하였다.
  • 하였다. 코퍼스에서 Bigram을 추출하여 공기 횟수 1을 제외한 나머지에 대해 자료에 대해 수행되었다.
본문요약 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로