[논문]통계 기법을 이용한 연어 추출 모형 연구

안성민

문제 정의

즉, 연어란 공기 확률이 높은 구성일 뿐만 아니라 어휘들 간의 제한된 결합 관계를 갖는다는 관점 하에 연구를 진행하였다. 그리고 선행연구에서 연어를 추출하기 위해 사용된 많은 통계 기법들 중 한국어 말뭉치에서 연어를 추출해내는 데에 조금 더 나은 성능을 보여주는 기법은 무엇인지를 실험하여 향후 한국어 연어 추출의 연구 방향을 모색하고자 하였다.
기존에 제시된 여러 통계 기법을 사용하여 어떤 통계 기법을 적용시킬 때, 연어 추출을 극대화 할 수 있는지 살펴보았다. MI와 T-score, #값을 적용한 수치가 연어의 손실을 줄이면서 코퍼스에서 연어가 포함된 Bigram을 확보할 수 있는 가장 좋은 방법임을 증명하였다.
그러나 연어를 추출해내는 데에는 연어의 정의가 명확히 되어야 한다. 본 논문에서는 신효필(2007)11]이 제시한 이론적 관점과 전산적 관점을 동시에 수렴하는 연어의 정의를 제시하고, 상호 정보와 T-test, 조건 확률 등을 이용하여 연어를 보다 손쉽게 추출해 낼 수 있는 방법을 연구하고자 한다.
본 연구는 태깅이 된 코퍼스에 여러가지 통계 기법을 적용하여 자동적으로 연어를 추출하는 방법을 연구하였다. 기존에 제시된 여러 통계 기법을 사용하여 어떤 통계 기법을 적용시킬 때, 연어 추출을 극대화 할 수 있는지 살펴보았다.
그 이후 많은 학자들에 의해 연어에대한 연구가 진행되었는데, 한국어에 관련한 전산 언어학적 연구를 간략히 살펴보자면 이공주 외(1995)(3)는다양한 통계 기법을 여섯 단계에 거쳐 적용하여 연어를추출해내는 작업을 하였고, 홍종선 외 (2000)14]에서는인접하고 있는 어절과 논항 자리에 오는 어휘들의 연어성에 대한 연구를 하였으며, 박경미 외 (2002)15]는 엔트로피를 이용하여 한국어 연어를 추출하였고, 임근석 (2002)16]은 분포 제약과 t-score, 상대비율 등을 반영하여 어휘적 연어를 추출하였다. 본 연구에서는 연어의정의를 통계적인 기술에만 국한시킨 것이 아니라 이론언어학적 측면도 최대한 도입시키고자 노력하였다. 즉, 연어란 공기 확률이 높은 구성일 뿐만 아니라 어휘들 간의 제한된 결합 관계를 갖는다는 관점 하에 연구를 진행하였다.
" 라고 명시하고 있다. 따라서 조건 확률식 (Conditional Probability)!, !을 통하여 선택 제약을 추출하여 실제 데이터에 적용시켜 결과 값을 비교해보고자한다.
본 연구에서는 연어의정의를 통계적인 기술에만 국한시킨 것이 아니라 이론언어학적 측면도 최대한 도입시키고자 노력하였다. 즉, 연어란 공기 확률이 높은 구성일 뿐만 아니라 어휘들 간의 제한된 결합 관계를 갖는다는 관점 하에 연구를 진행하였다. 그리고 선행연구에서 연어를 추출하기 위해 사용된 많은 통계 기법들 중 한국어 말뭉치에서 연어를 추출해내는 데에 조금 더 나은 성능을 보여주는 기법은 무엇인지를 실험하여 향후 한국어 연어 추출의 연구 방향을 모색하고자 하였다.
하였다. 코퍼스에서 Bigram을 추출하여 공기 횟수 1을 제외한 나머지에 대해 자료에 대해 수행되었다.

제안 방법

여기에 네 가지 식을 적용하여 각각의 수치를 얻어냈다. 각 수치의 공정한 평가를 위해 코퍼스의 일부를 추출하여 결과 값을 비교하였다. 평가를 위해 추출된 것은 주술관계를 가진 코퍼스로서 총 type 수는 1066개였다.
반대로 제약이 너무 느슨할 경우, 연어 이외의 구성들이 뽑혀 나올 수가 있다. 따라서 어떤 식을 적용할 때, 연어 손실 수를 최소로 줄이면서 좋은 결과 수치를 가져올 수 있는지를 분석하였다. 분석 결과 MI와 T-score, #값을 적용했을 때 가장 좋은 값을 얻을 수 있음을 알 수 있었다.
따라서, 이러한 저빈도의 구 구성이 높은 수치를 갖는문제를 해결하기 위하여 상호 정보 값에 빈도수를 곱하였다. 그 식은 다음과 같다[111
연어는 서로 인접하고 있기 때문에[8], bigram을 추출하여 연구를 하였다. 이때 Bigrame 형태소 단위가 아닌구 단위이다.
전체 자료에 대해 앞서 소개한 통계 기법을 적용시켜평가하였다.
준비된 코퍼스는 각각의 식을 차례로 적용시켜 가면서그 정확도를 측정해나갔다.

대상 데이터

본 실험은 품사가 태깅된 1, 939, 349어절의 코퍼스를 대상으로 하였다. 코퍼스에서 Bigram을 추출하여 공기 횟수 1을 제외한 나머지에 대해 자료에 대해 수행되었다.
본 연구에서는 품사 태깅이 되어있는 코퍼스를 이용하였다. 사용한 코퍼스의 크기는 103, 105문장으로 총 1, 939, 349어절이었으며, 한 문장 평균 어절 수는 약 19 어절이 었다[71
사용한 코퍼스의 크기는 103, 105문장으로 총 1, 939, 349어절이었으며, 한 문장 평균 어절 수는 약 19 어절이 었다[71
이 코퍼스는 미리 준비된 연어사전[13]을 이용하여연어가 얼마나 포함되어 있는지를 평가하였는데, 연어는전체 20.54%를 차지하는 219개였다.
각 수치의 공정한 평가를 위해 코퍼스의 일부를 추출하여 결과 값을 비교하였다. 평가를 위해 추출된 것은 주술관계를 가진 코퍼스로서 총 type 수는 1066개였다.

이론/모형

공기 횟수가 많다면 연어일 가능성은 물론 그만큼 높아지겠지만, 모두 연어가 될 수 있는 것은 아니다. 따라서 추출한 bigram에 추가적인 작업을 수행해야 하는데, 본 연구에서는 상호 정보 (Pointwise Mutual Informatione])를 사용한다.
조건 확률식은 Bigram 양쪽 모두에 적용하였고, 그 결과의 일부는 다음과 같다.

성능/효과

기존에 제시된 여러 통계 기법을 사용하여 어떤 통계 기법을 적용시킬 때, 연어 추출을 극대화 할 수 있는지 살펴보았다. MI와 T-score, #값을 적용한 수치가 연어의 손실을 줄이면서 코퍼스에서 연어가 포함된 Bigram을 확보할 수 있는 가장 좋은 방법임을 증명하였다. 그러나 주술관계에만 극한된 연구였기에 이를 다른 구성에 적용시켜 일반성을 증명하는 것이 향후 연구 과제로 남는다 하겠다.
따라서 어떤 식을 적용할 때, 연어 손실 수를 최소로 줄이면서 좋은 결과 수치를 가져올 수 있는지를 분석하였다. 분석 결과 MI와 T-score, #값을 적용했을 때 가장 좋은 값을 얻을 수 있음을 알 수 있었다. 본 데이터에서는 37.

후속연구

MI와 T-score, #값을 적용한 수치가 연어의 손실을 줄이면서 코퍼스에서 연어가 포함된 Bigram을 확보할 수 있는 가장 좋은 방법임을 증명하였다. 그러나 주술관계에만 극한된 연구였기에 이를 다른 구성에 적용시켜 일반성을 증명하는 것이 향후 연구 과제로 남는다 하겠다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

통계 기법을 이용한 연어 추출 모형 연구
The Study on the Model of Extracting Collocations from Corpus in Korean Using the Statistical Tools 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

통계 기법을 이용한 연어 추출 모형 연구 The Study on the Model of Extracting Collocations from Corpus in Korean Using the Statistical Tools 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

통계 기법을 이용한 연어 추출 모형 연구
The Study on the Model of Extracting Collocations from Corpus in Korean Using the Statistical Tools 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper