[논문]은닉 마르코프 모델을 이용한 음차표기된 외래어의 자동인식 및 추출 기법

오종훈; 최기선

문제 정의

5. 제안한 방법과 학습코퍼스의 양과의 상관관계를 측정하기 위한 실험을 수행한다. 실험에서는 일정한 양의 실험코퍼스에 대하여 학습코퍼스의 양을 변화시켜 적용한다.
이러한 문제를 해결하기 위해서는 주어진 어절에 음차표기된 외래어가 존재하는지를 인식하고 이를 추출하는 정교한 알고리즘이 필요하다. 본 논문에서는 음차표기된 외래어를 인식하고 추출하는 효율적인 알고리즘을 제시하고자 한다.
본 논문에서는 이러한 외래어 인식 및 추출 문제를 음절태깅이라는 문제로 변환하여 문제를 해결한다. 음 절태깅은 외래어를 구성하는 음절을 표현하는 태그■와 순수 한국어를 구성하는 음절을 표현하는 태그를 정의 하고 이들 태그에 기반하여 주어진 어절 내의 음절을 태깅하는 작업을 말한다.
본 논문에서는 한국어 문서에서 나타나는 외래어를 인식 및 추출하는 방법에 대하여 기술하였다. 제안한 방법은 외래어 인식 및 추출 문제를 주어진 어절이 순수 한국어를 구성하는 음절인지 외래어를 구성하는 음절인지를 태깅하는 음절태깅이라는 문제로 변환하여 해결하였다.
이러한 한계점들을 극복하기 위하여 본 논문에서는 은닉 마르코프 모델을 이용하여 주어진 어절에 나타나는 음차표기된 외래어를 자동적으로 인식 및 추출하는 알고리즘을 제안한다.

제안 방법

4. 순수 한국어, 순수 외래어, 한국어와 외래어가 같이 사용된 경우를 나누어 유형별 성능을 비교 평가한다.
실험을 위 하여. KRIST 실험집합과 KT 실험집합을 하나의 실 험집합으로 만들었다. 만들어진 전체 실험집합의 어 절 수는 약 100.
본 논문에서는 C-2).「)를 추정하기 위하여 각 음절이 순수 한국어를 구성하는 음절인지 음차표기된 외래어를 구성하는 음절인지를 수작업으로 태그한 코 퍼스를 사용하였다. 음절 태그된 학습코퍼스를 이용하여 전이확률》(0, -1", -2)와 음절확률 X Cis, 그리고 자음 및 음절확률인 시식 (10)과 같이 추정된 다(9〕.
한국어의 음절은 자 음과 모음의 조합으로 이루어져 있기 때문에 이러한 자음 정보만으로는 올바르게 외래어와 순수 한국어를 구성하는 음절인지를 판단하기 어렵다, 따라서 본 논문에서는 자음정보를 포함하는 음절정보와 전이정보 만을 이용한 경우. 그리고 음절정보, 전이정보, 자음 정보를 고려한 경우로 나누어 어절 내에 포함되어 있는 외래어를 인식 및 추출한다.
식 (1)에서 P(Foreign) 와 P(Korean)는 학습코퍼스에 나타난 한국어 단어 와 음차표기된 외래어 단어의 빈도수를 이용하여 추 정한다. 또한 P(WlForeign)^ 尸皈/Kc心商丿의 추 정을 위하여 단어에 나타난 음절의 유니그램과 바이 그램을 이용하였다.
이러한 차이는 학습 코퍼 스와 실험코퍼스의 양에 영향을 미치게 되어 올바른 실험결과를 이끌어 낼 수 없다. 본 실험에서는 이러한 문제점을 해결하기 위하여 KT실험집합은 실험집 합에 나타나는 모든 어절을 사용하며, KRIST 실험집 합의 경우 KT실험집합과 같은 양을 임의로 추출하여 사용한다.
본 실험에서는 제안된 방법의 성능을 보이기 위하여 다섯 가지 종류의 실험을 수행한다.
제안한 방법과 기존 연구〔7, 11, 12〕와의 성능 비교를 위한 실험을 수행한다. 실험에서는 동일한 학습코퍼스와 실험코퍼스를 사용하여 성능을 비교한다.
제안한 방법과 학습코퍼스의 양과의 상관관계를 측정하기 위한 실험을 수행한다. 실험에서는 일정한 양의 실험코퍼스에 대하여 학습코퍼스의 양을 변화시켜 적용한다.
유형별 외래어 추출 성능 비교실험을 위하여 각 실 험집합으로부터 90%를 학습코퍼스로 10%를 실험코 퍼스로 추출한다.[표 8]과[표 9]는 이들 실험집합 의 학습코퍼스와 실험코퍼스에 나타난 유형의 개수를 나타낸다.
자음정보 추가 유무에 따른 외래어 추출 성능 비교 실험을 위하여 각 실험집합으로부터 90%를 학습코퍼 스로 10%를 실험코퍼스로 추출한다. 자음정보를 추 가하지 않은 경우는 식 (4)를 이용하여 외래어를 추 출하였으며.
본 논문에서는 한국어 문서에서 나타나는 외래어를 인식 및 추출하는 방법에 대하여 기술하였다. 제안한 방법은 외래어 인식 및 추출 문제를 주어진 어절이 순수 한국어를 구성하는 음절인지 외래어를 구성하는 음절인지를 태깅하는 음절태깅이라는 문제로 변환하여 해결하였다. 은닉 마르코프 모델에 기반한 본 논 문의 기법은 실험집합이 같은 경우뿐만 아니라 실험 집합이 디른 경우에도 좋은 성능을 나타내었匸k 또한 기존 연구에 비하여 외래어 인식과 외래어 추출에서 모두 성능향상을 보여주었다.
두 가지 경우에 대하여 실험하였다. 첫 번째로 학습 코퍼스와 실험코퍼스를 같은 실험 집합에서 추출하여 실험을 수행한다. 본 논문에서는 이러한 실험방법을 동종간 실험 (homogeneous test)이라 정의한다.
우선 음절 태깅된 학습 코퍼스로부터 학습을 통하여 음절 태깅에 필요한 정보를 추출한다. 추출된 정보를 이용하여 주어진 어절에 대하여 음절태 깅 작업을 수행한 후 음절 태깅된 결과에서 태그정보를 이용하여 외래어 인식 및 추출한다.
두 번째로. 학습 코퍼스와 실험 코퍼스를 서로 다른 실험집합에서 추출하여 실험을 수행한다. 이를 이종간 실험(heterogeneous test)이라 정의 한다.

대상 데이터

KRIST 실험집합과 KT 실험집합을 하나의 실 험집합으로 만들었다. 만들어진 전체 실험집합의 어 절 수는 약 100.000개이며. 이 증 10%인 10.
본 논문에서는 제안된 외래어 인식 및 추출 방법에 대한 실험을 하기 위하여 전기 전자 및 컴퓨터 분야 의 4.414문서를 포함하는 KT 실험집합〔3)과 생물학, 물리학 등의 과학기술 분야의 13.515 문서를 포함하는 KRIST 실험집합〔6〕을 사용하였다. 또한 각 실험 집합에 나타나는 어절에 대하여 수작업으로 '『와 'K' 로 음절태깅하였다’[표 2]는 두 실험집합에 나타나는 어절에 대하여.
000개이며. 이 증 10%인 10.000개의 어절을 실험코퍼스로 고정하여 사용하고 나叫지를 학습코퍼스로 사용한다. (그림 3)에서 X축은 전체 실 험집합 중에서 사용한 학습코퍼스의 비율을 나타내 며, y축은 재현율과 정확률을 나타낸다.

이론/모형

음 절태깅은 외래어를 구성하는 음절을 표현하는 태그■와 순수 한국어를 구성하는 음절을 표현하는 태그를 정의 하고 이들 태그에 기반하여 주어진 어절 내의 음절을 태깅하는 작업을 말한다. 이러한 음절태깅을 모델링하기 위하여 품사 태깅(POS-tagging)에 자주 사용되는 은닉 마르코프 모델(Hidden Markov Model)을 사용 하였다' 음절태깅을 위한 은닉 마르코프 모델은 주어진 어절 내의 음절의 나열을 순수 한국어 음절을 표현 하는 상태와 외래어 음절을 표현하는 상태의 이진 상 태(binary state)로 모델링한다. 또한, 은닉 마르코프 모델에서 사용될 전이확률(transition probability).
평가 방법으로 정보검색에서 가장 보편적으로 사용되는 재현율과 정확률을 사용한다〔14〕. 재현율은 주 어진 실험집합에 나타나는 정답에 대하여 올바르게 찾아낸 정답의 비율을 나타내며' 정확률은 시스템이 제시한 정답에 대하여 올바르게 찾아낸 정답의 비율 을 나타낸다.

성능/효과

1. 기존의 방법이 어절 내에 음차표기된 외래어를 구성하는 음절보다 순수 한국어를 구성하는 음 절이 많을 경우에는 음차표기된 외래어를 포함 하지 않는다고 판단하기 때문에 추출하지 못하는 외래어가 발생하므로 재현율이 떨어진다.
1. 본 논문의 기법은 동종간 실험과 이종간 실험에서 모두 좋은 성능을 나타내었다.
2. 제안된 방법은 이러한 경우에도 음차표기된 외 래어를 올바르게 추출하므로 재현율의 향상을 보인다.
3. 본 논문은 적은 양의 학습코퍼스를 사용한 경우 에도 외래어를 효율적으로 추출하였다(학습 코퍼스가 3X)00 어절 실험코퍼스가 10, 000어절 일경우에 약 84% 정도의 재현율과 정확률을 나타내었다.)
기존 방법은 본 논문의 기법에 비해 낮은 재현율을 나타낸다. 따라서 본 논문에서 제안한 외래어 추출의 성능이 외래어 인식의 성능에 기존 연구에 비하여 큰 영향을 받지 않음을 알 수 있다. 기존방법의 경우 KT 실험집합에 대한 외래어 인 식에서 비교적 높은 성능을 나타내지만 외래어 추출 에서 KRIST 실험집합과 비슷한 성능을 나타낸다.
[표 10]은 유형별 외래어 추출 실험결과를 나타낸다. 실험 결과에서 순수 한국어나 순수 외래어의 경우는 매우 높은 성능을 나타내는 반면, 외래어와 한국어의 조합은 순수 한국어나 순수 외래어에 비해 비교적 낮은 성능을 나타낸다. 이는 학습코퍼스에 나타난 외래어와 한국어의 조합으로 구성된 어절수가 비교적 적어 자료 부족 문제로 인한 것으로 분석된다.
[표 5]와[표 6]은 외래어 인식과 추출 실험의 결과를 나타내고 있다. 실험 결과에서 제안된 방법은 외래어 인식과 추출 모두에서 높은 정 확률과 재현율을 나타낸다. 실험결과, 외래어 인식에서 평균 24.
실험 결과에서 제안된 방법은 외래어 인식과 추출 모두에서 높은 정 확률과 재현율을 나타낸다. 실험결과, 외래어 인식에서 평균 24.87%의 재현율 향상을 나타내며’ 외래어 추출에서는 평균 42.8% 재현율 향상과 평균 17% 정 확률 향상을 보이고 있다. 외래어 인식의 경우 본 논 문의 기법은 95%이상의 재현율과 97%이상의 정확률 을 나타내는데 비해.
42%이다(이종간 실험결과). 실험결과에서 동 종 실험집합 실험에서는 KRIST 실험집합과 KT실험 집합을 사용한 경우 모두에서 좋은 성능을 보임을 알 수 있다. 이종간 실험에서는 KT실험집합을 학습코퍼 스로 사용한 경우에 KRIST 실험집합을 학습코퍼스 로 사용한 경우보다 보다 좋은 성능을 나타냄을 알 수 있다.
[표 7]은 실험결과를 나타낸다. 실험결과에서 자음정보를 추가한 경우 자 음정보를 추가하지 않은 경우에 비해 재현율과 정확 률에서 성능 향상을 나타낸다. 이러한 성능향상은 외 래어에서 자주 출현하는 교'.
자음정보의 유용성을 살펴보기 위하여 본 논문에서는 음절정보와 전이정보만을 사용하여 외래어를 추출 한 경우와 음절정보, 자음정보, 전이정보를 사용하여 외래어를 추출한 경우에 대하여 비교 실험하였으며, 실험결과 자음정보가 외래어 추출에 유용하다는 것을 보였다. 유형별 외래어 추출 실험에서는 모든 유형에 대하여 비교적 좋은 성능을 나타내었다. 학습코퍼스 의 양에 따른 외래어 추출 실험에서는 적은 양의 학 습코퍼스로도 좋은 성능을 나타냄을 보였다.
제안한 방법은 외래어 인식 및 추출 문제를 주어진 어절이 순수 한국어를 구성하는 음절인지 외래어를 구성하는 음절인지를 태깅하는 음절태깅이라는 문제로 변환하여 해결하였다. 은닉 마르코프 모델에 기반한 본 논 문의 기법은 실험집합이 같은 경우뿐만 아니라 실험 집합이 디른 경우에도 좋은 성능을 나타내었匸k 또한 기존 연구에 비하여 외래어 인식과 외래어 추출에서 모두 성능향상을 보여주었다.
실험결과에서 동 종 실험집합 실험에서는 KRIST 실험집합과 KT실험 집합을 사용한 경우 모두에서 좋은 성능을 보임을 알 수 있다. 이종간 실험에서는 KT실험집합을 학습코퍼 스로 사용한 경우에 KRIST 실험집합을 학습코퍼스 로 사용한 경우보다 보다 좋은 성능을 나타냄을 알 수 있다. 이는 KT실험집합의 경우 KRIST 실험집합 보다 음차표기된 외래어가 많이 포함하고 있어 음차 표기된 외래어에 대한 확률이 보다 정확하게 추출될 수 있었기 때문으로 추정된다.
자음정보의 유용성을 살펴보기 위하여 본 논문에서는 음절정보와 전이정보만을 사용하여 외래어를 추출 한 경우와 음절정보, 자음정보, 전이정보를 사용하여 외래어를 추출한 경우에 대하여 비교 실험하였으며, 실험결과 자음정보가 외래어 추출에 유용하다는 것을 보였다. 유형별 외래어 추출 실험에서는 모든 유형에 대하여 비교적 좋은 성능을 나타내었다.
기존의 방법은 비교적 좋은 성능으로 음차표기된 외래어를 추출하였지만 몇 가지 한계를 가지고 있다. 첫 번째로, 기존의 방법은 두 단계의 과정으로 이루 어져 있으며 첫 번째 단계인 외래어 인식의 성능이 낮아 두 번째 단계인 외래어 추출의 성능에 많은 영향을 끼친다. 이는 주어진 어절에 외래어가 포함되어 있다.
유형별 외래어 추출 실험에서는 모든 유형에 대하여 비교적 좋은 성능을 나타내었다. 학습코퍼스 의 양에 따른 외래어 추출 실험에서는 적은 양의 학 습코퍼스로도 좋은 성능을 나타냄을 보였다.
또한. 학습코퍼스의 실험집합 이 KRIST 실험집합이고, 실험코퍼스의 실험집합이 KT 실험집합일 경우 재현율은 82.94% 이며 정확률 은 87.42%이다(이종간 실험결과). 실험결과에서 동 종 실험집합 실험에서는 KRIST 실험집합과 KT실험 집합을 사용한 경우 모두에서 좋은 성능을 보임을 알 수 있다.

후속연구

향후 외래어와 한국어의 조합으로 구성된 어절에서 의 외래어 추출 성능을 향상시키기 위하여 순수외래 어로 구성된 어절과 한국어 기능어의 결합을 통한 데 이터의 보강에 대한 연구가 필요할 것이며. 음절, 전 이, 자음정보를 효율적으로 통합하는 방법에 대한 연 구도 진행되어야 할 것이匸" 또한 은닉 마르코프 모델의 통계적 특성에 의해 본 논문의 기법은 다른 전 문분야에서 나타나는 음차표기된 외래어의 추출에도 사용될 수 있을 것이다.
향후 외래어와 한국어의 조합으로 구성된 어절에서 의 외래어 추출 성능을 향상시키기 위하여 순수외래 어로 구성된 어절과 한국어 기능어의 결합을 통한 데 이터의 보강에 대한 연구가 필요할 것이며. 음절, 전 이, 자음정보를 효율적으로 통합하는 방법에 대한 연 구도 진행되어야 할 것이匸" 또한 은닉 마르코프 모델의 통계적 특성에 의해 본 논문의 기법은 다른 전 문분야에서 나타나는 음차표기된 외래어의 추출에도 사용될 수 있을 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

은닉 마르코프 모델을 이용한 음차표기된 외래어의 자동인식 및 추출 기법
Automatic Detection and Extraction of Transliterated Foreign Words Using Hidden Markov Model 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

은닉 마르코프 모델을 이용한 음차표기된 외래어의 자동인식 및 추출 기법 Automatic Detection and Extraction of Transliterated Foreign Words Using Hidden Markov Model 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

오종훈 (4) 최기선 (52)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

은닉 마르코프 모델을 이용한 음차표기된 외래어의 자동인식 및 추출 기법
Automatic Detection and Extraction of Transliterated Foreign Words Using Hidden Markov Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper