[논문]심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템

박호민; 김창현; 천민아; 노경목; 김재훈

심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템
Loanword Recognition Using Deep Learning 원문보기

한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회, 2017 Oct. 13, 2017년, pp.71 - 75

박호민 (한국해양대학교, 컴퓨터정보공학과) , 김창현 (한국전자통신연구원) , 천민아 (한국해양대학교, 컴퓨터정보공학과) , 노경목 (한국해양대학교, 컴퓨터정보공학과) , 김재훈 (한국해양대학교, 컴퓨터정보공학과)

초록
AI-Helper

외래어란 외국어로부터 들어와 한국어에 동화되고 한국어로서 사용되는 언어이다. 나날이 우리의 언어사용 문화에서 외래어의 사용 비율은 높아져가는 추세로, 전문분야에서는 특히 두드러진다. 그러므로 더 효율적이고 효과적인 자연언어처리를 위해서 문서 내 외래어 인식은 중요한 전처리 과정이다. 따라서 본 논문에서는 bidirectional LSTM(이하 bi-LSTM)-CRF 모형의 심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템을 제안한다. 제안하는 시스템의 외래어 인식 학습 과정은 다음과 같다. 첫째, 학습용 말뭉치 자료의 한글 음절들과 공백, 마침표(.)를 토대로 word2vec을 통해 학습용 피쳐(feature) 자료를 생성한다. 둘째, 학습용 말뭉치 자료와 학습용 피쳐 자료를 결합하여 bi-LSTM 모형 학습 자료를 구축한다. 셋째, bi-LSTM 모형을 거쳐 학습된 결과물을 CRF 모형에서 로그 가능도(log likelyhood)와 비터비(Viterbi) 알고리즘을 통해 학습 결과물을 내놓는다. 넷째, 학습용 말뭉치 자료의 정답과 비교한 뒤 모형 내부의 수치들을 조정한다. 다섯째, 학습을 마칠 때까지 반복한다. 본 논문에서 제안하는 시스템을 이용하여 자체적인 뉴스 수집 자료에 대해서 높은 정확도와 재현율을 기록하였다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템을 제안하였다. 해당 시스템은 파이썬 프로그래밍 언어의 젠심 모듈을 이용해 word2vec 모형을 제작하여 한글 음절 임베딩의 피쳐를 제작하였고, 제작한 한글 음절에 대한 음절 임베딩 자료를 bi-LSTM과 CRF모형을 이용하여 문서의 음절마다 ‘K’(한국어) 태그, ‘E’(외래어) 태그를 부여해 외래어 인식을 수행한다.
본 논문에서는 심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템을 제안한다. 제안하는 시스템은 심층학습 모형인 bi-directional LSTM과 CRF 모형을 이용하여 외래어를 인식할 문서의 음절마다 태그를 부착하여 외래어를 인식한다.

제안 방법

word2vec 모형에서 학습 자료로 사용된 뉴스 자료는 자체 수집한 뉴스 문서들을 이용하였다. 가능한 다양한 자료를 담기위해 문화, 경제, 연예, 국제, 과학, 지역, 정치, 사회, 스포츠의 9개 분야를 사용하였다. 분량은 약 2GB 정도이며 연합뉴스의 2017년도 분을 사용하였다.
간선의 수치 계산 방법은 로그 가능도를 사용하며 그것을 최적 결과열 도출 단계에서 비터비 알고리즘을 적용할 때 각 정점에 대한 상태 전이 확률로 사용한다. 그렇게 비터비 알고리즘을 이용하여 동적 프로그래밍 방식으로 그림 7처럼 한 단계 한 단계 음절들에 대한 태그를 결정한 태그 예측열을 최종 결과물로 제출하게 되고 학습 과정에서는 정답과 결과물을 비교하여 학습율(learning rate)에 따라 내부 수치를 재조정하여 학습을 지속해 나간다.
따라서 CBOW 모형과 Skip-gram 모형은 서로 반대의 방법을 취하고 있다고 볼 수 있으며 본 논문에서 제안하는 시스템에서는 Skip-gram 모형을 차용하여 음절 임베딩을 실시하였다.
문서 내에서 외래어를 인식하기 위해 일반적인 어절이나 단어적, 형태소적 접근이 아닌 음절에 따른 한국어(‘K’태그)와 외래어(‘E’태그) 분류로 접근하였다.
본 논문에서 제안하는 시스템에서는 bi-LSTM을 통해 학습되어 나온 결과값들을 이용하여 정점과 간선을 로그 가능도(log likelyhood)로 구한다. 구하고난 뒤, 선형체인(linear chain) 형태 그래프를 제작하여 음절태깅을 진행한다.
본 논문에서 제안하는 시스템에서는 bi-LSTM을 통해 학습되어 나온 결과를 CRF를 통해 선형 체인 그래프로 만든 뒤 해당 알고리즘을 사용하여 각 학습 단계의 최종 결과물인 예측 결과열을 생성한다.
본 논문에서는 학습 말뭉치 자료에 대한 학습 모형으로 bi-LSTM을 사용하여 입력되는 문장의 구문 정보를 양방향으로 제공하여 좀 더 효율적인 음절태깅을 수행하였다.
문서 내에서 외래어를 인식하기 위해 일반적인 어절이나 단어적, 형태소적 접근이 아닌 음절에 따른 한국어(‘K’태그)와 외래어(‘E’태그) 분류로 접근하였다. 본 논문의 시스템에서는 젠심 모듈의 word2vec 모형으로 음절 임베딩을 시행하는 전처리 단계와 그러한 전처리 결과물로 실질적인 음절태깅을 위한 학습을 진행하는 bi-LSTM 모형, 학습 결과물을 다듬고 차원 축소(dimentionality reduction)를 진행하여 예측 결과를 도출해내 외래어를 인식하는 CRF 모형과 비터비 알고리즘을 이용한 후처리로 이루어져 있다.
본 논문에서는 심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템을 제안한다. 제안하는 시스템은 심층학습 모형인 bi-directional LSTM과 CRF 모형을 이용하여 외래어를 인식할 문서의 음절마다 태그를 부착하여 외래어를 인식한다.
평가 방식은 단순 음절태그 예측 정확도(accuracy)-정확률(precision)-재현율(recall)-f1 measure 값, 한글 음절 임베딩 피쳐의 차원 수(50개, 100개), 태그 개수(2개( ‘K’ , ‘E’ ), 4개( ‘K’ , ‘E’, ‘ ’ , ‘.’ ))에 따라 세 가지 방법으로 진행하였다.
해당 시스템은 파이썬 프로그래밍 언어의 젠심 모듈을 이용해 word2vec 모형을 제작하여 한글 음절 임베딩의 피쳐를 제작하였고, 제작한 한글 음절에 대한 음절 임베딩 자료를 bi-LSTM과 CRF모형을 이용하여 문서의 음절마다 ‘K’(한국어) 태그, ‘E’(외래어) 태그를 부여해 외래어 인식을 수행한다.

대상 데이터

bi-LSTM 모형에서 학습 및 시험 자료로 사용된 자료는 자체 제작한 1만여 문장의 뉴스 보도 자료와 정답 자료를 사용했으며 80%를 학습에 사용했고 나머지 20%로 시험을 진행했다. 정답으로 쓰인 태그 종류는 총 네 가지로 표 1과 같이 설정하였다.
word2vec 모형 학습에 이용한 뉴스 자료는 연합뉴스의 2017년도 분의 문화, 경제, 연예, 국제, 과학, 지역, 정치, 사회, 스포츠의 9개 분야를 약 2GB 정도 수집하여 사용하였다. bi-LSTM-CRF 모형의 학습에 사용된 학습 자료와 시험 자료는 자체 제작한 1만여 문장의 KBS 뉴스 보도 자료와 그에따른 외래어, 한국어 태깅 결과 자료를 사용했다. 비율은 80 : 20으로 나누어 활용했다.
word2vec 모형 학습에 이용한 뉴스 자료는 연합뉴스의 2017년도 분의 문화, 경제, 연예, 국제, 과학, 지역, 정치, 사회, 스포츠의 9개 분야를 약 2GB 정도 수집하여 사용하였다. bi-LSTM-CRF 모형의 학습에 사용된 학습 자료와 시험 자료는 자체 제작한 1만여 문장의 KBS 뉴스 보도 자료와 그에따른 외래어, 한국어 태깅 결과 자료를 사용했다.
word2vec 모형에서 학습 자료로 사용된 뉴스 자료는 자체 수집한 뉴스 문서들을 이용하였다. 가능한 다양한 자료를 담기위해 문화, 경제, 연예, 국제, 과학, 지역, 정치, 사회, 스포츠의 9개 분야를 사용하였다.
가능한 다양한 자료를 담기위해 문화, 경제, 연예, 국제, 과학, 지역, 정치, 사회, 스포츠의 9개 분야를 사용하였다. 분량은 약 2GB 정도이며 연합뉴스의 2017년도 분을 사용하였다.
제작한 시스템 내부의 word2vec 모형을 위한 학습용 자료로써 자체 수집한 뉴스 자료를 이용하였고, bi-LSTM-CRF 모형을 위한 학습용 자료로써 자체 제작한 음절태깅을 진행한 뉴스 말뭉치를 사용하였다.

이론/모형

음절 임베딩 단계에서는 skip-gram 방식을 이용한 word2vec 모형을 이용한다. 입력되는 각 음절에 대해 앞·뒤에 어떤 음절이 있을지를 예측한다.

성능/효과

음절 임베딩의 차원이 50차원인 것보다 100차원일 경우에 평균적으로 높은 수치를 기록했으며, 태그를 2개 사용한 것 보다 띄어쓰기와 마침표를 넣어서 최소한의 문맥적 의미를 제공한 태그가 4개인 버전이 평균적으로 높은 수치를 기록했다. 이는 외래어 인식을 위한 올바른 음절태깅에 있어서 가능한 다양한 정보가 학습 모형으로 하여금 신뢰도 높은 예측을 하게 만든다는 것을 의미한다.
하지만 가장 치명적인 약점은 학습 자료에 존재하지 않았던 외래어를 만났을 때 인식율이 낮았으며, 학습 단계에 있어서 어려움은 각 단계마다 과적합(overfitting)이 될 수 있다는 것과 말뭉치 내 외래어 음절보다 한국어 음절의 절대 개수의 높은 차이로 인해 음절 태깅의 결과가 한국어 태그로 편중(bias)될 수도 있다는게 있었다. 첫 번째로 제시한 약점과 편중 문제는 학습 말뭉치 자료의 추가적인 확보 및 정제로 어느정도 해결할 수 있을거라 생각하며 과적합 문제는 학습율 조정 및 학습율 감퇴 적용 등을 추가적으로 연구할 예정이다.

후속연구

본 논문에서 제안하는 시스템의 개선을 위하여 향후 연구로 외래어 사전 추가, 학습 말뭉치 추가 확보 및 정제, 음절에 대해 추가적인 정보 제공 방법 연구 등을 진행하여 음절태깅을 이용한 외래어 인식 시스템의 성능을 향상시킬 계획이다.
하지만 가장 치명적인 약점은 학습 자료에 존재하지 않았던 외래어를 만났을 때 인식율이 낮았으며, 학습 단계에 있어서 어려움은 각 단계마다 과적합(overfitting)이 될 수 있다는 것과 말뭉치 내 외래어 음절보다 한국어 음절의 절대 개수의 높은 차이로 인해 음절 태깅의 결과가 한국어 태그로 편중(bias)될 수도 있다는게 있었다. 첫 번째로 제시한 약점과 편중 문제는 학습 말뭉치 자료의 추가적인 확보 및 정제로 어느정도 해결할 수 있을거라 생각하며 과적합 문제는 학습율 조정 및 학습율 감퇴 적용 등을 추가적으로 연구할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	심층학습이란 무엇인가?	심층학습은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습 알고리즘의 집합으로 정의된다. 풀어서 설명하면 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 이야기할 수 있다[9].
	한 문서에서 중요한 뜻을 가지는 단어의 품사는 무엇인가?	일반적으로 한 문서에서 중요한 뜻을 가지는 단어의 품사는 명사이며, 그래서 주제어 추출은 해당 문서의 명사들을 추려내 그 중 중요도가 높은 명사를 찾는 일로 간주된다[4].
	외래어 인식은 중요하고 반드시 필요한 전처리 과정이라고 할 수 있는 이유는 무엇인가?	여러 다양한 분야에서 인터넷을 통한 외국과의 활발한 학문적 교류로 인해서 사회 전반적으로 외래어를 사용하게 되는 경향이 두드러지고 있다. 그러나 외래어는 사용 분야와 적용 범위, 새롭게 만들어지는 주기가 짧고 다양할 수밖에 없다. 그렇기에 사전에 등재될 때까지 외래어는 미등록어가 된다. 이러한 현상은 미등록어 문제를 일으키고 그것은 한국어 자연언어처리에 있어서 큰 걸림돌이다[5]. 따라서 외래어 인식은 중요하고 반드시 필요한 전처리 과정이라고 할 수 있다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템
Loanword Recognition Using Deep Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템 Loanword Recognition Using Deep Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템
Loanword Recognition Using Deep Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper