[논문]음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기

이현영; 강승식

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기
Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences 원문보기

이현영 (국민대학교 컴퓨터공학과) , 강승식 (국민대학교 컴퓨터공학과)

본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

각 모델의 성능 평가를 위해 공백 재현율(spacing recall), 띄어쓰기 태그 정확도(syllable accuracy), 어절 재현율(word recall), 어절 정확도(word precision), F1 score를 사용한다. 어절 재현율과 어절 정확도에서의 어절 기준은 공백으로 한다.
띄어쓰기가 전혀 적용되지 않은 한국어 문장의 자동띄어쓰기 문제를 태그 열 부착 문제로 보고 문장의 각 음절을 자동 띄어쓰기 태그(B 또는 I)로 분류하기 위해 양방향 LSTM-CRF와 음절 임베딩을 이용하는 모델을 제안하였다. 성능 평가 결과로는 음절 벡터 사용 및 음절 Unigram 벡터만 사용하는 모델보다 음절 Unigram 벡터와 음절 Bigram 벡터를 함께 사용한 모델이 97.
본 논문에서는 띄어쓰기가 전혀 적용되지 않은 문장을 입력으로 입력문장의 각 음절에 해당하는 띄어쓰기 태그 클래스(B 또는 I)로 분류하는 방법으로 단방향 LSTM-CRF 모델보다 태그 열 부착에서 우수한 성능을 보여주는 양방향LSTM-CRF 모델을 한국어 자동 띄어쓰기 문제에 적용하였다[9].
양방향 LSTM-CRF 모델은 텐서플로우¹⁾로 구현하였다. 표 2는 학습 및 평가를 위해서 음절 임베딩 종류, 양방향 LSTM의 전방향 셀과 후방향 셀의 출력 연산 종류, 임베딩 크기, LSTM 셀 유닛 크기 등을 다양하게 구성한 모델 종류를 나타내고, 각 모델들은 확률적 경사 하강법(stochastic gradient descent)으로 학습하였다.
제안하는 모델은 그림 2와 같이 입력 문장을 음절 Unigram과 Bigram으로 연속적인 벡터 공간에 표현한 음절 벡터와 양방향 LSTM를 이용하여 음절 벡터를 새로운 자질 정보로 인코딩하고 전방향 신경망(feedforward neural network)을 이용하여 생성된 지역적 태그 점수와 선형체인 CRF를 이용하여 태그 열 부착을 수행하였다. 이때, 전방향 신경망은 각 음절에 태그 클래스 점수를 계산하기 위해 비선형 함수를 사용하지 않은 출력층 한 개만을 사용하였다.
로 구현하였다. 표 2는 학습 및 평가를 위해서 음절 임베딩 종류, 양방향 LSTM의 전방향 셀과 후방향 셀의 출력 연산 종류, 임베딩 크기, LSTM 셀 유닛 크기 등을 다양하게 구성한 모델 종류를 나타내고, 각 모델들은 확률적 경사 하강법(stochastic gradient descent)으로 학습하였다.

대상 데이터

자동 띄어쓰기 실험을 위한 말뭉치 데이터는 “차세정 언어처리 경진대회 2018”의 자동 띄어쓰기 태스크에서 제공하는 말뭉치를 사용했다.
말뭉치 크기는 15,000개 문장으로 308,825개 단어, 980,908개 음절로 구성되어있다. 자동 띄어쓰기 학습 및 평가를 위해 15,000개 문장을 13,500개의 학습 문장, 1,500개 테스트 문장으로 구성하여 학습 및 평가를 수행하였다.

이론/모형

한국어는 음절 단위 조합으로 단어를 생성하고, 자주 사용되는 음절의 수는 한정되는 만큼 본 논문에서는 모든 단어를 벡터로 표현하는 것보다는 음절을 연속적인 벡터 공간에 표현하는 방식의 음절 임베딩(syllable embedding)을 사용하였다. 그림 1은 음절 임베딩을 위한 말뭉치 문장의 음절 Unigram 및 Bigram 사전을 구성하는 방법을 나타낸다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기
Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기 Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기
Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper