$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기
Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences 원문보기

한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회, 2018 Oct. 12, 2018년, pp.605 - 607  

이현영 (국민대학교 컴퓨터공학과) ,  강승식 (국민대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 각 모델의 성능 평가를 위해 공백 재현율(spacing recall), 띄어쓰기 태그 정확도(syllable accuracy), 어절 재현율(word recall), 어절 정확도(word precision), F1 score를 사용한다. 어절 재현율과 어절 정확도에서의 어절 기준은 공백으로 한다.
  • 띄어쓰기가 전혀 적용되지 않은 한국어 문장의 자동띄어쓰기 문제를 태그 열 부착 문제로 보고 문장의 각 음절을 자동 띄어쓰기 태그(B 또는 I)로 분류하기 위해 양방향 LSTM-CRF와 음절 임베딩을 이용하는 모델을 제안하였다. 성능 평가 결과로는 음절 벡터 사용 및 음절 Unigram 벡터만 사용하는 모델보다 음절 Unigram 벡터와 음절 Bigram 벡터를 함께 사용한 모델이 97.
  • 본 논문에서는 띄어쓰기가 전혀 적용되지 않은 문장을 입력으로 입력문장의 각 음절에 해당하는 띄어쓰기 태그 클래스(B 또는 I)로 분류하는 방법으로 단방향 LSTM-CRF 모델보다 태그 열 부착에서 우수한 성능을 보여주는 양방향LSTM-CRF 모델을 한국어 자동 띄어쓰기 문제에 적용하였다[9].
  • 양방향 LSTM-CRF 모델은 텐서플로우1)로 구현하였다. 표 2는 학습 및 평가를 위해서 음절 임베딩 종류, 양방향 LSTM의 전방향 셀과 후방향 셀의 출력 연산 종류, 임베딩 크기, LSTM 셀 유닛 크기 등을 다양하게 구성한 모델 종류를 나타내고, 각 모델들은 확률적 경사 하강법(stochastic gradient descent)으로 학습하였다.
  • 제안하는 모델은 그림 2와 같이 입력 문장을 음절 Unigram과 Bigram으로 연속적인 벡터 공간에 표현한 음절 벡터와 양방향 LSTM를 이용하여 음절 벡터를 새로운 자질 정보로 인코딩하고 전방향 신경망(feedforward neural network)을 이용하여 생성된 지역적 태그 점수와 선형체인 CRF를 이용하여 태그 열 부착을 수행하였다. 이때, 전방향 신경망은 각 음절에 태그 클래스 점수를 계산하기 위해 비선형 함수를 사용하지 않은 출력층 한 개만을 사용하였다.
  • 로 구현하였다. 표 2는 학습 및 평가를 위해서 음절 임베딩 종류, 양방향 LSTM의 전방향 셀과 후방향 셀의 출력 연산 종류, 임베딩 크기, LSTM 셀 유닛 크기 등을 다양하게 구성한 모델 종류를 나타내고, 각 모델들은 확률적 경사 하강법(stochastic gradient descent)으로 학습하였다.

대상 데이터

  • 자동 띄어쓰기 실험을 위한 말뭉치 데이터는 “차세정 언어처리 경진대회 2018”의 자동 띄어쓰기 태스크에서 제공하는 말뭉치를 사용했다.
  • 말뭉치 크기는 15,000개 문장으로 308,825개 단어, 980,908개 음절로 구성되어있다. 자동 띄어쓰기 학습 및 평가를 위해 15,000개 문장을 13,500개의 학습 문장, 1,500개 테스트 문장으로 구성하여 학습 및 평가를 수행하였다.

이론/모형

  • 한국어는 음절 단위 조합으로 단어를 생성하고, 자주 사용되는 음절의 수는 한정되는 만큼 본 논문에서는 모든 단어를 벡터로 표현하는 것보다는 음절을 연속적인 벡터 공간에 표현하는 방식의 음절 임베딩(syllable embedding)을 사용하였다. 그림 1은 음절 임베딩을 위한 말뭉치 문장의 음절 Unigram 및 Bigram 사전을 구성하는 방법을 나타낸다.
본문요약 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로