[논문]한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구

최상혁; 설진석; 이상구

문제 정의

하지만 이 경우 어근자체에 대한 단어 임베딩의 결과는 구할 수 없는 단점이 있다. 따라서 본 논문에서는 형태소를 기본 단위로 하는 한국어 단어 임베딩을 효과적으로 생성하는 방법을 제안한다.

제안 방법

최근 분산 시멘틱 가정에 기초한 신경망 기반의 단어 임베딩 모델이 많은 자연어 처리 분야에 사용되고 있다. 기존의 많은 연구들이 영어에 특화된 학습모델 및 실험 방법들로 수행되어져 온 반면, 본 연구에서는 언어의 특성을 고려한 다양한 실험을 통해 한국어 처리에 가장 적합한 단어 임베딩 모델을 찾고 및 각각의 파라미터 설정이 성능에 미치는 영향을 분석하였으며, 최종적으로 가장 좋은 성능을 보이는 학습 방법을 도출하였다.
단어 임베딩 학습에 앞서 형태소 분석기를 사용하여 품사 분류(POS Tagging)를 하였다. 이는 형태소 분석을 하지 않은 [11]과는 다른 접근이며, 동일한 글자로 구성된 단어라 할지도 품사가 다르다면 다른 의미를 가진 단어로 취급하기 위해 필요한 처리이다.
본 논문에서는 현대적인 언어생활을 반영하기 위해 인터넷에 공개된 말뭉치를 활용해 기존 세종 말뭉치보다 약 10배 정도 큰 규모의 말뭉치를 생성해 학습에 이용하였다. 이 말뭉치를 기반으로 GloVe[12], Word2Vec[4] 에서 제안하고 있는 학습 모델을 사용하였으며, 이때 형태소 분석, 파라미터 설정 등이 정확도에 어떤 영향을 주는지 분석하였다.
이 말뭉치들은 기존 연구에서 사용된 말뭉치[11]보다 좀 더 현대적인 단어의 용법을 포함하고 있으며 말뭉치의 크기가 더 크다는 장점을 지닌다. 본 연구에서는 수집된 말뭉치들이 단어 임베딩 학습에 사용될 수 있도록 URL, 외국어, 각종 특수문자 등 한국어와 관련 없는 표현을 모두 제거하였으며, 뉴스 기사 말뭉치에서는 본문 외에 광고성 문구를 삭제하고 중복 기사를 제거하는 전처리(pre-processing) 과정을 추가로 수행하였다. 각 말뭉치에 대한 자세한 정보는 <표 3>와 같으며, 표에 나와 있는 값들은 전처리 과정을 모두 마친 후에 집계된 통계이다.
∈R^d를 만들어 w_i와 w_j의 내적이 logX_ij와 최대한 유사해지도록 단어 벡터들을 학습하는 모델이다. 본 연구에서는 위 세 가지 모델을 실험에 적용하였다.
형태소 분석기는 주어진 문장을 형태소단위로 나누어 어근과 조사, 어미 등을 분리해주고 어근 역시 명사 및 동사, 형용사 등으로 구분시켜준다. 본 연구에서는 트위터 형태소 분석기[16]와 꼬꼬마 형태소 분석기[17]를 이용하여 말뭉치에 등장하는 모든 문장에서 독립적으로 의미를 지니지 못하는 형식형태소를 제거하고, 체언과 용언 등 실질적인 의미를 지니는 단위를 단어 임베딩의 입력단위로 사용하였다. 학습에 사용한 품사 태그는 <표 1>과 같다.
본 논문에서는 현대적인 언어생활을 반영하기 위해 인터넷에 공개된 말뭉치를 활용해 기존 세종 말뭉치보다 약 10배 정도 큰 규모의 말뭉치를 생성해 학습에 이용하였다. 이 말뭉치를 기반으로 GloVe[12], Word2Vec[4] 에서 제안하고 있는 학습 모델을 사용하였으며, 이때 형태소 분석, 파라미터 설정 등이 정확도에 어떤 영향을 주는지 분석하였다.
파라미터 실험에서는 한국어에 맞는 단어 임베딩 모델을 학습하기 위한 최적의 파라미터를 추정하였다. 기준이 되는 파라미터 설정은 나무위키와 뉴스 기사를 사용한 말뭉치, skip-gram 기반의 Word2Vec 모델, 꼬꼬마 형태소 분석기 사용, 300 차원, 윈도우 크기 5, 최소 단어 출현 수 제한 50이다.
형태소 분석에는 트위터 형태소 분석기와 꼬꼬마 형태소 분석기를 사용하였으며, 이에 따른 성능 비교는 와 같다.

대상 데이터

파라미터 실험에서는 한국어에 맞는 단어 임베딩 모델을 학습하기 위한 최적의 파라미터를 추정하였다. 기준이 되는 파라미터 설정은 나무위키와 뉴스 기사를 사용한 말뭉치, skip-gram 기반의 Word2Vec 모델, 꼬꼬마 형태소 분석기 사용, 300 차원, 윈도우 크기 5, 최소 단어 출현 수 제한 50이다.
본 연구에서 사용된 말뭉치의 전체 크기는 약 5Gb 이며, 이 중 10%, 30%, 60%만을 임의로 추출하여 학습하여 평가한 말뭉치 크기에 따른 성능은 과 같다.
성능 평가로는 단어 임베딩 평가에 가장 널리 쓰이는 WS353 테스트셋을 사용하였다. WS353에는 관련도 (WS353-R)와 유사도(WS353-S)를 평가하기 위한 353개의 단어 짝이 있으며, 각 단어 짝의 관련도와 유사도의 정도를 0~1 사이의 값으로 나타내고 있다.

데이터처리

평가지표로는 각 테스트셋에 있는 단어 짝들에 대해, 단어 임베딩을 시행한 후 얻은 두 벡터들 사이의 코사인 유사도 값과 실제 점수와의 피어슨 상관계수를 이용하였다. WS353 데이터의 예시는 <표 2>와 같다.

성능/효과

임베딩 대상이 되는 차원의 수에 따른 성능 비교는<그림 6>과 같다. 50 이상, 300 이하의 차원에서는 비슷한 성능을 내고 있으며, 300 이상의 차원에서는 차원의 크기가 커질수록 성능이 하락하는 모습이 나타났다. 전체 어휘 수에 따라서 결과는 달라질 수 있지만, 본 연구에서 사용한 말뭉치 크기 수준에서는 100~300차원에서 가장 높은 성능을 보이고 있다.
말뭉치 종류별 단어 임베딩의 성능은 와 같으며, 나무위키와 뉴스 기사를 합친 말뭉치가 가장 높은 결과를 보였다.
모델별 성능 비교는 와 같으며, [11]과는 달리 GloVe보다 Word2Vec이 더 높은 성능을 내는 것으로 나타났다.
원본은 영어로 되어있으며, 본 연구에서는 이를 한국어로 번역하여 사용하였다. 번역 결과, 한국어로 표현되기 어려운 단어들이 약 8% 존재하였으며 해당 단어들은 최대한 적합한 한국어 단어들을 찾아서 대체하였다.
본 실험을 통해 최종적으로 한국어에 적합한 단어 임베딩 학습 방법은 CBOW 혹은 skip-gram 기반의 Word2Vec 모델을 사용하고, 300 차원 크기의 임베딩, 5~7 사이의 윈도우 크기를 설정하며, 최소 출현수 제한은 말뭉치 크기에 따라 적절히 큰 값으로 설정하는 것이 가장 좋은 성능을 보이는 것을 확인하였다. 모든 경우에 있어서 WS353-R과의 피어슨 상관계수가 가장 높았던 수치는 0.
단어 임베딩 방법으로는 LSI(Latent Semantic Indexing)[13]등 랭킹 및 검색을 위한 모델, 그리고 Word2Vec[4], GloVe[12] 와 같이 자연어처리를 위해 분산 시맨틱 가정에 기반하여 단어 임베딩을 학습하는 모델 등이 있다. 본 연구에서는 후자를 대상으로 실험을진행하였으며, [14]에 따르면 영어를 비롯한 라틴문자 기반의 언어는 Word2Vec 모델이 전반적으로 가장 높은 성능을 보이고 있다.
최소 출현수가 일정 값 이하인 경우는 학습에 사용하지 않는 것으로 처리하고 학습 하였을 때의 결과는 <그림 8>과 같다. 실험적으로, 같은 어휘 크기(vocabulary size)를 가진 말뭉치에서 어휘당 평균 출현수는 영어가 한국어보다 약 4.9배 가량 많으며[20], 이는 곧 한국어 어휘가 학습할 컨텍스트가 부족하다는 의미이기 때문에 최소 출현수 제한이 높을수록 어휘당 평균 출현수는 더 올라가며, 결과적으로 성능이 향상되는 것으로 나타났다. 하지만 출현 수 제한은 해당 단어의 학습 배제를 의미하므로, 출현 빈도가 높지 않은 고유명사 등에 대한 임베딩을 얻기 위해서는 말뭉치 크기에 따른 적절한 수준의 최소 출현수를 유지 하여야 한다.
윈도우 크기별로 성능을 비교한 결과는 <그림 7>과 같다. 윈도우 크기가 커짐에 따라 WS353-R의 결과가 높아지는 것으로 보아, 앞뒤 단어를 많이 학습에 활용할수록 해당 단어와 관련성이 있는 단어를 잘 학습하는 것으로 보이고, WS353-S의 결과를 보면 해당 단어와 유사한 단어는 앞뒤 5개정도의 단어만을 이용하여 학습하였을 때 가장 잘 찾는 것으로 나타났다.
50 이상, 300 이하의 차원에서는 비슷한 성능을 내고 있으며, 300 이상의 차원에서는 차원의 크기가 커질수록 성능이 하락하는 모습이 나타났다. 전체 어휘 수에 따라서 결과는 달라질 수 있지만, 본 연구에서 사용한 말뭉치 크기 수준에서는 100~300차원에서 가장 높은 성능을 보이고 있다.
평가결과, 말뭉치의 크기와 성능이 비례해서 증가하지는 않는 것으로 확인되었다. 이는 말뭉치의 크기가 커짐에 따라 동사, 형용사와 같은 품사의 어휘 종류 수는 어느 정도 수렴하는 반면, 명사의 경우 고유명사 등 새로운 어휘가 계속 추가되기 때문에 학습에 사용되는 단어 당 해당 단어를 포함하는 문장 수가 거의 증가 하지 않고, 오히려 새로 추가된 어휘들이 노이즈로 작용하는 경우도 존재하기 때문인 것으로 판단된다.

후속연구

다만 본 연구에서 평가 자료로 사용한 WS353은 영어단어를 기반으로 만들어진 자료로써 한국어 임베딩을 평가하기에는 부족한 점이 있으며, 관련 연구를 지속하기 위해서는 한국어 특성에 부합하는 임베딩 평가 방법 및 데이터를 구축해야 한다. 또한 기존 모델을 한국어에 적용하는 것에서 나아가 한국어 처리에 적합한 새로운 단어 임베딩 모델을 고안하는 연구가 필요하다.
다만 본 연구에서 평가 자료로 사용한 WS353은 영어단어를 기반으로 만들어진 자료로써 한국어 임베딩을 평가하기에는 부족한 점이 있으며, 관련 연구를 지속하기 위해서는 한국어 특성에 부합하는 임베딩 평가 방법 및 데이터를 구축해야 한다. 또한 기존 모델을 한국어에 적용하는 것에서 나아가 한국어 처리에 적합한 새로운 단어 임베딩 모델을 고안하는 연구가 필요하다.

핵심어	질문	논문에서 추출한 답변
	단어 임베딩을 생성 할 때는 어떤 단계를 가지는가?	단어 임베딩을 생성 할 때에는 일반적으로, 1)학습 말뭉치 구성 2)말뭉치의 형태소 분석 3)주요 파라미터 설정(벡터 차원 수, 주변 단어 수 윈도우 크기) 4)모델을 통한 학습 과 같은 단계로 이루어진다. 각각의 단계의 처리 방법이나 파라미터의 값에 따라 실제적인 단어 임베딩의 정확도가 차이가 생기기 때문에, 절적한 수치나 방법을 선택하는 것이 중요하다.
	단어 임베딩은 벡터 표현으로 어디에 활용되는가?	이러한 벡터 표현은 다양한 응용의 자연언어처리 기반으로 활용된다[1-4]. 이를 활용하는 응용으로는 기계 번역[5-7], 문서 요약[8], 개체명 인식[9] 등이 있다.
	단어 임베딩은 무엇인가?	단어 임베딩(word embedding)은 자연어로 이루어진 단어를 고정된 차원의 실수 벡터로 변환시키는 과정으로 분산 표현(distributed representation) 이라고도 한다. 이러한 벡터 표현은 다양한 응용의 자연언어처리 기반으로 활용된다[1-4].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구
On Word Embedding Models and Parameters Optimized for Korean 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구 On Word Embedding Models and Parameters Optimized for Korean 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구
On Word Embedding Models and Parameters Optimized for Korean 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper