[논문]딥러닝과 Char2Vec을 이용한 문장 유사도 판별

임근영; 조영복

doi:10.6109/jkiice.2018.22.10.1300

딥러닝과 Char2Vec을 이용한 문장 유사도 판별
The Sentence Similarity Measure Using Deep-Learning and Char2Vec 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.22 no.10, 2018년, pp.1300 - 1306

임근영 (Department of Information Security, Daejeon University) , 조영복 (Department of Information Security, Daejeon University)

초록
AI-Helper

본 연구는 자연어 처리 문제 중 하나인 문장 유사도 판별 문제를 딥러닝으로 해결하는 데에 있어 Char2Vec기반으로 문장을 전 처리하고 학습시켜 그 성능을 확인하고 대표적인 Word Embedding 모델 Word2Vec를 대체할 수 있는 가능성이 있는지 파악하고자 한다. 임의의 두 문장을 비교할 때 쓰는 딥러닝 구조로 Siamese Ma-STM 네트워크를 사용하였다. Word2Vec와 Char2Vec를 각각 기반으로 한 문장 유사도 판별 모델을 학습시키고 그 결과를 분석하였다. 실험 결과 Char2Vec를 기반으로 학습시킨 모델이 validation accuracy 75.1%을 보였고 Word2Vec를 기반으로 학습시킨 모델은 validation accuracy 71.6%를 보였다. 따라서 고 사양을 요구하는 Word2Vec대신 임베딩 레이어를 활용한 Char2Vec 기반의 전처리 모델을 활용함으로 분석 환경을 최적화 할 수 있다.

Abstract ▼ AI-Helper

The purpose of this study is to see possibility of Char2Vec as alternative of Word2Vec that most famous word embedding model in Sentence Similarity Measure Problem by Deep-Learning. In experiment, we used the Siamese Ma-LSTM recurrent neural network architecture for measure similarity two random sentences. Siamese Ma-LSTM model was implemented with tensorflow. We train each model with 200 epoch on gpu environment and it took about 20 hours. Then we compared Word2Vec based model training result with Char2Vec based model training result. as a result, model of based with Char2Vec that initialized random weight record 75.1% validation dataset accuracy and model of based with Word2Vec that pretrained with 3 million words and phrase record 71.6% validation dataset accuracy. so Char2Vec is suitable alternate of Word2Vec to optimize high system memory requirements problem.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

또한 한글과 영문 등이 언어가 혼용된 다중어 처리가 어렵고 한글에서는 영문보다 낮은 성능을 보이고 있다. 따라서 이 논문에서는 이런 문제를 해결하기 위해 워드임베딩 방법 중 메모리 효율성을 높이고 다중어 처리가 가능한 Char2Vec으로 대체가 가능한지 실험을 통해 증명하였다. 실험결과, Char2Vec 기반의 질문 문장 유사도 판정 딥러닝 모델을 기존 범용적으로 사용되는 Word2Vec기반 모델과 비교했을 때 학습 과정에 있어서 상대적으로 다소 불안정하였으나 성능측정에서 봤을 때 Char2Vec를 기반으로 학습시킨 모델이 validation accuracy 75.
2017년 국내 연구로 Word2Vec과 CNN기반의 한국어 문서 분류가 제시되었으나 한글에서는 높은 성능을 보이지는 못했다[2]. 본 논문에서는 Word2Vec의 문제점을 해결하기 위해 딥러닝을 이용한 문장 유사도 자연어 처리시 중요한 메모리 문제를 해결하면서 다중어 처리가 가능한 Char2vec 모델 사용의 타당성을 실험을 통해 증명한다[3]. 본 논문에서는 딥러닝 알고리즘으로 해결하는데 Word2Vec와 Char2Vec의 성능을 비교하고 Char2Vec 모델이 Word2Vec 모델을 대체할 수 있는지 가능성을 실험을 통해 증명한다.
본 논문에서는 Word2Vec의 문제점을 해결하기 위해 딥러닝을 이용한 문장 유사도 자연어 처리시 중요한 메모리 문제를 해결하면서 다중어 처리가 가능한 Char2vec 모델 사용의 타당성을 실험을 통해 증명한다[3]. 본 논문에서는 딥러닝 알고리즘으로 해결하는데 Word2Vec와 Char2Vec의 성능을 비교하고 Char2Vec 모델이 Word2Vec 모델을 대체할 수 있는지 가능성을 실험을 통해 증명한다. 본 논문의 구성은 2장 관련연구에서 Word2Vec와 Char2vec에 대해 기술하고 3장에서는 워드임베딩알고리즘의 성능평가를 위한 문장 유사도 판별 실험을 제시한다.
머신러닝/딥러닝 데이터를 공유하고 공유된 데이터를 두고 경쟁하는 Kaggle에서는 문장 유사도 판별을 위한 Quora의 데이터가 공유되었다. 본 연구에서는 이 Quora 문장 데이터를 사용하여 문장 유사도 판별 딥러닝 모델을 학습시켰다. 표1은 학습에 사용된 데이터의 특징을 설명한 것이다.
본 연구에서는 자연어 처리를 위해 대중적으로 사용되고 있는 Word2Vec가 갖는 문제점을 해결하기 위해 동일 성능으로 사용가능한 Char2Vec의 사용 타당성을 실험을 통해 증명하였다. 자연어 처리의 문장 유사도 측정을 위해 구글의 Word2Vec가 많이 사용되고 있으나 Word2Vec 처리를 위해서는 높은 메모리 사용량이 요구된다.

제안 방법

0001값을 사용하였다. 3.3에서 언급하였듯이 Word2Vec는 모든 단어에 대한 vector들을 Embedding Layer로 구성하는 것이 실험 컴퓨터 메모리 한계로 가능하지 않았고, 그래서 Batch 단위로 vector 변환을 하였다. 따라서 Word2Vec 실험 케이스에서 200 epoch 학습에 약 20시간이 소요되었고 이는 Char2Vec 케이스의 12시간보다 학습시간이 8시간 더 오래 걸린 것이다.
0 사이의 무작위 한 값들로 초기화 한 것임에도 Word2Vec 기반 모델과 비슷한 성능을 보여준 것은 눈에 띄는 점이였다. Char2Vec와 Word2Vec 기반 모델의 학습 그래프를 관찰하였다.
문장 유사도 측정에 LSTM을 사용을 위해 본 연구에서는 LSTM의 장점을 유지하면서 계산복잡성을 낮춘 GRU를 사용하였다[9]. RNN의 timestep을 결정하기 위해, 데이터 셋의 문장의 문자 개수와 단어 개수의 분포를 알아보았다. Word2Vec의 timestep은 20, Char2Vec와 마찬가지로 짧은 데이터의 남는 부분은 zero padding으로 처리하였다.
우리는 Word2Vec와 Char2Vec의 실험 케이스를 구분하여 Char2Vec의 성능을 살펴보았다. Word2Vec의 실험의 경우 미리 학습된 모델을 사용한데 반해 Char2Vec는 Feature Vector를 무작위한 값으로 초기화하고 학습을 진행하였다.
is_duplicated가 문장의 유사도 Label이며 1일 경우 유사 문장, 0일 경우 다른 문장이다. 딥러닝 모델의 학습 성능 확인을 위해 데이터셋을 학습데이터, 검증데이터로 8:2 비율로 무작위로 섞은 이 후 나누었다. 따라서 학습데이터 문장 쌍은 323,432개 이며 검증데이터 문장 쌍은 80,858개이다.
본 논문에서는 실험을 위한 절차는 Word2Vec와 Char2Vec를 이용한 전처리 후 전처리 데이터에 맞는 하이퍼 파라미터로 각 Ma-GRU 네트워크에 입력한다. 또한 Word2Vec와 Char2Vec 기반 모델 각각을 200 epoch을 학습을 수행함으로 네트워크 모델의 유사도 판별실험을 수행하였다.
Word2Vec 또는 Char2Vec로 전 처리가 끝난 데이터는 Siamese 아키텍처로 구성된 Ma-LSTM으로 입력된다. 문장 유사도 측정에 LSTM을 사용을 위해 본 연구에서는 LSTM의 장점을 유지하면서 계산복잡성을 낮춘 GRU를 사용하였다[9]. RNN의 timestep을 결정하기 위해, 데이터 셋의 문장의 문자 개수와 단어 개수의 분포를 알아보았다.
본 논문에서는 실험을 위한 절차는 Word2Vec와 Char2Vec를 이용한 전처리 후 전처리 데이터에 맞는 하이퍼 파라미터로 각 Ma-GRU 네트워크에 입력한다. 또한 Word2Vec와 Char2Vec 기반 모델 각각을 200 epoch을 학습을 수행함으로 네트워크 모델의 유사도 판별실험을 수행하였다.
따라서 자연어 처리 문제를 처리함에 있어 딥러닝 알고리즘과 접목하는 경우 Word2Vec을 대신해 Char2Vec모델로 대체할 수 있는 가능성이 있음을 보였다. 실험 결과 Word2Vec 실험의 경우 미리 학습된 모델을 사용하는 반면 Char2Vec는 Feature Vector를 무작위한 값으로 초기화하고 학습을 진행하였다. 향후 문자들 사이에 벡터를 Word2Vec의 단어 벡터와 같이 특정한 의미가 있는 수치로 학습시킬 수 있는 방법과 한글 및 다중어 처리를 위한 연구가 지속된다면 지금보다 더 우수한 성능을 기대할 수 있을 것이다.
우리는 Word2Vec와 Char2Vec의 실험 케이스를 구분하여 Char2Vec의 성능을 살펴보았다. Word2Vec의 실험의 경우 미리 학습된 모델을 사용한데 반해 Char2Vec는 Feature Vector를 무작위한 값으로 초기화하고 학습을 진행하였다.

대상 데이터

Word2Vec와 Char2Vec 두 실험 케이스 모두 학습 Batch 사이즈는 512로 설정하고 200 epoch을 학습하였다. 검증 데이터 셋의 계산은 100 step마다 수행하고 검증 데이터 셋의 정확도 측정 metric은 0.
표1에서와 같이 404,290쌍의 문장 데이터로 구성되어 있으며, 문장마다 id가 부여되어 있다. is_duplicated가 문장의 유사도 Label이며 1일 경우 유사 문장, 0일 경우 다른 문장이다.

데이터처리

Word2Vec와 Char2Vec 두 실험 케이스 모두 학습 Batch 사이즈는 512로 설정하고 200 epoch을 학습하였다. 검증 데이터 셋의 계산은 100 step마다 수행하고 검증 데이터 셋의 정확도 측정 metric은 0.5를 threshold로 설정 후 true/false를 판정하였다. 손실 함수의 metric은 (2)와같이 log loss를 사용하였다[10].

이론/모형

가변길이의 시퀀스의 쌍으로 구성된 데이터를 활용하기 위한 LSTM 딥러닝 네트워크 모델로 문장들 간의 의미론적 유사성을 평가하기 위해 해당 Siamese Ma-LSTM 네트워크가 적용된다. 네트워크의 성능을 실험해보았을 때 사람의 손으로 만들어진 Feature로 구성된 복잡한 신경망 시스템보다 우수한 성능을 보이나 LSTM은 고정 된 크기의 벡터를 사용하여 문장에서 표현 된 기본 의미를 인코딩한다.
0을 사용하였다. 문장을 단어로 나누는 작업인 tokenize 작업에는 nltk 3.3을 사용하였다. 실험에 사용된 컴퓨터의 사양은 표 2와 같다.
실험을 위한 프로그래밍 언어 환경은 Python 3.6.2를 사용해 구현하였고, Siamse Ma-LSTM 모델을 구현을 Tensorflow-gpu 1.9 버전을 사용하였다. 또한 문장 데이터 처리를 위하여 numpy 1.
제안 모델의 학습 최적화 알고리즘은 Adam[11]을 사용하였으며 학습률은 0.0001값을 사용하였다. 3.

성능/효과

Char2Vec와 Word2Vec의 학습 결과는 각각 그림3와 그림4의 그래프에서 볼 수 있다. 200 epoch의 학습을 수행 한 결과, Char2Vec 기반의 질문 문장 유사도 측정 모델은 검증 데이터 셋 정확도 75.7%를 기록하였다. Word2Vec 기반의 질문 문장 유사도 측정 모델은 검증 데이터 셋 정확도 71.
7%를 기록하였다. Word2Vec 기반의 질문 문장 유사도 측정 모델은 검증 데이터 셋 정확도 71.6%를 기록하였다.
6%를 보였다. 따라서 자연어 처리 문제를 처리함에 있어 딥러닝 알고리즘과 접목하는 경우 Word2Vec을 대신해 Char2Vec모델로 대체할 수 있는 가능성이 있음을 보였다. 실험 결과 Word2Vec 실험의 경우 미리 학습된 모델을 사용하는 반면 Char2Vec는 Feature Vector를 무작위한 값으로 초기화하고 학습을 진행하였다.
따라서 이 논문에서는 이런 문제를 해결하기 위해 워드임베딩 방법 중 메모리 효율성을 높이고 다중어 처리가 가능한 Char2Vec으로 대체가 가능한지 실험을 통해 증명하였다. 실험결과, Char2Vec 기반의 질문 문장 유사도 판정 딥러닝 모델을 기존 범용적으로 사용되는 Word2Vec기반 모델과 비교했을 때 학습 과정에 있어서 상대적으로 다소 불안정하였으나 성능측정에서 봤을 때 Char2Vec를 기반으로 학습시킨 모델이 validation accuracy 75.1%을 보였고 Word2Vec를 기반으로 학습 시킨 모델은 valid accuracy 71.6%를 보였다. 따라서 자연어 처리 문제를 처리함에 있어 딥러닝 알고리즘과 접목하는 경우 Word2Vec을 대신해 Char2Vec모델로 대체할 수 있는 가능성이 있음을 보였다.
표 3에서 오차율과 정확도의 표준편차를 계산을 통해 Char2Vec 모델의 학습 진행에 있어서 Word2Vec보다 약 0.15 큰 것을 확인할 수 있었고 Char2Vec가 학습이 진행될수록 변화의 폭이 커지면서 불안정한 모습을 보임을 알 수 있었다.

후속연구

실험 결과 Word2Vec 실험의 경우 미리 학습된 모델을 사용하는 반면 Char2Vec는 Feature Vector를 무작위한 값으로 초기화하고 학습을 진행하였다. 향후 문자들 사이에 벡터를 Word2Vec의 단어 벡터와 같이 특정한 의미가 있는 수치로 학습시킬 수 있는 방법과 한글 및 다중어 처리를 위한 연구가 지속된다면 지금보다 더 우수한 성능을 기대할 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Char2Vec가 Wrop2Vec과 다른 점은 무엇인가?	Char2Vec는 Word2Vec와 달리 단어가 아닌 문자를 벡터로 변환하는 모델로 Word2Vec와 비교했을 때 상대적으로 적은 용량을 가지게 된다. Word2Vec의 경우 학 습시키는 단어의 개수에 따라 모델의 크기가 결정되지만 Char2Vec 모델은 문자의 개수크기 만큼의 메모리를 요구하게 된다.
	Word2Vec은 무엇인가?	자연어 처리를 위해 사용되는 워드임베딩 기술로 Word2Vec나 char2vec를 사용하고 있다. Word2Vec은 단어(Word)를 기준으로 하여 주변 단어들을 가지고 그 중심 단어를 예측과 특정 중심 단어를 가지고 그 주변 단어를 예측하는 알고리즘으로 모든 단어를 단일 Char2Vec은 단어보다 더 작은 단위인 문자를 사용하는 기법이다.
	자연어 처리에서 텍스트를 컴퓨터에 입력 할 수 있는 양식으로 변환하는 방법은 무엇이 있는가?	자연어 처리에서 먼저 이루어져야 하는 작업은 텍스트를 컴퓨터에 입력할 수 있는 양식으로 변환하는 과정이다. 해당 변환 작업의 예로는 텍스트를 ASCII 코드 또는 UNICODE 등으로 변환하여 처리하는 방법이 있다. 또 다른 방법으로는 단어를 다차원 공간에서 특정한 수치를 갖는 벡터로 사상시키는 Word Embedding이 있다[1]. 그 중에서 도 2013년 구글에서 발표된 Word2Vec는 학습속도와 성능을 높혀 인기를 끌고 이다.

참고문헌 (11)

S. J. Park, S. M. Choi, H. J. Lee, J. B. Kim, "Spatial analysis using R based Deep Learning," Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, vol. 6, no. 4, pp. 1-8, April 2016.
J. M. Kim and J. H. Lee, "Text Document Classification Based on Recurrent Neural Network Using Word2vec," Journal of korean Institute of Intelligent System, vol. 27, no.6, pp. 560-565, Jun. 2017.

상세보기
P. Baudis, S. Stanko and J. Sedivy, "Joint Learning of Sentence Embeddings for Relevance and Entailment," in The Workshop on Representation Learning for NLP, Berlin, Germany, pp. 18-26, 2016.
J. Y. Kim and E. H. Park, "e-Learning Course Reviews Analysis based on Big Data Analytics," Journal of the Korea Institute of Information and Communication Engineering, Vol. 21, No. 2, pp. 423-428, Feb. 2017.
J. M. Kim and J. H. Lee, "Text Document Classification Based on Recurrent Neural Network Using Word2vec," Journal of Korean Institute of Intelligent Systems, Vol. 27, No. 6, pp. 560-565, Dec. 2017.

상세보기
M. Jonas, and A. Thyagarajan. "Siamese Recurrent Architectures for Learning Sentence Similarity," in Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, Arizona, pp. 2786-2792, 2016.
Y. Kim, Y. Jernite, D. Sontag, and A. M. Rush, "Character-Aware Neural Language Models," in Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence ,Arizona, pp. 2741-2749 , 2016.
Naver ai hackerton 2018 Team sadang solution [Internet]. Available:https://github.com/moonbings/naver-ai-hackathon-2018.
R. Dey and F. M. Salem. "Gate-variants of gated recurrent unit (GRU) neural networks," in 2017 IEEE 60th International Midwest Symposium on Circuits and Systems (MWSCAS), Boston, pp. 1597-1600 , 2017.
wiki fast .ai Logloss [Internet]. Available: http://wiki.fast.ai/index.php/Log_Loss
D. P. Kingma, J. Ba, "Adam: A Method for Stochastic Optimization," in The 3rd International Conference for Learning Representations, pp. 1-15, San Diego, 2015.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증