[논문]트랜스포머를 이용한 향상된 댓글 생성에 관한 연구

성소윤; 최재용; 김경철

doi:10.7583/jkgs.2019.19.5.103

트랜스포머를 이용한 향상된 댓글 생성에 관한 연구
A Study on Improved Comments Generation Using Transformer 원문보기

한국게임학회 논문지 = Journal of Korea Game Society, v.19 no.5, 2019년, pp.103 - 114

성소윤 (한국산업기술대학교 게임공학과) , 최재용 (한국산업기술대학교 게임공학과) , 김경철 (한국산업기술대학교 게임공학과)

초록
AI-Helper

온라인 커뮤니티 안에서 다른 사용자들의 글에 반응할 수 있는 딥러닝 연구를 2017년부터 진행해 왔으나, 한국어의 조사와 같은 특성으로 인한 단어처리의 어려움과 RNN 모델의 특성으로 인한 GPU 사용률 저조 문제로 인해 적은 양의 데이터로 학습을 제한해야 했다. 하지만 최근 자연어 처리 분야의 급격한 발전으로 이전보다 뛰어난 모델들이 등장함에 따라 본 연구에서는 이러한 발전된 모델을 적용해 더 나은 학습 결과를 생성해 내는 것을 목표로 한다. 이를 위해 셀프-어텐션 개념이 적용된 트랜스포머모델을 도입했고 여기에 한국어 형태소 분석기 MeCab을 적용해 단어처리의 어려움을 완화했다.

Abstract ▼ AI-Helper

We have been studying a deep-learning program that can communicate with other users in online communities since 2017. But there were problems with processing a Korean data set because of Korean characteristics. Also, low usage of GPUs of RNN models was a problem too. In this study, as Natural Language Processing models are improved, we aim to make better results using these improved models. To archive this, we use a Transformer model which includes Self-Attention mechanism. Also we use MeCab, korean morphological analyzer, to address a problem with processing korean words.

주제어

표/그림 (11)

그림 [Fig. 1] An example diagram for attention mechanism[16]
그림 [Fig. 2] An example of parsing tree[17]
그림 [Fig. 3] A structure of Transformer model[18]
표 [Table 1] A comparison of vocabulary sizes with news articles for 120 days, by whether using MeCab
그림 [Fig. 4] A training loss graph of Transfomer model
표 [Table 2] A comparison of generated comments of both models
표 [Table 3] A comparison of generated comments of both models
표 [Table 4] A comparison of generated comments of both models
표 [Table 5] A morphological analysis example
표 [Table 6] A morphological analysis example
그림 [Fig. 5] Reactions to uploaded tweets on Twitter

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이에 본 연구에서는 형태소 분석기를 사용해 한국어 문장들을 전처리하여 모델의 학습량을 늘릴 방법을 고안하고, 고성능의 새로운 자연어 처리 모델들을 통해 자연스러운 한국어 문장을 생성해내는 것을 목표로 한다.

가설 설정

이 문제는 기존 시스템의 단어를 구분하는 방식과 한국어의 특성 때문에 일어났다. 기존의 모델들은 영어를 사용할 것으로 가정하고 설계되었다[2]. 영어는 문장을 공백을 기준으로 단어를 분리하더라도 평균적으로 사용하는 전체 어휘의 수가 20000여개 정도이다.

제안 방법

형태소 분석기를 선택하기 위해 2018년 카카오에서 개발한 Khaii와[23], 일본 교토대학 정보학 연구과와 일본 NTT 커뮤니케이션 과학 기초 연구소가 공동으로 개발하고 한국의 ‘은전한닢’ 프로젝트에서 한국어용으로 적용시켜 널리 사용되고 있는 MeCab을[24] 고려하였다. Khaii의 경우 MeCab에 비해 더 작은 형태소 부분까지 분석하는 경향이 있기에, 전체의 고유 단어 숫자를 더 줄여주는 효과가 있지만, 분석된 형태소의 의미가 중복되는 경우가 많아질 수 있기에, 워드 임베딩의 의미가 모호해 질 수 있다고 판단해 MeCab을 선택하였다.
LSTM 기반 NMT 모델기준으로 어휘수의 과다 때문에 3일치 뉴스와 댓글 데이터 밖에 학습하지 못한 문제를 형태소 분석을 통해 100일 이상의 데이터를 한번에 학습할 수 있게 되었다.
60GHz, 64GB RAM, NVIDIA GTX 1080ti 2개로 이루어진 하드웨어 환경에서 작동했다. 매일 0시 1분에 시스템을 실행해서 전날 다음 포털에서 가장 댓글이 많았던 기사들 상위 50개를 수집하고, 수집이 완료되 면 수집한 기사들을 변형해 학습 데이터들을 만들어 낸 후, NMT 모델과 트랜스포머 모델을 동시에 학습한다. 두 모델 모두 학습이 완료되면 작성 스케쥴을 생성해 스케쥴러에 등록한다.
새롭게 추가한 트랜스포머 모델의 학습 그래프이다. 모델은 6개의 레이어와 8개의 멀티 헤드로 이루어져 있고 2.0의 학습률로 시작해서 약 6시간 동안 학습했다. 학습 초기에는 오차 값이 계속 감소하지만 4번째 반복부터는 학습을 진행해도 오차 값에 큰 변화가 생기지 않았다.
딥러닝을 이용하여 실제 사람처럼 뉴스에 반응하는 텍스트를 생성하는 시스템을 구현하려면, 고정된 말뭉치(corpus)가 아닌, 시간에 따라 변하는 뉴스와 그의 댓글로 이루어진 학습 세트(training set)가 있어야 한다. 이러한 학습 세트의 구성을 위해, 매일 다음(Daum)포털의 뉴스 섹션에서 댓글 많은 뉴스 상위 50개의 뉴스와 그에 달린 모든 댓글과 대 댓글(댓글의 댓글)을 크롤링하여 학습 세트로 저장하였다. 2018년 2월 1일 부터 2019년 8월 29일까지 약 28000개의 뉴스에 대한 데이터를 수집했다
이러한 프로그 램들의 오작동은 모델을 학습 시키거나 실시간으로 포털 시작 페이지의 뉴스에 대한 댓글을 생성하는 다음 단계들에 영향을 미쳐 전체 자동화 시스템의 동작을 멈추고 오류를 발생했다. 이를 해결하기 위해 자동화 프로그램을 수정해 어떤 단계에서 오류가 난 경우더라도 진행을 멈추지 않고 전날 학습 시켰던 모델을 이용하거나 오류난 단계를 생략해 다음 단계에 영향을 미치지 않고 상시 운영되도록 구현하였다.
두 모델 모두 학습이 완료되면 작성 스케쥴을 생성해 스케쥴러에 등록한다. 이후 스케쥴러에 등록된 시간이 오면 현재 다음 포털 메인 페이지에 있는 기사 제목중 하나를 추출하고, 학습된 두 모델들을 사용해 그 제목에 대한 반응을 생성해서 기사 링크와 함께 트위터에 게시한다.
형태소 분석기를 선택하기 위해 2018년 카카오에서 개발한 Khaii와[23], 일본 교토대학 정보학 연구과와 일본 NTT 커뮤니케이션 과학 기초 연구소가 공동으로 개발하고 한국의 ‘은전한닢’ 프로젝트에서 한국어용으로 적용시켜 널리 사용되고 있는 MeCab을[24] 고려하였다.

대상 데이터

이러한 학습 세트의 구성을 위해, 매일 다음(Daum)포털의 뉴스 섹션에서 댓글 많은 뉴스 상위 50개의 뉴스와 그에 달린 모든 댓글과 대 댓글(댓글의 댓글)을 크롤링하여 학습 세트로 저장하였다. 2018년 2월 1일 부터 2019년 8월 29일까지 약 28000개의 뉴스에 대한 데이터를 수집했다
그러나 학습할 수 있는 시간은 한정되어 있으므로 지금까지 수집한 모든 기사와 댓글을 학습 데이터로 사용할 수는 없다. 그래서 우리는 가장 최근 수집된 수백 개 기사의 데이터를 학습에 사용하기로 했다. 하루가 지날 때마다 새로운 기사들이 학습 데이터에 추가되고, 기존 학습 데이터에서 가장 옛날 기사를 제외시키기 때문에 학습 범위가 슬라이딩 윈도(sliding window)의 형태를 가진다고 볼 수 있다.
이번 연구에서는 형태소 분석기로 MeCab을 사용했다. 이를 통해 띄어쓰기 단위로 입력을 처리하던 방식을 형태소 단위로 처리하고 문법에 맞지 않는 단어는 글자 단위로 취급했다.

이론/모형

더 나은 학습 속도와 댓글 생성 결과를 위해 본 연구에서는 구글에서 구현한 트랜스포머 모델을 사용했다[25]. 구글에서 제공하는 기본 파라미터를 사용했고 에폭(epoch) 수는 5로 설정하였다.
인코더는 입력 데이터를 처리해서 특정벡터들로 변환하고, 디코더는 인코더가 생성해낸 벡터들을 자신의 입력으로 설정해서 출력 데이터를 만든다. 우리 연구는 기사 제목을 입력으로 받아서 그 제목에 반응하는 문장을 만들어내는 것이 목적이기 때문에 Seq2Seq 모델을 주로 활용했다.
이를 보완하기 위해 bidirectional LSTM 모델 [14]과 셀프-에텐션(self-attention) 모델[15]이 존재한다. 트랜스포머는 이중 셀프-어텐션 모델을 이용했다. 셀프-어텐션 모델은 입력을 한 번에 받아 입력 안의 단어들 간의 관계를 파악한다.

성능/효과

구글에서 제공하는 기본 파라미터를 사용했고 에폭(epoch) 수는 5로 설정하였다. 먼저 데이터에 형태소 분석을 적용하지 않고 띄어쓰기 단위로 단어를 구분하여 학습을 시킨 결과, 학습 속도는 굉장히 빨랐으나 어휘 숫자가 200만개에 육박할 정도로 커지고, 그에 따른 메모리 사용량의 증가 때문에 4일치 데이터 정도만을 학습에 사용 할 수 있었다. 형태소 분석을 적용한 뒤에 학습을 시킨 경우에는 120일치가 넘는 뉴스 데이터를 학습에 사용할 수 있었다.
사용결과 120일 분량의 뉴스와 댓글에 대해 띄어쓰기 단위로 단어를 구분할 경우 2,771,643개의 어휘수가 나오는 반면 MeCab을 이용한 형태소 분석 결과로 단어를 구분할 경우는 134,422개 정도의 어휘수가 나왔다. 또한 형태소 분석기를 이용하면 맞춤법이 틀린 문장에 대해서는 글자 단위로 쪼개지기 때문에 학습 데이터양이 많아지더라도 총 어휘 개수는 조금씩 상승했다.
시스템에 트랜스포머 모델을 추가한 결과 기존의 NMT 모델에 비해 더 자연스러운 반응을 생성 할 수 있었다.
BERT는 사전 학습 단계에서 입력들 중 일부를 생략하고(Masking), 생략된 단어를 모델이 예측하는 방식으로 학습시켜 단어가 포함된 문맥에 따라 그 단어의 임베딩 값을 변화시키도록 만들었다. 이 모델을 SQuAD(The Stanford Question Answering Dataset) 데이터 셋을 통해 학습시킨 결과, 최초로 자연어 처리 분야에서 인간을 뛰어 넘는 성능을 보여주었다.[21]

후속연구

이번 연구에서도 댓글을 포탈에 직접 작성하지 못하기 때문에 다른 사용자들의 반응을 보는데 한계가 있었다. 현재 결과를 업로드 하는 데만 트위터를 사용하고 있는데, 향후엔 다른 사용자들을 팔로우하고 다른 트윗을 리트윗하는 과정 또한 학습해 이용자들과 소통을 할 예정이다.
이번 연구에서도 댓글을 포탈에 직접 작성하지 못하기 때문에 다른 사용자들의 반응을 보는데 한계가 있었다. 현재 결과를 업로드 하는 데만 트위터를 사용하고 있는데, 향후엔 다른 사용자들을 팔로우하고 다른 트윗을 리트윗하는 과정 또한 학습해 이용자들과 소통을 할 예정이다. 이를 통해 생성한 텍스트에 대한 다른 이용자들의 반응을 이전보다 많이 수집할 수 있을 것으로 예상된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	기존RNN 기반 모델들의 한계점은 무엇인가?	때문에 적은 양의 학습 데이터를 입력으로 줄 수밖에 없었다. 게다가 기존RNN(Recurrent Neural Network, 순환신경망) 기반 모델들은 병렬성이 다른 모델들에 비해 낮기 때문에 학습 속도가 빠르지 않았다[3]. 메모리 사용량 문제를 해결하더라도 학습 데이터양이 많아지기 때문에 학습 속도가 크게 떨어지는 문제가 있었다.
	셀프-어텐션 개념이 적용된 트랜스포머모델이 도입된 계기는 무엇인가?	온라인 커뮤니티 안에서 다른 사용자들의 글에 반응할 수 있는 딥러닝 연구를 2017년부터 진행해 왔으나, 한국어의 조사와 같은 특성으로 인한 단어처리의 어려움과 RNN 모델의 특성으로 인한 GPU 사용률 저조 문제로 인해 적은 양의 데이터로 학습을 제한해야 했다. 하지만 최근 자연어 처리 분야의 급격한 발전으로 이전보다 뛰어난 모델들이 등장함에 따라 본 연구에서는 이러한 발전된 모델을 적용해 더 나은 학습 결과를 생성해 내는 것을 목표로 한다. 이를 위해 셀프-어텐션 개념이 적용된 트랜스포머모델을 도입했고 여기에 한국어 형태소 분석기 MeCab을 적용해 단어처리의 어려움을 완화했다.
	순환 신경망에서 RNN은 어떻게 사용되는가?	일반적인 신경망이 입력층, 은닉층, 출력층까지 한방향으로 계산 값이 흘러가는 것에 비하여, RNN은 이전에 계산된 은닉층의 결과값이 다음번 은닉층의 계산에 이용되도록 구성한 신경망 모델로, 시계열 데이터를 처리하는데 주로 사용되고 있다. 시계열

참고문헌 (28)

J. Choi, S. Sung, K. Kim. "A Study on Automatic Comment Generation Using Deep Learning", Journal of Korea Game Society, 18(5), pp 83-92, 2018.
Stroh, Eylon, and Priyank Mathur. "Question answering using deep learning.", 2016
Tang, Gongbo, et al. "Why self-attention? a targeted evaluation of neural machine translation architectures.", arXiv preprint arXiv:1808.08946, 2018.
Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. "Neural machine translation by jointly learning to align and translate.", arXiv preprint arXiv:1409.0473, 2014.
Vaswani, Ashish, et al. "Attention is all you need.", Advances in neural information processing systems, pp.5998-6008, 2017.
Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding.", arXiv preprint arXiv:1810.04805, 2018.
Radford, Alec, et al. "Improving language understanding by generative pre-training.", https://s3-us-west-2.amazonaws.com/openai-assets/researchcovers/languageunsupervised/languageunderstandingpaper.pdf, 2018.
Yang, Zhilin, et al. "XLNet: Generalized Autoregressive Pretraining for Language Understanding.", arXiv preprint arXiv:1906.08237, 2019.
Song, Kaitao, et al. "Mass: Masked sequence to sequence pre-training for language generation.", arXiv preprint arXiv:1905.02450, 2019.
Sherstinsky, Alex. "Fundamentals of recurrent neural network (rnn) and long short-term memory (lstm) network.", arXiv preprint arXiv:1808.03314, 2018.
Hochreiter, Sepp, and Jurgen Schmidhuber. "Long short-term memory.", Neural computation 9.8, pp.1735-1780, 1997.

상세보기
Chung, Junyoung, et al. "Empirical evaluation of gated recurrent neural networks on sequence modeling." arXiv preprint arXiv: 1412.3555, 2014.
Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to sequence learning with neural networks.", Advances, in neural information processing systems, 2014.
Schuster, Mike, and Kuldip K. Paliwal. "Bidirectional recurrent neural networks.", IEEE Transactions on Signal Processing 45.11, pp.2673-2681, 1997.

상세보기
Cheng, Jianpeng, Li Dong, and Mirella Lapata. "Long short-term memory-networks for machine reading.", arXiv preprint arXiv:1601.06733, 2016.
Jakob Uszkoreit, "Transformer: A Novel Neural Network Architecture for Language Understanding", https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html, 2017
Damien Sileo, "Understanding BERT Transformer: Attention isn't all you need", https://medium.com/synapse-dev/understanding-bert-transformer-attention-isnt-all-you-need-5839ebd396db, 2019.
https://reniew.github.io/43/
leod. "Generate Hacker News Comments from Titles", https://github.com/leod/hncynic.
Shibata, Yusuxke, et al. "Byte Pair encoding: A text compression scheme that accelerates pattern matching.", Technical Report DOI-TR-161, Department of Informatics, Kyushu University, 1999.
"The Stanford Question Answering Dataset", https://rajpurkar.github.io/SQuAD-explorer/
Peters, Matthew E., et al. "Deep contextualized word representations.", arXiv preprint arXiv:1802.05365, 2018.
kakao, "Kakao Hangul Analyzer III", https://github.com/kakao/khaiii
eunjeon,"mecab-ko-dic", https://bitbucket.org/eunjeon/mecab-ko-dic/src/master/
tensorflow, "Models and Examples built with Tensorflow", https://github.com/tensorflow/models
Papineni, Kishore, et al. "BLEU: a method for automatic evaluation of machine translation.", Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002.
Banerjee, Satanjeev, Alon Lavie. "METEOR: An automatic metric for MT evaluation with improved correlation with human judgments.", Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization. 2005.
Liu, Chia-Wei, et al. "How not to evaluate your dialogue system: An empirical study of unsupervised evaluation metrics for dialogue response generation.", arXiv preprint arXiv:603.08023, 2016.

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증