$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

LSTM 기반의 sequence-to-sequence 모델을 이용한 한글 자동 띄어쓰기
LSTM based sequence-to-sequence Model for Korean Automatic Word-spacing 원문보기

스마트미디어저널 = Smart media journal, v.7 no.4, 2018년, pp.17 - 23  

이태석 ,  강승식 (국민대학교 컴퓨터공학부)

초록
AI-Helper 아이콘AI-Helper

자동 띄어쓰기 특성을 효과적으로 처리할 수 있는 LSTM(Long Short-Term Memory Neural Networks) 기반의 RNN 모델을 제시하고 적용한 결과를 분석하였다. 문장이 길거나 일부 노이즈가 포함된 경우에 신경망 학습이 쉽지 않은 문제를 해결하기 위하여 입력 데이터 형식과 디코딩 데이터 형식을 정의하고, 신경망 학습에서 드롭아웃, 양방향 다층 LSTM 셀, 계층 정규화 기법, 주목 기법(attention mechanism)을 적용하여 성능을 향상시키는 방법을 제안하였다. 학습 데이터로는 세종 말뭉치 자료를 사용하였으며, 학습 데이터가 부분적으로 불완전한 띄어쓰기가 포함되어 있었음에도 불구하고, 대량의 학습 데이터를 통해 한글 띄어쓰기에 대한 패턴이 의미 있게 학습되었다. 이것은 신경망에서 드롭아웃 기법을 통해 학습 모델의 오버피팅이 되지 않도록 함으로써 노이즈에 강한 모델을 만들었기 때문이다. 실험결과로 LSTM sequence-to-sequence 모델재현율과 정확도를 함께 고려한 평가 점수인 F1 값이 0.94로 규칙 기반 방식딥러닝 GRU-CRF보다 더 높은 성능을 보였다.

Abstract AI-Helper 아이콘AI-Helper

We proposed a LSTM-based RNN model that can effectively perform the automatic spacing characteristics. For those long or noisy sentences which are known to be difficult to handle within Neural Network Learning, we defined a proper input data format and decoding data format, and added dropout, bidire...

주제어

질의응답

핵심어 질문 논문에서 추출한 답변
자동 띄어쓰기는 어떤 작업인가? 자동 띄어쓰기(automatic word spacing or word segmentation)는 중국어나 일본어처럼 띄어쓰기를 하지 않는 언어에서 자연어 처리를 위해 해야 하는 기본 작업이다. 따라서 이들 언어권에서는 문장에서 단어를 구분하는 연구가 많이 진행되었다.
중국어의 단어 분리는 어떤 방식을 사용하는가? 중국어의 단어 분리(word segmentation)는 시퀀스 라벨링 문제(sequence labeling problem)로 보고 문자 단위로 처리하는 방식을 사용하고 있다. 문장에서 기준 위치를 이동하면서 고정길이 전후문자(context window)들로부터 단어를 조합하는 이진트리 구조에서 게이트 순환 신경망을 통해 조합하는 방식에서 LSTM 신경망(Long Short-Term Memory Neural
실제 문장에 대해서 띄어쓰기 오류를 제거하는 자동 띄어쓰기 단계의 도입이 필요한 이유는 무엇인가? 어절 단위로 띄어 쓰는 한국어의 경우 상대적으로 중요성이 낮지만, 문자인식이나 음성인식의 경우 노이즈 등의 이유로 공백을 인식하지 못하는 오류가 빈번히 발생한다. 이 경우 띄어쓰기가 되지 않은 문장의 띄어쓰기 교정 성능이 자연어처리 성능에 큰 영향을 준다. 따라서 실제 문장에 대해서 띄어쓰기 오류를 제거하는 자동 띄어쓰기 단계의 도입이 필요하다[1, 2].
질의응답 정보가 도움이 되었나요?

참고문헌 (17)

  1. Van Khien Phan, Soo-Hyung Kim, Hyung-Jeong Yang, Guee-Sang Lee, "Text Detection based on Edge Enhanced Contrast Extremal Region and Tensor Voting in Natural Scene Images," Smartmedia Journal, vol.6, no. 4, pp.32-40., Dec. 2017. 

  2. Abhijeet Boragule, Guee Sang Lee, "Text Line Segmentation of Handwritten Documents by Area Mapping," Smartmedia Journal, vol.4, no. 3, pp.44-49., Sep. 2015. 

  3. Xinchi Chen, Xipeng Qiu, Chenxi Zhu, and Xuanjing, "Gated recursive neural network for chinese word segmentation," In Proceedings of the 53rd Annual Metting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, pp. 1744-1753, Jul. 2015. 

  4. Xinchi Chen, Xipeng Qiu, Chenxi Zhu, and Xuanjing Huang, "Long short-term memory neural networks for chinese word segmentation," In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp. 1197-1206, Sep. 2015. 

  5. Deng Cai and Hai Zhao, "Neural Word Segmentation Learning for Chinese," Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pp. 409-420, Aug. 2016. 

  6. Peilu Wang, Yao Qian, Hai Zhao, Frank K. Soong, Lei He, and Ke Wu, "Learning distributed word representations for bidirectional lstm recurrent neural network," In Proceeding of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologise, pp. 527-533, Jun. 2016. 

  7. 강승식, "음절 bigram를 이용한 띄어쓰기 오류의 자동 교정," 음성과학, 제8권, 제2호, 83-90쪽, 2001년 6월 

  8. 심광섭, "CRF를 이용한 한국어 자동 띄어쓰기," 인지과학, 제22권, 제2호, 217-233쪽, 2011년 6월 

  9. 이창기, 김현기, "Structural SVM 을 이용한 한국어 자동 띄어쓰기," 한국정보과학회 2012 한국컴퓨터종합학술대회 논문집, 제39권, 제1호(B), 270-272쪽, 2012년 6월 

  10. 황현선, 이창기, "딥러닝을 이용한 한국어 자동 띄어쓰기," 한국컴퓨터종합학술대회, 738-740쪽, 2016년 6월 

  11. Ilya Sutskever, Oriol Vinyals and Quoc V. Le, "Sequence to Sequence Learning with Neural Networks," arXiv preprint, arXiv:1409.3215, Dec. 2014. 

  12. Oriol Vinyals, Lukasz Kaiser, Terry Koo, Slav Petrov, Ilya Sutskever and Geoffrey Hinton, "Grammar as a Foreign Language," arXiv preprint, arXiv:1412.7449, Jun. 2015. 

  13. Dzmitry Bahdanau, Kyunghyun Cho and Yoshua Bengio. "Neural machine translation by jointly learning to align and translate," arXiv preprint, arXiv:1409.0473, May 2014. 

  14. Nitish Srivastava, Georey Hinton, Alex Krizhevsky, Ilya Sutskever and Ruslan Salakhutdinov, "Dropout: A Simple Way to Prevent Neural Networks from Overtting," Journal of Machine Learing Research pp. 1929-1958, Jan. 2014. 

  15. Jimmy Lei Ba, Jamie Ryan Kiros and Geoffrey E. Hinton, "Layer Normalization," arXiv preprint, arXiv:1607.06450, Jul. 2016. 

  16. Matthew D. Zeiler, "ADADELTA an adaptive learning rate method," arXiv preprint, arXiv:1212.5701, Dec. 2012. 

  17. Chin-Yew Lin, "ROUGE: A Package for Automatic Evaluation of Summaries," In Proceedings of Workshop on Text Summarization Branches Out, Post-Conference Workshop of ACL 2004, Jul. 2004. 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로