$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기
Automatic Word Spacing Using Raw Corpus and a Morphological Analyzer

정보과학회논문지 = Journal of KIISE, v.42 no.1, 2015년, pp.68 - 75  

심광섭 (성신여자대학교 IT학부)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문자열을 입력 받아 말뭉치에서 추출한 어절 정보를 이용하여 자동 띄어쓰기를 해 주는 방법론을 제안한다. 형태소 분석기도 사용되나 오류 수정이라는 제한적인 용도로만 사용된다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치에서 순수 한글 585만 어절을 발췌하여 10 개의 세트로 나누고 10 배수 교차 검증을 실시한 결과 98.06%의 음절 정확도와 94.15%의 어절 재현율을 얻었다. 또한, 개인용 컴퓨터에서 초당 25만 어절, 1.8 MB의 문서를 처리할 수 있을 정도로 빠르다. 제안된 방법의 정확도나 재현율은 어절 사전의 크기에 영향을 받기 때문에 보다 큰 말뭉치로 어절 사전을 구축하면 성능이 더욱 향상될 것으로 기대된다.

Abstract AI-Helper 아이콘AI-Helper

This paper proposes a method for the automatic word spacing of unsegmented Korean sentences. In our method, eojeol monograms are used for word spacing as opposed to the syllable n-grams that have been used in previous studies. The use of a Korean morphological analyzer is limited to the correction o...

주제어

참고문헌 (12)

  1. Seung-Shik Kang, "Eojeol-Block Bidirectional Algorithm for Automatic Word Spacing of Hangul Sentences," Journal of KIISE : Software and Applications, Vol. 27, No. 4, pp. 441-447, 2000. (in Korean) 

  2. Kye Sung Kim, et al., "Three-Stage Word-Spacing System for Continuous Syllable Sentence in Korea," Journal of KIISE B, Vol. 25, No. 12, pp. 1838-1844, 1998. (in Korean) 

  3. Do-Gil Lee, et al., "Two Statistical Models for Automatic Word Spacing of Korean Sentences," Journal of KIISE : Software and Applications, Vol. 30, No. 4, pp. 358-371, 2003. (in Korean) 

  4. Harksoo Kim, "A Reliable and Simple Patternmatching Method for Implementing an Automatic Word Spacing System in Low Performance Devices," Journal of KIISE : Software and Applications, Vol. 39, No. 10, pp. 818-823, 2012. (in Korean) 

  5. Kwangseob Shim, "Automatic Word Spacing based on Conditional Random Fields," The Korean Journal of Cognitive Science, Vol. 22, No. 2, pp. 217-233, 2011. (in Korean) 

  6. Seong-Bae Park, et al., "Self-Organizing n-gram Model for Automatic Word Spacing," Proc. of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pp. 633-640, 2006. 

  7. Jae Sung Lee, "Word Spacing Consistency Check using Syllable and Morpheme Information," Journal of the Korea Contents Association, Vol. 10, No. 5, pp. 10-19, 2010. (in Korean) 

  8. Seung-Shik Kang, "A Decomposition Algorithm of Korean Compound Nouns," Journal of KIISE B, Vol. 25, No. 1, pp. 172-182, 1998. (in Korean) 

  9. Kwangseob Shim and Jaehyung Yang, "MACH : A Supersonic Korean Morphological Analyzer," Proc. of the 19th International Conference on Computational Linguistics, pp. 939-945, 2002. 

  10. Kwangseob Shim, "Syllable-based POS Tagging without Korean Morphological Analysis," The Korean Journal of Cognitive Science, Vol. 22, No. 3, pp. 327-345, 2011. (in Korean) 

  11. The National Institute of the Korean Language, 21st Century Sejong Project Final Result, 2011.12 Revised Edition, 2011. (in Korean) 

  12. Changki Lee, "Joint Models for Korean Word Spacing and POS Tagging using Structural SVM," Journal of KIISE : Software and Applications, Vol. 40, No. 12, pp. 826-832, 2013. (in Korean) 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로