$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

음절 및 형태소 정보를 이용한 띄어쓰기 일관성 검사
Word Spacing Consistency Check using Syllable and Morpheme Information 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.10 no.5, 2010년, pp.10 - 19  

이재성 (충북대학교 사범대학 컴퓨터교육과)

초록

한국어 띄어쓰기 규칙은 경우에 따라 예외 조항이 있어 띄어 쓰거나 붙여 쓰는 것을 모두 허용하는 경우가 있다. 이러한 이중적 규칙에도 불구하고 같은 문서 내의 같은 어절이나 어구들은 일관성 있게 띄어쓰거나 붙여 쓰는 것이 문서 교정상 올바르다. 본 논문에서는 음절 정보 및 형태소 정보를 이용하여 비일관적으로 쓰인 띄어쓰기를 효과적으로 검사하는 방법을 제안하고 실험하여 평가하였다.

Abstract AI-Helper 아이콘AI-Helper

Korean word spacing rules have exceptional cases which permit both spacing and no-spacing between words. The exceptional cases, however, do not mean that inconsistent spacing between words or word-phrases is legitimate in a document proof reading. This paper proposes a word spacing consistency check...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 띄어쓰기 일관성 검사는 간단한 어휘 수준 검사로부터 점점 어려운 단계인 유형 수준 검사, 의미 수준 검사로 진행해 갈 수 있을 것이다. 그러나, 본 논문에서는 현재의 여건과 관련 기술 수준 한계로 인해, 실용적으로 사용가능한 단계인 어휘 수준의 띄어쓰기 일관성 검사에 대해서 구현하고 평가한다.
  • 본 논문에서는 띄어쓰기 일관성 검사를 어휘 수준, 유형 수준, 의미 수준의 3수준으로 제시하였고, 그 첫 수준인 어휘 수준으로 띄어쓰기 일관성 검사를 하기 위한 방법을 제안하고 구현하여 평가하였다. 제안한 모델 중 ‘동일어간 음절후보 일치’ 모델은 재현율을 중시할 경우 사용할 수 있고, ‘형태소 일치’ 모델은 재현율 및 정확률을 모두 고려할 경우 사용할 수 있을 것이다.
  • 본 논문에서는 음절 정보와 형태소 정보를 이용하여 띄어쓰기 일관성을 쉽게 검사할 수 있는 방법을 제안하고 실험한다. 이어 2장에서는 기존의 띄어쓰기 교정 시스템 및 자동 띄어쓰기 시스템을 살펴보고, 3장에서는 띄어쓰기 일관성 검사를 하는 정도에 따라 3가지 수준을 제안하고 설명하며, 4장에서는 어휘 수준의 띄어쓰기 일관성 검사 방법을 설명하고 그에 따른 3가지 처리 모델을 제안한다.
  • 이 보조용언의 어간은 어미 변화에 의해 바뀌기는 하지만 변화되는 음절의 갯수가 한정적이다. 본 논문에서는 이들 중 어미 변화에 의해 보조용언의 첫 음절이 바뀌는 경우를 조사하여 [표 2]와 같이 정리하였다. 이 표에서 나타난 바와 같이 같은 어간이지만 활용형으로 나타날 수 있는 음절들을 ‘동일어간 음절후보’라고 정의한다.
  • 본 논문에서는 효율적인 탐색을 위해 비일관적 띄어쓰기 후보들을 간단한 문자열 비교 방법으로 먼저 찾아내고 이 후보들만을 대상으로 형태소 분석을 하는 효율적인 방법을 제안한다. 이 방법은 기본적으로 빈칸을 중심으로 좌우 어절의 일부를 추출하여 탐색키로 사용하는 방법이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
한국어 문장에서 띄어쓰기는 어떤 역할을 하는가? 한국어 문장에서 띄어쓰기는 가독성을 높여주며 의미 전달을 명확히 할 수 있도록 한다. 올바른 띄어쓰기를 위해 국립국어원에서는 한글 맞춤법을 정하고 이를 모든 저자들이 지키도록 하고 있다.
같은 어절이나 단어에 대해 띄어쓰기의 일관성이 없는 경우가 있는 이유는 무엇인가? 그러나 띄어쓰기 규칙의 일부에서는 복수 규칙을 허용하고 있고, 이 때문에 같은 어절이나 단어에 대해 띄어쓰기의 일관성이 없는 경우가 있다. 다음은 한글 맞춤법의 띄어쓰기 규칙 중 복수 규칙을 허용하는 경우이다[1][2].
규칙에 의한 방법의 문제점은 무엇인가? 만약 형태소 분석에 실패할 경우, 그 어절을 분리하여 복합어로 분리하거나 부분 문자열에 대한 형태소 분석을 시도하여 오류 유형을 분석한다[9]. 이런 방법의 문제점은 형태소 분석기의 한계가 그대로 이 방법에 영향을 미친다는 점이다. 즉, 형태소 분석기 자체의 오류와 미등록어에 대한 처리 한계 등이 성능 향상의 한계가 된다.
질의응답 정보가 도움이 되었나요?

참고문헌 (16)

  1. 국립국어원, 한국 어문 규정집, (주)계문사, 2007. 

  2. 국립국어원, 문교부고시 88-1 한글 맞춤법 해설, 국어연구소 간행, 1988. 

  3. P. F. Brown, S. A. Della Pietra, V. J. Della Pietra, and R. L. Mercer, "The mathematics of statistical machine translation: parameter estimation," Computational Linguistics, Vol.19, No.2, pp.263-311, 1993. 

  4. 신중호, 한국어/영어 병렬 코퍼스에 대한 단어단위 및 구단위 정렬 모델, 한국과학기술원 석사학위 논문, 1996. 

  5. G. Salton, Automatic text processing, Addison-Wesley, 1988. 

  6. 박영찬, 정보검색을 위한 단어지식의 통계적 구축, 한국과학기술원 박사학위 논문, 1997. 

  7. 심광섭, “음절간 상호정보를 이용한 한국어 자동띄어쓰기”, 정보과학회 논문지(B), 제23권, 제9호, pp.991-1000, 1996. 

  8. 신중호, 박혁로, “음절단위 bigram정보를 이용한 한국어 단어인식모델”, 한글 및 한국어 정보처리학술발표 논문집, pp.255-260, 1997. 

  9. 최재혁, “양방향 최장일치법을 이용한 한국어 띄어쓰기 자동 교정 시스템”, 한글 및 한국어 정보처리 학술발표 논문집, pp.145-151, 1997. 

  10. 강승식, “한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘”, 정보과학회 논문지, 소프트웨어 및 응용, 제7권, 제4호, pp.441-447, 2000. 

  11. 이도길, 이상주, 임희석, 임해창, “한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델”, 정보과학회 논문지, 소프트웨어 및 응용, 제30권, 제4호, pp.358-371, 2003. 

  12. 조진현, 김일환, 이현희, 이영제, 강범모, “형태분석 말뭉치 구축을 위한 합성어의 처리 방법 - 띄어쓰기를 고려하여 -”, 한글 및 한국어 정보처리 학술발표 논문집, pp.9-13, 2002. 

  13. 국립국어원, “한국어 학습 자료,” 국립국어원 홈페이지 공개자료실 http://www.korean.go.kr, 2003. 

  14. 국립국어원, 세종계획 연구교육용 균형말뭉치, 2004. 

  15. http://nlp.kookmin.ac.kr/. 

  16. C. Manning and H. Schutze, “Foundations of Statistical Natural Language Processing,”pp.268-269, The MIT Press, 1999. 

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로