$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한글 편집거리 알고리즘을 이용한 한국어 철자오류 교정방법
A Method for Spelling Error Correction in Korean Using a Hangul Edit Distance Algorithm 원문보기

스마트미디어저널 = Smart media journal, v.6 no.1, 2017년, pp.16 - 21  

박승현 (조선대학교 소프트웨어융합공학과) ,  이은지 (조선대학교 컴퓨터공학과) ,  김판구 (조선대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

컴퓨터가 상용화되면서 일반인들은 문서를 작성하기 위해 컴퓨터를 이용하는 방법을 자주 사용하게 되었다. 컴퓨터를 이용하여 문서를 작성하는 방법은 작성 속도가 빠르고 손의 피로가 적지만 철자오류가 발생할 확률이 매우 높다. 보통 철자오류는 발견하기 쉽기 때문에 곧바로 수정이 가능하지만, 사용자의 지식 부족 혹은 눈에 잘 띄지 않는 철자오류도 존재하기 때문에 철자오류가 존재하지 않는 문서를 작성하기 어렵다. 온라인상에서는 문서 작성에 대한 규칙 및 예절이 미비하기 때문에 철자오류에 의한 문제가 적지만 중요문서에서 발생하는 철자오류는 신뢰도 하락과 같은 큰 문제를 일으킨다. 철자오류 교정은 전문가 또한 완벽하게 수행하기 힘들기 때문에 비전문가인 일반인들을 위한 교정방법연구가 필요하다. 본 논문에서는 한글 편집거리 알고리즘을 이용해 철자오류를 교정하는 연구를 진행한다. 이전 연구를 통해 검출한 철자오류를 수집한 말뭉치 사전에서 등장하는 단어 중 철자오류 단어와 가장 유사한 단어를 발견하여 주위 단어와의 동시등장빈도를 계산하는 것으로 철자오류 교정을 수행하게 된다.

Abstract AI-Helper 아이콘AI-Helper

Long time has passed since computers which used to be a means of research were commercialized and available for the general public. People used writing instruments to write before computer was commercialized. However, today a growing number of them are using computers to write instead. Computerized ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 기존의 코사인 유사도 알고리즘을 이용하여 철자오류를 교정하는 알고리즘과 철자오류 교정 단어를 추출하기 위하여 한글 편집거리 알고리즘을 이용해 철자오류 단어와 편집거리가 작은 단어들을 추출하는 알고리즘을 복합한 새로운 철자오류 교정 알고리즘에 대해서 제안하였다. 그 결과 상당히 높은 수준의 정확도를 보여주며 성공적인 연구가 진행되었다고 할 수 있다.
  • 본 논문에서는 문서에서 철자오류 단어를 검출하고, 검출된 철자오류 단어를 올바른 단어로 교정하는 연구를 수행한다. 그림 1은 제안하는 철자오류 교정 알고리즘의 전체적인 흐름도를 나타내고 있다.
  • 말뭉치 사전 구축 이후 철자오류를 교정하기 위해 일차적으로 문장 내에서 철자오류 존재 유무를 검사하며, 철자오류 단어가 존재할 시 철자오류 단어를 추출하게 된다. 본 연구에서는 철자오류 교정을 위해 철자오류 단어와 편집거리가 작은 단어들을 말뭉치 사전에서 추출하여 교정 단어 리스트를 제작하여 교정을 수행하게 된다. 구축한 교정 단어 리스트의 단어들을 입력 받은 문장의 철자오류 단어와 치환한 다음 철자오류 교정 알고리즘을 수행함으로서 치환한 교정 단어의 알맞음 여부를 검사하여, 가장 수치가 높은 단어를 문장에 삽입하는 것으로 철자오류 교정을 끝마치게 된다.
  • 본 절에서는 코사인 유사도를 이용해 철자오류 검출을 수행하는 과정에 대해 소개한다. 철자오류를 검출하기 위해서는 우선 문장에서 등장하는 모든 단어들을 추출하기 위해 형태소 분석을 할 필요가 있다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
일반인들을 위한 교정방법 시스템에 대한 연구가 필요한 까닭은? 그로 인해 작성이 완료된 중요문서의 경우 반복적으로 철자오류 교정 작업을 수행하지만, 교정 지식이 풍부한 교열 전문가 또한 문서 내에 존재하는 철자오류를 완벽하게 교정하기 힘들기 때문에 적게나마 철자오류가 잔존하게 된다. 철자오류의 높은 교정 난이도 때문에 맞춤법 비전문가인 일반인들이 철자오류 교정에 대해 큰 어려움을 겪고 있기 때문에 일반인들을 위한 교정방법 시스템에 대한 연구가 필요하다. 본 논문에서는 문장에서 발견한 철자오류를 한글 편집거리 알고리즘을 이용하여 교정하는 연구를 수행하게 된다.
철자오류란 무엇인가? 철자오류는 단어의 철자가 잘못된 철자로 입력되거나 삭제 혹은 철자가 추가적으로 삽입되어 의미 없는 단어가 되거나 문맥에 맞지 않는 단어로 변한 것을 의미한다[1]. 철자오류는 단순 철자오류와 문맥의존 철자오류로 구분할 수 있다.
논문과 같은 중요문서에서 철자오류가 발생할 경우 어떤 문제가 발생하는가? 인터넷 커뮤니티 시스템에 의해 문서 작성 비율이 높은 온라인상에서는 문서 작성에 대한 규칙 및 예절이 미약하기 때문에 철자오류에 의해 심각한 문제가 발생하지 않는다. 하지만 논문과 같은 중요문서에서 발생하는 철자오류는 논문에 대한 신뢰도 하락과 같은 문제를 불러일으킨다. 그로 인해 작성이 완료된 중요문서의 경우 반복적으로 철자오류 교정 작업을 수행하지만, 교정 지식이 풍부한 교열 전문가 또한 문서 내에 존재하는 철자오류를 완벽하게 교정하기 힘들기 때문에 적게나마 철자오류가 잔존하게 된다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. 최철, 박세진, 김철중, 권규식, "쿼르타이 키보드에 기초한 인간공학키보드 설계를 위한 오타율 분석," 대한인간공학회 학술대회논문집, 제2000-1권, 제-호, 142-145쪽, 2000년 

  2. 최현수, 권혁철, 윤애선, "동적 윈도우를 갖는 조건부확률 모델을 이용한 한국어 문맥의존 철자오류 규정 규칙의 재현율 향상," 정보과학회논문지, 제4권, 제5호, 629-636쪽, 2015년 

  3. 김경식, 최성기, 권혁철, "극한 언어사용 환경에 적응적인 문맥의존 철자오류 교정 기법," 한국정보과학회 학술발표논문집, 제2015권, 제6호, 654-656쪽, 2015년 

  4. 김민호, 권혁철, 최성기, "어절 N-gram을 이용한 문맥의존 철자오류 교정," 정보과학회논문지, 제414권, 제12호, 1081-1089쪽, 2014년 

  5. Aminul Islam, Diana Inkpen, "Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity", ACM Transaction on Knowledge Discovery from Data(TKDD), Vol.2, No.2, pp.1241-1249, 2008. 

  6. Aminul Islam, Diana Inkpen, "Real-Word Spelling Correction Using Google Web 1T 3-Grams", Proceedings of The 2009 Conference on Empirical Methods in Natural Language Processing, Vol.3, No.3, pp.1241-1249, 2009. 

  7. 김민호, 권경식, 권혁철, "교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정," 한국정보과학회 학술발표논문집, 제2013권, 제6호, 607-609쪽, 2013년 

  8. Mark D. Kernighan, Kenneth W. Church, William A. Gale, "A Spelling Correction Program Based on a Noisy Channel Model", Proceedings of The 13th Conference on Computational Linguistics, Vol.2, No.1, 1990. 

  9. 노강호, 김진욱, 김은상, 박근수, 조환규, "한글에 대한 편집 거리 문제," 정보과학회논문지 : 시스템 및 이론, 제37권, 제2호, 103-109쪽, 2010년 

  10. 노강호, 박근수, 조환규, 장소원, "음소의 분류 체계를 이용한 한글 편집거리 알고리즘," 정보과학회논문지 : 시스템 및 이론, 제37권, 제6호, 323-329쪽, 2010년 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로