$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

SMS 변형된 문자열의 자동 오류 교정 시스템
Automatic Error Correction System for Erroneous SMS Strings 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.35 no.6, 2008년, pp.386 - 391  

강승식 (국민대학교 컴퓨터공학부) ,  장두성 (KT 미래기술연구소)

초록
AI-Helper 아이콘AI-Helper

휴대폰과 메신저 등 통신 환경에서 문자 메시지를 전송할 때 표준어가 아닌 왜곡된 어휘들을 사용하고 있으며, 이러한 변형된 어휘들은 음성 인식, 음성 합성, 문서 정보 추출 등 언어처리 및 관련 분야의 응용 시스템에서 많은 문제점을 유발시킨다. 본 논문에서는SMS 문장들의 변형 및 띄어쓰기 오류를 자동으로 교정하여 형태소 분석 및 품사 태깅의 성능 저하 문제를 방지하는 문자열 오류의 교정 방법을 제안하고 시스템을 구현하였다. 시스템의 성능에 가장 큰 영향을 미치는 변형된 문자열 사전을 구축하는 방법으로 (1) 통신 어휘집을 기반으로 수동으로 구축하는 방법, (2) 수작업으로 구축된 말뭉치로부터 자동으로 변형된 문자열을 추출하는 방법, (3) 자동으로 변형된 문자열을 추출할 때 좌우 문맥을 고려하는 방법에 대하여 시스템을 구현하고 실험을 통하여 비교-분석 및 성능 평가 결과를 제시하였다.

Abstract AI-Helper 아이콘AI-Helper

Some spoken word errors that violate grammatical or writing rules occurs frequently in communication environments like mobile phone and messenger. These unexpected errors cause a problem in a language processing system for many applications like speech recognition, text-to-speech translation, and so...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 SMS 영역 문장의 오류나 의도하지 않은 변형을 교정하는 방법으로 복수개의 사전을 단계적으로 적용하는 방법을 제안하고 구현하였다. 구현된 시스템은 통신 어휘집 및 자체 구축한 SMS 영역 데이타 파일로부터 자동으로 추출한 사전을 사용하였을 때 비교적 만족스러운 성능을 보이면서 사전 구축 자동화 가능성을 확인하였다.
  • 이러한 문제점을 해결하기 위하여 변형된 문자열을 인식하고 정규화 및 띄어쓰기 등 전처리 단계를 통해 가능한 문법에 맞는 문자열로 변환하는 작업을 통해 SMS 문자열의 오류를 교정하는 연구가 수행되고 있다이. 논문에서는 아래의 각 단계별 오류 교정을 동해 SMS 문자열에 포함된 오류를 자동으로 교정하는 방법을 제시하고자 한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (12)

  1. 권연진, '컴퓨터 통신어의 언어학적 연구', 언어과학, 5권, 2호, pp. 58-62, 1998 

  2. 조찬식, '인터넷상에서의 언어 사용에 관한 연구', 한국문헌정보학회지, 35권 4호, pp. 177-196, 2001 

  3. 차인태, 'PC 통신 언어 분석', 음성과학, 8권 3호, pp. 75-91, 2001 

  4. 김보영, 강승식, '자모 빈도에 의한 통신 언어의 특성 연구', 제19회 한국 정보처리학회 춘계 학술발표 논문집, 10권 1호, pp. 501-504, 2003 

  5. 이정복, '컴퓨터 통신 분야의 외래어 사용', 새국어생활, 8권 2호, 국립국어연구원, 1998 

  6. 이정복, '통신 언어 문장 종결법의 특성', 우리말글, 22집, pp. 123-151, 2001 

  7. 임동희, 강승식, 장두성, '음성 인식 후처리를 위한 띄어쓰기 오류의 교정', 한국 컴퓨터 종합 학술대회(KCC 2006) 논문집, Vol.33, pp. 25-27, 2006 

  8. 이재성, '영한 병렬 코퍼스로부터 외래어 표기 사전의 자동 구축', 컴퓨터교육학회논문지, 한국컴퓨터교육학회, 6권, 2호, pp. 9-21, 2003 

  9. Christian Jacquemin, Spotting and Discovering Terms Through Natural Language Processing, MIT press, 2001 

  10. Seung-Shik Kang, Kyu-Baek Hwang, 'A Language Independent n-gram Model for Word Segmentation', AI'2006, pp. 557-565, 2006(LNAI 4304) 

  11. 김용경, 조오현, 박동근, 컴퓨터 통신 언어 사전, 역락사, 2002 

  12. 조오현, 김경용, 박동근, '통신언어의 실태와 개선 방안', 통신언어 어휘집, 문화관광부, 2001 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로