$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축
Analyzing of Hangul Search Query Spelling Error Patterns and Developing Query Spelling Correction System Based on User Logs 원문보기

한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회, 2010 Oct. 08, 2010년, pp.15 - 21  

전희원 (YST Web Search-Yahoo!, Search-Yahoo!, Korea University) ,  다니엘 흥 (YST Web Search-Yahoo!, Search-Yahoo!, Korea University) ,  임해창 (YST Web Search-Yahoo!, Search-Yahoo!, Korea University)

초록
AI-Helper 아이콘AI-Helper

본 논문은 검색 서비스 기능 중에 빼놓을 수 없는 기능인 한글 검색 질의어(query) 교정 시스템을 '야후!'에서 구축하며 분석한 한글 오타 패턴 그리고 사용자 로그를 기반으로 설계한 질의어 교정 서비스에 대한 설명을 하고 있다. 이 교정 서비스는 현재 '야후! 코리아'에 적용되어 있으며, 한글을 고려한 키스트 로크를 기반으로 한 설계 방식 그리고 동적으로 에러모델을 구축하는 방법을 소개하고 있으며 또한 구축된 모델의 성능을 다른 검색 서비스와 비교한 결과를 소개한다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 그렇다면 대부분을 차지하는 한 번의 편집 연산을 가지는 질의어들이 어떤 연산들로 구성이 되어 있는지 확인해 보도록 하자.
  • 두 파이차트에서 보는 것과 같이 교체연산이 가장 빈번한데, 그렇다면 어떤 문자들의 교체 연산이 가장 많은지 확인해 보도록 하자.
  • 이는 전체 교정오류가 있었던 질의어들의 42%에 육박하는 양으로 상당히 많은 수의 교정 오류가 외래어로 인해 야기되었음을 알 수 있었다. 따라서 외래어 관련 속성을 추가하는 과정을 통해서 어느 정도 성능 향상을 꾀할 수 있을 거라 예상해 본다.
  • 하지만 이런 종류의 질의어는 대부분 인기 질의어나 의도가 분명한 네비게이셔널 질의어(navigational queries) 일가능성이 매우 높다. 따라서 이를 해결하기 위해 미리 편집된 예외사전을 구축해 활용하는 방법을 생각해 볼 수 있을 것이다.
  • 시간을 가져보기로 하겠다. 또한 랜덤 샘플링 된 질의어와 테스트를 위한 학습 데이터를 기반으로 한국어검색 서비스에서 발생된 질의어들의 여러 특징들과 오타 양상들을 살펴보겠다. 그리고 3장에서는 질의어 오타 교정 시스템의 핵심 알고리즘인 노이즈 채널 모델을 설명하고 이를 구성하는 에러모델 (error model), 언어모델 (language model)을 설명하겠다.
  • 본 논문에서는 지금까지 국내에서 많이 다뤄지지 않았던 질의어 오타 패턴을 분석해보았다. 그리고 오타 패턴 분석 자료를 기반으로 만들어본 교체 확률 테이블을 로그를 기반으로 구축된 에러모델과 비교 작업을 했으며 둘 사이에 상당한 상관관계가 있음을 알 수 있었다.
  • 이 절에서는에서 소개한 한글 질의어들에 대해서길 이의 분포가 어떻게 되는지 살펴볼 것이다.
  • 일단 2.1 장에서 한글과 숫자가 섞여 나오는 것까지 한글 질의어라고 분류 했으므로 과연 한글 자소, 숫자, 공백 그리고 분류자들의 빈도는 어떻게 되는지 살펴보겠다.
  • 지금까지 한글 질의어들이 어떤 오타 경향이 있는지 표로 살펴봤는데, 그렇다면 가장 많은 연산인 교체 연산이 어떤 문자에서 많이 일어나는지 살펴보도록 하겠다.

가설 설정

  • 1) 사용자 입력 질의어를 지속적으로 로깅한다.
  • 1) 오타, 정타를 모두 키스트로크(keystroke)로 변환 시킨다.
  • 따라서 우리는 w.V 문자열 사이의 편집거 리를 구하면 에러모델을 계산할 수 있을 것이다.
본문요약 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로