[논문]한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축

전희원; 다니엘 흥; 임해창

문제 정의

그렇다면 대부분을 차지하는 한 번의 편집 연산을 가지는 질의어들이 어떤 연산들로 구성이 되어 있는지 확인해 보도록 하자.
두 파이차트에서 보는 것과 같이 교체연산이 가장 빈번한데, 그렇다면 어떤 문자들의 교체 연산이 가장 많은지 확인해 보도록 하자.
이는 전체 교정오류가 있었던 질의어들의 42%에 육박하는 양으로 상당히 많은 수의 교정 오류가 외래어로 인해 야기되었음을 알 수 있었다. 따라서 외래어 관련 속성을 추가하는 과정을 통해서 어느 정도 성능 향상을 꾀할 수 있을 거라 예상해 본다.
하지만 이런 종류의 질의어는 대부분 인기 질의어나 의도가 분명한 네비게이셔널 질의어(navigational queries) 일가능성이 매우 높다. 따라서 이를 해결하기 위해 미리 편집된 예외사전을 구축해 활용하는 방법을 생각해 볼 수 있을 것이다.
시간을 가져보기로 하겠다. 또한 랜덤 샘플링 된 질의어와 테스트를 위한 학습 데이터를 기반으로 한국어검색 서비스에서 발생된 질의어들의 여러 특징들과 오타 양상들을 살펴보겠다. 그리고 3장에서는 질의어 오타 교정 시스템의 핵심 알고리즘인 노이즈 채널 모델을 설명하고 이를 구성하는 에러모델 (error model), 언어모델 (language model)을 설명하겠다.
본 논문에서는 지금까지 국내에서 많이 다뤄지지 않았던 질의어 오타 패턴을 분석해보았다. 그리고 오타 패턴 분석 자료를 기반으로 만들어본 교체 확률 테이블을 로그를 기반으로 구축된 에러모델과 비교 작업을 했으며 둘 사이에 상당한 상관관계가 있음을 알 수 있었다.
이 절에서는에서 소개한 한글 질의어들에 대해서길 이의 분포가 어떻게 되는지 살펴볼 것이다.
일단 2.1 장에서 한글과 숫자가 섞여 나오는 것까지 한글 질의어라고 분류 했으므로 과연 한글 자소, 숫자, 공백 그리고 분류자들의 빈도는 어떻게 되는지 살펴보겠다.
지금까지 한글 질의어들이 어떤 오타 경향이 있는지 표로 살펴봤는데, 그렇다면 가장 많은 연산인 교체 연산이 어떤 문자에서 많이 일어나는지 살펴보도록 하겠다.

가설 설정

1) 사용자 입력 질의어를 지속적으로 로깅한다.
1) 오타, 정타를 모두 키스트로크(keystroke)로 변환 시킨다.
따라서 우리는 w.V 문자열 사이의 편집거 리를 구하면 에러모델을 계산할 수 있을 것이다.

제안 방법

여기서 q나 s는 자소나 분류자, 공백 등과 같은 문자들 뿐만 아니라 문자 삭제, 추가를 의미하는 특별한 편집 작업을 의미할 수도 있다. 따라서 같은 방법으로 삭제, 추가 편집 작업에 대한 별도의 삭제, 추가 편집연산 테이블도 구축하였다.
모델 학습과 테스트를 위해 검색 로그에서 층화 샘플링 (stratified sampling) 방법으로 아래과 같은 데이터를 생성했으며 물론 실제 로그를 기반으로 추출되었기 때문에 전체 입력 질의어에서 교정이 필요한 질의어와 정상적인 질의어가 섞인 상태로 학습셋이 구성되었다.
따라서 한글을 분석하기 위해서 한글 음절을 기본단위로 처리하는 것은 자소단위의 처리보다 더 많은 정보를 요구할 것이라는 것을 예측할 수 있다. 본 시스템에서는 자소단위의 처리를 기본으로 하겠고 이를 위해 자소를 키스트로크로 변환하는 과정을 거치겠다. 게다가 영어 알파벳도 표현을 해야 하는 문제가 있으므로 영어 알파벳은 아스키(ASCII) 테이블(0x41 ~ 0x7A) 영역을 사용하고 한글 키스트로크 알파벳을 위해서 유니코드 전각문자 (Fullwidth) 영역을 사용했다 (0xFF21 ~ 0xFF5A).
시스템에서 사용된 동적 편집 연산 테이블 데이터는 [8] 논문 결과를 기반으로 같은 세션내의 두 질의어의 평균 출현 위치 정보와 편집거리를 기반으로 구축되었다.
이와 같은 단점을 보완해 고정된 교정 연산을 할당하기 보다 서로 다른 연산 비용을 할당하는 방법을 사용한 논문도 발표되기도 하였다(4). 여기서는 각 문자들이 다른 문자로 교체될 확률 값을 가진 혼동행렬 (confusion matrix)을 제공하였다. 이 확률값과 함께 베이지언 노이즈 채널(Bayesian noisy channel) 모델을 사용해각 단어와 후보 단어 사이의 에러 확률을 계산할 수 있게 되었다.
이 때문에 질의어 로그를 활용한 방법이 각광을받았다[6]. 이 논문에서는 전통적인 레벤스타인 (Levenshtein) 거리 연산을 사용하기 보다는 가중치를 적용한 교정 거리 연산을 사용하였고 이 각각 가중치는 사용자 로그를 분석해 사용자 경향에 따라 가중치가 가변적으로 변환이 가능하게끔 만들었다.
확률 모델을 구축하는 방법을 소개했다. 이들 단어 쌍은 오타 단어와 정타 단어를 의미하며 이들 간의 교정 거리 연산을 추적해 이들 정보를 활용하는 방법을 사용했다.
오타 경향에 대해서 살펴볼 차례이다. 일단 로그에서 3천개의 오타 질의어들을 추출해 정타 정보를 입력했고, 이들 중에서 한글 질의어 오타, 정타 쌍인 2, 252 개의 질의어를 기반으로 분석을 수행했다.
테스트 결과 국내 검색포털들의 오타 질의어 교정 서비스와의 결과 비교는 큰 의미가 없는 관계로 G사와의 퍼포먼스 비교 결과만을 살펴보도록 하겠다. G사의 결과수집은 테스트셋의 질의어를 실제 서비스 되는 페이지에 넣어 나온 결과를 수집해 얻은 데이터이며, 오타/정타 질의어를 넣었을 때 오타로 판단되었을 경우 출력되는 "이것을 찾으셨나요?" 문장 뒤에 나온 교정 질의어를 수집했다.
물론 편집 거리 계산의 연산 비용은 모두 1로 줬다. 하지만 백트래킹 계산 시 삭제/추가 연산이 교체 연산 과 동일한 비용 경로를 가질 때 교체 연산에 우선순위를 두었다. 이는 한글에서 삭제/추가 연산으로 인해 나오는 오타는 목표하고자 하는 정타 질의어와는 문자열 길이에서부터 확연히 차이를 둘 가능성이 많기 때문에 교체 연산에 더 우선순위를 두었으며 그럼에도 불구하고 연산 비용은 모두 같은 1을 사용했다.

대상 데이터

모델 빌드를 위해 학습 데이터와 테스트 데이터를 준비했다.
그럼 Y! 모델에서 제대로 교정이 되지 못한 질의어 96개 (가중질의어수 : 194)에 대해서 분석해 보도록 하겠다. 질의어를 분석한 결과 40개의 질의어가 외래어이거나 외래어를 포함하고 있는 질의어들이였다.
일반적으로 대한민국 사용자들이 주로 사용하는 질의어에 대한 분석이라고 해도 큰 문제가 없을 듯싶다. 본 논문에서는 특정 기간 동안 야후! 코리아 검색 서비스에서 수집된 질의어들에 대해 랜덤 샘플링을 수행해 약 백만(990, 140)개의 질의어를 선정했고 이를 기반으로 데이터 분석을 했다.

이론/모형

P(w) 확률을 구하는 방법은 유니그램(unigram) 언어 모델을 사용했다.
이곳에서 에러모델과 언어모델 데이터가 생성되며, 기계학습으로 여러 문자열 속성들을 가미흐H 교정에 쓰일 적절한 임계값를 계산해 낸다. 시스템에서 모델은 그라디언트 부스티드 결정트리(gradient boosted distributed decision trees)U2]를 사용하였다.
여기서는 각 문자들이 다른 문자로 교체될 확률 값을 가진 혼동행렬 (confusion matrix)을 제공하였다. 이 확률값과 함께 베이지언 노이즈 채널(Bayesian noisy channel) 모델을 사용해각 단어와 후보 단어 사이의 에러 확률을 계산할 수 있게 되었다.
이런 방법으로 '세션을 고려한 사용자 입력 질의어 ' 데이터를 기반으로 로그 마이닝을 수행 하였으며, 빠른 처리를 위해 하둡(Hadoop) 클러스터를 사용하였다.
이렇게 1억여건 데이터를 이용해 구한 조건부 확률값을 검증하기 위해 에디터가 직접 편집한 질의어 오타 쌍 데이터(2.3에서 이용한 2, 252개의 데이터)를 이용한 편집거리 확률 테이블 데이터와 질의어 재입력을 통해 마이닝 된 에러모델 테이블 랭킹의 비교를 스피어맨(Spearman) 상관관계[11] 방법을 이용해 상관관계를 계산해 보았다.

성능/효과

이와 반면에 4%정도의 질의어가 영문 질의어였다. '이외' 항목에 있는 질의어들은 앞서 나온 네 가지 종류의 질의어 이외의 질의어들을 통칭하며, 이 카테고리에 상당수의 URL 질의어들이 포함되어 있음을 확인 할 수 있었다.
2개 이상의 단어를 가진 질의어가 전체 질의어 집합에서 56%를 차지하는데, 단어기반 n-gram 확률 정보가 질의어 오타 교정에 어느 정도 도움을 줄 수 있다는 것을 예즉할 수 있다.
2장의 조사 결과 한 번의 편집거리가 가장 많았으며 그리고 그 편집거리 연산중에서 가장 많은 연산은 자소의 교체 연산이었다. 따라서 한글을 분석하기 위해서 한글 음절을 기본단위로 처리하는 것은 자소단위의 처리보다 더 많은 정보를 요구할 것이라는 것을 예측할 수 있다.
대해서 튜닝된 결과이다. PREC과 RECL의 증감이 거의 동일하고 FSCO의 결과는 통계적으로 유의미한 수치라고 보기 힘든 -.006의 결과가 나왔다. 이 결과로 보자면 G사 퍼포먼스와 큰 차이가 없다는 것을 알 수 있다.
질의어 오타 패턴을 분석해보았다. 그리고 오타 패턴 분석 자료를 기반으로 만들어본 교체 확률 테이블을 로그를 기반으로 구축된 에러모델과 비교 작업을 했으며 둘 사이에 상당한 상관관계가 있음을 알 수 있었다. 이는 사용자들이 입력한 오타 패턴들이 변하게 되면 자동적으로 쌓여진 로그를 기반으로 에러 모델을 지속적으로업데이트해 이 변화에 대해 지능적으로 대응을 할 수 있다는 것을 의미한다.
이는 사용자들이 입력한 오타 패턴들이 변하게 되면 자동적으로 쌓여진 로그를 기반으로 에러 모델을 지속적으로업데이트해 이 변화에 대해 지능적으로 대응을 할 수 있다는 것을 의미한다. 또한 이를 기반으로 구축된 시스템의 성능 테스트 결과 실제 서비스 중인 여타 다른 검색 서비스들과 동등하거나 좀 더 나은 결과를 보여주고 있다는 것을 확인할 수 있었다.
만들어진 250여개의 확률 데이터 랭킹 비교 결과 스피어맨 상관관계 0.507이라는 결과 값이 계산되었고 이 결과는 사람이 편집한 질의어 쌍 데이터를 이용해 만들어진 테이블과 사용자 로그로 만들어진 에러모델 확률 테이블 사이의 확률랭킹에 대해서 양의 상관관계가 있다는 것을 보여준다.
가장 중요한 작업이다. 연구 결과 편집거리 속성은 기계학습으로 만들어진 모델에서 가장 중요한 속성으로 사용되며 적절한 후보 정타 질의어를 후보 사전으로부터 선택하는데 핵심적인 역할을 수행한다.
쓰인 논문이라는 것을 미리 밝혀둔다. 이 플랫폼은베이지언 노이즈 채널 모델을 핵심적으로 사용한 플랫폼으로 한국어 특유의 속성(features)을 추가하여 성능향상을 이끌어 낼 수 있었다.
질의어 중에서 공백으로 구분한 단어 개수가 15개 이상인 질의어들은 이상치(outher)로 판단해서 데이터에서 제거했으며, 15개 단어 이상의 질의어들은 전체에서 1% 정도에 불과했다.
하겠다. 질의어를 분석한 결과 40개의 질의어가 외래어이거나 외래어를 포함하고 있는 질의어들이였다. 이는 전체 교정오류가 있었던 질의어들의 42%에 육박하는 양으로 상당히 많은 수의 교정 오류가 외래어로 인해 야기되었음을 알 수 있었다.
하지만 한국어 특유의 자유로운 띄어쓰기 형식 때문에 발생하는 후보사전 단어 부재의 문제 때문에, 오타 질의어 자체에 대한 복합명사분해 작업이 필요하다는 것을 알 수 있었으며, 게다가 외래어로 인한 질의어 오타의 경향이 많아 실제 구축된 모델로도 상당한 양의 질의어 오타 교정 실패를 보았다. 따라서 이를 위한 학습 속성추가에 대한 연구도 향후 연구 과제로 적합할 거란 생각을 해본다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축
Analyzing of Hangul Search Query Spelling Error Patterns and Developing Query Spelling Correction System Based on User Logs 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축 Analyzing of Hangul Search Query Spelling Error Patterns and Developing Query Spelling Correction System Based on User Logs 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축
Analyzing of Hangul Search Query Spelling Error Patterns and Developing Query Spelling Correction System Based on User Logs 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper