[논문]문맥을 고려한 유사 외래어 검출 알고리즘의 성능 향상

고숙현; 이재성

가설 설정

1. 질의어와 검색어의 스트링 길이가 4바이트 이상 다르면 유사하지 않은 것으로 판단하여 유사도 비교를 하지 않는다.
3. 표 2에 의해 첫 음절 초성을 대표자음으로 변환한다. 이 때, 기본 종성(받침)에 대하여 표 3과 같이 기본 종성으로 변환한다.

제안 방법

‘ㄲ, ㄸ, ㅃ, ㅆ, ㅉ”에 대한 첫 음절 초성 대표 자음 치환은 KODEX에서 제안한 내용과 동일하며, ‘ㅎ’의 경우 중성으로 ‘ㅘ’가 나타난 경우에만 대표자음인 ‘ㅍ’으로 치환할 수 있도록 하였다.
CKODEX에서는 EKODEX에서와 마찬가지로 첫 음절과 마지막 음절의 모음 정보를 유지한다. EKODEX에서 제시하였던 대표모음 코드표에서 ‘ㅜ,ㅠ’에 대한 대표 모음을 ‘ㅏ’가 아닌 ‘ㅒ’로 변경하고, 모음 치환에 대한 제약사항을 추가하였다.
특히 외국어는 원어 그 자체로 쓰이기도 하지만 한국어로 음차 표기하여 쓰기 때문에 개인차 등의 이유로 하나의 외국어에 대하여 다양한 음차표기가 존재하게 되며 이는 정보검색의 성능에 악영향을 미치게 된다. 따라서 동일한 외국어 단어에서 유래된 2개 이상의 한국어 음차표기를 동일한 의미로 인식할 수 있는 클러스터링 과정이 필요하게 되며, 같은 취지로 기존에 제안되었던 KODEX, EKODEX 알고리즘의 성능을 향상시키기 위해 단어 내 문맥정보를 이용한 CKODEX 알고리즘을 제안하게 되었다.
그러나 동일한 자음이 연속되는 경우 모음이 뒤에 나타나는 경우를 제외하고는 제거하지 않았다는 점과 첫 번째 문자에 대한 치환 조건을 유지하고 처리한다는 것이 SOUNDEX와 다르다. 또한 SOUNDEX와 같이 코드표를 유지하며 일률적인 치환을 수행하는 것이 아니라 별도의 조건에 따른 규칙에 의하여 처리한다.
유사 외래어 검출 알고리즘은 입력되는 한 개의 외래어 단어에 대하여 그와 동일한 외국어 단어에서 유래된 다른 표기의 외래어 단어를 검출하는 것으로, 본 논문에서는 대량의 외래어 집합에서 각 단어들의 음성적 유사도를 비교한 후 등가부류로 분류하는 작업을 통하여 외래어 유사도 비교를 수행한다. 또한 새로운 유사도 비교 알고리즘을 제안하기 위하여 기존 연구의 문제점을 제고하고, 이를 바탕으로 문맥 정보를 이용한 C(Context sensitive))KODEX 규칙을 마련한다. 본 연구에서 규칙 마련을 위해 사용하는 문맥 정보는 음절 내의 자소에 대한 정보로서 규칙이 적용되는 음절의 이전 음절과 다음 음절, 혹은 첫 음절, 마지막 음절의 자소에 대한 정보를 나타낸다.
이 외에 EKODEX에서 질의어와 검색어의 길이가 2바이트 이상 차이가 날 경우 유사도 비교에서 제외시킨다는 조건에 의하여 같은 등가부류로 분류되지 못했던 문제는 CKODEX에서 그 제한을 4바이트로 설정함으로써 정확도 및 재현율을 향상시킬 수 있었다. 또한 질의어와 검색어가 1바이트 이상 같아야만 유사도 비교를 진행시켰던 제약조건을 2바이트로 수정함으로써 ‘그래프/글로버’와 같이 쓸데없는 데이터 클러스터링이 이루어지지 않도록 하였다. 그러나 이 제한은 ‘바나나/버내너’와 같은 동일한 등가부류에 속하는 데이터를 클러스터링하지 못하는 문제점을 초래하게 되었다.
본 연구에서 규칙 마련을 위해 사용하는 문맥 정보는 음절 내의 자소에 대한 정보로서 규칙이 적용되는 음절의 이전 음절과 다음 음절, 혹은 첫 음절, 마지막 음절의 자소에 대한 정보를 나타낸다. 본 논문에서 제안하는 알고리즘은 영어 단어에 대한 외래어를 그 대상으로 하며 기타 언어에 대한 외래어의 경우 제외시켰다. 또한 ‘뼁끼(페인트)’와 같은 일본어의 영향을 받아 변형이 심한 외래어도 대상에서 제외하였다.
[8]에서는 코퍼스에서 자동으로 외래어 사전을 추출하는 방법으로 통계적 방법을 제안하였으며, 이중 언어 코퍼스로부터 자동으로 외래어 사전을 추출해내는 확률적 정렬 방법을 소개하고 있다. 본 논문에서는 위의 실험을 조금 더 개선하여 N-gram 기반의 외래어 검출 프로그램을 개발(정확도 89%, 재현율 90%)하였으며, 이를 [실험데이터3]의 외래어 검출에 사용하였다.
평가 방법은 정확률과 재현율, F-measure 값을 사용하였다. 본 논문의 실험에서 사용하는 테스트 파일은 모두 단어로 이루어 진 것으로 정확률과 재현율을 본 논문에 맞게 수정하여 사용하였다. 입력데이터세트의 다수의 질의에 대한 검색 결과들로부터 산출되는 평균 정확률과 평균 재현율을 이용하여 평가의 척도로 이용한다.
각 실험 데이터 수는 평균적으로 340개의 배수로 증가하며, 정렬되지 않은 데이터의 목록이다. 비교데이터세트를 구축한 후 각 비교데이터세트에 대한 입력데이터세트와 정답세트를 재구성하였다. 비교데이터세트, 입력데이터세트, 정답세트에 대한 정보를 표 10에 나타내었다.
KODEX 알고리즘[4]은 SOUNDEX 알고리즘의 기본 철학을 한글 자음에 적용한 것으로, 첫 음절을 제외한 한글 자소의 모음을 모두 제거한 후 빈번하게 발생하는 혼돈 자소를 표 1과 같이 그루핑하고 동일한 코드번호를 부여하여 동일하게 생성된 KODEX 코드에 대하여 유사 외래어로 인식한다. 알고리즘은 초성 이응 제거, 중복 종성 제거, 초성 대표 자음화, 코드 치환, 연속 중복 코드 제거의 다섯 단계의 처리 과정으로 구성된다.
유사 외래어 검출 알고리즘은 입력되는 한 개의 외래어 단어에 대하여 그와 동일한 외국어 단어에서 유래된 다른 표기의 외래어 단어를 검출하는 것으로, 본 논문에서는 대량의 외래어 집합에서 각 단어들의 음성적 유사도를 비교한 후 등가부류로 분류하는 작업을 통하여 외래어 유사도 비교를 수행한다. 또한 새로운 유사도 비교 알고리즘을 제안하기 위하여 기존 연구의 문제점을 제고하고, 이를 바탕으로 문맥 정보를 이용한 C(Context sensitive))KODEX 규칙을 마련한다.

대상 데이터

CKODEX 알고리즘의 실험을 위해 표 9에 나타난 세 가지 종류의 외래어 목록 및 등가부류로 분류된 외래어 목록을 실험데이터로 하였다. 이 중 ‘실험데이터3’의 경우 외래어 목록만을 나타낸 것이 아니라 사전 형식으로 되어 있어 별도의 외래어 검출 과정을 거쳤다.
데이터 세트의 크기 변화에 따른 성능을 평가하기 위하여 각 데이터세트를 크기에 따라 10단계로 준비하였다. 즉, 전체 외래어 목록을 10등분 하여 1/10, 2/10, … , 10/10의 크기 별로 10개의 데이터 세트를 준비하였다.
위의 세 종류의 데이터 목록을 이용하여 외래어 유사도 비교 시 검색어로 사용될 데이터 목록(이하 입력데이터세트), 입력된 검색어에 대하여 비교 대상이 되는 데이터 목록(이하 비교데이터세트), 평가에 사용될 정답 목록(이하 정답세트)를 마련하였다. 정답세트는 2개 이상의 외래어 이형태를 갖는 최대 425개의 등가부류로 분류된 외래어 이형태 목록이며, 각 등가부류 내의 대표 외래어를 선정하여 입력데이터세트를 구성하였다.
데이터 세트의 크기 변화에 따른 성능을 평가하기 위하여 각 데이터세트를 크기에 따라 10단계로 준비하였다. 즉, 전체 외래어 목록을 10등분 하여 1/10, 2/10, … , 10/10의 크기 별로 10개의 데이터 세트를 준비하였다. 각 실험 데이터 수는 평균적으로 340개의 배수로 증가하며, 정렬되지 않은 데이터의 목록이다.

데이터처리

본 논문의 실험에서 사용하는 테스트 파일은 모두 단어로 이루어 진 것으로 정확률과 재현율을 본 논문에 맞게 수정하여 사용하였다. 입력데이터세트의 다수의 질의에 대한 검색 결과들로부터 산출되는 평균 정확률과 평균 재현율을 이용하여 평가의 척도로 이용한다. 평균 정확률과 평균 재현율이 모두 높을수록 성능이 좋은 것이다.

이론/모형

CKODEX 알고리즘은 EKODEX 알고리즘이 KODEX 알고리즘에 Metaphone 알고리즘의 개념을 더한 것과 동일한 의도에서 시작되었다. CKODEX 알고리즘은 EKODEX 알고리즘을 기본으로 하고 다음의 세부 알고리즘을 작성하였다.
평균 정확률과 평균 재현율이 모두 높을수록 성능이 좋은 것이다. 그러나 정확률과 재현율이 일반적으로 반비례 관계에 있으므로, 다수의 질의에 대한 평균값을 계산할 필요가 있으며, 본 논문에서는 F-measure 값을 이용한다.
EKODEX는 첫 음절과 마지막 음절의 모음을 삭제하지 않고 그 정보를 유지함으로써 모음으로 인해 발생하는 유사외래어 혼동을 효과적으로 방지하였다. 또한 구개음화에 따른 모음의 변화를 고려하는 등 기존 KODEX 알고리즘에 비하여 세밀한 규칙을 적용하였다. 질의어와 검색어가 2바이트 이상 길이 차이가 나거나 일치되는 부분이 1바이트 이상 존재하지 않는 경우 비교 자체를 고려하지 않았으며, 자음/모음 코드치환, 첫 음절을 제외한 초성 이응 제거, 구개음화 현상 처리, 마지막 음절에 대한 대표모음 치환 등 12단계의 알고리즘을 통해 KODEX에 비해 나은 성능을 보였다.
평가 방법은 정확률과 재현율, F-measure 값을 사용하였다. 본 논문의 실험에서 사용하는 테스트 파일은 모두 단어로 이루어 진 것으로 정확률과 재현율을 본 논문에 맞게 수정하여 사용하였다.

성능/효과

6. 첫 음절을 제외한 표 8의 경우 한글의 구개음화 현상에 따라 초성 ‘ㄷ’을 ‘ㅈ’이 속해있는 대표자음으로 치환한다.
CKODEX 알고리즘은 기존 알고리즘에 추가하여 좌우 문맥에 대한 규칙을 적용하고 보다 세분화된 규칙 적용과 기존 알고리즘에서 불합리했던 선행 조건들을 수정함으로써 기존 알고리즘보다 정확률과 재현율을 상승시킬 수 있었다. 다양한 음차표기가 존재하는 한국어의 외래어 특성에 따라 다양한 예외사항을 마련해둠으로써 새로운 데이터로 확장되었을 때에도 높은 정확률과 재현율을 유지할 수 있었다.
KODEX는 재현율이 매우 높았으나, 정확률이 낮아 대량의 데이터 검색에는 불리할 수 있다. EKODEX는 KODEX에 비해 높은 정확률을 보였으나, 몇 가지 문제점과 함께 CKODEX보다 낮은 재현율과 낮은 정확률을 보였다. 표 14, 표 15는 KODEX와 EKODEX에서 나타났던 문제점을 CKODEX를 통하여 해결된 예를 나타낸 것이다.
F-measure 값을 통해 KODEX, EKODEX, CKODEX의 성능을 비교해 보았을 때, CKODEX의 성능이 가장 좋음을 알 수 있었다. KODEX는 재현율이 매우 높았으나, 정확률이 낮아 대량의 데이터 검색에는 불리할 수 있다.
KODEX 알고리즘은 스트링 유사도 비교 알고리즘인 Damerau 알고리즘[7]이나 N-gram 알고리즘[8]과의 비교 실험에서 음차표기의 등가부류를 생성하는데 있어 보다 효율적인 방법임을 보였다. 그러나 모음 정보를 무시한 알고리즘의 한계로 정확률 향상에 제약이 있다는 한계점을 가진다.
EKODEX 알고리즘[6]은 KODEX 알고리즘을 기반한 것으로 Metaphone 알고리즘의 개념을 도입하여 한국어 외래어 음차표기의 유사도 비교 성능을 향상시켰다. Metaphone 알고리즘이 영문 단어의 쓰임새와 언어 관습에 따라 규칙성을 부여한 것과 같이 EKODEX도 보다 세분화한 규칙을 적용함으로써 KODEX의 한계점이었던 정확도 문제를 해결하였다. EKODEX는 첫 음절과 마지막 음절의 모음을 삭제하지 않고 그 정보를 유지함으로써 모음으로 인해 발생하는 유사외래어 혼동을 효과적으로 방지하였다.
기존의 EKODEX가 제시하였던 2바이트의 길이 조건을 4바이트로 변경함으로써 하이텍/하이테크와 같은 유사외래어를 검출 조건을 완화시켰으며, 반면 질의어와 검색어가 1바이트 이상 같을 경우 진행되던 조건을 2바이트로 변경함에 따라 불필요한 단어가 동일한 등가부류로 분류되는 것을 방지하였다.
CKODEX 알고리즘은 기존 알고리즘에 추가하여 좌우 문맥에 대한 규칙을 적용하고 보다 세분화된 규칙 적용과 기존 알고리즘에서 불합리했던 선행 조건들을 수정함으로써 기존 알고리즘보다 정확률과 재현율을 상승시킬 수 있었다. 다양한 음차표기가 존재하는 한국어의 외래어 특성에 따라 다양한 예외사항을 마련해둠으로써 새로운 데이터로 확장되었을 때에도 높은 정확률과 재현율을 유지할 수 있었다. 따라서 본 연구에서 제안하는 알고리즘은 사용자가 입력한 질의어에 대하여 유사한 외래어를 등가부류로 묶어 제시할 수 있으므로 정보검색에 적용하여 유사 외래어 검색에 대한 성능을 향상시킬 수 있을 것이다.
이는 정확률과 재현율이 반비례 관계에 있는 성질 때문이며, CKODEX는 EKODEX에 비하여 보다 많은 제한 규칙을 적용하였음에도 분구하고 정확률과 재현율을 모두 향상시켰다. 모든 알고리즘에 대하여 데이터세트의 크기가 증가함에 따라 전체적인 성능이 감소하였으며, 재현율보다는 정확률의 하락이 전체적인 성능에 크게 영향을 미쳤다.
실험을 통해 알 수 있듯이 KODEX는 데이터 세트가 증가됨에 따라 월등한 재현율을 보였으나 정확률 면에서 매우 저조한 성능을 보였다. 반면 EKODEX는 KODEX에 비하여 높은 정확률을 보였으나, 상대적으로 낮은 재현율을 유지하였다.
위의 세 종류의 데이터 목록을 이용하여 외래어 유사도 비교 시 검색어로 사용될 데이터 목록(이하 입력데이터세트), 입력된 검색어에 대하여 비교 대상이 되는 데이터 목록(이하 비교데이터세트), 평가에 사용될 정답 목록(이하 정답세트)를 마련하였다. 정답세트는 2개 이상의 외래어 이형태를 갖는 최대 425개의 등가부류로 분류된 외래어 이형태 목록이며, 각 등가부류 내의 대표 외래어를 선정하여 입력데이터세트를 구성하였다.
이를 기반으로 한글 자모의 음성적 특성을 고려하여 유사도 비교에 적용한 KODEX 알고리즘[4]은 SOUNDEX와 마찬가지로 한글의 모음을 제거한 후 자음을 특정 코드 값으로 치환한 후 각각의 코드 값을 비교함으로써 유사도 비교를 수행하게 된다. 제한적인 실험데이터 사용과 모든 모음 정보의 제거로 인하여 낮은 정확률을 보인 KODEX의 문제점을 개선하기 위해 Metaphone 알고리즘[5]의 개념을 도입한 EKODEX 알고리즘[6]은 KODEX 알고리즘에 부분적인 모음 정보를 사용함으로써 정확률 향상에 기여하였으나, 실험데이터세트의 증가 시 낮은 재현율을 나타내는 문제점이 나타났다. 이러한 선행 연구들의 문제점을 극복하고 유사도 비교 알고리즘의 성능을 향상시키기 위해 문맥정보를 이용한 세분화된 규칙을 제안하는 발전된 유사도 비교 알고리즘이 필요하다.
또한 구개음화에 따른 모음의 변화를 고려하는 등 기존 KODEX 알고리즘에 비하여 세밀한 규칙을 적용하였다. 질의어와 검색어가 2바이트 이상 길이 차이가 나거나 일치되는 부분이 1바이트 이상 존재하지 않는 경우 비교 자체를 고려하지 않았으며, 자음/모음 코드치환, 첫 음절을 제외한 초성 이응 제거, 구개음화 현상 처리, 마지막 음절에 대한 대표모음 치환 등 12단계의 알고리즘을 통해 KODEX에 비해 나은 성능을 보였다.

후속연구

다양한 음차표기가 존재하는 한국어의 외래어 특성에 따라 다양한 예외사항을 마련해둠으로써 새로운 데이터로 확장되었을 때에도 높은 정확률과 재현율을 유지할 수 있었다. 따라서 본 연구에서 제안하는 알고리즘은 사용자가 입력한 질의어에 대하여 유사한 외래어를 등가부류로 묶어 제시할 수 있으므로 정보검색에 적용하여 유사 외래어 검색에 대한 성능을 향상시킬 수 있을 것이다.

핵심어	질문	논문에서 추출한 답변
	외래어란 무엇인가?	최근 정보통신 기술의 급격한 발달은 분야 간 정보교류를 촉진하였고, 이에 따른 외국어 문서와 외국어 용어 등의 사용 빈도가 증가되면서 일상생활, 학술, 연구 분야에서 외래어의 사용 빈도는 더욱 높아졌다. 외래어란 외국에서 들어와 국어처럼 쓰이는 말로 외국어 단어에 대하여 한국어로 음차 표기되어 사용되는 말을 나타낸다. 외국어 단어에 대한 음차표기는 여러 차례 개정되어 고시되는 외래어표기법의 문제뿐만 아니라 대상 언어에 대한 개인차 등을 이유로 하나의 외국어 단어에 대하여 다양한 한국어 음차표기가 존재하게 된다[1].
	유사 외래어 검출 알고리즘은 어떤 기능을 하는 알고리즘인가?	유사 외래어 검출 알고리즘은 입력되는 한 개의 외래어 단어에 대하여 그와 동일한 외국어 단어에서 유래된 다른 표기의 외래어 단어를 검출하는 것으로, 본 논문에서는 대량의 외래어 집합에서 각 단어들의 음성적 유사도를 비교한 후 등가부류로 분류하는 작업을 통하여 외래어 유사도 비교를 수행한다. 또한 새로운 유사도 비교 알고리즘을 제안하기 위하여 기존 연구의 문제점을 제고하고, 이를 바탕으로 문맥 정보를 이용한 C(Context sensitive))KODEX 규칙을 마련한다.
	Metaphone 알고리즘은 SOUNDEX 알고리즘과 어떤 부분에서 차이를 보이는가?	Metaphone 알고리즘은 단어의 첫 음절을 제외한 모음(A, E, I, O, U)을 제거하는 것은 SOUNDEX와 동일하다. 그러나 동일한 자음이 연속되는 경우 모음이 뒤에 나타나는 경우를 제외하고는 제거하지 않았다는 점과 첫 번째 문자에 대한 치환 조건을 유지하고 처리한다는 것이 SOUNDEX와 다르다. 또한 SOUNDEX와 같이 코드표를 유지하며 일률적인 치환을 수행하는 것이 아니라 별도의 조건에 따른 규칙에 의하여 처리한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

문맥을 고려한 유사 외래어 검출 알고리즘의 성능 향상
An Enhanced Context Sensitive Algorithm for Equivalent Foreign Word Transliteration Detection 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

문맥을 고려한 유사 외래어 검출 알고리즘의 성능 향상 An Enhanced Context Sensitive Algorithm for Equivalent Foreign Word Transliteration Detection 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

문맥을 고려한 유사 외래어 검출 알고리즘의 성능 향상
An Enhanced Context Sensitive Algorithm for Equivalent Foreign Word Transliteration Detection 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper