[논문]문장대문장 학습을 이용한 음차변환 모델과 한글 음차변환어의 발음 유사도 기반 부분매칭 방법론

박주희; 박원준; 서희철

문제 정의

본 절에서는 자모간 유사도 함수 d를 설계하기 위해 고안한 세 가지의 방법에 대하여 설명한다. 각 방법론은 언어학적 지식에 기반하여 설계된 자모의 자질 벡터, 대량의 데이터를 통해 발견된 자모간 연관성, 인공신경망을 통해 학습된 자모 임베딩 간의 성능을 비교하기 위해 고안되었다.
본 논문에서는 문장대문장 학습 모델을 음차 변환에 적용하고, 그 결과를 다양한 한글 키워드와 부분적으로 매칭할 수 있는 방법론에 대하여 다루었다. 그리고 그 결과를 위키피디아 리다이렉트 정보를 이용하여 구성한 테스트셋을 이용하여 정량적으로 평가하였다.
따라서, 검색 품질의 향상을 위해서는 적절한 음차변환을 통해 서로 다른 언어의 단어를 잘 매칭할 수 있어야 한다. 본 논문에서는 이러한 음차변환 문제를 문장대문장 학습(Sequence-tosequence learning)[1]을 통해 해결하고자 하였다. 문장대문장 학습이란 문장들 사이의 관계를 기계학습 모델이 학습하도록 하는 것으로 최근 번역[2], 챗봇[3] 등 다양한 자연어처리분야의 문제들을 푸는데 사용되고 있다.
본 실험은 영문 표제어를 음차하는 능력과 그 음차된 결과를 다양한 한글 키워드들과 매칭할 수 있는 성능을 포괄적으로 측정하도록 고안되었다. 먼저 전체 데이터셋을 558개의 dev set과 3000개의 test set으로 구분하였다.
한글 문자열을 올바르게 부분 매칭하기 위해서는 두문자열의 발음 유사도를 계산할 수 있어야 한다. 본 연구는 한글 자모의 발음 유사도를 이용하여 DamerauLevenshtein Distance[14](이하 편집 거리)를 확장하고자 하였다.
따라서 ‘게’ 와 ‘개’ 는 ‘게’ 와 ‘고’ 보다 발음상 더 유사함에도 불구하고 동일한 거리를 가지게 된다. 본 연구에서는 이러한 점을 보완하기 위하여 두 문자의 발음 유사도를 고려한 d 함수를 설계하는데 초점을 맞추었다.
본 절에서는 자모간 유사도 함수 d를 설계하기 위해 고안한 세 가지의 방법에 대하여 설명한다. 각 방법론은 언어학적 지식에 기반하여 설계된 자모의 자질 벡터, 대량의 데이터를 통해 발견된 자모간 연관성, 인공신경망을 통해 학습된 자모 임베딩 간의 성능을 비교하기 위해 고안되었다.

가설 설정

문장대문장 학습이 이루어지는 동안 각 단어는 특정 차원의 벡터로 나타내어지며, 문장간의 관계가 학습되는 동안 생성되는 오차의 전파를 통해 단어의 임베딩이 형성되게 된다. 음차 변환의 경우 단어는 한 개의 자모를 의미하며, 주어진 영어 단어와 이를 음차한 한글 자모 사이의 관계를 학습하는 동안 발음에 대한 정보가 자연스럽게 임베딩에 반영이 되었을 것으로 가정하였다. 이렇게 얻어진 자모의 임베딩을 유사도를 계산하는데 활용하였다.

제안 방법

본 논문에서는 문장대문장 학습 모델을 음차 변환에 적용하고, 그 결과를 다양한 한글 키워드와 부분적으로 매칭할 수 있는 방법론에 대하여 다루었다. 그리고 그 결과를 위키피디아 리다이렉트 정보를 이용하여 구성한 테스트셋을 이용하여 정량적으로 평가하였다.
첫째로, 발성의 방법 중 한글 자음을 변환한 IPA와 대응되는 특성인 파열음, 비음, 탄설음, 마찰음을 각각 one-hot 인코딩으로 벡터화하였다. 둘째로, 1부터 11까지의 스케일이 존재하는 발성의 위치에 대한 정보는 소리가 나는 위치를 구강 전방에서 후방으로 순서대로 나타낸 분류이기 때문에 가까운 칸들은 가까운 거리를 가지도록 첫번째 칸에 분류되는 경우 [0,0,0,0,0,0,0,0,0,0]의 값을, 두번째 칸에 분류되는 경우 [0,0,0,0, 0,0,0,0,0,1] 값을 갖는 식으로서수식 인코딩(ordinal encoding)을 하였다. 이러한 방식에 따르면 첫번째 칸과 두번째 칸은, 첫번째 칸과 열 한번째 칸보다 적은 차이를 갖게 된다.
첫째로, 입 열림 정도는 닫힘, 중간닫힘, 중간열림, 열림으로 나뉘었고 순서 관계와 스케일이 존재하는 값이므로 자음의 발성 위치와 같은 방식으로 서수식 인코딩을하였다. 둘째로, 혀의 위치도 그림 2의 가로축을 6등분하여 마찬가지로 서수식 인코딩을 하였다. 셋째로 평순 모음과 원순모음을 구분하여 0 혹은 1의 값을 부여하였다.
본 논문에서는 문장대문장 학습을 이용한 음차변환 결과를 자모의 발음 유사도를 기반으로 여러 유사 명칭들과 매칭할 수 있는 3가지 방법을 제시하고 위키피디아리다이렉트를 통해 구성된 데이터셋을 통해 그 각각의 성능을 비교하였다.
즉, 이는 발음 뿐만 아니라 다른 요인까지 폭넓게 포함하고 있는 통계기반 유사도라 할 수 있다. 본연구에서는 2018년 8월 한달간 네이버 검색창에 입력된 사용자 질의 수정로그를 토대로 한 자모가 다른 자모와 혼동될 확률을 두 자모의 유사도로 간주하였다. 이 방식은 각 자모의 벡터가 구하여 지는 것이 아니라 곧바로 유사도가 구하여진다는 점이 다른 두가지 방식과 다르다.
상기 기술한 방법론들을 이용하여 구하여진 유사도를 그림 3에 Heatmap으로 표시하여 차이점을 시각적으로 표상화하였다. 이 때, 각 자모가 벡터로 임베딩되는IPASim과 CharEmbSim의 유사도는 각각 IPAVec, CharEmbVec의 코사인 유사도를 계산 후 (-1, 1)의 값을 갖도록 재스케일링하였다.
둘째로, 혀의 위치도 그림 2의 가로축을 6등분하여 마찬가지로 서수식 인코딩을 하였다. 셋째로 평순 모음과 원순모음을 구분하여 0 혹은 1의 값을 부여하였다. 마지막으로 모음 IPA표 만으로는 도출할 수 없는 특성으로 기호 앞에 ‘j’ 나 ‘w’ 가 붙은 경우가 있었다.
음차변환 결과의 품질을 정량적으로 측정하기 위하여 한글위키와 나무위키의 리다이렉트 키워드를 이용하여데이터 셋을 제작하였다. 리다이렉트 키워드란 문서의 표제어 이외에 해당 문서를 가리키는 키워드를 의미한다.
상기 기술한 방법론들을 이용하여 구하여진 유사도를 그림 3에 Heatmap으로 표시하여 차이점을 시각적으로 표상화하였다. 이 때, 각 자모가 벡터로 임베딩되는IPASim과 CharEmbSim의 유사도는 각각 IPAVec, CharEmbVec의 코사인 유사도를 계산 후 (-1, 1)의 값을 갖도록 재스케일링하였다. QueryEditSim의 경우 각 자모별 전이 확률의 합이 1이 나오도록 정규화하였다.
음차 변환을 위해 사용한 문장대문장 학습 모델은 Sutskever의 연구[1]에서 처음 소개되었다. 이 모델은 인코더와 디코더로 구성되어있으며, 본 연구에서는 인코더로 각각 Attention[12]을 적용한 단방향 LSTM, 양방향 LSTM, 1차원 CNN을, 디코더로는 단방향 LSTM만을 이용하여 구성하였다. 인코더에는 음차 변환을 하고자 하는 영어문장이 입력되며, 입력이 끝나면 인코더에서 나온 상태를 디코더로 전달해주게 된다.
예를 들어, 한글 위키피디아에서 ‘서울’은 ‘서울특별시’ 문서를 가리키는 리다이렉트 키워드기 때문에 서울을 입력할 경우 서울특별시 페이지로 이동하게 된다. 이러한 정보를 이용하여, 영문 제목을 가진 페이지들의 한글 리다이렉트 키워드를 추출하였다.
이를 위해 우선 한글 자모음을 그림 1의 표를 참조하여 각 자모를 IPA로 변환하는 작업을 거치고 각 IPA의 특성을 도출해 내어 벡터로 변환하였다.
자음의 경우, 세로축은 발성의 방법, 가로축은 발성의 위치(구강 전방에서 구강 후방으로)에 해당하고, IPA가 같은 칸에 있더라도 왼쪽에 위치하면 무성음, 오른쪽에 위치하면 유성음으로 분류할 수 있었다. 첫째로, 발성의 방법 중 한글 자음을 변환한 IPA와 대응되는 특성인 파열음, 비음, 탄설음, 마찰음을 각각 one-hot 인코딩으로 벡터화하였다. 둘째로, 1부터 11까지의 스케일이 존재하는 발성의 위치에 대한 정보는 소리가 나는 위치를 구강 전방에서 후방으로 순서대로 나타낸 분류이기 때문에 가까운 칸들은 가까운 거리를 가지도록 첫번째 칸에 분류되는 경우 [0,0,0,0,0,0,0,0,0,0]의 값을, 두번째 칸에 분류되는 경우 [0,0,0,0, 0,0,0,0,0,1] 값을 갖는 식으로서수식 인코딩(ordinal encoding)을 하였다.
모음의 경우, 세로축은 입 열림 정도, 가로축은 혀의 위치(전방에서 후방으로)에 해당하고, 비슷한 위치에 있더라도 그림 2의 ㆍ를 기준으로 왼쪽에 있으면 평순모음, 오른쪽에 있으면 원순모음으로 분류할 수 있다. 첫째로, 입 열림 정도는 닫힘, 중간닫힘, 중간열림, 열림으로 나뉘었고 순서 관계와 스케일이 존재하는 값이므로 자음의 발성 위치와 같은 방식으로 서수식 인코딩을하였다. 둘째로, 혀의 위치도 그림 2의 가로축을 6등분하여 마찬가지로 서수식 인코딩을 하였다.

대상 데이터

본 실험은 영문 표제어를 음차하는 능력과 그 음차된 결과를 다양한 한글 키워드들과 매칭할 수 있는 성능을 포괄적으로 측정하도록 고안되었다. 먼저 전체 데이터셋을 558개의 dev set과 3000개의 test set으로 구분하였다. 각 영문 표제어는 미리 훈련된 음차변환 모델을 통해 한글로 음차가 된다.
본 연구에서는 국립국어원에서 제공하는 외래어 표기법 데이터2 43,466건, 네이버 국어사전의 외래어 데이터3 29,609건, 위키데이터에 한글명과 영문명이 모두 등록되어있는 개체명 25,566건을 이용하였다.
이 때, 위키데이터의 개체명은 ‘네이버naver’ 와 같이 한글이 영문을 음차한 경우도 있지만 ‘Germany-독일’ 등 번역이 되어있는 경우도 다수 있으므로 인명, 상호명, 지명 등 번역 보다는 음차가 우세한 카테고리들만을 선별하여 사용하였다.

데이터처리

각 영문 표제어는 미리 훈련된 음차변환 모델을 통해 한글로 음차가 된다. 이 음차된 결과를 이용하여 12,308개의 한글 리다이렉트 키워드들과 각각 유사도를 계산한다. 이 때 유사도는 4장에서 설명한 3가지 방법에 기반한 확장된 편집 거리를 기준으로 계산하였으며, 편집 거리가 일정 임계값 이상인 경우만 매칭된 것으로 확정하였다.
최종 성능은 Test set을 이용하여 F1-score를 계산하였다. F1-score는 정밀도(precision)와 재현율(recall)의 조화평균값으로, 높은 F1-score를 얻기 위해서는 정확한 음차 변환 결과는 물론 다양하게 음차된 한글 키워드들과 유연하게 매칭될 수도 있어야한다.

이론/모형

디코더는 전달받은 정보를 기반으로 가장 확률이 높은 한글 자모들을 순차적으로 출력하게 된다. 인코더와 디코더를 포함한 전체 신경망은 Adam optimizer[13]를 이용하여 최적화되었으며,이 때 learning rate은 1e-3을 사용하였다.

성능/효과

먼저 문장대문장 학습 모델을 이용하여 음차 변환을 할 경우 주변 문맥을 고려하여 음차를 하기 때문에 언어마다 다르게 읽히는 자모나, 알파벳이나 숫자를 그대로 읽어야 하는 경우 등의 복잡한 경우도 음차하는 것을 확인할 수 있었다. 또한 실험 결과를 통해 음차 변환의 결과를 부분매칭하는 방법이 완전매칭하는 경우에 비해 해당하는 한글 키워드를 찾는데 성능이 좋은 것을 확인할 수 있었다. 마지막으로, 자모 임베딩이나 질의수정로그를 이용하여 편집 거리의 비용 함수를 수정함으로써 부분 매칭의 성능을 향상시킬 수 있음을 보였다.
특히 자음과 모음에서 눈에 띄게 밝은 부분이 하나씩 보이는데 자음의 경우에는 ‘ㅅ’ 과 ‘ㅆ’ , 모음의 경우에는 ‘ㅔ’ 와 ‘ㅐ’ 가 이에 해당한다. 마지막으로 자모 임베딩에 기반한 벡터는 자모음의 구분없이 중간 정도의 밝기가 전체적으로 퍼져 있는 모습을 확인 할 수 있다.
또한 실험 결과를 통해 음차 변환의 결과를 부분매칭하는 방법이 완전매칭하는 경우에 비해 해당하는 한글 키워드를 찾는데 성능이 좋은 것을 확인할 수 있었다. 마지막으로, 자모 임베딩이나 질의수정로그를 이용하여 편집 거리의 비용 함수를 수정함으로써 부분 매칭의 성능을 향상시킬 수 있음을 보였다.
먼저 문장대문장 학습 모델을 이용하여 음차 변환을 할 경우 주변 문맥을 고려하여 음차를 하기 때문에 언어마다 다르게 읽히는 자모나, 알파벳이나 숫자를 그대로 읽어야 하는 경우 등의 복잡한 경우도 음차하는 것을 확인할 수 있었다. 또한 실험 결과를 통해 음차 변환의 결과를 부분매칭하는 방법이 완전매칭하는 경우에 비해 해당하는 한글 키워드를 찾는데 성능이 좋은 것을 확인할 수 있었다.
문장대문장 학습 모델의 인코더 아키텍처에 따른 성능은 양방향 LSTM이 가장 우수한 것으로 나타났으며 1차원 CNN, 단방향 LSTM 순으로 성능이 좋았다.
완전매칭(Exact Match)과 부분매칭(Partial Match)의결과를 비교하면, 부분매칭을 할 경우 완전매칭을 할 경우에 비해 향상된 결과를 얻을 수 있음을 확인할 수 있다. 특히 음차변환 문제의 특성상 각 영문 표제어당 여러개의 정답 한글 키워드가 존재하는데, 완전매칭을 할 경우 최대 1개의 키워드밖에 매칭이 되지 않으므로 재현율에서 큰 손실을 볼 수 밖에 없다.
이 때, 리다이렉트 정보에는 음차(예:Merv-메르브)와 번역(예:Elamite-엘람어)의 결과가 섞여있을 수 있는데 우리가 원하는 것은 음차인 경우들이므로 리다이렉트 키워드가 최소 3개 이상있고 키워드간 문자가 50% 이상 겹치는 표제어들로만 제한하였다. 이를 통해 총 3,558개의 영문 표제어와 12,308개의 한글 리다이렉트로 구성된 음차변환정답셋을 생성할 수 있었다. 표 4는 정답셋의 예시로, 동일한 영문 표제어를 다양한 방식으로 음차한 한글 리다이렉트 키워드들이 존재함을 알 수 있다.

후속연구

추후 위 연구를 바탕으로 기구축된 음차사전을 보강방법론이나, 음차어를 보다 효율적으로 매칭하는 검색엔진등에 대하여 후속 연구를 진행할 수 있을 것이다.
표 4는 정답셋의 예시로, 동일한 영문 표제어를 다양한 방식으로 음차한 한글 리다이렉트 키워드들이 존재함을 알 수 있다. 하지만 Eastern India와 같이 음차가 아닌 번역의 결과 또한 여전히 포함되는데, 따라서 해당 테스트셋은 절대적인 지표보다 모델 간 성능 비교에 중점을 두어 해석해야 할 것으로 생각된다.

핵심어	질문	논문에서 추출한 답변
	음차변환이란?	음차변환이란 외래어 등을 소리를 따서 한글로 표기하는 것을 말한다. 예를 들어 ‘naver’ 라는 영문을 ‘네이버’ 라는 한글로 옮기는 것 등이 여기에 포함된다.
	최근 문장대문장 학습을 무엇에 사용하고 있는가?	본 논문에서는 이러한 음차변환 문제를 문장대문장 학습(Sequence-tosequence learning)[1]을 통해 해결하고자 하였다. 문장대문장 학습이란 문장들 사이의 관계를 기계학습 모델이 학습하도록 하는 것으로 최근 번역[2], 챗봇[3] 등 다양한 자연어처리분야의 문제들을 푸는데 사용되고 있다. 음차변환 또한 영문과 한글 문자열 사이의 관계를 학습해야 하므로 문장대문장 학습의 대상으로 볼 수 있다.
	문장대문장 학습 모델은 무엇으로 구성되어 있는가?	음차 변환을 위해 사용한 문장대문장 학습 모델은 Sutskever의 연구[1]에서 처음 소개되었다. 이 모델은 인코더와 디코더로 구성되어있으며, 본 연구에서는 인코더로 각각 Attention[12]을 적용한 단방향 LSTM, 양방향 LSTM, 1차원 CNN을, 디코더로는 단방향 LSTM만을 이용하여 구성하였다. 인코더에는 음차 변환을 하고자 하는 영어문장이 입력되며, 입력이 끝나면 인코더에서 나온 상태를 디코더로 전달해주게 된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

문장대문장 학습을 이용한 음차변환 모델과 한글 음차변환어의 발음 유사도 기반 부분매칭 방법론
A Transliteration Model based on the Seq2seq Learning and Methods for Phonetically-Aware Partial Match for Transliterated Terms in Korean 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

문장대문장 학습을 이용한 음차변환 모델과 한글 음차변환어의 발음 유사도 기반 부분매칭 방법론 A Transliteration Model based on the Seq2seq Learning and Methods for Phonetically-Aware Partial Match for Transliterated Terms in Korean 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

문장대문장 학습을 이용한 음차변환 모델과 한글 음차변환어의 발음 유사도 기반 부분매칭 방법론
A Transliteration Model based on the Seq2seq Learning and Methods for Phonetically-Aware Partial Match for Transliterated Terms in Korean 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper