[논문]우리말샘 사전을 이용한 단어 의미 유사도 측정 모델 개발

김호용; 이민호; 서동민

우리말샘 사전을 이용한 단어 의미 유사도 측정 모델 개발
A Word Semantic Similarity Measure Model using Korean Open Dictionary 원문보기

김호용 (한국과학기술정보연구원) , 이민호 (한국과학기술정보연구원) , 서동민 (한국과학기술정보연구원)

단어 의미 유사도 측정은 정보 검색이나 문서 분류와 같이 자연어 처리 분야 문제를 해결하는 데 큰 도움을 준다. 이러한 의미 유사도 측정 문제를 해결하기 위하여 단어의 계층 구조를 사용한 기존 연구들이 있지만 이는 단어의 의미를 고려하고 있지 않아 만족스럽지 못한 결과를 보여주고 있다. 본 논문에서는 국립국어원에서 간행한 표준국어대사전에 50만 어휘가 추가된 우리말샘 사전을 기반으로 하여 한국어 단어에 대한 계층 구조를 파악했다. 그리고 단어의 용례를 word2vec 모델에 학습하여 단어의 문맥적 의미를 파악하고, 단어의 정의문을 sent2vec 모델에 학습하여 단어의 사전적 의미를 파악했다. 또한, 구축된 계층 구조와 학습된 word2vec, sent2vec 모델을 이용하여 한국어 단어 의미 유사도를 측정하는 모델을 제안했다. 마지막으로 성능 평가를 통해 제안하는 모델이 기존 모델보다 향상된 성능을 보임을 입증했다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

국내에서는 현재 ETRI에서 제공하는 국립국어원 표준국어대사전을 기반으로 구축한 WiseWordNet[2]이 개발되어 오픈 API 형태로 서비스가 제공되고 있지만, 한국어 단어의 의미 유사도를 측정함에 있어 반대 의미를 포함하지 않았고 신조어에 대한 데이터도 부족한 상황이다. 그래서 본 논문에서는 국립국어원에서 시범 운영 중인 사용자 참여형 온라인 국어사전인 우리말샘 사전을 이용한 단어 의미 유사도 측정 모델을 개발했다.

가설 설정

또한 계층 구조에서 두 단어의 거리가 멀어질수록 문맥적 유사도가 감소한다고 가정하여 단어의 계층 구조로부터 구한 가중치 α를 수식에 추가했다.

제안 방법

단어의 계층 구조 구축, word2vec 모델을 이용한 단어 벡터화 그리고 sent2vec 모델을 이용한 정의문 벡터화 결과를 다음 수식을 통하여 두 단어 간의 의미 유사도를 측정했다.
비슷한말은 검색 단어와 형제 노드로, 반대말은 새로운 트리로 구성했다. 또한 상위어는 검색 단어의 부모 노드로, 하위어는 검색 단어의 자식 노드로 구성하여 검색 단어와 연관 단어에 대한 트리 모양의 계층 구조를 구축했다.
본 논문에서 제안한 방법과 기존 모델의 성능을 비교하기 위하여 비교 내용에 따른 단어들을 선정하고, ETRI WiseWordNet(WWN)에서 제공하는 어휘관계 분석 API를 통해 기존 모델과의 성능평가를 수행했다. 먼저, 실험을 위하여 우리말샘 사전으로부터 단어 4654개에 대한 데이터를 수집하였고, 데이터 전처리 결과 약 1만 문장의 용례 데이터를 얻을 수 있었다.
2가 된다. 이렇게 해서 구한 가중치와 단어 벡터 간의 코사인 유사도, 정의문 벡터 간의 코사인 유사도를 이용하여 두 단어 간의 의미 유사도를 측정했다.
word2vec[3]은 벡터 공간 상에 단어를 벡터로 표현하여 단어의 문맥적 의미를 수치적으로 표현하는 비지도 기계 학습 모델이다. 이를 이용하여 우리말샘 사전으로부터 수집한 검색 단어의 용례를 학습시킴으로써 검색 단어의 문맥적 의미를 파악했다. 이후, 학습된 word2vec 모델을 이용하여 단어를 벡터화했다.
sent2vec[4]은 word2vec의 확장 모델로 문장을 연속적인 단어들의 수열로 변환하고, 문장 속의 각 단어들을 word2vec 모델과 같은 방식으로 벡터화한 다음, 문장을 벡터로 표현하는 모델이다. 제안하는 모델에서는 수집한 모든 정의문을 sent2vec 모델에 학습시킨 후, sent2vec 모델을 이용하여 단어의 정의문을 벡터로 표현하고 두 단어의 정의문 벡터 간의 코사인 유사도를 계산하여 정의문 간의 의미 유사도를 수치적으로 표현했다.
그림 1은 본 논문에서 제안하는 단어 의미 유사도 측정 시스템 구성도를 보여준다. 제안하는 시스템은 우리말샘 사전에서 제공하는 오픈 API를 사용하여 단어에 대한 데이터를 수집한 다음, 단어의 계층 구조 구축, word2vec 모델을 이용한 단어 벡터화, 그리고 sent2vec 모델을 이용한 정의문 벡터화, 마지막으로 단어 의미 유사도를 측정하는 과정으로 구성된다.

대상 데이터

본 논문에서 제안한 방법과 기존 모델의 성능을 비교하기 위하여 비교 내용에 따른 단어들을 선정하고, ETRI WiseWordNet(WWN)에서 제공하는 어휘관계 분석 API를 통해 기존 모델과의 성능평가를 수행했다. 먼저, 실험을 위하여 우리말샘 사전으로부터 단어 4654개에 대한 데이터를 수집하였고, 데이터 전처리 결과 약 1만 문장의 용례 데이터를 얻을 수 있었다.
우리말샘 사전의 사전 검색 오픈 API와 사전 내용 오픈 API를 사용하여 단어의 정의문, 용례, 연관 단어, 연관 단어 유형, 링크 대상 코드를 수집했다. 연관 단어 유형에는 비슷한말, 반대말, 상위어, 하위어가 있다.

이론/모형

이를 이용하여 우리말샘 사전으로부터 수집한 검색 단어의 용례를 학습시킴으로써 검색 단어의 문맥적 의미를 파악했다. 이후, 학습된 word2vec 모델을 이용하여 단어를 벡터화했다.

성능/효과

표 1은 신조어 및 연관 없는 단어 사이의 의미 유사도 측정 결과로, 기존 모델은 신조어에 대해서 결과를 도출할 수 없었고 연관이 없는 단어에 대한 의미적 유사도 또한 제안 모델(WSL)이 더 좋은 결과를 보여주었다. 일례로, ‘남자002’와 ‘요리006’을 비교할 때, 제안 모델은 ‘남자002’를 “남성으로 태어난 사람”라는 뜻을 가진 단어로 잘 검색한 반면, 기존 모델은 ‘남자002’를 ‘남자002’의 동음이의어인 “‘국자01’의 방언”라는 뜻을 가진 ‘남자001’로 잘못 검색하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

우리말샘 사전을 이용한 단어 의미 유사도 측정 모델 개발
A Word Semantic Similarity Measure Model using Korean Open Dictionary 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

우리말샘 사전을 이용한 단어 의미 유사도 측정 모델 개발 A Word Semantic Similarity Measure Model using Korean Open Dictionary 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

우리말샘 사전을 이용한 단어 의미 유사도 측정 모델 개발
A Word Semantic Similarity Measure Model using Korean Open Dictionary 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper