[논문]MeSH 시소러스를 이용한 한영 교차언어 키워드 자동 부여

이재성; 김미숙; 오영순; 이영성

doi:10.3745/kipstb.2006.13b.2.155

문제 정의

본 논문에서는 한국어 의학 논문에서 자동으로 영문 MeSH 키워드를 부여하는 방법을 제안하고, 이에 수반되는 K-MeSH 용어 추출과 띄어쓰기 변이 문제 처리 방법을 제안했다. 띄어쓰기 변이를 처리하기 위해, 시소러스에 생성 가능한 모든 띄어쓰기 변이를 등록하는 것 대신에 최대로 띄어 쓴 용어만 등록하고 이를 이용하여 모든 변이를 검색해 내도록 했고, 문장내에서도 음절 단위로 용어를 검색하도록 했다.
또, 비록 유효한 단음절어를 얻기 위한접미사 검사 프로그램을 사용한다 할지라도 기대하는 것만큼의 재현률을 향상시킬 수는 없었다. 본 실험에서 사용한 접미사 검사 프로그램은 가능한 조사 및 접미사의 조합을 검사해서 접미사를 판단해 주는 것이다[13]. 그러나 과도생성에의해 잘못된 조합도 접미사로 처리하는 오류가 있어, 이를향상시킬 필요가 있다.

가설 설정

(실제 색인 전문가들이 추출한 색인어는 분야 (qualifier) 등의 정보가 포함되어 있으나, 이 실험에서는 순수 키워드만을 대상으로 비교하였다.) 일반적으로 색인은 전문가마다 차이가 있을 수 있으므로, 색인 전문가 3인중 2인이상이 선택한 키워드만을 모아 정답으로 가정하였다. 이 결과와 저자의 키워드, KAP 프로그램으로 생성한 상위 10개의키워드를 비교하였다.
(3)은 각각 A, B, C, D로 표현된 4개의 단어로 이루어진 가능한 조합 형태를 보여준다. A단어가 검색되어 졌고, D는 다른 단어 부분이며, B_C가 시소러스에 등록되어 있다고 가정한다. 이때 음절 단위 검색 전략은 용어의 시작이 공백 다음이건 아니건 관계없이 검색되므로, 띄어쓰기 변이를 고려할 경우에는 (3)에 나타난 B_C와 BC가 사용된 모든 경우의 키워드를 추출할 것이다.
어절단위 검색 (word phrase based search; W-방법)은 검색된 어절의 바로 다음 어절부터 검색을 시작한다. 이 방법은사용된 모든 용어들이 공백으로 명확히 구분되어 있고, 반드시 어절의 처음 부분에 있다고 가정한다. 음절단위 검색(syllable based search; S-방법)은 검색된 용어의 바로 다음음절부터 검색을 시작한다.

제안 방법

본 실험에서는 IDF를 한국어의학 데이터베이스 (KMBASE)[8]에 있는 논문 25, 729중 90%인 23, 156개를 선택하여 계산하였다. IDF 계산에 사용되지 않은 논문 중 임의로 20개를 선택하여 이를 키워드 부여의 정확성 평가를 위해 사용했다. 평가를 하기 위해 수작업을 해야 하기 때문에 비교적 적은 수의 논문을 선정하였고, 이를 보완하기 위해 통계 분석을 통해 결과가 유의미한지를 검증하였다.
MeSH는 한 가지 개념에 대해 서로 다른 용어가 존재할 경우, 이를 정리하여 통일하였고, 또, 생명과학에 사용되는 개념을 계층구조로 만들어 상위 개념과 하위 개념을 파악할 수 있도록 하였다. 현재 MeSH 용어는 MEDLINE을 포함한 세계 수많은 기관에서 의료 정보와 논문, 책, 자료 색인을 위해 사용하고 있다[1].
또 제안한 방법 (CSX 방법)을 사용하여 교차언어 키워드부여 실험을 하였다. 색인 전문가 3인의 색인 결과에서 2인이상이 일치하는 키워드를 정답 색인어로 가정하고 평가를해본 결과 색인 전문가들이 평균 F-값은 76.
2장에서는 전체적인 한영 교차언어 키워드 자동부여 과정에 대해 설명하고, 3장에서는 한국어 띄어쓰기 변이 처리 방법을 구체적으로 설명한다. 또, 4 장에서 두 가지의 실험, 즉, 한국어 MeSH 용어의 추출 성능 비교 실험과 한영 교차언어 키워드 자동부여 실험을 하고, 그 결과를 평가한다. 이어 5장에서 결론을 짓는다.
5%의 성능이 향상된 것이다. 또한 CSX 방법이 다른 방법에 비해 가장 우수하므로, 이 방법을 교차언어 키워드 부여시 용어 추출 방법으로 선택했다.
그러나 본 논문에서는 문장에 사용된 복합명사 띄어쓰기 변이체가 K-MeSH 시소러스 엔트리에 존재하는지를 검색하면 되므로 좀 더 쉽고 효과적으로 용어 추출을 할 수 있다. 또한 본 논문에서는 띄어쓰기 변이체를 인식하고 난 후, 형태소분석의 어미 분석 기능을 필요한 곳에서 사용하여 형태소 분석 방법의 잇점도 갖도록 하였다.
즉, s 가 t 문자열의 앞부분에서 모두 일치해야 한다. 또한, 최장일치 용어를 찾기 위해, 시소러스 사전에서 가장 길게 t와 일치하는 s를 찾도록 이 알고리즘을 반복 호출하여 사용한다.
띄어쓰기 변이를 처리하기 위해, 시소러스에 생성 가능한 모든 띄어쓰기 변이를 등록하는 것 대신에 최대로 띄어 쓴 용어만 등록하고 이를 이용하여 모든 변이를 검색해 내도록 했고, 문장내에서도 음절 단위로 용어를 검색하도록 했다. 실험 결과, 시소러스의 크기가 약 42%정도 축소되었을 뿐만 아니라, 일반적인 용어 추출 방법에 비해 약 22.
만약 한국어 용어가 의미 모호성이 있어, 시소러스내의 여러 엔트리와일치할 경우는 의미 모호성 해결을 위한 방법이 필요하다[9]. 본 논문에서는 단순한 방법으로 대응되는 시소러스 엔트리중 임의로 한 엔트리를 선택하여 처리한다. 또 다른 방법으로는 시소러스를 이용한 용어 변환시, 바로 영어로 바꾸지않고, 일단 한국어 표준 용어로 바꾸고, 중요 키워드를 선택한 후, 다시 영어 표준어로 바꾸는 방법이 있을 수 있다.
이러한 문제를 해결하기 위해서는 찾은 문자열(용어 후보)이 다른 명사나 어미 등의 일부인가를 확인해야 한다. 본 논문에서는 이러한 문제를 비교적 간단하게 해결하기 위해 이음절어 이상으로 이루어진 문자열이 발견될 경우는 올바른 용어로 간주하여 처리하고, 단음절어일 경우는 조건에 따라 선택적으로 용어를 추출했다.
하지만, 띄어쓰기가 규칙적이지 않아 다른용어나 접두사를 앞에 붙여 쓰는 경우, 우리가 찾는 용어가어절 중간에서부터 시작될 수도 있을 것이다. 본 논문에서는이러한 두 가지 경우를 비교하기 위해 어절단위 검색과 음절단위 검색의 두 가지 방법으로 K-MeSH 용어를 검색한다. 어절단위 검색 (word phrase based search; W-방법)은 검색된 어절의 바로 다음 어절부터 검색을 시작한다.
따라서 정확한 평가를 위해서 재현률과 정확률 사이의 균형이 필요하다. 본 실험에서는 F-값 계산에 정확률과 재현률을 같은 비율로 고려하였고, 이 F-값이 가장 좋은 것을 키워드 추출 계산에 사용하였다.<표 1>에 나타난 실험 결과에 따르면 기본적으로 쉽게 쓸 수 있는 방법인 NWA(압축되지 않은 사전을 사용하여 어절단위로 용어를 추출하고 모든 단음절어를 포함하여 추출하는 방법)는 68.
즉, 문장 내에 사용된 모든 단어의 빈도를 계산하고, 이를 이용하여 중요 단어를 선별해 낸다[7]. 본 연구에서는 MeSH 용어만을 처리하기 때문에 MeSH 용어들만을 문장에서 추출하여 빈도를 계산한다. 한국어 문서에서 영어 키워드를 추출하기 위한 교차언어 키워드 추출은 (그림 1)과같이 3단계로 이루어 질 수 있다.
용어 추출 성능 실험을 위해서, 수작업으로 먼저 요약문으로부터 K-MeSH의 모든 용어를 추출했고, 이를 앞에서 설명한 각 방법의 프로그램 결과와 비교하였다. 용어 추출의 정확도를 확인하기 위한 것이므로 5개 정도의 요약문으로도 충분하다고 판단되어, 임의로 선택된 5개의 요약문에 대해서만평가를 수행하였다.
각 방법의 프로그램 결과와 비교하였다. 용어 추출의 정확도를 확인하기 위한 것이므로 5개 정도의 요약문으로도 충분하다고 판단되어, 임의로 선택된 5개의 요약문에 대해서만평가를 수행하였다. 이때 사용된 각 요약문의 평균 어절수는 178개이고, 전체 어절수는 891개이다.
) 일반적으로 색인은 전문가마다 차이가 있을 수 있으므로, 색인 전문가 3인중 2인이상이 선택한 키워드만을 모아 정답으로 가정하였다. 이 결과와 저자의 키워드, KAP 프로그램으로 생성한 상위 10개의키워드를 비교하였다.
이를 고려하여 색인 전문가나 논문 저자들이 사용한 용어 중 동의어나 유사어는 K-MeSH 우선어로 바꾸고, 그 이외 용어는 제외한 후 결과를 측정하였다.
이를 해결하기 위해 본 논문에서는 시소러스 사전에는 최대로 띄어 쓴 용어만을 등록하고, 검색에서는 해당 용어의 공백을 제거하는 방법을 사용한다. (이 방법을 압축사전 방법 (C-방법)이라고 부른다.
실험은 크게 2단계로 진행하였다. 첫 번째 단계에서는 앞장에서 제시한 여러 가지 방법을 사용하여 K-MeSH 용어를 추출하여 비교하고, 두 번째 단계에서는 앞 단계에서 사용한 방법 중 성능이 가장 좋은 방법으로 키워드 추천을 한 후, 이를 전문가와 저자가 추출한 키워드와 비교하였다. 앞장에서 설명된 각 방법을 다시 정리하면 다음과 같다.
평가는 이 정답에 대한 정확률(precision)과 재현률(recall) 로 계산한 후 다시 F-값을 계산하여 측정하였다. F-값은 정확률과 재현률을 통합하여 하나의 측정값으로 계산해주며, 정확률과 재현률의 중요도에 따라 차등하여 계산할 수 있으나, 4.
이때 사용된 각 요약문의 평균 어절수는 178개이고, 전체 어절수는 891개이다. 평가시 띄어쓰기 성능평가에 초점을 맞추기 위해 K-MeSH에 우선어가 등록된 용어만을 한정하여 비교하였다. 각 방법에 대해 K-MeSH 용어추출의 평가 결과는<표 1>과 같다.
평가용으로 선택된 20개의 논문에 대해 색인 전문가 3인에게 가능하면 K-MeSH용어를 사용하여 각각 색인하도록의뢰했다. (실제 색인 전문가들이 추출한 색인어는 분야 (qualifier) 등의 정보가 포함되어 있으나, 이 실험에서는 순수 키워드만을 대상으로 비교하였다.

대상 데이터

(실제 색인 전문가들이 추출한 색인어는 분야 (qualifier) 등의 정보가 포함되어 있으나, 이 실험에서는 순수 키워드만을 대상으로 비교하였다.) 일반적으로 색인은 전문가마다 차이가 있을 수 있으므로, 색인 전문가 3인중 2인이상이 선택한 키워드만을 모아 정답으로 가정하였다.
TF는 한 문서내에서 계산되므로, 특별히 전처리가 필요하지 않지만, IDF는 전체 문서 집합을대상으로 계산되어져야 한다. 본 실험에서는 IDF를 한국어의학 데이터베이스 (KMBASE)[8]에 있는 논문 25, 729중 90%인 23, 156개를 선택하여 계산하였다. IDF 계산에 사용되지 않은 논문 중 임의로 20개를 선택하여 이를 키워드 부여의 정확성 평가를 위해 사용했다.
실험 데이터로는 298개 한국어 의학 저널[8]에서 44, 285개 요약문으로 구성된 한국어 의학 데이터베이스(KMBASE)를 사용하였다. 각 실험에 따라 필요한 요약문을 선택하여 사용하였다.

데이터처리

한국어로 작성된 논문의 요약에서 통제된 영어 키워드, 특히 MeSH 키워드를 자동으로 추출하는 일반적인 과정을 제안하고 2. 그 과정에서 특히 한국어 키워드 추출의 성능을 높이기 위한 띄어쓰기 변이 처리 방법을 제안하며, 3. 실험을 통해 한국어 용어 추출 능력이 가장 좋은 방법을 찾아내고, 이 방법으로 키워드 자동 부여 프로그램(KAP: Keyword Assignment Program)을 구현하고, 영문 MeSH 키워드 부여 성능이 색인전문가나 저자의 능력과 어떤 차이가 있는가를 통계적으로 검증한다.
이에 대한 통계적 유의성을 검증하기 위해 논문 저자와 KAP의 결과를 아래와 같은 가설로 독립표본 t검정을 시행하였다. 검증 결과, 유의수준 5% (p=0.
IDF 계산에 사용되지 않은 논문 중 임의로 20개를 선택하여 이를 키워드 부여의 정확성 평가를 위해 사용했다. 평가를 하기 위해 수작업을 해야 하기 때문에 비교적 적은 수의 논문을 선정하였고, 이를 보완하기 위해 통계 분석을 통해 결과가 유의미한지를 검증하였다.

성능/효과

F-값을 나타낸 것이다. 첫 행인 "일반용어 허용은 일반 용어 색인을 허용하여 색인한 결과로 색인 전문가들의 색인이 저자나 KAP에 비해 월등하게 좋았다. 저자의 색인도 KAP에 비해 훨씬 점수가 높았다.
. 보다 적은 단음절어를 추출할수록 높은 정확률을 얻을 수있는 반면에, 보다 많은 단음절어를 추출할수록 높은 재현률을 얻을 수 있었다. 또, 비록 유효한 단음절어를 얻기 위한접미사 검사 프로그램을 사용한다 할지라도 기대하는 것만큼의 재현률을 향상시킬 수는 없었다.
CSA 방법은 모든 띄어쓰기 변이를 찾아낼 것으로 예상했었지만, 분리 오류 때문에 재현률이 100%가 아닌 98.9%를 결과로 내놓았다. (8)은 이때 발생한 오류의 예를 보여준다.
S-방법(음절단위 검색 전략)의 재현률은 항상 W-방법(어절단위 검색 전략)보다 높았다. 그러나 정확률은 단음절어에대한 유효성을 검사했을 때만 좋았다.
검증 결과, 유의수준 5% (p=0.906)로 Ho를 기각하지 못하여, 저자와 KAP의 결과가 차이가 없음을 보였다.
이는 이전 K-MeSH(1999년 번역판)가 가능한 모든 띄어쓰기를 입력했음에도 빠뜨린 것이 있음을 의미하며, 띄어쓰기 변이를 찾기 위한 방법이 유효함을 보여준다. 더욱이 이 방법으로 시소러스를 재구성하여 이전 K-MeSH(1999년 번역판)에 비해 K-MeSH 용어가 총 47, 100개에서 약 27, 300개로 줄었으며, 크기 또한 약 58%로 축소되어 공간 절약에 매우 효과적 임을 보였다.
부담이 크다. 따라서, 중요한 유사어를 등록해 두고, 유사한 변이체는 근사 일치로 찾는 방법이 효과적이며, 실제영어의 경우에는 효과적인 키워드 추출을 할 수 있었다[10]. 특히 한국어에서의 띄어쓰기 변이체는 간단한 규칙으로 검색이 가능하므로, 모든 띄어쓰기 변이체를 시소러스에 저장할필요가 없다.
실험을 하였다. 색인 전문가 3인의 색인 결과에서 2인이상이 일치하는 키워드를 정답 색인어로 가정하고 평가를해본 결과 색인 전문가들이 평균 F-값은 76.7%이고, 저자의경우는 21.3%, 본 프로그램의 경우는 20.1%이었다. 현재 교차언어 키워드 부여 프로그램(KAP)의 성능은 색인 전문가보다는 훨씬 못했지만, 일반 저자들의 결과와는 통계적으로 별차이가 없었다.
띄어쓰기 변이를 처리하기 위해, 시소러스에 생성 가능한 모든 띄어쓰기 변이를 등록하는 것 대신에 최대로 띄어 쓴 용어만 등록하고 이를 이용하여 모든 변이를 검색해 내도록 했고, 문장내에서도 음절 단위로 용어를 검색하도록 했다. 실험 결과, 시소러스의 크기가 약 42%정도 축소되었을 뿐만 아니라, 일반적인 용어 추출 방법에 비해 약 22.5% (F-값) 향상되었다.
본 실험에서는 F-값 계산에 정확률과 재현률을 같은 비율로 고려하였고, 이 F-값이 가장 좋은 것을 키워드 추출 계산에 사용하였다.<표 1>에 나타난 실험 결과에 따르면 기본적으로 쉽게 쓸 수 있는 방법인 NWA(압축되지 않은 사전을 사용하여 어절단위로 용어를 추출하고 모든 단음절어를 포함하여 추출하는 방법)는 68.2%이고, 가장 효과적인 방법은 CSX로 F-값이 90.7%이었다. 이는 약 22.
연구가 NLM 등을 중심으로 이루어지고 있다. 이 연구에서는 주어진 논문에 대해 색인 전문가에게 키워드를 자동으로 추천해주어 보다 효율적으로 MeSH 색인을 돕도록 하고 있다[2, 3], 정보 검색 연구 분야에서, 특히 의료 정보 검색 분야에서 MeSH 키워드를 추출하여 색인어로 사용할 경우, 텍스트에서 추출한 색인어만을 사용하는 경우보다 검색성능이 향상되었다[4, 5], 이러한 일련의 연구들은 효과적인 MeSH 키워드 부여가 실질적으로 정보 검색의 효과를 높이는데 기여하고 있음을 보여 준다.
그러나 정확률은 단음절어에대한 유효성을 검사했을 때만 좋았다. 즉 CSO(82.7%)가 CWO(81.4%)보다 높고, NSO(82.5%)가 NWO(81.3%)보다 높았다. 음절단위 검색을 할 경우에는 단음절어가 틀리게 추출되는 경향이 있음으로 유효성 검사를 하는 것이 더 정확함을의미 한다.

후속연구

띄어쓰기 처리 문제는 주로 한국어 복합명사의 띄어쓰기 문제로 정보 검색에서 많이 연구되어져 왔다[11, 12], 기존 논문들에서는 주로 복합명사 띄어쓰기 변이를 찾기 위해 간단한 문장 구조 분석을 한 후, 이들 명사들을 정규화시켜 같은 단어로 인식한다. 그러나 본 논문에서는 문장에 사용된 복합명사 띄어쓰기 변이체가 K-MeSH 시소러스 엔트리에 존재하는지를 검색하면 되므로 좀 더 쉽고 효과적으로 용어 추출을 할 수 있다. 또한 본 논문에서는 띄어쓰기 변이체를 인식하고 난 후, 형태소분석의 어미 분석 기능을 필요한 곳에서 사용하여 형태소 분석 방법의 잇점도 갖도록 하였다.
것이다. 또한, 다른 여러 가지 이형태 용어를 더 인식할 수 있도록 시소러스를 보완하고, 시소러스내의 용어에 대한 모호성 처리를 할 경우, 더 정교한 키워드 부여를 할 수도 있을 것이다.
본 논문에서는 간단한 부분문자열 일치 방법과 간단한 접미사 검사 프로그램을 사용했으므로 성능에 한계가 있었다, 부분 파싱이나 태깅 방법 등과 같은 더 정교한 자연 언어 처리 기술이나 의미 정보나 문맥의 정보를 추가로 사용한다면 교차언어 키워드 부여의 성능을 더 향상시킬 수 있을 것이다. 또한, 다른 여러 가지 이형태 용어를 더 인식할 수 있도록 시소러스를 보완하고, 시소러스내의 용어에 대한 모호성 처리를 할 경우, 더 정교한 키워드 부여를 할 수도 있을 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

MeSH 시소러스를 이용한 한영 교차언어 키워드 자동 부여
Automatic Korean to English Cross Language Keyword Assignment Using MeSH Thesaurus 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

MeSH 시소러스를 이용한 한영 교차언어 키워드 자동 부여 Automatic Korean to English Cross Language Keyword Assignment Using MeSH Thesaurus 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

이영성 (8)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

MeSH 시소러스를 이용한 한영 교차언어 키워드 자동 부여
Automatic Korean to English Cross Language Keyword Assignment Using MeSH Thesaurus 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper