[논문]구성정보와 문맥정보를 이용한 전문용어의 전문성 측정 방법

류법모; 배선미; 최기선

문제 정의

이 경우에는 용어의 문맥 정보가 용어의 특징을 표현하는 정보로 사용된다. 따라서 본 연구에서는 전문용어의 전문성 결정에서 용어의 구성정보와 문맥정보가 중요한 정보가 된다는 가정을 기반으로 용어의 전문성을 측정하는 방법을 제안하고, 기존의 용어 계층구조에 포함된 용어들을 대상으로 제안한 방법의 유효성을 평가한다.
어떤 용어가 도메인 전문적인 정보를 많이 포함하고 있을 때 전문성이 높고, 반대로 일상적인 용어일수록 전문성이 낮다고 가정한다. 본 연구에서는 용어의 구성정보와 문맥 정보를 이용하여 주어진 도메인 Q 에서 사용되는 용어 f의 전문성을 식 (1)과 같이 실수로 표현하는 방법을 제안한다.
Aizawa⑻와 Wong[9]은 용어의 전문성을 정보 이론에 기반한 방법으로 측정하였다. 이 연구들은 정보검색 시스템에서 많이 사용되는 용어의 가중치 계산 방법을 수학적으로 해석하려고 시도하였다. 문서 또는 전체 코퍼스에서 용어의 빈도수를 이용하여 용어의 가중치를 계산하였다.
또한 전문용어를 구성단어 단위로 나누지 않고 용어 자체의 빈도수와 가중치 (tf-idf)* 이용하여 전문성을 계산하는 방법을 추가로 실험하였다. 이 추가 실험의 목적은 전문성 계산에서 구성단어 단위의 정보를 이용하는 경우와, 용어 전체 단위의 정보를 이용하는 경우를 비교하는 것이었다.

가설 설정

논의되었다. Caraballo[기는 본 연구의 방법 2와 유사하게 전문적인 정보를 많이 포함한 명사일수록 코퍼스에서 나타날 때 다른 수식어의 수식을 받는 경우가 적고, 반대로 일상적인 명사일수록 수식어의 수식을 받는 경우가 많다는 가정을 기반으로 하였다. 따라서 수식어의 엔트로피가 높을수록 다양한 수식어를 가지기 때문에 일반적인 명사이고, 엔트로피가 낮을수록 전문적 인명사라고 판단하였다.
가중치가 높은 단어는 특정 문서를 다른 문서와 차별화시키는 대표적인 단어의 역할을 하기 때문에 전문적인 정보를 많이 포함하고 있다고 할 수 있다. 따라서 용어 f 에 가중치가 높은 단어들이 많이 포함된 경우 전문성이 높다고 가정한다. 용어를 구성하는 모든 단위 단어들이 독립적으로 나타난다는 가정을 하면 식 (7)의 P(0)는 식 (8)과 같이 추정된다.
용어는 내포하는 용어의 상위어가 된다. 따라서 이 방법으로 전문성을 계산하면 하위어는 상위어보다 항상 높은 전문성 값을 가지기 때문에 본 연구의 가정과 일치한다.
본 논문에서는 용어가 전문적인 정보를 많이 포함할수록 전문성이 높다고 가정하고, 용어의 구성정보와 문맥 정보를 이용하여 용어의 전문성의 정도를 .정량적으로 계산하는 방법을 제안하였다.
정보의 양을 정량적으로 표현한 것이다. 어떤 용어가 도메인 전문적인 정보를 많이 포함하고 있을 때 전문성이 높고, 반대로 일상적인 용어일수록 전문성이 낮다고 가정한다. 본 연구에서는 용어의 구성정보와 문맥 정보를 이용하여 주어진 도메인 Q 에서 사용되는 용어 f의 전문성을 식 (1)과 같이 실수로 표현하는 방법을 제안한다.
이 방법은 용어를 구성하는 단어들이 바로 앞 단어에만 영향을 받고, 코퍼스에서 인접해서 나타날 확률이 낮은 단어 쌍이 포함된 용어의 전문성이 높아진다는 가정을 기반으로 한다. 코피스에서 인접해서 나타날 확률이 낮은 단어 쌍은 제한된 용어에만 나타나기 때문에 자신을 포함하는 용어의 특징을 대표할 수 있다.
기본적인 아이디어를 따른다. 즉 코퍼스에서 출현확률이 낮은 단어들로 구성된 용어가 더 전문적이라는 가정에 기반한다. 발생 빈도수가 높은 단어는 여러 개의 전문용어에 공통적으로 나타나는 알반적인 단어이기 때문에, 자신을 포함하는 전문용어의 특징을 차별화시킬 수 있는 능력이 낮다.
한 용어를 구성하는 각각의 단어에 그 용어의 특징들이 분할되어 저장되어 있다는 가정을 하고, 각 구성단어의 특징을 정량화하여 전체 용어의 전문성을 계산한다. 이 계산 방법을 위하여 용어 £는 식 (6)과 같이 여러 개의 단어로 구성되어 있다고 가정한다.

제안 방법

값을 비교하였다. MeSH 트리 중에서 “metabolic diseases”(C₁₈.452, 대사성 질환)를 루트 노드로 가지는 하위 트리에 포함된 용어 436개를 대상으로 전문성 계산 방법을 실험하였다. 이 하위 트리의 특징은 표 2에 정리되어 있다.
따라서 주어진 전문용어가. 나타나는 문장을 의존 구조 파서3)를 이용하여 분석한 뒤, 그 용어의 수식어를 추출하여 문맥 정보로 이용한다. 그림 2에서 “developed”, "established" 두 개의 단어가 wdiabetes mellitus"< 수식한다.
이 연구는 일반 명사들의 전문성을 측정하였기 때문에 전문용어와 달리 비교적 풍부한 수식어를 코퍼스에서 수집할 수 있었다. 따라서 구문 분석과정을 거치지 않고, 각 명사들의 가장 오른쪽 전방 수식어 (rightmost prenominal modifier) 만 추출하여 엔트로피를 계산하였다. 또한 이 연구는 대상 명사가 대부분 단일 단어로 구성되어 있기 때문에 문맥정보만을 이용하여 전문성을 계산하였다.
그러나 전문용어 구성 단어들 사이의 정확한 수식구조를 분석하기 어렵다는 단점이 있다. 따라서 본 연구에서는 전문용어 사이의 내포 관계를 이용한 단순화된 수식구조를 이용한다. 용어 X가 다른 용어 F 의 일부로 포함되면 X는 ¥에 내포되었다고 정의한다[4].
따라서 구문 분석과정을 거치지 않고, 각 명사들의 가장 오른쪽 전방 수식어 (rightmost prenominal modifier) 만 추출하여 엔트로피를 계산하였다. 또한 이 연구는 대상 명사가 대부분 단일 단어로 구성되어 있기 때문에 문맥정보만을 이용하여 전문성을 계산하였다.
방법 3은 방법 1과 방법 2어서 가장 좋은 결과를 보인 두 가지 방법을 혼합하였다. 또한 전문용어를 구성단어 단위로 나누지 않고 용어 자체의 빈도수와 가중치 (tf-idf)* 이용하여 전문성을 계산하는 방법을 추가로 실험하였다. 이 추가 실험의 목적은 전문성 계산에서 구성단어 단위의 정보를 이용하는 경우와, 용어 전체 단위의 정보를 이용하는 경우를 비교하는 것이었다.
먼저 정확률의 상한선(upper bound)를 알아보기 위하여 종합병원 내과 전문의와 전공의 10명에게 436개의 용어를 부모 노드의 용어와 함께 제시하고 더 전문적 인용어를 선택하는 실험을 실시하였다. “metabolic dis- eases”는 내과와 가장 관련이 있는 분야이다.
이 연구들은 정보검색 시스템에서 많이 사용되는 용어의 가중치 계산 방법을 수학적으로 해석하려고 시도하였다. 문서 또는 전체 코퍼스에서 용어의 빈도수를 이용하여 용어의 가중치를 계산하였다. 전문분야 용어를 가정하지 않았기 때문에 용어의 구성정보와 문맥정보를 이용하지 않았다는 점에서 본 연구와의 차이점이 있다.
값을 각각 계산한 뒤 평가하였다. 방법 1에서는 빈도수, 가중치, 바이그램 정보를 이용한 경우와 각각의 경우에 수식구조 정보를 이용한 경우를 나누어서 실험하였다. 방법 3은 방법 1과 방법 2어서 가장 좋은 결과를 보인 두 가지 방법을 혼합하였다.
실험에서 용어의 내부 구성정보를 이용하는 방법, 문맥 정보를 이용하는 방법, 그리고 두 가지 방법을 조합한 방법으로 용어의 전문성을 계산하였고, 의학용어 분류체계인 MeSH 트리에 적용하여 평가하였다. 실험결과 용어의 구성정보와 문맥정보를 함께 사용한 경우 가장 높은 정확률(82.
예를 들어, 그림 4에서 두 개의 용어 "metabolic diseases”와 **diabetes mellitus" 모두 전문성 값을 가지고 있는 경우 7?C*metabolic diseases'1, "diabetes mellitus") 관계가 성립하고, Sped**metabolic diseases^ldiseaseX Spec("diabetes mellitus^ldisease) 인 경우 이 관계가 올바른 전문성 값을 가진다고 판단한다. 용어의 상하위 관계를 두 가지 유형으로 나누어 정확률을 계산하였다. 유형 I은 상위어가 하위어에 내포된 경우이고, 유형 II는 그렇지 않은 경우이다.
.정량적으로 계산하는 방법을 제안하였다. 제안한 방법은 적용 분야의 특징적인 정보를 이용하지 않기 때문에 다른 분야에 쉽게 적용할 수 있는 장점이 있다.
제안 방법의 유효성을 측정하기 위하여 기존의 용어계층구조에서 상하위어 관계를 가지는 용어 사이의 전문성 값을 비교하였다. MeSH 트리 중에서 “metabolic diseases”(C₁₈.
2丄1장에서는 모든 구성 단어를 독립적이라고 가정하였지만, 이 장에서는 구성 단어 사이에 수식어-피수식어 관계가 있다고 가정하고, 이 관계를 이용하여 용어의 전문성을 계산한다. 즉 전문용어에서 기반명사와 수식어를 분리하여 전문성 값을 독립적으로 계산한 뒤, 두 전문성 값의 합을 전체용어의 전문성 값으로 사용한다. 이 방법으로 계산된 전문성은 기반 명사의 전문성보다 항상 큰 값을 가지는 장점이 있다.
용어 436개를 검색어로 사용하여 MED- LINE4) 데이타베이스에서 170, 000개의 논문 요약문(약 20, 000, 000 단어)을 추출하였다. 추출된 요약문에서 제목과 요약 부분을 Conexor 파서로 분석한 뒤 다음과 같은 통계 정보를 추출하였다.

대상 데이터

이 하위 트리의 특징은 표 2에 정리되어 있다. 용어 436개를 검색어로 사용하여 MED- LINE4) 데이타베이스에서 170, 000개의 논문 요약문(약 20, 000, 000 단어)을 추출하였다. 추출된 요약문에서 제목과 요약 부분을 Conexor 파서로 분석한 뒤 다음과 같은 통계 정보를 추출하였다.

성능/효과

두 방법에서 모두 올바르지 않은 전문성 관계를 가지는 용어 쌍은 방법 3 에서 모두 올바르지 않는 전문성 관계를 가졌다. 결과적으로 방법 1에서 올바른 전문성 관계를 가지는 용어 쌍은 방법 3에서도 모두 올바른 전문성 관계를 가졌고, 추가적으로 방법 2에서만 올바른 전문성 관계를 가지는 용어 쌍 중 일부분이 방법 3에서 올바른 전문성 관계를가진다.
이 두 가지 결과는 전문 분야 용어의 전문성 계산에서는 용어의 구성정보가 더 중요하다는 사실을 다시 한 번 더 설명한다. 두 방법에서 모두 올바르지 않은 전문성 관계를 가지는 용어 쌍은 방법 3 에서 모두 올바르지 않는 전문성 관계를 가졌다. 결과적으로 방법 1에서 올바른 전문성 관계를 가지는 용어 쌍은 방법 3에서도 모두 올바른 전문성 관계를 가졌고, 추가적으로 방법 2에서만 올바른 전문성 관계를 가지는 용어 쌍 중 일부분이 방법 3에서 올바른 전문성 관계를가진다.
방법 3은 표 3에서와 같이 방법 1과 방법 2의 결과 중 각각 가장 좋은 두 결과를 선택하여 결합하였다. 방법 1, 방법 2에서 올바른 전문성 관계를 가진 용어 쌍은 방법 3에서도 모두 올바른 전문성 관계를 가졌다. 방법 1에서만 올바른 전문성 관계를 가지는 용어 쌍은 모두 방법 3에서 올바른 전문성 관계를 가졌고, 방법 2에서만 올바른 전문성 관계를 가진 용어 쌍에서 6.
방법 1과 방법 2에서 가장 좋은 성능을 나타낸 두 가지 방법을 혼합한 실험(방법 3)에서는 식 (16)에서 7 =0.8 인 경우에 정확률 82.0%, 적용율 70.2%의 성능을 보였다. 이 방법은 전체 실험 중 가장 높은 정확률을 보였지만, 방법 2에서 전문성 값을 계산하지 못하는 용어들은 이 방법에서 제외하였기 때문에 낮은 적용율을 보였다.
9%, 적용율 100%로 가장 좋은 성능을 보였다. 방법 1에서 구성단어의 빈도수와 바이그램 정보를 이용하는 경우에도 수식구조 정보를 같이 이용하면 모두 좋은 성능을 보였다. 그림 5는 용어의 내부 수식구조를 .
방법 1, 방법 2에서 올바른 전문성 관계를 가진 용어 쌍은 방법 3에서도 모두 올바른 전문성 관계를 가졌다. 방법 1에서만 올바른 전문성 관계를 가지는 용어 쌍은 모두 방법 3에서 올바른 전문성 관계를 가졌고, 방법 2에서만 올바른 전문성 관계를 가진 용어 쌍에서 6.7% 만이 방법 3에서 올바른 전문성 관계를 가졌다. 이 두 가지 결과는 전문 분야 용어의 전문성 계산에서는 용어의 구성정보가 더 중요하다는 사실을 다시 한 번 더 설명한다.
방법 2에서는 수식어의 빈도수가 2 이상인 경우에 정확률 70.0%, 적용율 70.2%로 가장 좋은 성능을 보였다. 빈도수 기준을 높이면 충분한 수식어를 얻지 못하는 단점이 있고, 그 반대의 경우는 각 용어들이 비슷한 수식어들을 가지게 되어 변별력이 낮아지는 단점이 있다.
상대적으로 문맥정보를 이용한 방법은 자체적으로도 낮은 정확률과 적용율을 보였고, 혼합한 방법에서도 보조적인 역할만 수행하였다. 따라서 문맥정보의 정확률을 높이는 방범에 대한 추가적인 연구가 필요하다.
실험 결과 방법 1에서는 구성단어의 가중치와 용어의 수식구조 정보를 이용한 경우 정확률 78.9%, 적용율 100%로 가장 좋은 성능을 보였다. 방법 1에서 구성단어의 빈도수와 바이그램 정보를 이용하는 경우에도 수식구조 정보를 같이 이용하면 모두 좋은 성능을 보였다.
MeSH 트리에 적용하여 평가하였다. 실험결과 용어의 구성정보와 문맥정보를 함께 사용한 경우 가장 높은 정확률(82.0%)를 보였다.
전체적인 결과 분석에서 용어의 내부 구성정보가 전문성 계산에서 중요한 역할을 하고 있음을 알 수 있었다. 상대적으로 문맥정보를 이용한 방법은 자체적으로도 낮은 정확률과 적용율을 보였고, 혼합한 방법에서도 보조적인 역할만 수행하였다.
“metabolic dis- eases”는 내과와 가장 관련이 있는 분야이다. 테스트 결과에서 유형 I, 유형 II에 대해서 각각 평균 정확률 96.6%와 86.4%를 보였고, 전체 관계에 대해서는 평균정확률 87.4%를 보였다. 이 결과들이 이 논문에서 제안한 방법들로 얻을 수 있는 정확률의 상한선이라고 판단된다.
한편, 용어 전체를 이용한 방법 또는 구성단어의 바이그램 정보를 이용한 방법보다 구성단어를 독립적으로 이용한 방법이 더 좋은 성능을 보였다. 이 결과는 용어를 구성하는 각각의 단어들이 용어의 전체 특징 집합을 분할하여 가지고 있는 경향이 강하다는 사실을 설명한다.

후속연구

필요하다. 또한 용어 구성단위의 의미정보를 이용하는 정교한 모델을 개발할 예정이다. 마지막으로 제안한 방법을 용어간 자동 계층 관계 설정에 적용할 계획이다.
또한 용어 구성단위의 의미정보를 이용하는 정교한 모델을 개발할 예정이다. 마지막으로 제안한 방법을 용어간 자동 계층 관계 설정에 적용할 계획이다.
향후 제안한 방법이 용어의 이형태를 고려할 수 있도록 하는 방법과, 전문용어 조어법 분석을 통하여 단어 내부에 포함된 정보도 추출할 수 있는 방법에 대한 연구도 필요하다. 또한 용어 구성단위의 의미정보를 이용하는 정교한 모델을 개발할 예정이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

구성정보와 문맥정보를 이용한 전문용어의 전문성 측정 방법
Determining the Specificity of Terms using Compositional and Contextual Information 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (9)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

구성정보와 문맥정보를 이용한 전문용어의 전문성 측정 방법 Determining the Specificity of Terms using Compositional and Contextual Information 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (9)

이 논문을 인용한 문헌

저자의 다른 논문 :

류법모 (1) 최기선 (52)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

구성정보와 문맥정보를 이용한 전문용어의 전문성 측정 방법
Determining the Specificity of Terms using Compositional and Contextual Information 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper