$\require{mediawiki-texvc}$
  • 검색어에 아래의 연산자를 사용하시면 더 정확한 검색결과를 얻을 수 있습니다.
  • 검색연산자
검색연산자 기능 검색시 예
() 우선순위가 가장 높은 연산자 예1) (나노 (기계 | machine))
공백 두 개의 검색어(식)을 모두 포함하고 있는 문서 검색 예1) (나노 기계)
예2) 나노 장영실
| 두 개의 검색어(식) 중 하나 이상 포함하고 있는 문서 검색 예1) (줄기세포 | 면역)
예2) 줄기세포 | 장영실
! NOT 이후에 있는 검색어가 포함된 문서는 제외 예1) (황금 !백금)
예2) !image
* 검색어의 *란에 0개 이상의 임의의 문자가 포함된 문서 검색 예) semi*
"" 따옴표 내의 구문과 완전히 일치하는 문서만 검색 예) "Transform and Quantization"
쳇봇 이모티콘
안녕하세요!
ScienceON 챗봇입니다.
궁금한 것은 저에게 물어봐주세요.

논문 상세정보

구성정보와 문맥정보를 이용한 전문용어의 전문성 측정 방법

Determining the Specificity of Terms using Compositional and Contextual Information

초록

어떤 용어가 전문적인 개념을 많이 내포하고 있을 때 전문성이 높다고 말한다. 본 논문에서는 용어의 내부 구성정보와 외부 문맥정보를 이용하여 정보이론에 기반한 방법으로 전문용어가 내포하는 전문성을 정량적으로 계산하는 방법을 제안한다. 용어의 전문성은 용어간 상하위어 관계 설정에서 중요한 필요조건으로 사용될 수 있다. 제안한 방법은 전문용어의 내부 구성정보를 이용하는 방법, 문맥정보를 이용하는 방법 그리고 두 정보를 모두 이용하는 방법으로 나눈다. 구성정보를 이용하는 방법에서는 전문용어를 구성하는 단어의 빈도수, 가중치, 바이그램, 내부 수식구조 둥을 이용하고, 문맥정보를 이용하는 방법에서는 전문용어를 수식하는 단어들의 분포를 이용한다. 본 논문에서 제안한 방법은 분야에 독립적으로 적용될 수 있고, 전문용어 생성 절차에 대한 특정을 잘 반영할 수 있는 장점이 있다. MeSH 트리에 포함된 질병 이름의 전문성 값을 계산한 뒤 상위어의 전문성 값과 비교한 결과 82.0%의 정확률을 보였다.

Abstract

A tenn with more domain specific information has higher level of term specificity. We propose new specificity calculation methods of terms based on information theoretic measures using compositional and contextual information. Specificity of terms is a kind of necessary conditions in tenn hierarchy construction task. The methods use based on compositional and contextual information of terms. The compositional information includes frequency, $tf{\cdot}idf$, bigram and internal structure of the terms. The contextual information of a tenn includes the probabilistic distribution of modifiers of terms. The proposed methods can be applied to other domains without extra procedures. Experiments showed very promising result with the precision of 82.0% when applied to the terms in MeSH thesaurus.

참고문헌 (9)

  1. Sager, J.C., 'Section 1.2.1 Term formation,' in Handbook of Terminology Management Vol.1, John Benjamins publishing company, 1997 
  2. ISO 704, 'Terminology work-Principle and methods,' ISO 704 Second Edition, 2000 
  3. T.M. Cover & J.A. Tomas, Elements of Information Theory, New York: John Wiley and Sons Inc., 1991 
  4. Katerina Frantzi, Sophia Anahiadou, Hideki Mima, 'Automatic recognition of multi-word terms: the C-value/NC-value method,' Journal of Digital Libraries, Vol. 3, Num 2, pp. 115-130, 2000 
  5. 오종훈,이경순,최기선,'분야간 유사도와 통계기법을 이용한 전문용어의 자동 추출' 정보과학회논문지: 소프트웨어 및 응용 제29권 제1호, pp. 258-269. 2002 
  6. Christopher D. Manning and Hinrich Schutze, 'Foundations of Statistical Natural Language Processing,' The MIT Press, 1999, p. 543 
  7. Sharon A. Caraballo and Eugene Charniak, 'Determining the Specificity of Nouns from Text,' in the Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, pp. 63-70, 1999 
  8. A. Aizawa, An information-theoretic perspective of tf-idf measures, Journal of Information Processing and management Vol. 39, 2003 
  9. S.K.M Wong and Y.Y. Yao, An Information-Theoretic Measure of Term Specificity, Journal of the American Society for Information Science, Vol. 43, Num. 1, 1992 

이 논문을 인용한 문헌 (0)

  1. 이 논문을 인용한 문헌 없음

원문보기

원문 PDF 다운로드

  • ScienceON :

원문 URL 링크

원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다. 원문복사서비스 안내 바로 가기

상세조회 0건 원문조회 0건

DOI 인용 스타일