[논문]의미관계 정보를 이용한 약품 온톨로지의 구축과 활용

임수연; 박성배; 이상조

문제 정의

구축된 온톨로지는 다양한 분야에서 활용될 수 있는데, 본 논문에서는 문서 검색의 효과를 향상시키기 위한 방안으로 이를 제안하고자 한다. 특정 분야의 주요 문서 집합을 선정한 후 이들 문서들의 내용을 분석하여 개념들을 추출하고 이들을 링크로 연결한 것이 온톨로지이며, 개념 추출의 목적은 문서들을 가장 잘 대표할 수 있는 명사들을 추출하는 것이다.
따라서 본 논문에서는 도메인을 약품분야로 정한 뒤, 텍스트 내에 출현하는 전문용어들의 출현패턴을 분석한 결과를 약품 온톨로지의 구축에 이용하고자 한다. 이를 위하여 전문용어들을 구성하고 있는 접미사나 특정 명사들의 의미정보에 기반한 규칙들을 설정하고, 전문용어들과 그들 간의 관계를 추출함으로써 온톨로지 내의 노드들을 확장해나간다.
이러한 전문용어는 하나의 도메인을 이해하는데 필요한 요소이기 때문에 특정 도메인에 대한 기계번역이나 정보검색을 보다 효율적이고 정확히 수행하기 위해서 전문용어에 대한 언어자원은 중요하다. 본 논문에서는 전문용어들을 자동으로 추출하기 위하여 그들의 출현형태를 분석하였다. 전문용어의 형태결합 방식은 매우 다양하다.
본 논문에서는 제안한 전문용어의 추출방법을 이용하여 구축한 약품 온톨로지를 대상으로 입력된 질의어에 해당하는 개념뿐 아니라 그의 온톨로지 내 하위 개념들까지 탐색하는 것을 목적으로 하는 검색을 진행한다. 온톨로지 내의 가중치 부여는 벡터모델을 기반으로 주어진 문서들 내에서 특정 단어가 얼마나 자주 사용되는가를 나타내는 출현빈도로부터 유도될 수 있다.
따라서 정제된 온톨로지의 구축을 위해서는 학습을 위한 문서 집합을 선정하는 일이 매우 중요하다. 본 논문에서는 해당 도메인의 개념들과 그들 간의 의미 관계를 추출하는 텍스트 마이닝(text mining) 기술을이용하여 온톨로지를 구축하고, 외부에 존재하는 대용량의 사전을 이용하여 확장하고자 한다. 이를 위하여 한국어 문서 내에 복합명사의 형태로 출현하는 전문용어들의 패턴들을 분류하고 이들의 구조를 분석한다.
어떤 주제에 관한 단어들을 계층적으로 분류해 놓은 온톨로지는 다양한 분야에서 활용될 수 있는데, 본 논문에서는 문서 검색의 성능을 향상시키기 위한 방안으로 제안한다. 검색엔진은 온톨로지에 정의된 개념들과 규칙들을 검색의 성능을 활용시키기 위한 추론(inference) 의 기반으로도 이용할 수 있다.
즉, 구체적인 온톨로지의 구축은 약품과 관련된 도메인 내에서 행해지며, 병명이나 증상에 따른 약품명이나 관련 문서들을 검색하기 위한 약품 온톨로지를 구축하는 것을 목적으로 한다.
이를 제안하고자 한다. 특정 분야의 주요 문서 집합을 선정한 후 이들 문서들의 내용을 분석하여 개념들을 추출하고 이들을 링크로 연결한 것이 온톨로지이며, 개념 추출의 목적은 문서들을 가장 잘 대표할 수 있는 명사들을 추출하는 것이다. 특히 가중치가 부여된 온톨로지를 이용한 검색 시스템이나 질의응답 시스템의 경우에는 가중치에 따라 선별된 소수의 정보들만을 보여줌으로써 사용자의 판단에 도움을 줄 수 있다.

제안 방법

tf .idf 방법을 이용하여 가중치를 부여하는 키워드기반문서검색과 온톨로지 내의 하위 정보를 연관 피드백에 이용하고 가중치를 재계산하는 온톨로지기반 문서검색의 결과를 비교, 분석하였다.
검색의 성능을 비교하기 위하여 430개의 문서들을 대상으로 전문가 5인의 자문을 구하여 10개의 질의에 대한 상위 30개의 정답 문서 집합을 정하였다. 이를 기준으로 각각의 질의에 대한 재현율과 정확률을 구하고 이들의 평균을 구하였다.
또한 개념들 간의 관계를 정의하기 위하여 주변에 나타난 명사들을 연결짓는 동사들을 추출하였다. 그 결과, 빈도가 200이상인 35개 동사들의 출현빈도는 11, 250으로 전체 동사들의 출현빈도인 23, 453의 47.
먼저 전처리 모듈에서 대상문서들에 대한 색인어 집합을 구성하기 위하여 형태소 분석 과정을 거친다. 그 결과 중에서 명사만을 추출하여 색인어 집합으로 사용하게 되는데 명시"는 정보검색이나 분류에서 문서를 대표할 수 있는 통계적 정보를 얻는데 주로 사용된다.
문서 내의 텍스트들은 형태소 분석 과정과 태깅 과정을 거친 후, 텍스트 내의 불용어들을 제거하고 스테밍한뒤, 각 문장에 대한 문서 내의 모든 명사와 동사들을 추출한다. 이를 위하여 한국어의 형태론적 특성을 고려하여 181개의 어휘들로 구성된 불용어 리스트를 작성하였으며, 스테밍할 때 일부 접미사들을 제외시켰다.
Import는 외부의 자원을 가져와서 이용하는 것을 의미하며, 본 논문에서는 관련이 있는 문서들을 수집하기 위하여 두 개의 외부 자원들을 이용한다. 배경 지식의 형태로 주어진 사전 등의 import 된 자원들로부터 관련된 어휘항목인 전문용어들을 추출 (extract)한 뒤, 추출된 개념들을 온토로지 내의 상.하위관계들을 고려한 적당한 위치에 링크로 연결(append)하게 된다.
본 논문에서는 사용자 연관 피드백 과정에 온톨로지 내의 계층관계를 이용한다. 입력으로 들어온 질의어와 관련된 온톨로지 내의 하위 정보로 출현하는 용어들을 이용하여 질의를 확장하고, 재작성된 질의에 대한 가중치를 다시 계산한다.
본 논문에서는 텍스트의 분석결과를 이용한 도메인 온톨로지의 반자동 구축 방안을 제시하고 구축한 온톨로지를 문서의 검색에 활용하였다. 실험 도메인은 약학 분야로 정하고.
약품 도메인 내의 텍스트들을 실험 대상으로 하여 본 논문에서 제안한 전문 용어의 추출 방법을 적용하였다. 실험 대상이 된 실험 문서의 수는 21, 113개이다.
약품과 관련이 있는 데이타베이스(http:〃www.druginfo. co.kr)내의 문서들을 분석한 결과를 이용하여 구축할 약품 온톨로지의 개념들과 이들을 연결시킬 관계들을 설정한다. 수집된 문서들은 반구조화된(태깅된) 문서들로 설정한 구조에 맞도록 변환 과정을 거친 뒤 부착된 태그에 따라 개념들을 형성하게 된다.
실험 도메인은 약학 분야로 정하고. 웹으로부터 약품과 관련된 문서들을 수집하여 코퍼스를 형성하였다. 형성된 코퍼스 내에 있는 텍스트들의 구조를 분석하여 온톨로지의 구조를 정하고 개념과 관계를 추출하기 위한 관계 설정 유형을 설정하였다.
상위 30개의 정답 문서 집합을 정하였다. 이를 기준으로 각각의 질의에 대한 재현율과 정확률을 구하고 이들의 평균을 구하였다.
본 논문에서는 그림 2와 같은 48 개의 어휘들로 구성된 기본 온톨로지를 구성하였다. 이를 위하여 병명, 중세, 약품 개념을 최상위 노드로 설정하고 그에 대한 45개의 하위노드를 설정하였다. 하위 노드들은 약학 도메인에서 병명이나 증세를 구성하고 있는 특정 명사나 접미사들의 분류에 따른 20개의 노드들과 설정한 구조에 필요한 15개의 노드, 그리고 출현 빈도가 높은 일반 명사를 나타내는 10개의 노드들이다.
이를 위하여 전문용어들을 구성하고 있는 접미사나 특정 명사들의 의미정보에 기반한 규칙들을 설정하고, 전문용어들과 그들 간의 관계를 추출함으로써 온톨로지 내의 노드들을 확장해나간다.
본 논문에서는 해당 도메인의 개념들과 그들 간의 의미 관계를 추출하는 텍스트 마이닝(text mining) 기술을이용하여 온톨로지를 구축하고, 외부에 존재하는 대용량의 사전을 이용하여 확장하고자 한다. 이를 위하여 한국어 문서 내에 복합명사의 형태로 출현하는 전문용어들의 패턴들을 분류하고 이들의 구조를 분석한다. 그 결과로부터 도출해낸 의미군과 계층구조를 온톨로지 내의의 미관계로 부여함으로써 도메인 온톨로지의 구축작업이 이루어진다[4丄
계층관계를 이용한다. 입력으로 들어온 질의어와 관련된 온톨로지 내의 하위 정보로 출현하는 용어들을 이용하여 질의를 확장하고, 재작성된 질의에 대한 가중치를 다시 계산한다. 이때 온톨로지 내의 노드를 탐색할 하위어 검색 레벨은 2로 정하였다.
제안한 방법이 문서검색에 효용이 있음을 보이기 위하여 두 가지 방법에 의한 문서 검색을 비교하였다. 하나는 전통적인 甘「idf 방법을 이용하여 가중치를 부여한 키워드기반 검색의 경우이고, 다른 하나는 온톨로지 내의 계층 정보들을 연관 피드백에 이용한 온톨로지 기반 검색이다.
주요 개념들을 나타내는 고유명사들은 일반명사와 같은 방법으로 처리하였으며, 해당 도메인에서 복합명사의 형태로 출현하는 전문용어들을 추출하고 계층화하여 이를 온톨로지에 추가하였다.
97%를 차지하고 있었다 우리는 이들 동사들을 의미패턴으로 분류하여 그림 5와 같은 18개의 의미 관계를 설정하였다. 추출한 명사와 동사들 간의 연관관계는 공기(cooccurrence) 정보를 이용하여 파악한다. 만약 명사와 동사들 간에 연관관계가 형성된다면 그들 사이에 링크를 형성하고, 그렇지 않다면 다른 명사와 동사들 간을 비교한다.
추출한 전문 용어에 대한 평가는 세 명의 전문가에 의해서 수작업으로 조사하고 결과는 추출 정확도로 평가하였다. 추출 정확도는 추출된 전문 용어들 중 올바른 관계로 연결된 전문 용어들의 비율을 나타낸다.
형성된 코퍼스 내에 있는 텍스트들의 구조를 분석하여 온톨로지의 구조를 정하고 개념과 관계를 추출하기 위한 관계 설정 유형을 설정하였다. 특히 관련 문서 내에 출현하는 용어들의 형태를 분석한 결과, 약품 온톨로지의 구축에 필요한 개념과 관계들을 추출하기 위하여 특정 명사나 접미사와 결합한 전문용어의 처리방안을 제안하였다. 제안한 방법은 텍스트 마이닝 기술을 이용한 반자동화된 방법으로서 수동으로 구축할 때의 인간의 노력과 시간을 줄일 수 있다.
제안한 방법은 텍스트 마이닝 기술을 이용한 반자동화된 방법으로서 수동으로 구축할 때의 인간의 노력과 시간을 줄일 수 있다. 특히, 온톨로지 내의 계층관계들이 문서의 검색에 효용이 있음을 보이기 위하여 출현 빈도 정보만을 이용하여 가중치를 부여한 키워드기반 , 문서검색과 온톨로지 내의 관련 정보들을 연관 피드백에 이용한 온톨로지 기반 문서검색을 비교하였다. 이때 검색의 성능을 평가한 결과, 재현율은 비슷하게 유지하면서 정확률이 4.
웹으로부터 약품과 관련된 문서들을 수집하여 코퍼스를 형성하였다. 형성된 코퍼스 내에 있는 텍스트들의 구조를 분석하여 온톨로지의 구조를 정하고 개념과 관계를 추출하기 위한 관계 설정 유형을 설정하였다. 특히 관련 문서 내에 출현하는 용어들의 형태를 분석한 결과, 약품 온톨로지의 구축에 필요한 개념과 관계들을 추출하기 위하여 특정 명사나 접미사와 결합한 전문용어의 처리방안을 제안하였다.

대상 데이터

한다. 본 논문에서는 그림 2와 같은 48 개의 어휘들로 구성된 기본 온톨로지를 구성하였다. 이를 위하여 병명, 중세, 약품 개념을 최상위 노드로 설정하고 그에 대한 45개의 하위노드를 설정하였다.
본 논문에서는 실험 도메인을 약학 분야로 정하고 학습을 위한 문서들은 약학 도메인 내의 문서들로 한정하였다. 즉, 구체적인 온톨로지의 구축은 약품과 관련된 도메인 내에서 행해지며, 병명이나 증상에 따른 약품명이나 관련 문서들을 검색하기 위한 약품 온톨로지를 구축하는 것을 목적으로 한다.
본 논문에서는 약품 온톨로지의 확장을 위하여 의약용어 약어사전 (http:〃www.nurscape. net/nurscape/ dic/frames.html)과 두산 세계대백과 엔싸이버(http:// www.encyber.com)< 이용하였다. 이 때, 텍스트의 범위가 너무 광범위하므로 대상 개념의 조회 결과 중에서 전문용어들과 그들의 하위개념만을 추출하였다.
실험 참조 컬렉션은 문헌 집합, 정보 요구 예제, 각 정보요구에 대한 연관 문헌 집합으로 구성된다. 본 논문에서는 참조 컬렉션을 구성하기 위해 대한의사협회 홈페이지(http://www.kma.org)에서 제공하는 건강/질병 정보문서 430개를 수집하였으며 다음과 같은 10개의 질의로 구성된 정보 요구를 구성하였다.
적용하였다. 실험 대상이 된 실험 문서의 수는 21, 113개이다. 구문분석을 실시한 결과 추출된 전체 명사수는 총 78, 902개이다.
실험은 추출한 430개의 문서를 대상으로 하였다, 10 개 질의들에 대한 재현율과 정확률을 구하는 것을 목표로 하였으며, 입력된 각 질의에 대한 정답 집합으로는 전문가들이 정한 문서의 순위를 기준으로 정하였다.
검색엔진은 온톨로지에 정의된 개념들과 규칙들을 검색의 성능을 활용시키기 위한 추론(inference) 의 기반으로도 이용할 수 있다. 이 때, 약품 분야와 관련된 문서 집합에 있는 텍스트들을 실험대상으로 삼았으며 구축한 온톨로지는 약품 온톨로지라고 부르기로 하였다.
이를 위하여 한국어의 형태론적 특성을 고려하여 181개의 어휘들로 구성된 불용어 리스트를 작성하였으며, 스테밍할 때 일부 접미사들을 제외시켰다. 이유는 이들 접미사들이 전문용어의 추출에 유용하게 쓰일 수 있기 때문이다.

이론/모형

이 때, 가중치의 부여는 가장 널리 알려진 tf*-idf 기법(용어-가중치 할당 전략)을 이용하여 계산한다. 계산된 가중치는 출현 문서 벡터에 문서번호와 함께 정렬된 순으로 저장됨으로써 검색의 속도를 향상시키고 더 정확한 검색을 가능하게 해준다.

성능/효과

나타낸 것이다. 그 결과, 다중어절형태 전문용어들의 평균 정확도는 79.96%였으며, 574개의 개념이 추가되었다.
나타낸 것이다. 그 결과, 단일어절형태 전문용어들의 평균 정확도는 92.57%로 제안된 알고리즘이 비교적 좋은 성능을 나타냄을 알 수 있었다.
표 2는 키워드기반 문서검색시 추출된 단어의 수와 빈도의 분포를 보여주며, 표 3은 온톨로지 내의 하위어들까지 검색에 이용하여 추출한 단어의 수와 빈도의 분포를 보여준다. 두개의 표를 분석한 결과, 질의어 “중이염”에 대하여 “만성 중이염”, “만성 유착성 중이염” 등과 같온 36개의 중이염의 하위 단어가 추가됨을 알 수 있으며, 하위어로 검색레벨이 확장된다는 것이 검색의 정확률에 영향을 미칠 수 있음을 짐작할 수 있다.
본 논문에서 제안한 단일어절형태의 전문용어로부터계충관계를 추출하는 알고리즘을 적용한 결과 출현한 전문 용어들의 인식과 함께 2, 86泌개의 하위 개념이 추가되었으며 온톨로지 내의 노드들의 평균 레벨은 L8로 나타났다. 추출한 전문 용어에 대한 평가는 세 명의 전문가에 의해서 수작업으로 조사하고 결과는 추출 정확도로 평가하였다.
특히, 온톨로지 내의 계층관계들이 문서의 검색에 효용이 있음을 보이기 위하여 출현 빈도 정보만을 이용하여 가중치를 부여한 키워드기반 , 문서검색과 온톨로지 내의 관련 정보들을 연관 피드백에 이용한 온톨로지 기반 문서검색을 비교하였다. 이때 검색의 성능을 평가한 결과, 재현율은 비슷하게 유지하면서 정확률이 4.97% 향상되는 것을 알 수 있었다. 이는 온톨로지 내의 계층 관계를 연관 피드백 정보로 이용하면 검색의 정확률을향상시킬 수 있다는 것을 의미한다.
이로부터 우리는 온톨로지 내의 하위정보를 질의의 확장에 이용하고 가중치를 부여하는 방법에 의한 문서의 검색이 전통적인 방법을 이용한 검색보다 재현율은 0.78%, 정확률은 4.97% 높게 나타났다. 이는 문서의 검색에 온톨로지 내의 계층관계를 연관 피드백 정보로 이용하면 재현율의 향상에는 별 영향을 주지 않지만 정확률을 향상시키는데 효용이 있음을 뜻한다.
특히 관련 문서 내에 출현하는 용어들의 형태를 분석한 결과, 약품 온톨로지의 구축에 필요한 개념과 관계들을 추출하기 위하여 특정 명사나 접미사와 결합한 전문용어의 처리방안을 제안하였다. 제안한 방법은 텍스트 마이닝 기술을 이용한 반자동화된 방법으로서 수동으로 구축할 때의 인간의 노력과 시간을 줄일 수 있다. 특히, 온톨로지 내의 계층관계들이 문서의 검색에 효용이 있음을 보이기 위하여 출현 빈도 정보만을 이용하여 가중치를 부여한 키워드기반 , 문서검색과 온톨로지 내의 관련 정보들을 연관 피드백에 이용한 온톨로지 기반 문서검색을 비교하였다.
표 1을 분석한 결과, 낮은 정확도가 발생하는 원인이 다양하지 못한 패턴의 종류에 있다는 것을' 알았다. 따라서 이를 보완하기 위해서는 정교한 텍스트의 분석을 통해 패턴들을 확장해 나가는 것이 필요하며 이는 향후 과제로 남겨두기로 한다.

후속연구

못한 패턴의 종류에 있다는 것을' 알았다. 따라서 이를 보완하기 위해서는 정교한 텍스트의 분석을 통해 패턴들을 확장해 나가는 것이 필요하며 이는 향후 과제로 남겨두기로 한다. 또 다른 오류의 형태는 띄어쓰기나, 맞춤법, 외래어 표기상의 오류 등에서 찾아볼 수 있었다.
이런 경우에는 해당 도메인에 필요한 기타의미 관계를 다시 정의하고 약품 온톨로지를 확장해 나가야 한다. 또한 약품 온톨로지는 특정 도메인에 맞추어 구축되었기 때문에 이를 범용적인 목적으로 사용하는 방법에 대한 연구가 필요하다. 즉, 다양한 도메인들에 대한 온톨로지의 구축이 필요하며, 제안된 온 톨로 지의 구축 방법을 일반 도메인에 적용하도록 확장하는 방안에 관해 계속 연구해 나가야 할 것이다.
또한 약품 온톨로지는 특정 도메인에 맞추어 구축되었기 때문에 이를 범용적인 목적으로 사용하는 방법에 대한 연구가 필요하다. 즉, 다양한 도메인들에 대한 온톨로지의 구축이 필요하며, 제안된 온 톨로 지의 구축 방법을 일반 도메인에 적용하도록 확장하는 방안에 관해 계속 연구해 나가야 할 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

의미관계 정보를 이용한 약품 온톨로지의 구축과 활용
Medicine Ontology Building based on Semantic Relation and Its Application 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

의미관계 정보를 이용한 약품 온톨로지의 구축과 활용 Medicine Ontology Building based on Semantic Relation and Its Application 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

임수연 (11) 박성배 (43) 이상조 (34)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

의미관계 정보를 이용한 약품 온톨로지의 구축과 활용
Medicine Ontology Building based on Semantic Relation and Its Application 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper