검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구 A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search원문보기
의학학술문헌에는 해부학적 조직이나 기관명이 종양, 질환 또는 감염 용어들과 서로 조합하여 사용되는 언어적 특성을 가지고 있다. 의학학술문헌을 검색할 때 데이터베이스가 제공하는 통제어휘도구인 Medical Subject Headings (MeSH)를 활용하면 합성어, 동의어, 그리고 관련어를 추가로 검색할 수 있어 검색효율이 높다. 본 연구에서는 위암(Stomach Neoplasms) 어휘군을 검색용 필터로 추가하는 방법과 동시출현용어의 거리를 측정하여 단어인접탐색 기법으로 검색효율성을 향상시키는 연구를 수행하였다. 검색용 MeSH에 추가할 어휘군을 결정하기 위해 실험데이터로 PubMed에서 중심주제어가 "Stomach Neoplasms"인 2007년~2016년 논문 8,625편을 내려 받아 논문제목으로부터 Stomach와 Neoplasms 관련 용어의 동시출현여부를 분석하였다. 검색효율성은 KoreaMed에서 검색되는 MEDLINE 학술지를 대상으로 "Stomach Neoplasms"가 MeSH로 색인되어 있는 277편으로 검증하였는데 MEDLINE MeSH, MeSH on Demand, 그리고 KoreaMed MeSH Indexer의 "Stomach Neoplasms" 색인어 추출여부와 검색용 필터로 어휘군을 적용했을 때, 그리고 동시출현 용어의 단어인접검색 기법을 적용했을 때 "Stomach Neoplasms"의 매칭여부를 비교하였다. 가장 출현빈도가 높은 용어는 "Gastric Cancer"로 2,780회 출현하였다. "Gastric Adenocarcinoma", "Gastric MALT Lymphoma" 등과 같이 "Stomach" 용어와 "Neoplasms" 관련 조직학적 용어가 조합된 경우는 7,376개(88.51%)였다. 동시출현 거리가 2단어인 용어는 "Stomach"와 "Neoplasms"의 합성어로 5,234개(70.95%)였다. 연구 결과 MeSH용어를 제외하고 973개의 용어를 후보어휘군으로 선정하였다. MEDLINE MeSH와 KoreaMed MeSH Indexer의 MeSH 매칭률은 209편(75.5%)이었는데 검색필터를 적용한 결과 263편(94.9%)으로, 동시출현 용어의 13단어 단어인접탐색 기법을 적용한 경우 268편(96.7%)으로 매칭률이 향상되었다. 본 연구를 통해 자연어 검색에 있어서 검색효율을 향상시키는 수단으로 검색용 시소러스를 사용하면 색인비용에 대한 부담이 적고, 통제어의 망라적 장점과 자연어가 가지는 용어의 특정성을 유지할 수 있음을 증명하였다. 또한 불리안 검색보다는 단어인접탐색 기법을 활용하면 정확률을 높일 수 있어 검색 효율성이 향상됨을 알 수 있었다.
의학학술문헌에는 해부학적 조직이나 기관명이 종양, 질환 또는 감염 용어들과 서로 조합하여 사용되는 언어적 특성을 가지고 있다. 의학학술문헌을 검색할 때 데이터베이스가 제공하는 통제어휘도구인 Medical Subject Headings (MeSH)를 활용하면 합성어, 동의어, 그리고 관련어를 추가로 검색할 수 있어 검색효율이 높다. 본 연구에서는 위암(Stomach Neoplasms) 어휘군을 검색용 필터로 추가하는 방법과 동시출현용어의 거리를 측정하여 단어인접탐색 기법으로 검색효율성을 향상시키는 연구를 수행하였다. 검색용 MeSH에 추가할 어휘군을 결정하기 위해 실험데이터로 PubMed에서 중심주제어가 "Stomach Neoplasms"인 2007년~2016년 논문 8,625편을 내려 받아 논문제목으로부터 Stomach와 Neoplasms 관련 용어의 동시출현여부를 분석하였다. 검색효율성은 KoreaMed에서 검색되는 MEDLINE 학술지를 대상으로 "Stomach Neoplasms"가 MeSH로 색인되어 있는 277편으로 검증하였는데 MEDLINE MeSH, MeSH on Demand, 그리고 KoreaMed MeSH Indexer의 "Stomach Neoplasms" 색인어 추출여부와 검색용 필터로 어휘군을 적용했을 때, 그리고 동시출현 용어의 단어인접검색 기법을 적용했을 때 "Stomach Neoplasms"의 매칭여부를 비교하였다. 가장 출현빈도가 높은 용어는 "Gastric Cancer"로 2,780회 출현하였다. "Gastric Adenocarcinoma", "Gastric MALT Lymphoma" 등과 같이 "Stomach" 용어와 "Neoplasms" 관련 조직학적 용어가 조합된 경우는 7,376개(88.51%)였다. 동시출현 거리가 2단어인 용어는 "Stomach"와 "Neoplasms"의 합성어로 5,234개(70.95%)였다. 연구 결과 MeSH용어를 제외하고 973개의 용어를 후보어휘군으로 선정하였다. MEDLINE MeSH와 KoreaMed MeSH Indexer의 MeSH 매칭률은 209편(75.5%)이었는데 검색필터를 적용한 결과 263편(94.9%)으로, 동시출현 용어의 13단어 단어인접탐색 기법을 적용한 경우 268편(96.7%)으로 매칭률이 향상되었다. 본 연구를 통해 자연어 검색에 있어서 검색효율을 향상시키는 수단으로 검색용 시소러스를 사용하면 색인비용에 대한 부담이 적고, 통제어의 망라적 장점과 자연어가 가지는 용어의 특정성을 유지할 수 있음을 증명하였다. 또한 불리안 검색보다는 단어인접탐색 기법을 활용하면 정확률을 높일 수 있어 검색 효율성이 향상됨을 알 수 있었다.
This study examined the method for adding related to "stomach neoplasms" as filters to the Medical Subject Headings (MeSH) for search as well as a method for improving the search efficiency through a word-proximity search by measuring the distance of co-occurring terms. A total of 8,625 articles pub...
This study examined the method for adding related to "stomach neoplasms" as filters to the Medical Subject Headings (MeSH) for search as well as a method for improving the search efficiency through a word-proximity search by measuring the distance of co-occurring terms. A total of 8,625 articles published between 2007 and 2016 with the major topic terms "stomach neoplasms" were downloaded from PubMed article titles. The vocabulary to be added to the MeSH for search were analyzed. The search efficiency was verified by 277 articles that had "Stomach Neoplasms" indexed as MEDLINE MeSH in KoreaMed. As a result, 973 terms were selected as the candidate vocabulary. "Gastric Cancer" (2,780 appearances) was the most frequent term and 7,376 compound words (88.51%) combined the histological terms of "stomach" and "neoplasm", such as "gastric adenocarcinoma" and "gastric MALT lymphoma". A total of 5,234 compounds words (70.95%), in which the co-occurring distance was two words, were found. The matching rate through the MEDLINE MeSH and KoreaMed MeSH Indexer was 209 articles (75.5%). The search efficiency improved to 263 articles (94.9%) when the search filters were added, and to 268 articles (96.7%) when the 13 word-proximity search technique of the co-occurring terms was applied. This study showed that the use of a thesaurus as a means of improving the search efficiency in a natural language search could maintain the advantages of controlled vocabulary. The search accuracy can be improved using the word-proximity search instead of a Boolean search.
This study examined the method for adding related to "stomach neoplasms" as filters to the Medical Subject Headings (MeSH) for search as well as a method for improving the search efficiency through a word-proximity search by measuring the distance of co-occurring terms. A total of 8,625 articles published between 2007 and 2016 with the major topic terms "stomach neoplasms" were downloaded from PubMed article titles. The vocabulary to be added to the MeSH for search were analyzed. The search efficiency was verified by 277 articles that had "Stomach Neoplasms" indexed as MEDLINE MeSH in KoreaMed. As a result, 973 terms were selected as the candidate vocabulary. "Gastric Cancer" (2,780 appearances) was the most frequent term and 7,376 compound words (88.51%) combined the histological terms of "stomach" and "neoplasm", such as "gastric adenocarcinoma" and "gastric MALT lymphoma". A total of 5,234 compounds words (70.95%), in which the co-occurring distance was two words, were found. The matching rate through the MEDLINE MeSH and KoreaMed MeSH Indexer was 209 articles (75.5%). The search efficiency improved to 263 articles (94.9%) when the search filters were added, and to 268 articles (96.7%) when the 13 word-proximity search technique of the co-occurring terms was applied. This study showed that the use of a thesaurus as a means of improving the search efficiency in a natural language search could maintain the advantages of controlled vocabulary. The search accuracy can be improved using the word-proximity search instead of a Boolean search.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
즉, type 2와 3만 “Stomach Neoplasms”이다. MeSH 색인 시에 색인전문가가 정확히 본문을 읽으면서 주의깊게 색인해야 하는 용어로 본 연구에서는 이러한 용어의 패턴도 분석하였다.
텍스트마이닝 기술이 발전하여 자동분류하고 패턴을 인식하는 기술이 점차 지능화되고 있지만 결국 보다 자동색인을 통해 검색효율이 높일 수 있는 정교한 시소러스의 개발은 인간의 지적 해석능력 및 전문성에 의존할 수밖에 없다. PubMed에는 의학 학술용어의 특성이 잘 반영되어 있는 대량의 문헌집합으로 본 연구에서는 PubMed를 활용하여 생의학적 개념들 간의 유의미한 관련성을 찾고자 한다. PubMed에서 다양한 어휘들을 추출해내고 이를 패턴화하여 MeSH의 검색용 필터로 반영한다면 MeSH로 색인된 용어와 함께 검색이 이루어져 망라적이면서도 정확한 검색결과를 얻을 수 있을 것이다.
그리고 KoreaMed에서 검색되는 MEDLINE 학술지를 대상으로 선정된 어휘군을 검색 필터로 적용해보고,단어인접탐색 기법을 적용하는 검증 실험을 통해“Stomach Neoplasms”의 매칭률이 향상되었는지를 분석하고자 한다.
따라서 본 연구에서는 “Stomach Neoplasms” 기입어의 동시출현 빈도를 분석하였다.
따라서 본 연구에서는 “Stomach Neoplasms”와 관련하여 주로 사용되는 언어 패턴(어휘, 표현 등)을 분석하기 위해 PubMed 문헌을 실험 데이터로 내려 받아 검색의 효율을 높일 수 있는 어휘군을 선정하고자 한다.
제안 방법
논문의 제목과 초록을 대상으로 MetaMap과 Trigram으로 추출한 용어를 Unified Medical language System (UMLS)의 용어와 매칭하여 MeSH로 변환하는 과정이 핵심이다. 거기에 PubMed의 유사주제문헌(PubMed Related Citations) 알고리즘을 통해 추출한 의학용어의 집합을 추가해 MeSH를 추출한다. 이 과정을 거쳐 추천된 MeSH를 NLM의 색인전문가가 참고하여 데이터 관리프로그램인 Data Creation Maintenance System(DCMS) 상에서 논문을 읽으면서 일일이 MeSH로 색인한다[3].
구체적으로 973개의 어휘를 검색용 필터로 추가하였을 때 매칭되는 비율을 비교하여 측정하였다. 결과 921회(20.
그리고 논문제목으로부터 Stomach와 Neoplasms 관련 용어의 동시출현여부를 분석한 후 “Stomach Neoplasms”를 의미하는 어휘를 수집하여 검색필터로 사용할 어휘군을 작성하였다.
따라서 277편 논문을 대상으로 KoreaMed의 MeSH 자동 Indexer에서 추출한 MeSH (이하 KoreaMed MeSH) 그리고 NLM이 개발한 MeSH 자동추천 프로그램인 MeSH on Demand[15]에서 “Stomach Neoplasms”를 색인어로 추출했는지를 비교하였다.
전술한 바와 같이 색인어로“Stomach Neoplasms”이 추출되었다는 것은 통제어 검색을 통해 검색된 문헌의 총 문헌수 중에 포함되었음을 의미한다. 따라서 MEDLINE MeSH와 MeSH on Demand 그리고 KoreaMed MeSH에서 추출한 MeSH를 비교하여 매칭률을 측정하였다. 이후 검색용 필터로“Stomach Neoplasms"를 추가한 경우 매칭되는 비율과 동시출현용어의 단어인접탐색 결과 매칭되는 비율을 측정하였다.
또한, KoreaMed에서 검색되는 MEDLINE 학술지중“Stomach Neoplasms”가 색인이 되어있는 277편을 대상으로 MEDLINE MeSH, MeSH on Demand, 그리고 KoreaMed MeSH Indexer의 “Stomach Neoplasms” 색인어 추출여부와 검색용 필터로 어휘군을 적용했을 때, 그리고 동시출현 용어의 단어인접검색 기법을 적용했을 때 “Stomach Neoplasms”의 매칭여부를 비교하여 검증하였다.
본 연구에서 제안한 검색필터 작성방법은 의학 분야의 용어 특징인 전조합용어의 어휘군 작성에 적용할 수 있다. 또한 탐색자가 자연어 검색 시에 검색어로 활용할 수도 있다.
본 연구에서는 의학 분야에 대표적인 시소러스인MeSH로 색인한 의학문헌에 대하여 “Stomach Neoplasms"관련 어휘군을 작성하여 검색필터로 적용하였다.
본연구에서는 PubMed 실험문헌 8,625편의 논문 제목에서 동시 출현하는 “Stomach Neoplasms” 관련 용어에 대하여 단어 간의 거리(path)를 측정하여 관사, 전치사 등을 포함하여 몇 단어 사이에 두 단어가 출현하는지를 분석하였다.
이후 검색용 필터로“Stomach Neoplasms"를 추가한 경우 매칭되는 비율과 동시출현용어의 단어인접탐색 결과 매칭되는 비율을 측정하였다.
탐색자가 단어인접탐색을 하는 경우 동시출현용어의 거리를 입력하게 되는데 검색효율성을 측정하기 위해 Near/0, Near/5 그리고 Near/13의 경우 매칭률을 측정하였다. “Stomach Neoplasms” 관련 용어로 논문의 제목,초록, 그리고 저자키워드에서 동시출현한 거리를 분석한 결과 Near/0 인 경우 즉, 합성어인 경우 83.
대상 데이터
“Stomach Neoplasms”이 MeSH로 주제 색인되어 있는 277편(2007년∼ 2016년분)을KoreaMed에서 내려 받았다.
12%)의 용어가 “EsophagogastricJunction”에서 발생한 암이었다. 11편(0.13%)만이 Type 1에 해당하여 검색필터로 추가할 어휘군 용어로 채택하였다.
검색 필터로 적용한 어휘군과 “Stomach”와 “Neoplasms” 단어 간에 거리를 분석한 결과를 검증하기 위하여 우리나라 의학 분야 연구자들의 논문이 주로 수록되는 KoreaMed에서 검증문헌을 선정하였다. KoreaMed 학술지이면서 PubMed에서도 검색이 가능한 MEDLINE 학술지 11종이 대상이다. “Stomach Neoplasms”이 MeSH로 주제 색인되어 있는 277편(2007년∼ 2016년분)을KoreaMed에서 내려 받았다.
MeSH 용어인 “Stomach Neoplasms"와 기입어 12개(단·복수 포함)를 제외하고 973개 유형이 검색필터로 적용할 수 있는 후보 어휘군이었다.
검색 필터로 적용한 어휘군과 “Stomach”와 “Neoplasms” 단어 간에 거리를 분석한 결과를 검증하기 위하여 우리나라 의학 분야 연구자들의 논문이 주로 수록되는 KoreaMed에서 검증문헌을 선정하였다.
동시 출현하는 “Stomach Neoplasms” 용어의 관계성 파악을 위해 해부학적 부위와 조직학적 유형 단어사이에 출현하는 단어 수가 의미가 있는지 PubMed 실험문헌 8,625편의 논문 제목을 대상으로 구문을 분석하였다.
본 연구에서는 우리나라 질병중 사망률이 가장 높은 암(cancer)분야 중에서 위암(이하 “Stomach Neoplasms”)을대상으로 하여[10] 검색용 MeSH에 추가할 어휘군을 결정하기 위해 실험문헌으로 PubMed에서 중심주제어(Major Topic)가 “Stomach Neoplasms"인 2007년∼2016년 논문 8,625편을 내려 받았다.
데이터처리
“Stomach Neoplasms”용어의 추출 전과 후의 검색효율성은 SPSS for Windows (Version 14; SPSSInc., Chicago, Illinois, USA)를 사용하여 Wilcoxon 검증을 실시하였다.
KoreaMed Indexer MeSH와 “Stomach Neoplasms” 검색용 필터를 적용했을 때의 매칭률이 유의적인 차이가 있는지 알아보기 위하여 비모수통계방법인 Wilcoxon 검증을 실시하였다.
이론/모형
본 연구에서는 의학 분야에 대표적인 시소러스인MeSH로 색인한 의학문헌에 대하여 “Stomach Neoplasms"관련 어휘군을 작성하여 검색필터로 적용하였다. 또한 단어사이 이내에 순서에 상관없이 동시 출현하는 문헌을 검색하는 단어인접탐색기법을 활용하였다.그 결과 매칭률이 향상됨을 증명하였다.
성능/효과
“Stomach Neoplasms” 관련 용어로 논문의 제목,초록, 그리고 저자키워드에서 동시출현한 거리를 분석한 결과 Near/0 인 경우 즉, 합성어인 경우 83.8%로,Near/5의 경우 95.3%까지 매칭률이 향상되었다.
973개의 후보 어휘군을 모두 필터로 적용하면 KoreaMed MeSH Indexer에 의한 75.5%의 매칭률이 19.4%나 향상되어 94.9%가 되었다.
검색필터로 “Gastric Adenocarcinoma”만 적용해도 KoreaMed Indexer의 매칭률 75.5%였던 것에 비해 1.39% 향상되어 76,89%가 되었다.
결과 921회(20.5%) 출현한 용어는 “Gastric Adenocarcinoma” 로한 종류였다.
또한 단어사이 이내에 순서에 상관없이 동시 출현하는 문헌을 검색하는 단어인접탐색기법을 활용하였다.그 결과 매칭률이 향상됨을 증명하였다.
논문 제목, 초록과 저자키워드에서 검색용 필터로 적용할 어휘군의 용어가 매칭되는지 그 비율을 측정한 결과 MEDLINE MeSH에는 “Stomach Neoplasms”가 주제어로 부여되었으나 KoreaMedMeSH Indexer MeSH와 매칭이 되지 않은 문헌이 277편중에서 68편(24.5%)이었다.
대량의 학술 문헌에서 출현하는 어휘나 구문의 패턴을 텍스트마이닝 기술을 활용하여 분석한 후 검색필터로 적용했을 때 MeSH 시소러스에 의한 검색보다 검색의 효율성이 향상되었다. 또한 적용할 두 단어사이 거리를 측정하여 의학문헌에 사용되는 어휘나 구문적 특징을 분석한 결과 동시 출현 거리가 2단어인 합성어가 실험문헌 8,625편중에서 5,234(70.
동시출현 용어에 대하여 Near/0, Near/5, Near/13의 단어인접탐색 기법을 적용한 경우 모두 통계적으로 유의한 차이가 있었다(Table 6).
또한 검색어별로 상위어로 확장하거나 하위어로 제한하여 검색할 수 있어 포괄적인 검색을 하면서도 특정적인 용어에 대해서는 특이도가 높은 검색을 할 수 있다[3]. 따라서 MeSH 시소러스 기반인 MeSH Database 검색 툴을 활용해서 PubMed 검색을 하면 MeSH로 문헌이 색인되어 있어 탐색자의 요구에 가장 최적화된 검색결과를 얻을 수 있다.
따라서 Stomach 관련 후보 어휘군은 Stomach,Cardia, “Esophageal Sphincter, Lower”, “Gastroesophageal Junction”, "Gastric Fundus", “Pyloric antrum”,Pylorus로 확정하였다.
따라서 검색시스템의 성능과 추가할 어휘군의 규모와 특성에 따라 50 ∼ 75%의 어휘군을 추가하는 것을 제안한다.
하지만 같이 동시 출현하는 것으로만 판단하기 때문에 용어간의 직접적, 간접적 관계성을 파악할 수 없는 없다. 따라서 텍스트마이닝을 통해 의학문헌에서 중요 키워드를 자동 추출해내고,관련 어휘군을 작성하여 MeSH 색인용이 아닌 검색필터(filter)로 추가한 후 탐색자의 질의어에 대하여 자동 수행케 하면 민감도와 특이도가 같이 향상되는 검색결과를 얻을 수 있다.
대량의 학술 문헌에서 출현하는 어휘나 구문의 패턴을 텍스트마이닝 기술을 활용하여 분석한 후 검색필터로 적용했을 때 MeSH 시소러스에 의한 검색보다 검색의 효율성이 향상되었다. 또한 적용할 두 단어사이 거리를 측정하여 의학문헌에 사용되는 어휘나 구문적 특징을 분석한 결과 동시 출현 거리가 2단어인 합성어가 실험문헌 8,625편중에서 5,234(70.95%)개나 차지하므로 불리언검색보다 단어인접탐색 기법이 보다 특이도가 높은 정확한 검색임을 증명하였다.
본 연구 결과 MeSH의 디스크립터인 “Stomach Neoplasms”은 정작 실험문헌인 PubMed의 논문 제목에서 한 번도 출현하지 않은 용어였다.
본 연구 결과 검색용 MeSH에 추가 필터를 활용하여MeSH 검색의 효과를 극대화하였다. 특정 개념을 표현하는 용어간의 의미 있는 관계를 파악하여 어휘군을 작성한 후 검색용 MeSH 필터로 적용하였더니 KoreaMedMeSH Indexer를 통해 색인어로 추출된 용어(75.
본 연구결과 단어인접탐색 기법에 적용한 두 단어사이 거리는 Near/0 즉, 합성어가 KoreaMed MeSHIndexer에 의한 매칭률 75.5%에 비해 83.39%로 검색 효율성이 향상되었다. Near/0이 Near/13보다 정확한 검색 결과를 얻을 수 있지만 “Stomach Neoplasms"를 의미하는 많은 구문패턴의 논문이 검색에서 누락될 수 있다.
본 연구결과 의학 학술문헌의 검색용으로 MeSH를사용하고 특정 어휘군을 검색필터로 적용함으로써 색인 비용에 대한 부담이 없이 통제어의 장점과 자연어가 가지는 용어의 특정성을 유지할 수 있음을 확인하였다. 통제어인 MeSH가 동의어 및 유사어로 사용할 수 있는 어휘가 제한되어 용어선택에 대한 융통성이 없고, 새로 생성된 개념에 대한 반영이 늦다는 단점을 극복하고 데이터베이스에서 제공하는 MeSH를 검색용 필터로 활용하면 동의어, 유사 동의어, 동형이의어를 통제하거나 관련어들을 연결시켜줌으로써 잘못된 검색어 조합이나 애매한 용어관계로 인해 발생하는 검색실패를 줄일 수 있음을 확인하였다.
분석결과 실험문헌 8,625편중 21개의 유형, 97개(1.12%)의 용어가 “EsophagogastricJunction”에서 발생한 암이었다.
오히려 논문 제목에 종양의 해부학적 발현 부위인 Stomach와 Neoplasms의 조직형 용어가 결합된 합성어인 “Gastric Adenocarcinoma”,“Gastric Carcinoma”, “Gastric Lymphoma” 등이“Stomach Neoplasms”보다 더 유의미하게 사용됨을 알 수 있었다.
이 세종류의 용어를 분석한 결과 동시출현용어 중 “Stomach Neoplasms”의 조직학적 형태 용어인 Neoplasms의 후보군은 Cancer,Malignancy, Neoplasia, Neoplasm, Neoplasms, Tumors,Adenocarcinoma, Leiomyosarcoma, Carcinoid, Lymphoma,Schwannoma, Polyps, Myeloma, Plasmacytoma,Carcinoid, Leiomyoma이다.
본 연구결과 의학 학술문헌의 검색용으로 MeSH를사용하고 특정 어휘군을 검색필터로 적용함으로써 색인 비용에 대한 부담이 없이 통제어의 장점과 자연어가 가지는 용어의 특정성을 유지할 수 있음을 확인하였다. 통제어인 MeSH가 동의어 및 유사어로 사용할 수 있는 어휘가 제한되어 용어선택에 대한 융통성이 없고, 새로 생성된 개념에 대한 반영이 늦다는 단점을 극복하고 데이터베이스에서 제공하는 MeSH를 검색용 필터로 활용하면 동의어, 유사 동의어, 동형이의어를 통제하거나 관련어들을 연결시켜줌으로써 잘못된 검색어 조합이나 애매한 용어관계로 인해 발생하는 검색실패를 줄일 수 있음을 확인하였다.
본 연구 결과 검색용 MeSH에 추가 필터를 활용하여MeSH 검색의 효과를 극대화하였다. 특정 개념을 표현하는 용어간의 의미 있는 관계를 파악하여 어휘군을 작성한 후 검색용 MeSH 필터로 적용하였더니 KoreaMedMeSH Indexer를 통해 색인어로 추출된 용어(75.5%)보다 좀 더 정확하고 많이 검색(94.9%)되어 효율성이 향상되었다.
39% 향상되어 76,89%가 되었다. 후보 어휘군의 50%에 해당하는 12개 용어를 검색필터로 추가하면 83.39%로 검색 효율이 향상되었다. 99개의 용어(75%)의 경우 89.
후속연구
또한 탐색자가 자연어 검색 시에 검색어로 활용할 수도 있다. KoreaMed에서 자동색인을 통해 추출된 MeSH 색인어와 특정 주제관련 검색필터를 활용하여 탐색자가 스스로 검색한다면 재현율과 정확률을 향상시키는 최적의 검색이 될 것이다.
PubMed에는 의학 학술용어의 특성이 잘 반영되어 있는 대량의 문헌집합으로 본 연구에서는 PubMed를 활용하여 생의학적 개념들 간의 유의미한 관련성을 찾고자 한다. PubMed에서 다양한 어휘들을 추출해내고 이를 패턴화하여 MeSH의 검색용 필터로 반영한다면 MeSH로 색인된 용어와 함께 검색이 이루어져 망라적이면서도 정확한 검색결과를 얻을 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
바이오 텍스트마이닝은 어떤 기술을 적용하는가?
의료분야에서 활용되는 바이오 텍스트마이닝은 의학 학술문헌의 생의학적 문맥과 상호작용관계를 파악하여 개념들 간의 유의미한 관련성을 찾아내고자 자연언어처리 및 문서처리 기술을 적용한다. 바이오 텍스트마이닝 분야에서 많이 활용되고 있는 데이터베이스는 PubMed로 미국국립의학도서관(National Library of Medicine,이하 NLM)에서 구축하고 있다.
MEDLINE의 특징은?
MEDLINE은 NLM의 학술지 선정위원회 평가를 거쳐 선정된 핵심 학술문헌 데이터베이스이다. 4,600여종 학술지 약 1,100만 편이 PubMed에서 검색되는데 의학분야의 대표적인 시소러스(Thesaurus)라 할 수 있는 Medical Subject Headings(이하 MeSH)에 의해 색인을 하고 있다는 것이 가장 큰 특징이다[2].
PubMed은 어디서 구축하는가?
의료분야에서 활용되는 바이오 텍스트마이닝은 의학 학술문헌의 생의학적 문맥과 상호작용관계를 파악하여 개념들 간의 유의미한 관련성을 찾아내고자 자연언어처리 및 문서처리 기술을 적용한다. 바이오 텍스트마이닝 분야에서 많이 활용되고 있는 데이터베이스는 PubMed로 미국국립의학도서관(National Library of Medicine,이하 NLM)에서 구축하고 있다. 현재 약 2,700백만 건의 문헌이 수록되어 있고 하루에도 수천편의 문헌들이 업데이트되고 있는 의학 분야에서 가장 독보적인 의학학술문헌 데이터베이스이다.
참고문헌 (23)
S. L. De Groote, M. Schultz, D. D. Blecic, "Information-seeking behavior and the use of online resources: a snapshot of current health sciences faculty", Journal of the Medical Library Association, vol. 102, no. 3, p. 169, 2014. DOI: https://doi.org/10.3163/1536-5050.102.3.006
US National Library Medicine. Fact Sheet Bibliographic Services Division,(BSD) 2017. [cited 2017 Mar 2], Available From: https://www.nlm.nih.gov/archive/20050322/pubs/factsheet s/bsd.html.(accessed Mar., 31, 2017)
S. N. Jeong, C. S. Lee, "MeSH Semi Indexing of the Korean Biomedical Literature, using NLM Medical Text Indexer", in, Korea Society for Information Management, pp. 21-28, 2010.
Cochrane Library. How CENTRAL is created [cited 2017 Mar 31], Available From: http://www.cochranelibrary.com/help/central-help.html.(a ccessed Mar., 31, 2017)
Cochrane Library. Cochrane Crowd [cited 2017 Mar 31], Available From: http://crowd.cochrane.org/index.html. (accessed Mar., 31, 2017)
D. L. Sackett, W. M. Rosenberg, J. A. Gray, R. B. Haynes, W. S. Richardson, "Evidence based medicine: what it is and what it isn't", BMJ, vol. 312, no. 7023, pp. 71-72, 1996. DOI: https://doi.org/10.1136/bmj.312.7023.71
C. S. Lee, "Medical Database Search", Journal of the Korean Medical Association, vol. 53, no. 8, pp. 668-686, 2010. DOI: https://doi.org/10.5124/jkma.2010.53.8.668
M. Macedo-Rouet, J. F. Rouet, C. Ros, N. Vibert, "How do scientists select articles in the PubMed database? An empirical study of criteria and strategies", Revue Europeenne de Psychologie Appliquee/European Review of Applied Psychology, vol. 62, no. 2, pp. 63-72, 2012. DOI: https://doi.org/10.1016/j.erap.2012.01.003
N. Baumann, "How to use the medical subject headings (MeSH)", International Journal of Clinical Practice, vol. 70, no. 2, pp. 171-174, 2016. DOI: https://doi.org/10.1111/ijcp.12767
Korean Statistical Information System National Statistical Office. Cancer occurrence and death status. 2017 [cited 2017 Mar 2], Available From: http://kosis.nso.go.kr.(accessed Mar. 31, 2017)
US National Library of Medicine. Medical Subject Headings 2017. Available From: https://meshb.nlm.nih.gov/#/fieldSearch. (accessed Mar., 31, 2017)
A. Fritz, C. Percy, A. Jack, K. Shanmugaratnam, L. Sobin, D. M. Parkin, S. Whelan, International classification of diseases for oncology, World Health Organization, 2000.
US National Library Medicine. Search Strategy Used to Create the Cancer Subset on PubMed. 2017 [cited 2017 Mar 2], Available From: https://www.nlm.nih.gov/bsd/pubmed_subsets/cancer_strategy.html.(accessed Mar., 31, 2017)
C. C. Compton, D. R. Byrd, J. Garcia-Aguilar, S. H. Kurtzman, A. Olawaiye, M. K. Washington, "AJCC cancer staging atlas", pp. 143-153, Springer, New York, 2012. DOI: https://doi.org/10.1007/978-1-4614-2080-4
US National Library of Medicine. MeSH on Demand. Available From: https://www.nlm.nih.gov/mesh/MeSHonDemand.html.(accessed Mar., 31, 2017)
D. R. Swanson, N. R. Smalheiser, V. I. Torvik, "Ranking indirect connections in literaturebased discovery: The role of medical subject headings," Journal of the American Society for Information Science and Technology, vol. 57, no. 11, pp. 1427-1439, 2006. DOI: https://doi.org/10.1002/asi.20438
S. Y. Bong, K. B. Hwang, "A Method for Author Keyphrase Recommendation for Bioinformatics Papers Using Assigned MeSH Terms", The HCI Society of Korea, pp. 236-238, 2011.
J. G. Mork, A. J. Jimeno-Yepes, A. R. Aronson, "The NLM Medical Text Indexer System for Indexing Biomedical Literature", in BioASQ@ CLEF, 2013.
A. Jimeno-Yepes, J. G. Mork, D. Demner-Fushman, A. R. Aronson, "A one-size-fits-all indexing method does not exist: automatic selection based on meta-learning", Journal of Computing Science and Engineering, vol. 6, no. 2, pp. 151-160, 2012. DOI: https://doi.org/10.5626/JCSE.2012.6.2.151
ICHUSI Web. 2017 [cited 2017 Mar 2], : Available From http://www.jamas.or.jp/index.html. (accessed Mar. 31, 2017)
US National Library Medicine. How can I become an indexer? 2017 [cited 2017 Mar 2], Available From: https://www.nlm.nih.gov/bsd/indexfaq.html#translator.(accessed Mar., 31, 2017)
G. S. Go, W. K. Jung, Y. G. Shin, S. S. Park, "A Study on development of patent information retrieval using textmining", Journal of the Korean Academia-Industrial cooperation Society, vol. 12, no. 8, pp. 3677-3688, 2011. DOI: http://doi.org/10.5762/KAIS.2011.12.8.3677
US National Library of Medicine. Unified Medical Language System (UMLS). Available From: https://www.nlm.nih.gov/research/umls/index.html. (accessed Mar., 31, 2017)
※ AI-Helper는 부적절한 답변을 할 수 있습니다.