[논문]자연어 처리 및 기계학습을 통한 동의보감 기반 한의변증진단 기술 개발

이승현; 장동표; 성강경

doi:10.13048/jkm.20021

자연어 처리 및 기계학습을 통한 동의보감 기반 한의변증진단 기술 개발
Donguibogam-Based Pattern Diagnosis Using Natural Language Processing and Machine Learning 원문보기

Journal of Korean Medicine = 대한한의학회지, v.41 no.3, 2020년, pp.1 - 8

이승현 (한양대학교 공과대학 정보시스템학과) , 장동표 (한양대학교 공과대학 생체공학과) , 성강경 (원광대학교 한의과대학 한의학과 내과학교실)

Abstract ▼ AI-Helper

Objectives: This paper aims to investigate the Donguibogam-based pattern diagnosis by applying natural language processing and machine learning. Methods: A database has been constructed by gathering symptoms and pattern diagnosis from Donguibogam. The symptom sentences were tokenized with nouns, verbs, and adjectives with natural language processing tool. To apply symptom sentences into machine learning, Word2Vec model has been established for converting words into numeric vectors. Using the pair of symptom's vector and pattern diagnosis, a pattern prediction model has been trained through Logistic Regression. Results: The Word2Vec model's maximum performance was obtained by optimizing Word2Vec's primary parameters -the number of iterations, the vector's dimensions, and window size. The obtained pattern diagnosis regression model showed 75% (chance level 16.7%) accuracy for the prediction of Six-Qi pattern diagnosis. Conclusions: In this study, we developed pattern diagnosis prediction model based on the symptom and pattern diagnosis from Donguibogam. The prediction accuracy could be increased by the collection of data through future expansions of oriental medicine classics.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 이러한 동의보감의 모든 증상과 변증을 데이터베이스화하고, 증상에 대한 표현 및 문장에 자연어 처리 기술과 워드2벡터 모델을 적용함으로써 변증과 증상과의 관계를 분석하고자 한다. 특히 증상과 변증의 관계분석에 머무르지 않고 더 나아가 증상에 기반한 변증예측 시스템을 구성함으로써 동의보감 고전에 기반한 객관적인 변증형 도출모델을 만들고자 한다.
본 연구에서는 증상에 기반하여 변증을 예측하는 시스템을 구성함으로써, 동의보감에 기반한 객관적인 변증추측 모델을 만들었다. 인공지능 및 기계학습 분야에서 흔히 사용되는 워드2벡터 모델과 동의보감의 증상조합 및 변증 데이터에 기반하여 변증 예측하는 알고리즘을 구현함으로써 현재 75% 변증 예측률(6가지의 변증)을 보였다.
본 논문에서는 이러한 동의보감의 모든 증상과 변증을 데이터베이스화하고, 증상에 대한 표현 및 문장에 자연어 처리 기술과 워드2벡터 모델을 적용함으로써 변증과 증상과의 관계를 분석하고자 한다. 특히 증상과 변증의 관계분석에 머무르지 않고 더 나아가 증상에 기반한 변증예측 시스템을 구성함으로써 동의보감 고전에 기반한 객관적인 변증형 도출모델을 만들고자 한다.

제안 방법

1D처럼, 새로운 증상조합문장은 형태소분석을 거치고, 워드2벡터 모델에서 구해진 평균증상벡터를 입력으로 넣으면 육기 변증의 각각의 변증에 해당할 수 있는 확률이 계산되어 출력으로 나오게 된다. 가장 높은 확률값을 가지는 육기변증 중 하나가 변증으로 예측하였다.
동의보감에서 증상들과 이에 대한 변증을 모아 데이터베이스(database, DB)를 구성하기 위해 한의학 고전 데이터(https://mediclassics.kr/)의 동의보감 자료를 바탕으로 작업을 진행하였다⁸⁾. 증상 및 변증 DB는 Fig.
1C처럼 형태소 분석 후 워드2벡터 모델 구성에 사용되었다. 동의보감의 모든 단어 (형태소)를 가지고 모델을 구성해야 하기 때문에 병은 진단하는데 사용한 모든 증상조합데이터에 대해 적용하였다. 두 번째는 변증별로 모아진 증상조합리스트에 대해 형태소분석을 적용하였다.
동의보감의 모든 단어 (형태소)를 가지고 모델을 구성해야 하기 때문에 병은 진단하는데 사용한 모든 증상조합데이터에 대해 적용하였다. 두 번째는 변증별로 모아진 증상조합리스트에 대해 형태소분석을 적용하였다. 예를 들어 육기변증의 “풍한서습조화” 중 “풍”에 관련된 증상조합리스트, “한”에 관련된 증상조합리스트 등을 따로 따로 형태소분석을 진행하였다.
서로 비슷한 두 단어의 벡터의 코사인 유사도는 높은 값을 가지고, 다른 단어들의 벡터의 코사인 유사도는 낮은 값을 가지게 된다. 따라서 최적화비율은 유사도가 높은 단어의 평균 코사인 유사도와 임의 단어의 평균 코사인 유사도 값의 비로 계산하였다. 예를 들어, 육기변증의 중심단어 중 하나인 ‘습’을 기준으로 유사도가 높은 단어들을 5개(습지, 습열, 풍습, 이슬, 훈증)와 임의의 단어 5개를 뽑아 최적화비율 계산하였다.
]라는 古語는 [‘상한’, ‘리’, ’ 증’, ‘이’, ‘있다’, ‘양’, ‘명’, ‘병’, ‘이’, ‘있다’]로 토큰화되는 문제점이 있다. 따라서 한의학 사전 및 오래된 언어 및 단어 등을 추가하여 형태소분석 성능을 높일 수 있는 꼬꼬마형태소가 적합하다고 판단하여 이를 추가하였다.
안정적인 값을 얻기 위해 훈련 및 정확도 계산을 5회 반복하였다. 또한 워드2벡터 모델은 최적화된 파라메터 반복횟수(Iteration) 32회, 100 차원 벡터(Vector Size), 10의 윈도우길이(Window Length)로 모델의 파라메터를 조정 후 증상조합벡터를 얻었다. 그 결과, 육기변증을 예측하는 정확도는 75%(찬스레벨 16.
모든 증상조합리스트를 이용하여 워드2벡터모델을 구성한 후, 변증 별 증상조합리스트를 이용하여 증상 기반 변증예측 기계학습을 위한 훈련입력데이터를 구성하였다. 예를 들어, ‘의식이 혼미하여 괴로워한다’ 증상조합이 육기변증의 ‘서’로 변증이 정의되어 있는 경우, 증상의 경우 ‘의식’, ‘혼미’, ‘괴로워하다’의 각 벡터들의 평균벡터 [0.
본 연구에서는 Fig. 1B와 같이 두 가지 형태의 증상리스트에 대해서 형태소 분석을 적용하였다. 첫 번째는 동의보감에 나오는 증상들의 조합을 모아서 증상리스트로서 Fig.
토큰화 과정에서는 문장을 형태소 단위로 나누는 작업을 거치는데 이를 파싱(parsing)이라고 한다. 본 연구에서는 형태소 분석 Konlpy 패키지 중에서 토큰화 과정에서 한글형태소 분석에 흔히 사용되고, 사전(dictionary)를 사용자 임의로 교정할 수 있는 장점을 가진 꼬꼬마(kkma)패키지를 사용 하였다⁹⁾. 동의보감에서 증상표현에는 상대적으로 고어가 많고, 한의학적 표현이 많기 때문에 이에 대한 보완이 없는 경우 형태소가 분석에 오류가 빈번히 발생하여 정확도가 떨어지는 단점이 있다.
이후 로지스틱 회귀분석 기반의 기계학습을 진행하였는데, 이 중 90%는 학습훈련으로 사용하였고, 10% 데이터는 정확도를 계산하는데 사용하였다. 안정적인 값을 얻기 위해 훈련 및 정확도 계산을 5회 반복하였다. 또한 워드2벡터 모델은 최적화된 파라메터 반복횟수(Iteration) 32회, 100 차원 벡터(Vector Size), 10의 윈도우길이(Window Length)로 모델의 파라메터를 조정 후 증상조합벡터를 얻었다.
워드2벡터 모델의 성능의 최대치를 측정하기 위해 워드2벡터의 주요 파라메터인 반복횟수, 벡터차원, 윈도우 길이를 조정하면서 성능을 측정했다. 반복횟수의 경우 2의 승수(2, 4, 8, 16, 32, 64, 128회)로 증가시키면서 코사인유사도에 의한 최적화비율을 계산하였다.
이러한 문제를 해결하기 위해, ‘리가’, ‘기가’와 같이 형태소 분석에 오류를 만들 수 있는 단어들을 사전에서 삭제하였다.
더불어 古語 및 한의학 전문 용어들을 다수 포함한 동의보감 증상조합들은 기존의 한글 형태소 분석기로는 모두 분석할 수 없었다. 이러한 문제점을 해결하기 위해, 한의학 사전에 단어들을 추가하여 해결하였다. 추후에는 한의학단어를 먼저 인식하도록 할 수 있는 형태소 분석기를 마련하여, 효과적으로 한의학 단어를 인식할 수 있도록 해야 할 것이다.
이렇게 모든 증상조합과 변증 정리를 내경편, 외형편, 잡병편에 대해 적용하였다.
kr/)의 동의보감 자료를 바탕으로 작업을 진행하였다⁸⁾. 증상 및 변증 DB는 Fig. 1A처럼 각 증례의 증상들의 리스트를 증상 번호로 정리한 후, 증상번호들의 조합으로 하나의 변증 혹은 처방명으로 정리하였다. 예를 들어 Fig.
이전 단계에서 구성된 증상벡터와 변증벡터 쌍은 신경망의 학습데이터를 들어가게 된다. 증상벡터를 입력으로 넣었을 때, 출력으로 변증벡터가 결과로 나올 수 있도록 신경망 기계학습을 하였다. 증상조합과 변증 쌍 데이터를 이용하여 로지스틱 회귀분석 (Logistic Regression)을 이용한 변증 예측 모델을 훈련하였다.
증상벡터를 입력으로 넣었을 때, 출력으로 변증벡터가 결과로 나올 수 있도록 신경망 기계학습을 하였다. 증상조합과 변증 쌍 데이터를 이용하여 로지스틱 회귀분석 (Logistic Regression)을 이용한 변증 예측 모델을 훈련하였다. 훈련 후, 새로운 증상조합을 넣으면 변증을 예측할 수가 있게 된다.

데이터처리

1D에서처럼 동의보감 증상조합 리스트와 육 기변증 쌍을 정리했을 때 ‘풍’에 관련된 증상조합 개수는 총 526개 추출하였고, ‘한’ 593개, ‘서’ 115개, ‘습’ 351개, ‘조’ 55, ‘화’ 271개가 추출되었다. 이후 로지스틱 회귀분석 기반의 기계학습을 진행하였는데, 이 중 90%는 학습훈련으로 사용하였고, 10% 데이터는 정확도를 계산하는데 사용하였다. 안정적인 값을 얻기 위해 훈련 및 정확도 계산을 5회 반복하였다.

이론/모형

증상을 입력하여 변증을 예측하는 시스템을 구성하기 위해서는 비슷한 의미의 단어들이 비슷한 벡터로 표현될 수 있도록 동의보감 기반의 정확한 워드2벡터 모델이 구축이 필수적이다. 따라서 본 연구에서는 파라메터를 변화시켰을 때 서로 같은 변증에서 많이 사용되는 단어들이 서로 비슷한 벡터를 가지는 측정하기 위해 코사인 유사도(Cosine Similarity)를 사용하였다. 서로 비슷한 두 단어의 벡터의 코사인 유사도는 높은 값을 가지고, 다른 단어들의 벡터의 코사인 유사도는 낮은 값을 가지게 된다.
모든 증상조합리스트의 형태소 분류기 적용 후 조사 및 부사 등은 빼고 명사, 동사, 형용사만을 수치화하여 워드2벡터 모델을 적용하였다. 워드2벡터는 단어들 간의 유사도를 벡터화한 것이다.

성능/효과

Fig. 1D에서처럼 동의보감 증상조합 리스트와 육 기변증 쌍을 정리했을 때 ‘풍’에 관련된 증상조합 개수는 총 526개 추출하였고, ‘한’ 593개, ‘서’ 115개, ‘습’ 351개, ‘조’ 55, ‘화’ 271개가 추출되었다.
반복횟수의 경우 2의 승수(2, 4, 8, 16, 32, 64, 128회)로 증가시키면서 코사인유사도에 의한 최적화비율을 계산하였다. Fig. 2A에서와 같이 반복횟수가 증가함에 따라서 최적화비율이 높아지며, 반복횟수 32회 이상에서는 변화가 크지 않은 것으로 나타났다. 따라서 이는 반복횟수 32회 이상에서 워드2벡터 성능의 높다는 것을 나타낸다.
또한 워드2벡터 모델은 최적화된 파라메터 반복횟수(Iteration) 32회, 100 차원 벡터(Vector Size), 10의 윈도우길이(Window Length)로 모델의 파라메터를 조정 후 증상조합벡터를 얻었다. 그 결과, 육기변증을 예측하는 정확도는 75%(찬스레벨 16.7%)를 얻을 수 있었다. 이를 기반으로 하여, Fig.
따라서 이는 반복횟수 32회 이상에서 워드2벡터 성능의 높다는 것을 나타낸다. 두 번째 단어를 벡터로 나타낼 때 벡터차원의 크기에 대해서는 10, 20, 50, 100, 200, 300차원을 이용하여 최적화비율을 확인해 본 결과, 100차원 이상에서는 최적화비율의 변화의 폭이 적어지는 것을 보였다. 같은 방식으로 윈도우 길이 2, 4, 8, 10, 12, 20, 30에 대해서는 Fig.
본 연구에서는 증상에 기반하여 변증을 예측하는 시스템을 구성함으로써, 동의보감에 기반한 객관적인 변증추측 모델을 만들었다. 인공지능 및 기계학습 분야에서 흔히 사용되는 워드2벡터 모델과 동의보감의 증상조합 및 변증 데이터에 기반하여 변증 예측하는 알고리즘을 구현함으로써 현재 75% 변증 예측률(6가지의 변증)을 보였다. 이 정확도는 다양한 한의학 고전 데이터 확보를 통해 좀 더 높일 수 있을 것이라 생각된다.

후속연구

이 정확도는 다양한 한의학 고전 데이터 확보를 통해 좀 더 높일 수 있을 것이라 생각된다. 더욱이, 본 논문에서 다룬 변증 분류 기술이 임상에서도 적용되기 위해서는 임상에서 사용되는 변증의 실제 예와 동의보감 원문에 나오는 변증 들을 비교해야 할 것이라 판단된다.
이러한 문제점을 해결하기 위해, 한의학 사전에 단어들을 추가하여 해결하였다. 추후에는 한의학단어를 먼저 인식하도록 할 수 있는 형태소 분석기를 마련하여, 효과적으로 한의학 단어를 인식할 수 있도록 해야 할 것이다.
2% 수준 밖에 되지 않았고, 적은 증상 조합이 있을 경우, 증상조합의 변증 예측 테스트 및 학습에도 어려움이 있었다. 풍부한 증상 및 변증 데이터의 확보는 현재 75%인 변증예측 정확도를 향후 높이는데 중요한 역할을 할 수 있을 것이라 생각된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	워드2벡터 모델링 과정에서 중요하게 고려되는 하이퍼파라메터 3가지는 무엇인가?	워드2벡터 모델링 과정에서 중요하게 고려되는 하이퍼파라메터는 크게 세 가지이다. 첫 번째 파라메터인 벡터차원은 표현되어지는 단어의 벡터의 차원의 크기를 나타낸다. 벡터 차원크기를 10으로 설정하면 한 단어 당 갖는 고유의 벡터값은 10차원에 분포된다. 두 번째 파라메터인 윈도우(Window)는 증상 문장에서 연관성 학습시 고려되는 주변단어의 수를 의미한다. 예를 들어 윈도우1이라면 중심단어를 기준으로 앞의 한 단어와 뒤의 한 단어를 주변단어로 묶어서 함께 사용되어 높은 유사성을 갖는 것으로 학습시킨다. 마지막 파라메터로는 학습의 반복횟수이다. 훈련 데이터를 반복함으로써 모델의 학습횟수가 많아질수록 단어들이 더 정교하게 고유의 벡터값을 가지는 경향이 있게 된다. 증상을 입력하여 변증을 예측하는 시스템을 구성하기 위해서는 비슷한 의미의 단어들이 비슷한 벡터로 표현될 수 있도록 동의보감 기반의 정확한 워드2벡터 모델이 구축이 필수적이다.
	자연어 처리란 무엇인가?	특히 인터넷상의 대량의 문서나 SNS 자료로부터 최신 동향을 파악하기 자연어 처리 기술이 많이 적용되고 있으며, 이에 대한 기술도 급속이 발전하고 있다. 자연어 처리는 컴퓨터가 인간이 사용하는 언어를 이해하고, 분석할 수 있게 하는 기술을 총칭하는 말이다. 자연어 처리를 위해서 사람이 사용하는 언어나 글의 문장을 해석하여 형태소 단위의 단어로 정리하고, 이러한 단어와의 관계를 이용하여 컴퓨터가 인식 분석할 수 있도록 숫자화 하는 작업이 필요하다.
	변증 진단 지표들은 객관적이고 합리적 분석에 기반한 정확하고 재생 가능한 변증형(辨證形)을 도출하는 데 어려움이 있는 이유는 무엇인가?	한의진단에서 중요한 변증(辨證, Differentiation and Pattern Identification of Symptoms)은 정체적 관점에서 질병의 성질, 부위, 세력(勢力) 등과 환자의 상태를 변별하는 한의학적 진단방법으로, 보고, 묻고, 듣고, 맥을 짚는 사진과정을 통하여 수집된 증상들 사이에 내재하는 상호관계와 의미를 분석하는 과정을 통해서 이루어진다. 변증 진단 지표들은 임상적 유용성이 있음에도 불구하고 직관적 혹은 주관적인 방식으로 이루어져 왔기 때문에 객관적이고 합리적 분석에 기반한 정확하고 재생 가능한 변증형(辨證形)을 도출하는 데 어려움이 있다.

참고문헌 (11)

Kim JK, Seol IC, Lee I, Jo HK, Yu BC, Choi SM. Report on the Korean standard differentiation of the symptoms and signs for the stroke-1. J Physiol Pathol Korean Med. 2006;20(1):229-34.
Kang BK, Go HY, Kim JK, Kim BY, Ko MM, Kang KW, et al. Study of concordance rate to measure symptoms in interanl researchers. J Physiol Pathol Korean Med. 2006;20(6):1728-31.
Go HY, Kim JK, Kang BK, Kim BY, Ko MM, Kang KW, et al. Report on the Korean standard differentiation of the symptoms and signs for the stroke-1 (KSDSSS-1). J Physiol Pathol Korean Med. 2006;20(6):1789-92.
Go HY, Kim JK, Kang BK, Kim BY, Ko MM, Kang KW, et al. Survey of stroke subtype classification. J Physiol Pathol Korean Med. 2007;21(1):318-21.
Choi SM, Yang KS. Standardization and unification of the terms and conditions used for diagnosis in oriental medicine. Korean J Orient Med. 1995;1(1):101-25.
Yang KS, Choi SH, Choi SM, Park KM, Jeong WY, Ahn KS, et al. Standardization and unification of the terms and conditions used for diagnosis in oriental medicine. II. Korean J Orient Med. 1996;2(1):381-401.
Choi SM, Yang KS, Choi SH, Park KM, Park JH, Shim BS, et al. Standardization and unification of the terms and conditions used for diagnosis in oriental medicine III. Korean J Orient Med. 1997;3(1):41-65.
KOREA INSTITUTE OF ORIENTAL MEDICINE (KIOM). 한의학고전DB.
서울대학교 IDS연구실. 꼬꼬마(KKMA) 세종 말뭉치 활용 시스템. 2010. Available from: http://kkma.snu.ac.kr/
Eddie. 딥 러닝을 이용한 자연어 처리 입문. 대한민국. Wikidocs. 2020.
Yogatama. Learning Word Representations with Hierarchical Sparse Coding. ICML (International Conference on Machine Learning). 2015.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

자연어 처리 및 기계학습을 통한 동의보감 기반 한의변증진단 기술 개발
Donguibogam-Based Pattern Diagnosis Using Natural Language Processing and Machine Learning 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

자연어 처리 및 기계학습을 통한 동의보감 기반 한의변증진단 기술 개발 Donguibogam-Based Pattern Diagnosis Using Natural Language Processing and Machine Learning 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

성강경 (65)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

자연어 처리 및 기계학습을 통한 동의보감 기반 한의변증진단 기술 개발
Donguibogam-Based Pattern Diagnosis Using Natural Language Processing and Machine Learning 원문보기

AI 본문요약
AI-Helper