[논문]단어 빈도와 유사도 분석 기반의 회의록 요약 시스템 설계 및 구현

허강호; 양진우; 김동현; 복경수; 유재수

doi:10.5392/jkca.2019.19.10.620

단어 빈도와 유사도 분석 기반의 회의록 요약 시스템 설계 및 구현
Design and Implementation of Minutes Summary System Based on Word Frequency and Similarity Analysis 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.19 no.10, 2019년, pp.620 - 629

허강호 ((주)바론) , 양진우 ((주)바론) , 김동현 ((주)바론) , 복경수 (원광대학교 SW융합학과) , 유재수 (충북대학교 정보통신공학부)

초록
AI-Helper

의사 결정을 위한 토론이나 토의의 내용을 객관적 요약하고 분류하는 자동화된 회의록 요약 시스템이 요구되고 있다. 본 논문은 기존에 사용되었던 회의록 요약 시스템을 보완할 수 있도록 word2vec 모델을 이용한 회의록 요약 시스템을 설계하고 구현한다. 제안 시스템은 형태소 분석 과정에서 불용어를 제거하고 문서에서 공통적인 의견을 가진 대표 문장을 추출하기 위해 추가로 word2vec 모델로 학습을 수행한다. 제안 시스템은 회의 과정에서 수집되는 문서를 분석하여 자동으로 분류하고 다양한 의견들 중 안건을 대표하는 대표 문장을 추출한다. 회의 진행자는 제안 시스템을 통해 회의에서 다뤄지는 모든 안건을 보다 빠르게 확인하고 관리할 수 있다. 제안 시스템은 대규모 토론이나 토의의 여러 가지 안건을 분석하여 대표 의견이 될 수 있는 문장을 요약하여 빠른 정확한 의사 결정을 지원한다.

Abstract ▼ AI-Helper

An automated minutes summary system is required to objectively summarize and classify the contents of discussions or discussions for decision making. This paper designs and implements a minutes summary system using word2vec model to complement the existing minutes summary system. The proposed system is further implemented with word2vec model to remove index words during morpheme analysis and to extract representative sentences with common opinions from documents. The proposed system automatically classifies documents collected during the meeting process and extracts representative sentences representing the agenda among various opinions. The conference host can quickly identify and manage all the agendas discussed at the meeting through the proposal system. The proposed system analyzes various agendas of large-scale debates or discussions and summarizes sentences that can be representative opinions to support fast and accurate decision making.

주제어

표/그림 (12)

그림 그림 1. 전체 처리 과정
그림 그림 2. 명사 추출 실행 코드
그림 그림 3. word2vec 모델의 알고리즘
그림 그림 4. 형태소 분석 데이터
그림 그림 6. 단어 출현 빈도 확인
그림 그림 5. NLTK패키지 stopword사용 불용어 처리
그림 그림 7. word2vec 모델 Parameter 설정화면
그림 그림 8. word2vec 모델 학습결과 시각화
표 표 1. 형태소 분석을 통한 단어빈도 및 상위단어
그림 그림 9. 키워드 조합을 통한 대표 문장 제시
표 표 2. 상위빈도 키워드와 word2vec 모델 학습을 통한 유사 키워드
표 표 3. 시스템 제안결과 비교확인

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 단어빈도 분석뿐 아니라 단어 간의 유사도 분석을 통해 문장을 분류하여 더욱 효과적인 회의록 요약 시스템을 제안한다. 전체 문서에 나타나는 단어들의 출현 빈도에 대한 정보를 사용하여 문장을 분류한다.
[11]에서는 신경망 분석에 기반을 둔 비지도 학습 기법인 word2vec 모델을 제안하였다. 이 모델은 각 단어들이 학습 문헌 내에서 가지는 의미를 다차원의 벡터 값을 통해 수치적으로 표현하는 것을 목표로 한다. 이렇게 계산된 학습 결과를 다른 기계학습에서 학습 자질로도 사용하여 성능이 향상되었다.
형태소 분석은 텍스트를 형태소 단위로 분석하여 출력하는 과정이다. 즉, 형태소를 비롯하여 어근, 접두사/접미사, 품사(part-of-speech, POS) 등 다양한 언어적 속성의 구조를 파악하는 것이다.

제안 방법

이에 출현 빈도를 고려한 특정 단어를 선정하고 특정단어를 포함하고 있는 문서를 정확하게 분류하기 위해 워드 임베딩을 활용한 접근법을 제안하며 워드 임베딩 모델 중 대표적인 word2vec 모델을 사용한다. word2vec 모델을 통해 문서의 각 단어의 벡터 공간에서 거리를 계산하고 문서의 특징을 포함하고 있는 각각의 자질들로 심층적 학습을 수행한다. 학습한 단어의 벡터 값을 이용해 유사단어를 출력하고 자동으로 문장을 분류한다.
word2vec 모델의 학습 환경 구성을 위해 회의록에서 언급된 단어 상위 5개를 지정하여 확인했다. [표 1]은 형태소 분석을 통한 단어 빈도 및 상위 단어를 나타낸다.
또한, KoNLPy는 꼬꼬마, twitter 등의 여러 형태소 분석기를 사용할 수 있도록 지원한다[15]. 따라서 본 논문에서도 형태소 분석을 위해 KoNLPy 패키지를 이용하며 twitter 형태소 분석기를 이용하여 회의록의 형태소 분석을 수행한다. twitter 형태소 분석기를 이용하여 한글 문자열로부터 명사를 추출할 수 있다.
또한, 문서 내에서 최소 10회 이상의 출현 횟수를 가진 단어만 추출하여 사용하며 데이터 학습 횟수는 2,000을 반복하도록 지정했다. 마지막으로 학습 방법은 skip-gram을 사용하도록 환경을 구성했다.
문서를 대표하는 문장을 추출하기 위해 word2vec 모델 패키지를 활용하여 중요 키워드 유사 단어 학습 과정을 진행한다. word2vec 모델의 알고리즘은 CBOW와 Skip-gram이라는 2가지 알고리즘으로 나눠진다.
본 논문에서는 단어빈도 분석뿐 아니라 단어 간의 유사도 분석을 통해 문장을 분류하여 더욱 효과적인 회의록 요약시스템을 설계하고 구현하였다.
본 논문에서는 회의록 문서를 형태소로 분석하고 이를 토대로 word2vec 모델 skip-gram 알고리즘을 이용하여 학습한 데이터를 활용해 회의록 문서에서 대표의견을 찾아낸다. 실험을 위해 윈도우 10과 리눅스 환경에서 C 언어 기반으로 개발된 파이썬 언어를 사용하였으며, 파이썬 3.
본 연구에서 제안하는 회의록 요약 시스템은 특정 주제 분야의 텍스트 집단 전체 문장과 회의록 문서 내부의 모든 텍스트를 분석하여 학습과정을 거친 후, 학습된 정보를 적용하여 대상 문서 내부에서 필요한 문장을 찾아낸다. 실험집단은 각 시도 교육청에서 이루어지는 토의를 기반으로 한 회의록을 대상으로 하였다.
KoNLPy에서 지원하는 형태소 분석 및 품사 태깅 클래스는 Hannanum, Kkma, Komoran, Mecab, Twitter 형태소 분석기를 지원한다. 본 연구에서는 5가지 형태소 분석기 중에서 가장 좋은 성능을 보이던 twitter 형태소 분석기를 사용하였다. twitter 형태소 분석기를 이용해 데이터 처리 후 [그림 4]처럼 형태소를 확인 할 수 있다.
그 이유는 형태소 분류를 통해 언급된 키워드는 문서에서 사용 빈도가 높은 순으로 정리되어 있고 다수의 문장들은 해당 단어를 포함한다고 볼 수 있기 때문이다. 본 연구에서는 대표 문장을 추출받기 위해 추가로 word2vec 모델로 학습하여 추출한 유사 단어 정보를 사용하기 때문에 다음으로 학습 작업을 진행한다.
하지만 말뭉치의 크기가 동일하더라도 한 번의 수행으로 학습을 진행하는 CBOW에 비해 여러 번 수행으로 주변에 올 단어를 예측하는 skip-gram의 데이터의 학습량이 보다 많아진다는 장점이 있다[8]. 본 연구에서는 빈도수가 높은 키워드를 확인하여 주요 문장을 찾아야하므로 skip-gram을 활용하여 데이터를 학습한다.
실험에서 제안하는 데이터의 형태소 분석을 통한 키워드와 word2vec 모델 학습 후 유사도 분석을 통한 단어를 조합하여 1개의 대표 키워드와 5개의 유사 단어를 이용하여 1개의 키워드당 3개의 문장을 추출하는 과정을 진행하였다. 추출된 데이터의 신뢰도를 확인하기 위해 기존 퍼실리테이터에 의해 수작업으로 분류된 결과와 본 시스템이 제안하는 결과를 비교 평가하였다.
본 논문에서는 단어빈도 분석뿐 아니라 단어 간의 유사도 분석을 통해 문장을 분류하여 더욱 효과적인 회의록 요약시스템을 설계하고 구현하였다. 이를 위해 교육청에서 진행한 토론에서 자유롭게 발언한 데이터를 기반으로 인공 신경망을 이용하여 문장을 제안받는 방법에 대해 다루었으며 단어들을 수치화하여 벡터로 표현하는 word2vec 모델을 이용하여 주요 단어의 유사 키워드를 도출하였다. 제안 시스템을 토대로 회의록에서 대표 문장을 추출하는 서비스가 구현 가능하며 실제로 퍼실리테이터에 의해 수동으로 결정된 문장과 시스템에서 추출하는 문장의 내용이 약60%의 일치율을 보였다.
본 논문에서는 단어빈도 분석뿐 아니라 단어 간의 유사도 분석을 통해 문장을 분류하여 더욱 효과적인 회의록 요약 시스템을 제안한다. 전체 문서에 나타나는 단어들의 출현 빈도에 대한 정보를 사용하여 문장을 분류한다. 그러나 단어의 출현 빈도만을 고려하는 것은 여러 문장에 동시에 출현하는 단어의 성질을 간과한 한계점을 가진다.
단어 사이의 거리를 활용한 워드 임베딩 방식의 word2vec 모델은 주어진 문장에 대한 문법적 해석이 가능하며 단어의 거리를 통해 의미론적 추론도 가능하다. 즉, 주어진 문장을 구성하는 단어들의 전후 관계를 학습하여 단어의 의미를 내포하고 있는 벡터 값으로 문서를 구성하고 있는 자질들을 수치화한다. 이것은 기존의 통계적인 방식을 활용한 연구와는 다르게 별도의 유사도 계산이나 차원 축소 과정 없이 변별적인 특징을 내포하고 있는 벡터 값으로 단어를 수치화한다.
보다 효과적인 결과도출을 위해서는 데이터를 추가 확보하여 분석 데이터를 늘려 학습 환경을 변경하는 작업이 요구된다. 짧은 문장 위주의 회의록을 분석하여 연구결과를 도출하였다. 향후 연구로 대용량의 문서와 긴 문장 회의록 데이터를 활용하여 다양한 실험 평가를 수행할 예정이다.
word2vec 모델을 통해 문서의 각 단어의 벡터 공간에서 거리를 계산하고 문서의 특징을 포함하고 있는 각각의 자질들로 심층적 학습을 수행한다. 학습한 단어의 벡터 값을 이용해 유사단어를 출력하고 자동으로 문장을 분류한다.
본 논문에서 제안하는 요약시스템은 [그림 9]와 같은 형태를 가진다. 회의록에서 의견을 대표하는 문장을 추출하는 과정은 형태소 분석 데이터에서 최대빈도 단어와 word2vec 모델 학습 데이터에서 제안하는 유사 단어를 조합하여 전체 회의록 문서에서 대표 문장을 검색하도록 한다.

대상 데이터

문서에서 공통적인 의견을 가진 대표 문장을 검색하기 위해 상위 키워드와 가장 유사한 단어를 word2vec 모델 학습 데이터를 이용한다. 결과 데이터는 [표 2]와 같다.
시스템에 사용된 데이터는 아이들이 행복한 지역교육환경을 위해 우리가 할 수 있는 일은(충북교육청), 소통과 협력을 위한 관행문화개선(경기교육청)의 회의록 데이터 외 14건을 사용했다. 처리 순서는 수집된 문서를 자연어 처리를 실시하여 형태소 형태로 표현한다.
실험에 사용된 데이터는 충북교육청에서 “아이들이 행복한 지역 교육 환경을 위해 우리가 할 수 있는 일은” 이란 주제로 진행된 회의록 데이터이다.
본 논문에서는 회의록 문서를 형태소로 분석하고 이를 토대로 word2vec 모델 skip-gram 알고리즘을 이용하여 학습한 데이터를 활용해 회의록 문서에서 대표의견을 찾아낸다. 실험을 위해 윈도우 10과 리눅스 환경에서 C 언어 기반으로 개발된 파이썬 언어를 사용하였으며, 파이썬 3.6.6 버전을 사용하였다. 원활한 실험을 위해 파이썬 라이브러리를 사용하였다.
본 연구에서 제안하는 회의록 요약 시스템은 특정 주제 분야의 텍스트 집단 전체 문장과 회의록 문서 내부의 모든 텍스트를 분석하여 학습과정을 거친 후, 학습된 정보를 적용하여 대상 문서 내부에서 필요한 문장을 찾아낸다. 실험집단은 각 시도 교육청에서 이루어지는 토의를 기반으로 한 회의록을 대상으로 하였다.
6 버전을 사용하였다. 원활한 실험을 위해 파이썬 라이브러리를 사용하였다. 형태소 분석을 위해서 KoNLPy패키지 twitter 형태소 분석기를 사용하였고, Gensim 패키지의 word2vec 모델을 사용하였다[16][17].

데이터처리

실험에서 제안하는 데이터의 형태소 분석을 통한 키워드와 word2vec 모델 학습 후 유사도 분석을 통한 단어를 조합하여 1개의 대표 키워드와 5개의 유사 단어를 이용하여 1개의 키워드당 3개의 문장을 추출하는 과정을 진행하였다. 추출된 데이터의 신뢰도를 확인하기 위해 기존 퍼실리테이터에 의해 수작업으로 분류된 결과와 본 시스템이 제안하는 결과를 비교 평가하였다. [표 3]은 제안 기법과 퍼실리테이션에 의한 제안 기법을 통해 비교 평가를 수행한 결과를 나타낸다.

이론/모형

조사가 단어로 인식되어도 크게 관계는 없지만 본 시스템에서는 빈도수가 높은 단어를 참조하여 활용하기 때문에 조사 불용어를 제거하도록 하고 처리된 데이터는 명사의 집합으로 구성하게 한다. 불용어를 제거 도구로는 파이썬 프로그램 NLTK 패키지의 stopword를 사용하였다. NLTK(Natural Language Toolkit) 패키지는 교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 패키지이다.
그러나 단어의 출현 빈도만을 고려하는 것은 여러 문장에 동시에 출현하는 단어의 성질을 간과한 한계점을 가진다. 이에 출현 빈도를 고려한 특정 단어를 선정하고 특정단어를 포함하고 있는 문서를 정확하게 분류하기 위해 워드 임베딩을 활용한 접근법을 제안하며 워드 임베딩 모델 중 대표적인 word2vec 모델을 사용한다. word2vec 모델을 통해 문서의 각 단어의 벡터 공간에서 거리를 계산하고 문서의 특징을 포함하고 있는 각각의 자질들로 심층적 학습을 수행한다.
원활한 실험을 위해 파이썬 라이브러리를 사용하였다. 형태소 분석을 위해서 KoNLPy패키지 twitter 형태소 분석기를 사용하였고, Gensim 패키지의 word2vec 모델을 사용하였다[16][17].

성능/효과

이를 위해 교육청에서 진행한 토론에서 자유롭게 발언한 데이터를 기반으로 인공 신경망을 이용하여 문장을 제안받는 방법에 대해 다루었으며 단어들을 수치화하여 벡터로 표현하는 word2vec 모델을 이용하여 주요 단어의 유사 키워드를 도출하였다. 제안 시스템을 토대로 회의록에서 대표 문장을 추출하는 서비스가 구현 가능하며 실제로 퍼실리테이터에 의해 수동으로 결정된 문장과 시스템에서 추출하는 문장의 내용이 약60%의 일치율을 보였다. 그러나 word2vec 모델로 학습을 진행하는데 있어 사용한 데이터의 양이 부족하다고 판단되었다.

후속연구

향후 연구로 대용량의 문서와 긴 문장 회의록 데이터를 활용하여 다양한 실험 평가를 수행할 예정이다. 또한, 결과의 정확성을 보다 향상시키기 위한 연구를 진행할 예정이다.
짧은 문장 위주의 회의록을 분석하여 연구결과를 도출하였다. 향후 연구로 대용량의 문서와 긴 문장 회의록 데이터를 활용하여 다양한 실험 평가를 수행할 예정이다. 또한, 결과의 정확성을 보다 향상시키기 위한 연구를 진행할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	문서를 자동 분류하는 방법에는 무엇이 있는가?	일반적으로 문서를 자동 분류하는 방법은 이미 분류되어 있는 문서들로부터 문서 내에 나타나는 단어의 출현 횟수나 분포, 확률 등을 이용하는 통계적인 방법[5]과 자연어 처리를 통하여 문서 내에 있는 문장의 의미(semantic)나 구문(syntactic)을 분석하는 의미 분석 방법[6]이 있다. 보다 정확한 문장의 분류를 위해서는 자연어 처리를 통하여 문서의 내용을 파악하는 것이 바람직 하지만 자연어 자체의 모호성 때문에 문장의 의미 분석이 매우 어려워 의미 분석 방법은 한정된 영역에서 사용하기에 적합하다[7].
	자연 언어란 무엇인가?	자연 언어는 사람들이 생활 속에서 사용하는 언어를 의미한다. 회의록의 경우 국문, 영문 등 인간의 언어인 자연형태로 구성되어 있다.
	기존 회의록 요약 방법인 통계적 정보를 이용한 방법의 문제점은 무엇인가?	기존 회의록 요약 방법으로는 문서에서 불필요한 단어들을 제거한 압축된 문장들만을 이용하여 각 문장에 포함된 단어들의 통계적 정보를 이용한 방법이 있다. 이러한 방법들은 문장을 간결하게 만든 후 요약 정보를 생성하기 때문에 불필요한 단어들이 요약문에 포함되는 것을 방지할 수 있지만 유사 단어를 고려를 하지 못하는 문제점이 있다. 그로 인해 문장들 간의 유사도 역시 고려할 수 없어 여러 의견을 유사한 의견으로 분류하는데 어려움이 있었다.

참고문헌 (17)

H. Liu, X. Wang, Y. Wei, W. Shao, J. Liono, F. D. Salim, B. Deng, and J. Du, "ProMETheus: An Intelligent Mobile Voice Meeting Minutes System," Proc. International Conference on Mobile and Ubiquitous Systems: Computing, Networking and Services, pp.392-401, 2018.
H. Miura, Y. Takegawa, A. Terai, and K. Hirata, "Interactive Minutes Generation System Based on Hierarchical Discussion Structure," Proc. IEEE/WIC/ACM International Conference on Web Intelligence, pp.459-465, 2018.
Z. Zhao, H. Pan, C. Fan, Y. Liu, L. Li, and M. Yang, "Abstractive Meeting Summarization via Hierarchical Adaptive Segmental Network Learning," Proc. The World Wide Web Conference, pp.3455-3461, 2019.
T. Huang, C. Hsieh, and H. Wang, "Automatic meeting summarization and topic detection system," Data Technologies and Applications, Vol.52, No.3, pp.351-365, 2018.

상세보기
이병수, 어휘의 동시 발생 빈도와 분포를 이용한 다중주제 회의록 요약, 성균관대학교, 석사학위논문, 2015.
김선공, word2vec모델과 RNN을 이용한 영화 리뷰의 감성분석, 동국대학교, 석사학위논문, 2016.
노현아, 단어 빈도 가중치를 이용한 자동 문서 분류, 전남대학교, 석사학위논문, 2013.
백민지, word2vec모델 학습을 통한 의미 기반 해외 유사 특허 검색 방안, 국민대학교, 석사학위논문, 2017.
김정미, 이주홍, "word2vec모델을 활용한 RNN기반의 문서 분류에 관한 연구," 한국지능시스템학회 논문지, 제27권, 제6호, pp.560-565, 2017.
Y. kim, "Convolutional Neural Network for Sentence Classification," Proc. Conference on Empirical Method in National Language Processing, pp.1746-1751, 2014.
T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and their Compositionality," Proc. Annual Conference on Neural Information Processing Systems, pp.3111-3119, 2013.
김성민, 단어 벡터화를 통한 특징 단어 기반 문서 관련성 분석 방법 영화 스크립트 비교를 중심으로, 건국대학교, 석사학위논문, 2016.
G. Yoav and O. Levy, "word2vec Explained: deriving Mikolov etal's negative-sampling word-embedding method," CoRR abs/1402.3722, 2014.
T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient Estimation of Word Representations in Vector Space," Proc. International Conference on Learning Representations Workshop, 2013.
김도우, 구명완, "Doc2Vec과 Word2Vec을 활용한 Convolutional Neural Network 기반 한국어 신문기사 분류," 정보과학회논문지, 제44권, 제7호, pp.742-747, 2017.

원문보기 상세보기
Python 형태소 분석기 Konlpy, http://konlpy-ko.readthedocs.io/ko/v0.43/api/konlpy.tag/
word2vec 모델, https://radimrehurek.com/gensim/models/word2vec.html

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증