[논문]토픽모델의 성능 향상을 위한 불용어 자동 생성 기법

이정빈; 인호

문제 정의

따라서 본 논문에서는 이러한 표준 불용어 리스트의 문제점들을 해결하기 위해 점별 상호정보량(PMI: Pointwise Mutual Information)과 토픽 모델링 결과를 활용한 불용어 자동 생성 기법을 제안한다. 본 기법은 표준 불용어와 달리 비교적 최근에 사용되고, 모델링 대상과 관련된 도메인의 문서에서 계산된 점별 상호정보량을 활용하여 반복적인 토픽 모델링 과정에서 주제와 관련성이 떨어지는 불용어를 자동 생성해 준다.
따라서, 본 논문에서는 도메인과 관련 된 최근 문서로부터 추출한 점별 상호정보량과 토픽 모델링 결과를 활용한 불용어 자동 생성 기법을 제안하였다. 표준 불용어 리스트와 비표 평가 실험을 수행 한 결과, 표준 불용어 리스트인 Fox stopword 약 7% 수준인 30개의 단어만으로도 모델의 혼잡도를 8.

가설 설정

토픽 모델링은 텍스트 마이닝의 기법 중 하나로써 각자의 문서마다 몇 가지의 주제를 가지고 있는데, 그 주제를 바탕으로 문서를 이루는 단어들이 생성된다는 가정을 가지고 출발한다. LDA(Latent Dirichlet allocation)[1]는 문서를 작성하는 과정에 관한 생성 모델이며, 문서들의 잠재된 주제를 분류하는데 사용된다.

제안 방법

PMI 계산을 위해 모든 프로젝트 커밋 메시지를 통합하여 하나의 텍스트 말뭉치(text corpus)로 만들고, 이에 대한 단어 빈도(Term Frequency)와 동시 발생 빈도(Co-Occurrence Frequency)를 구하였다. 또한, 토픽 모델의 혼잡도의 정확성을 위해서 통합된 커밋 메시지에서 2,000개씩 10개의 샘플을 임의로 추출하여 학습된 토픽 모델의 테스트 데이터로 사용하였다.
3의 프로세스를 30번 반복하여 평균을 내었다. 따라서 10개의 임의의 샘플에 대한 30개의 불용어를 생성하는 과정을 30번 반복하여 총 900번의 실험을 진행하였고, 그 평균 혼잡도를 구했다.
기타 자연어 처리 및 PMI 구현은 파이썬으로 구현하였다. 마지막으로, PMI 계산을 위해 필요한 단어 빈도와 동시 발생 빈도 정보를 텍스트 파일로 저장하여 검색하지 않고, MongoDB에 저장한 후 인덱싱을 생성하여 검색 속도를 높였다.
따라서 본 논문에서는 이러한 표준 불용어 리스트의 문제점들을 해결하기 위해 점별 상호정보량(PMI: Pointwise Mutual Information)과 토픽 모델링 결과를 활용한 불용어 자동 생성 기법을 제안한다. 본 기법은 표준 불용어와 달리 비교적 최근에 사용되고, 모델링 대상과 관련된 도메인의 문서에서 계산된 점별 상호정보량을 활용하여 반복적인 토픽 모델링 과정에서 주제와 관련성이 떨어지는 불용어를 자동 생성해 준다. 실험 결과, 대표적인 표준 불용어 리스트인 Fox stopword에서 제공하는 단어 개수(421개)의 약 7%밖에 안 되는 30개의 자동 생성된 단어만으로도 8.
본 논문에서는 2장의 커밋 메시지 데이터를 통합하여 만든 텍스트 말뭉치에서 계산된 단어 빈도 및 동시 발생 빈도를 이용하여 PMI를 계산한다.
본 장에서는 앞서 제안한 불용어 자동 생성 기법을 바탕으로 토픽 모델의 성능을 측정하는 실험을 수행한다. 토픽 모델의 성능을 측정하는 지표 중에 하나인 ‘혼잡도(Perplexity)’는 학습된 토픽 모델이 실제 관찰 가능한 결과를 생성해 낼 확률을 측정할 수 있다.
또한, 커밋 메시지에 포함된 소스코드 및 주석과 그 코멘트 모두를 분석 데이터로 활용하였다. 수집된 커밋 메시지는 비교 평가를 위해 불용어 제거를 제외하고, 모두 동일하게 자연어 전처리를 수행하였다.
이 장에서는 토픽 모델링과 PMI에 대한 개념을 소개하고 이를 이용한 불용어 자동 생성 프로세스를 제안한다.
정보 검색과 텍스트 분석을 위해서 수집되는 비정형 데이터인 자연어는 어휘나 문법적으로 표현의 형태가 매우 다양하고, 복잡하기 때문에 문장을 자르는 토큰화(Tokenization), 형태소 분석이나 불용어 제거와 같이 다양한 텍스트 마이닝 기법을 이용해 정형 데이터로 정제한다. 이 중, 불용어 제거 과정은 텍스트 분석에 있어 가치가 없거나, 불필요한 어휘들을 제거함으로써 분석 모델의 품질을 향상시킨다.
추가적으로 더 많은 불용어의 생성 개수와 혼잡도의 관계를 확인하기 위해, 30개 이상의 불용어를 생성하는 실험 수행하였으며 그 결과는 표 4와 같다.

대상 데이터

각 프로젝트는 사용자 평가(Stargazer)가 높으며, 최근까지도 활발하게 개발이 진행되어오고 있는 Java 언어 기반의 프로젝트로써, 총 4년간(2012년∼2015년)의 커밋 메시지를 추출하였으며, 특정 주제와는 상관없이 수집되었다.
각 프로젝트는 사용자 평가(Stargazer)가 높으며, 최근까지도 활발하게 개발이 진행되어오고 있는 Java 언어 기반의 프로젝트로써, 총 4년간(2012년∼2015년)의 커밋 메시지를 추출하였으며, 특정 주제와는 상관없이 수집되었다. 또한, 커밋 메시지에 포함된 소스코드 및 주석과 그 코멘트 모두를 분석 데이터로 활용하였다. 수집된 커밋 메시지는 비교 평가를 위해 불용어 제거를 제외하고, 모두 동일하게 자연어 전처리를 수행하였다.
PMI 계산을 위해 모든 프로젝트 커밋 메시지를 통합하여 하나의 텍스트 말뭉치(text corpus)로 만들고, 이에 대한 단어 빈도(Term Frequency)와 동시 발생 빈도(Co-Occurrence Frequency)를 구하였다. 또한, 토픽 모델의 혼잡도의 정확성을 위해서 통합된 커밋 메시지에서 2,000개씩 10개의 샘플을 임의로 추출하여 학습된 토픽 모델의 테스트 데이터로 사용하였다.
본 논문에서 제안한 기법을 위한 대상 데이터로써 Git 저장소에 공개된 다음 12개의 오픈소스 프로젝트에 대한 커밋 메시지를 수집하여 사용하였다. 일반적인 기사나 문서가 아닌 해당 데이터셋을 선택한 이유는, 소프트웨어 공학 분야에서 소프트웨어 저장소에서 수집되는 다양한 텍스트 정보들을 분석하여 유의미한 정보를 찾는 연구들이 많이 활성화 되어 있기 때문이다.

데이터처리

그림 1은 Fox stopword를 적용했을 때와 제안한 자동 생성 불용어를 적용했을 때 토픽 모델의 평균 혼잡도를 비교한 결과 그래프이다. 각각 10개의 샘플 테스트 데이터에서 구한 혼잡도 30개를 평균한 값을 비교하였다.
통계적 검정을 수행하기 위해 3.3의 프로세스를 30번 반복하여 평균을 내었다. 따라서 10개의 임의의 샘플에 대한 30개의 불용어를 생성하는 과정을 30번 반복하여 총 900번의 실험을 진행하였고, 그 평균 혼잡도를 구했다.

이론/모형

3장에서 제안한 프로세스에 불용어의 개수 X는 30개, 토픽의 개수 K는 10개로 일정하게 제한하였다. 토픽 모델링을 위해 LDA를 구현한 자바 기반의 MALLET¹⁾ 도구을 활용하였으며, 본 논문에서 제안하는 방법으로 생성되는 stopword와 비교하기 위해 Fox stoplist[2]를 도구의 stoplist로 사용하였다. 또한, 토픽 모델링을 위한 파라미터 값들은 도구에서 제공하는 디폴트 값을 사용하였다.
특히 다양한 텍스트 문서에 잠재된(Latent) 주제를 추출하는 텍스트 분석 기법인 토픽모델링[1]을 위한 전처리 과정으로써, 일반적으로 널리 사용되는 표준 불용어 리스트(Fox stopword[2])를 이용하여 불용어를 제거한다. 그러나 이러한 표준 불용어 리스트는 다음과 같은 문제점을 가지고 있다.

성능/효과

다음은 자동 생성된 불용어의 개수에 따른 평균 혼잡도의 평균 변화 값이다. 1개의 불용어로 시작하여 30개가 생성될 때까지 평균 혼잡도가 점점 떨어지는 추세를 보이고 있다. 이러한 추세에 따르면, 불용어 1개당 평균적으로 토픽모델의 혼잡도를 약 20씩 낮출 수 있다고 볼 수 있다.
그림1에서 보는 것과 같이 Fox stopword를 적용했을 때 보다 제안한 자동 생성 불용어 리스트를 적용했을 때, 8.6% 더 낮은 혼잡도를 보였으며, t 검정 수행 결과 역시 p값이 0.05 미만(p-value = 6.75e-06)으로 유의한 차이를 보였다. 이는 토픽모델의 성능이 전반적으로 높아졌음을 나타낸다.
이는 토픽모델의 성능이 전반적으로 높아졌음을 나타낸다. 또한, Fox stopword가 포함하고 있는 단어의 개수 421개의 약 7% 수준인 30개의 단어만으로도 토픽 모델의 혼잡도를 유의미하게 낮췄다고 해석할 수 있다.
정성적인 분석 결과, jbelli, cassandra, tachyon, apach와 같은 단어들은 특정 프로젝트의 커밋 메시지에서 빈도가 높을 뿐, 다른 프로젝트에서는 거의 등장하지 않았기 때문에 불용어로 생성되었다고 볼 수 있다. 또한, this, now, that 과 같이 Fox stoplist에 포함된 단어들도 등장하였으나, 90% 이상의 단어들이 해당 도메인과 관련된 불용어로 포함되어 표준 불용어 리스트가 본 데이터 셋에는 크게 적합하지 않음을 알 수 있었다.
본 기법은 표준 불용어와 달리 비교적 최근에 사용되고, 모델링 대상과 관련된 도메인의 문서에서 계산된 점별 상호정보량을 활용하여 반복적인 토픽 모델링 과정에서 주제와 관련성이 떨어지는 불용어를 자동 생성해 준다. 실험 결과, 대표적인 표준 불용어 리스트인 Fox stopword에서 제공하는 단어 개수(421개)의 약 7%밖에 안 되는 30개의 자동 생성된 단어만으로도 8.6% 더 낮은 혼잡도를 보였다. 이 결과를 통해 본 논문에서 제안하는 기법이 기존 표준 불용어 리스트보다 더 높은 토픽 모델의 성능을 보였음을 확인하였다.
6% 더 낮은 혼잡도를 보였다. 이 결과를 통해 본 논문에서 제안하는 기법이 기존 표준 불용어 리스트보다 더 높은 토픽 모델의 성능을 보였음을 확인하였다.
정성적인 분석 결과, jbelli, cassandra, tachyon, apach와 같은 단어들은 특정 프로젝트의 커밋 메시지에서 빈도가 높을 뿐, 다른 프로젝트에서는 거의 등장하지 않았기 때문에 불용어로 생성되었다고 볼 수 있다. 또한, this, now, that 과 같이 Fox stoplist에 포함된 단어들도 등장하였으나, 90% 이상의 단어들이 해당 도메인과 관련된 불용어로 포함되어 표준 불용어 리스트가 본 데이터 셋에는 크게 적합하지 않음을 알 수 있었다.
총 30번의 반복된 프로세스에서 대부분 거의 비슷한 불용어를 생성하였으며, 표 3은 임의의 프로세스에서 생성된 불용어 리스트 30개이다. PMI의 특성으로 인해 독립적으로는 발생 빈도가 높지만, 토픽 모델에서 생성된 주제 관련 단어들과는 동시에 발생하는 빈도가 낮은 단어들이 불용어로 생성된다.
표 4에서 보는 것과 같이 불용어 개수에 따른 혼잡도가 100개를 기점으로 다시 상승하는 것을 확인할 수 있었다. 따라서 불용어의 개수가 혼잡도와 지속적으로 반비례하지는 않기 때문에 적절한 불용어의 선택이 필요할 것으로 보인다.
따라서, 본 논문에서는 도메인과 관련 된 최근 문서로부터 추출한 점별 상호정보량과 토픽 모델링 결과를 활용한 불용어 자동 생성 기법을 제안하였다. 표준 불용어 리스트와 비표 평가 실험을 수행 한 결과, 표준 불용어 리스트인 Fox stopword 약 7% 수준인 30개의 단어만으로도 모델의 혼잡도를 8.6% 낮추어 더 높은 토픽 모델의 성능을 보임을 검증하였다.

후속연구

향후에는 더 다양한 종류와 도메인의 데이터 셋에 적용하고, 혼잡도 이외에 모델을 평가할 수 있는 추가적인 지표를 활용하여 본 기법의 효과성을 검증하고자 한다. 현재는 알고리즘을 개선을 통해 생성 속도 및 불용어 개수를 최적화 하는 연구를 진행하고 있다.

핵심어	질문	논문에서 추출한 답변
	불용어 제거 과정의 기능은?	정보 검색과 텍스트 분석을 위해서 수집되는 비정형 데이터인 자연어는 어휘나 문법적으로 표현의 형태가 매우 다양하고, 복잡하기 때문에 문장을 자르는 토큰화(Tokenization), 형태소 분석이나 불용어 제거와 같이 다양한 텍스트 마이닝 기법을 이용해 정형 데이터로 정제한다. 이 중, 불용어 제거 과정은 텍스트 분석에 있어 가치가 없거나, 불필요한 어휘들을 제거함으로써 분석 모델의 품질을 향상시킨다. 일반적으로 관사(a, an, the), 전치사(of, in for, through), 대명사(it, their) 등과 같이 자주 사용되는 어휘나 문장에서 큰 역할을 하지 않는 단어들이 불용어로써 제거된다.
	불용어 자동 생성 기법은 어떤 기능을 가지고 있는가?	따라서 본 논문에서는 이러한 표준 불용어 리스트의 문제점들을 해결하기 위해 점별 상호정보량(PMI: Pointwise Mutual Information)과 토픽 모델링 결과를 활용한 불용어 자동 생성 기법을 제안한다. 본 기법은 표준 불용어와 달리 비교적 최근에 사용되고, 모델링 대상과 관련된 도메인의 문서에서 계산된 점별 상호정보량을 활용하여 반복적인 토픽 모델링 과정에서 주제와 관련성이 떨어지는 불용어를 자동 생성해 준다. 실험 결과, 대표적인 표준 불용어 리스트인 Fox stopword에서 제공하는 단어 개수(421개)의 약 7%밖에 안 되는 30개의 자동 생성된 단어만으로도 8.
	불용어 제거 과정에서 제거되는 것으로는 어떤 것이 있는가?	이 중, 불용어 제거 과정은 텍스트 분석에 있어 가치가 없거나, 불필요한 어휘들을 제거함으로써 분석 모델의 품질을 향상시킨다. 일반적으로 관사(a, an, the), 전치사(of, in for, through), 대명사(it, their) 등과 같이 자주 사용되는 어휘나 문장에서 큰 역할을 하지 않는 단어들이 불용어로써 제거된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법
Automatic Generating Stopword Methods for Improving Topic Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 Automatic Generating Stopword Methods for Improving Topic Model 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법
Automatic Generating Stopword Methods for Improving Topic Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper