[논문]기계학습 기반 경쟁자 자동추출 방법

이충희; 김현진; 류법모; 김현기; 서영훈

문제 정의

논문에서는 경쟁 관계인 웹사이트를 추출하는 것이 목적이 아니라, 웹사이트 간의 경쟁으로 인한 방문자 수 증가에 대해서 모델링하는 것이 목적이다.
본 논문에서는 경쟁어 추출을 Naive 규칙에 기반해서 자동으로 추출하는 방법과 기계학습에 기반해서 자동으로 추출하는 2가지 방법을 제안하였다.
그러므로, 뉴스 기사나 소셜미디어 상에서 언급되는 글을 실시간으로 분석해서 자동으로 경쟁상대를 추출해 주는 기술이 급변하는 요즘에는 꼭 필요하다. 이런 필요성에 착안해서 본 논문에서는 일반 텍스트를 분석해서 경쟁상대를 자동으로 추출하는 방법을 제안한다.

가설 설정

문맥정보를 보고 판단을 하게 된다. 그러므로 경쟁관계 여부를 판단하게 하는 결정적인 단어들이 존재하며, 그러한 경쟁 단서단어와 함께 나타나는 2개의 개체명들은 경쟁관계일 확률이 높다는 가정 하에 Naive 경쟁어 추출기를 구현하였다.

제안 방법

4번 분류모델 학습 단계에서는 SVM 알고리즘에 사용되는 파라메터를 다양한 값으로 실험해서 최적값을 얻었으며, 본 논문에서는 파라메터 튜닝에 대해서는 생략한다.
Naive 규칙 기반 엔진의 경우에 경쟁 단서단어에 기반해서 간단히 경쟁어를 추출하도록 하였다. Naive 엔진은 경쟁 단서단어를 수작업으로 구축하므로 확장성이 떨어지고 구축 시간이 많이 걸리는 문제가 있지만, 그에 반해서 경쟁 단서단어가 잘 구축되어 있으면 Recall이 잘나오는 장점이 있다.
SVM 엔진은 2개를 만들어서 비교하였으며, SVM1 과 SVM2의 차이는 학습데이터 양에 따라 구분된다.
이 방법에서는 분류알고리즘이 중요한 역할을 하며, 본 논문에서는 분류 알고리즘 중에서 성능이 가장 좋다고 알려진 Support Vector Machines (SVND을 사용하였다[4]. SVMe kernel 함수가 성능에 큰 영향을 주는데, 본 논문에서 다루는문제는 자질이 단순하므로 linear kernel을 사용하였다.
경쟁어 추출은 특정 기간의 전체 뉴스를 대상으로 경쟁 관계인 개체명들을 추출해서 DB로 구축하였다. 경쟁어 추출 과정은 다음과 같다.
기사를 2개의 그룹으로 구분하기 위해서 세부적으로는 논쟁자를 2개 그룹으로 구분하였고, 논쟁자 후보는 부정어휘가 출현한 인용문에 나타나는 인물/지역/기관 개체명을 대상으로 선정하였다. 논쟁자들을 2개의 그룹으로 구분하는 방법으로는 HITS 알고리즘을 변형해서 각 그룹을 대표하는 핵심 논쟁자를 1명씩 선정하고, 나머지 논쟁자를 2개의 핵심 논쟁자와의 유사도를 계산해서 2개의 그룹으로 분류하였다. 평가셋은 네이버 뉴스 기사에서 14 개 이슈에 대해서 250개 기사를 선정해서 논쟁자 그룹을수작업으로 구축하였고, 논쟁자를 2개의 그룹으로 구분한 성능은 Recall과 Precision 성능이 각각 69%와 56.
연관어 추출 방법은 Jaccard' s coefficient와 Chi-square를 변형한 식을 사용하였다. 연관어 기반 경쟁어 추출 방법은 질문 키워드에 대한 연관어 중에서 질문과 동일한 개체명 태그를 가진 것들을 연관도에 따라 순위화해서 제시하였다.
위와 같은 문제점을 극복하기 위해서 기계학습 기반경쟁어 추출방법을 적용하였다. 기계학습 기반 방법의 장점은 다음과 같다.
제안한 경쟁어 추출 방법을 비교하기 위해서 기준시스템으로 연관어에 기반해서 경쟁어를 추출하는 엔진을 구현하였다. 연관어 추출 방법은 Jaccard' s coefficient와 Chi-square를 변형한 식을 사용하였다.
추가적으로 SVM 엔진의 중요한 성능 지표인 분류 성능을 측정하였다. 평가방법으로는 학습데이터를 기반으로 10 fold cross-validation을 사용하였다.
텍스트에 나타나는 2개의 동종의 개체명이 경쟁관계인지 인간이 파악하는 방법으로는 개체명 주변에 나타나는 단어와 문맥정보를 보고 판단을 하게 된다. 그러므로 경쟁관계 여부를 판단하게 하는 결정적인 단어들이 존재하며, 그러한 경쟁 단서단어와 함께 나타나는 2개의 개체명들은 경쟁관계일 확률이 높다는 가정 하에 Naive 경쟁어 추출기를 구현하였다.

대상 데이터

경쟁 단서단어는 명사, 용언, 동사구를 대상으로 하였고, 뉴스기사로부터 620개를 수집하였다. 수집된 예는 다음과 같다.
경쟁관계는 어제의 아군이 오늘은 적이 되는 등 시간에 따라서 바뀔 수 있으므로 제안한 시스템은 경쟁관계를 날짜 별로 검색이 가능하도록 구현하였고, 뉴스 기사만으로도 충분한 경쟁관계 추출이 가능하므로 대상 문서는 뉴스 기사만을 대상으로 하였다. 또한 본 논문에서 제안한 기계학습 기반 시스템은 본 논문에서는 한국어에 대해서만 경쟁어를 추출하였지만, 언어 독립적 자질만을 사용하기 때문에 학습데이터만 구축이 되면 다른 언어에 대해서 추가적인 엔진 수정 없이 곧바로 적용이 가능하다.
사용하였다. 경쟁어 추출 대상은 문장에 출현한개체명을 대상으로 하였으며, 전체 개체명 유형 중에서 경쟁관계가 있을 수 있는 개체명 유형만 대상으로 하였다. 세부 내용은 [표 1]과 같다.
기사를 2개의 그룹으로 구분하기 위해서 세부적으로는 논쟁자를 2개 그룹으로 구분하였고, 논쟁자 후보는 부정어휘가 출현한 인용문에 나타나는 인물/지역/기관 개체명을 대상으로 선정하였다. 논쟁자들을 2개의 그룹으로 구분하는 방법으로는 HITS 알고리즘을 변형해서 각 그룹을 대표하는 핵심 논쟁자를 1명씩 선정하고, 나머지 논쟁자를 2개의 핵심 논쟁자와의 유사도를 계산해서 2개의 그룹으로 분류하였다.

이론/모형

경쟁어 추출 및 검색에 사용되는 언어분석기는 한국전자통신연구원에서 개발한 형태소분석기[3]와 개체명인식기[4]를 사용하였다. 경쟁어 추출 대상은 문장에 출현한개체명을 대상으로 하였으며, 전체 개체명 유형 중에서 경쟁관계가 있을 수 있는 개체명 유형만 대상으로 하였다.
연관어 추출 방법은 Jaccard' s coefficient와 Chi-square를 변형한 식을 사용하였다. 연관어 기반 경쟁어 추출 방법은 질문 키워드에 대한 연관어 중에서 질문과 동일한 개체명 태그를 가진 것들을 연관도에 따라 순위화해서 제시하였다.
분류 문제로 고려하였다. 이 방법에서는 분류알고리즘이 중요한 역할을 하며, 본 논문에서는 분류 알고리즘 중에서 성능이 가장 좋다고 알려진 Support Vector Machines (SVND을 사용하였다[4]. SVMe kernel 함수가 성능에 큰 영향을 주는데, 본 논문에서 다루는문제는 자질이 단순하므로 linear kernel을 사용하였다.
측정하였다. 평가방법으로는 학습데이터를 기반으로 10 fold cross-validation을 사용하였다. [표 5]는 SVM1 과 SVW2에 대한 분류 성능 결과를 보여준다.

성능/효과

Recalle Naive 엔진이 가장 높았고, F1은 SVM1 엔진이 가장 높았으며, Precisione SVM2 엔진이 가장 높았다. Naive 엔진은 Recalle 높았지만 Precision이 SVM 엔진에 비해서 너무 낮았으므로 전체적으로 SVM 엔진이가장 좋은 성능을 보였다.
그러므로 학습데이터양을 9배 정도 증가시킨 SVM2가 SVM1 보다 훨씬 성능이 좋을 것으로 예상되었지만, 실험결과에 의하면 F1 성능은 도리어 SVM1이 좋았다. SVM2 는 SVM1에 비해서 Precision이 7.5% 향상되었지만 Recall 이 12.8% 정도 하락하면서 F1 성능이 도리어 떨어졌다. SVM2의 Recall 하락 원인은 2차 학습데이터의 경우에 negative 데이터를 대폭 추가하면서 경쟁어 오인식 성능이 좋아진 반면, 경쟁어 미인식 경우가 많아진 것이 원인이다.
수 있다. 경쟁어도 일종의 연관어이므로 대상과 동일한 개체명 태그를 가진 연관어 중에는 경쟁어가 많이 포함될 것으로 보이지만, 실험결과에 의하면 연관어에만 기반해서 경쟁어를 추출하면 성능이 매우 낮음을 알 수 있다. 그에 반해서 본 논문에서 제안한 Naive 엔진과 SVM 엔진은 baseline에 비해서 커다란 성능향상을 보였다.
중요하다. 그러므로 학습데이터양을 9배 정도 증가시킨 SVM2가 SVM1 보다 훨씬 성능이 좋을 것으로 예상되었지만, 실험결과에 의하면 F1 성능은 도리어 SVM1이 좋았다. SVM2 는 SVM1에 비해서 Precision이 7.
" data-ocr-fix="">수 있다. 그에 반해서 본 논문에서 제안한 Naive 엔진과 SVM 엔진은 baseline에 비해서 커다란 성능향상을 보였다. Recalle Naive 엔진이 가장 높았고, F1은 SVM1 엔진이 가장 높았으며, Precisione SVM2 엔진이 가장 높았다.
뉴스 기사만을 대상으로 하였다. 또한 본 논문에서 제안한 기계학습 기반 시스템은 본 논문에서는 한국어에 대해서만 경쟁어를 추출하였지만, 언어 독립적 자질만을 사용하기 때문에 학습데이터만 구축이 되면 다른 언어에 대해서 추가적인 엔진 수정 없이 곧바로 적용이 가능하다.
본 논문에서 제안한 Naive 엔진과 SVM 엔진은 각각의장점이 있으며, 비교 대상인 연관어에 기반한 baseline 엔진에 비해서 월등히 좋은 성능을 보였으므로 경쟁어 추출에 Naive 규칙 방법과 기계학습 방법이 모두 효과적임을 입증되었다.
성능 평가결과에 의하면, 학습데이터 증가에 따라서 SVM1 엔진에 비해서 SVM2 엔진의 전체 성능이 24% 향상됨을 알 수 있다. 특히 Negative 성능이 32.
있다. 실험결과로도 전체 성능은 SVM 엔진이 가장 좋았다.
알 수 있다. 특히 Negative 성능이 32.9% 향상되었다.
논쟁자들을 2개의 그룹으로 구분하는 방법으로는 HITS 알고리즘을 변형해서 각 그룹을 대표하는 핵심 논쟁자를 1명씩 선정하고, 나머지 논쟁자를 2개의 핵심 논쟁자와의 유사도를 계산해서 2개의 그룹으로 분류하였다. 평가셋은 네이버 뉴스 기사에서 14 개 이슈에 대해서 250개 기사를 선정해서 논쟁자 그룹을수작업으로 구축하였고, 논쟁자를 2개의 그룹으로 구분한 성능은 Recall과 Precision 성능이 각각 69%와 56.5% 를 보였다. 박승일(2011) 논문은 경쟁자를 각각 구분한것이 아니라 이슈에 따라 2개의 경쟁 그룹으로 나누는연구를 하였으므로 본 논문에서 다루는 경쟁어 추출과는 직접적인 비교가 힘들다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 기계학습 기반 경쟁자 자동추출 방법
Competitor Extraction based on Machine Learning Methods 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

연구과제 타임라인

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 기계학습 기반 경쟁자 자동추출 방법 Competitor Extraction based on Machine Learning Methods 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 기계학습 기반 경쟁자 자동추출 방법
Competitor Extraction based on Machine Learning Methods 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper