[논문]한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법

이지민; 정다운; 구영현; 유성준

문제 정의

본 논문에서는 한국어 텍스트 분석 시 영문에 비해 분석이 상대적으로 어려운 문제를 해결하기 위해 번역 전처리 기법을 제안했다. 제안한 번역 전처리 기법의 성능 측정을 위해 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다.
뉴스 데이터에 대한 의미분석, 감성분석 등의 텍스트 분석이 활발해지면서 비정형 데이터인 뉴스 데이터에 대한 높은 수준의 자연어 처리 또한 필요하다. 본 논문에서는 한국어보다 영문에서 전처리 성능이 더 좋다고 알려진 점[3]에서 착안해 한국어 뉴스 데이터를 영문으로 번역한 후 전처리를 진행했다. 그리고 키워드를 추출한 뒤 Word2Vec을 통해 도출된 결과를 한국어로 재번역시켰다.

제안 방법

전처리된 결과를 Lexrank[6]와 빈도수 분석에 적용해 추출된 공통 키워드를 Word2Vec에 적용했다. Word2Vec을 통해 출력된 유사 단어 결과를 텍스트 분석 전문가를 대상으로 성능 비교 투표를 진행했다.
‘싱크홀 원인’과‘당뇨병 증상’에 관한 한국어 뉴스 기사를 수집한 후, 한국어 뉴스에 번역 전처리 기법이 적용시켜 비교군으로 한국어 뉴스와 번역된 영문 뉴스로 만들어준다. 그리고 기사에서 명사를 추출하고 불용어를 제거한다. 이렇게 추출한 키워드를 Word2Vec 알고리즘에 적용시켜 출력된 유사 단어에 대해 성능 비교를 진행했다.
본 논문에서는 한국어보다 영문에서 전처리 성능이 더 좋다고 알려진 점[3]에서 착안해 한국어 뉴스 데이터를 영문으로 번역한 후 전처리를 진행했다. 그리고 키워드를 추출한 뒤 Word2Vec을 통해 도출된 결과를 한국어로 재번역시켰다. 본 논문에서는 이러한 기법을 번역 전처리 기법이라고 명명했다.
단어 빈도-역문서 빈도(Term Frequency – Inverse Document Frequency, TFIDF)를 통해 중요한 키워드를 추출한 후 WordNet 사전을 사용해 감성 점수를 계산했다.
제안한 번역 전처리 기법의 성능을 측정하기 위해 실험을 진행했다. 수집한 한국어 뉴스 기사 데이터와 그에 번역 전처리 기법을 적용한 영문 데이터에 같은 전처리 과정을 진행한 후 키워드를 추출했다. 추출한 3개의 키워드를 Word2Vec에 적용한 결과는 표 2, 3과 같다.
‘싱크홀 원인’의 기사 원문에 ‘원인’이라는 단어가 나올때 마다 해당 단어 뒤에 이어지는 100 글자를 자른 후 명사를 추출해 내림차순으로 정렬했다. 요약된 문서에서 추출한 명사와 빈도수 분석을 이용해 추출한 명사에서 서로 공통되는 단어 중 빈도수가 가장 높은 세 단어를 키워드로 간주했다. ‘당뇨병 증상’에 관해서도 똑같이 진행했다.
유사 단어를 도출하기 위해 ‘싱크홀 원인’, ‘당뇨병 증상’과 관련된 키워드를 추출했다.
이 연구에서는 정밀도와 재현율을 사용해 TF-IDF와 결합 벡터의 성능을 비교했다.
그리고 기사에서 명사를 추출하고 불용어를 제거한다. 이렇게 추출한 키워드를 Word2Vec 알고리즘에 적용시켜 출력된 유사 단어에 대해 성능 비교를 진행했다.
연구 [7]에서는 뉴스 데이터 분석을 통해 교통 사고에 대한 키워드를 추출하고 교통 사고 빈도, 사망자, 부상자 수 등의 통계를 예측했다. 정보 추출을 위해 뉴스 데이터에서 토큰화를 진행한 후 날짜, 차량 번호는 정규 표현식을 통해서, 사망, 부상에 대한 정보는 의미역 결정(Semantic Role Labeling)을 통해 추출했다. 연구 [8]에서는 뉴스에 대한 어휘 기반 감성분석과 선호도분석을 진행했다.
제안한 번역 전처리 기법의 성능을 측정하기 위해 실험을 진행했다. 수집한 한국어 뉴스 기사 데이터와 그에 번역 전처리 기법을 적용한 영문 데이터에 같은 전처리 과정을 진행한 후 키워드를 추출했다.
키워드 추출을 위해 사용한 방법은 2가지이다. 첫 번째는 Lexrank를 이용해 요약된 문서에 토큰화를 거쳐 명사를 추출했다. 두 번째는 단어의 빈도수를 계산했다.
비정형 데이터인 뉴스 데이터 분석을 진행할 때 수집한 한국어 뉴스 데이터의 전처리를 위해 KoNLPy를 사용했다. 토큰화, 품사 태깅, 명사 추출, 불용어 제거 등 전처리를 진행했다. 번역 전처리 기법이 적용된 데이터는 영문이기 때문에 NLTK 라이브러리를 사용해 같은 전처리 과정을 진행했다.
연구 [9]에서는 소설 분석을 위해 NLTK와 제안한 의미 분석 모델을 이용해 중요한 키워드를 추출했다. 해당 모델은 품사 태깅을 기반으로 의미 관계를 구하고 의문사에 해당하는 단어가 포함된 문장을 중요한 문장으로 간주한 후 키워드 추출을 진행한다. 이런 방식으로 제안된 모델과 빈도수 분석, 위치 가중치 기반 알고리즘과 정확도를 비교해 보았을 때 제안된 모델이 가장 높은 정확도를 보였다.

대상 데이터

‘당뇨병 증상’에 대해 수집한 뉴스 데이터는 2008년 1월부터 2020년 1월 1일까지 총 211개의 기사로 그 중에서 가장 긴 기사의 길이는 1,566자, 평균 길이는 255자이다.
‘싱크홀 원인’에 대해 2013년 7월부터 2018년 6월 까지의 총 394건의 기사를 수집했고 그 중에서 가장 긴 기사의 길이는 912자, 평균 길이는 110자이다.
뉴스 데이터 분석을 위해‘싱크홀 원인’과‘당뇨병 증상’에 관한 한국어 뉴스를 수집했다.
본 논문에서 사용하는 데이터는 2013년 7월부터 2018년 6월 사이에 작성된 ‘싱크홀 원인’에 관한 총 394개의 기사와 2008년 1월부터 2020년 1월 1일까지의 ‘당뇨병 증상’에 관한 총 211개의 기사이다.
비정형 데이터인 뉴스 데이터 분석을 진행할 때 수집한 한국어 뉴스 데이터의 전처리를 위해 KoNLPy를 사용했다. 토큰화, 품사 태깅, 명사 추출, 불용어 제거 등 전처리를 진행했다.
제안한 번역 전처리 기법의 성능 측정을 위해 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 실험 진행 후, 출력된 결과를 텍스트 분석 전문가들을 대상으로 투표를 진행했다. 그 결과, 약 3배의 득표 차이로 번역 전처리 기법을 적용한 결과가 한국어보다 더 성능이 좋다는 결론을 도출했다.
본 논문에서는 한국어 텍스트 분석 시 영문에 비해 분석이 상대적으로 어려운 문제를 해결하기 위해 번역 전처리 기법을 제안했다. 제안한 번역 전처리 기법의 성능 측정을 위해 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 실험 진행 후, 출력된 결과를 텍스트 분석 전문가들을 대상으로 투표를 진행했다.
제안한 번역 전처리 기법의 성능을 측정하기 위해 표 2, 3에 대해 텍스트 분석 전문가 9명을 대상으로 투표를 진행했고 투표 결과는 그림 3과 같다. ‘싱크홀 원인’에서 번역 전처리 기법이 적용된 결과가 한국어에 비해서 약 3배의 득표수가 나왔다.

데이터처리

연구 [16]에서는 의학 정보를 이용해 Word2Vec 모델을 평가했다. 의학 정보에 대한 텍스트 데이터를 기반으로 CBOW와 Skip-Gram 방식을 이용해 정확도를 비교했다. 그 결과, Skip-Gram이 CBOW보다 약 27% 더 성능이 좋다고 평가했다.

이론/모형

영문 기사는 한국어 전처리와 동일한 과정으로 전처리를 진행했고 이 과정에서 NLTK(Natural Language Toolkit)[5]를 이용했다.
전처리된 결과를 Lexrank[6]와 빈도수 분석에 적용해 추출된 공통 키워드를 Word2Vec에 적용했다. Word2Vec을 통해 출력된 유사 단어 결과를 텍스트 분석 전문가를 대상으로 성능 비교 투표를 진행했다.
한국어와 번역 전처리 기법이 적용된 결과를 분석하기 위해 Word2Vec 모델에서 Skip-Gram 방식을 사용했다. 표 1은 사용한 Word2Vec 모델의 파라미터 값에 대한 표이다.

성능/효과

‘싱크홀 원인’에서 번역 전처리 기법이 적용된 결과가 한국어에 비해서 약 3배의 득표수가 나왔다.
또한 문장의 유사도가 임계치를 넘어가면 랭크 값이 낮은 문장을 삭제해 중복된 부분이 결과에 포함되는 것을 최대한 방지한다[11,12]. Amazon, Trip Advisor 등의 사이트에서 수집한 리뷰 데이터를 사용해 실험을 진행한 결과, Lexrank 알고리즘은 비록 속도가 느리지만 우수한 성능을 보인다는 결과가 도출됐다.
의학 정보에 대한 텍스트 데이터를 기반으로 CBOW와 Skip-Gram 방식을 이용해 정확도를 비교했다. 그 결과, Skip-Gram이 CBOW보다 약 27% 더 성능이 좋다고 평가했다.
실험 진행 후, 출력된 결과를 텍스트 분석 전문가들을 대상으로 투표를 진행했다. 그 결과, 약 3배의 득표 차이로 번역 전처리 기법을 적용한 결과가 한국어보다 더 성능이 좋다는 결론을 도출했다. 이를 통해 한국어 뉴스 분석 시 영문으로 번역 후 분석하는 것이 한국어 뉴스를 그대로 분석하는 것보다 더 의미 있는 결과를 도출할 수 있다는 것을 증명했다.
이 연구에서는 정밀도와 재현율을 사용해 TF-IDF와 결합 벡터의 성능을 비교했다. 비교한 결과, 제안한 결합 벡터 모델이 TF-IDF보다 약 20% 더 높은 성능을 기록했다.
해당 모델은 품사 태깅을 기반으로 의미 관계를 구하고 의문사에 해당하는 단어가 포함된 문장을 중요한 문장으로 간주한 후 키워드 추출을 진행한다. 이런 방식으로 제안된 모델과 빈도수 분석, 위치 가중치 기반 알고리즘과 정확도를 비교해 보았을 때 제안된 모델이 가장 높은 정확도를 보였다.
단어 빈도-역문서 빈도(Term Frequency – Inverse Document Frequency, TFIDF)를 통해 중요한 키워드를 추출한 후 WordNet 사전을 사용해 감성 점수를 계산했다. 이를 통해 비즈니스, 스포츠 관련 뉴스는 긍정적인 기사가 많고 연예, 기술 관련 뉴스는 부정적인 기사가 많다는 결론을 도출했다.
이를 통해 한국어 뉴스 분석 시 영문으로 번역 후 분석하는 것이 한국어 뉴스를 그대로 분석하는 것보다 더 의미 있는 결과를 도출할 수 있다는 것을 증명했다.
추출된 키워드인 ‘하수’, ‘공사’, ‘누수’에 대해 ‘하수’는 한국어 전처리가 더 높은 표를 얻었지만 ‘공사’, ‘누수’는 번역 전처리의 득표수가 더 높았다.

핵심어	질문	논문에서 추출한 답변
	자연어란 무엇인가?	자연어는 컴퓨터에 최적화된 언어가 아닌 사람들이 쓰는 일상적인 언어이다. 텍스트 분석을 위해 이러한 자연어를 컴퓨터가 이해할 수 있는 인공어로 처리하는 과정은 필수적이다.
	자연어 처리에 관한 연구에서 한국어에 비해 영어의 자연어 처리가 용이한 이유는 무엇인가?	뿐만 아니라, 자연어를 처리하는 알고리즘은 대부분 외국에서 만들어졌기 때문에 한국어에 바로 적용하는 것은 무리가 있다. 영문은 She’s와 같은 be 동사의 줄임 말이 단어에 붙는 경우를 제외하면 주로 띄어쓰기를 위주로 토큰화하기 때문에 한국어에 비하면 자연어 처리가 용이한 편이다[1]. 뉴스의 자연어 처리에 관한 연구에서 이러한 한국어 분석에 대한 성능 문제와 적절한 분석이 이루어지는지에 대해 문제점을 제기했다[2].
	한국어의 텍스트 분석 시 완벽하게 형태소를 분리하는 것이 어려운 이유는 무엇인가?	한국어는 교착어로 1개 이상의 형태소들이 결합되어 단어를 이루고 있기 때문에 텍스트 분석 시 완벽하게 형태소를 분리하는 것은 어렵다. 뿐만 아니라, 자연어를 처리하는 알고리즘은 대부분 외국에서 만들어졌기 때문에 한국어에 바로 적용하는 것은 무리가 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법
Translation Pre-processing Technique for Improving Analysis Performance of Korean News 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법 Translation Pre-processing Technique for Improving Analysis Performance of Korean News 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법
Translation Pre-processing Technique for Improving Analysis Performance of Korean News 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper