[논문]TF-IDF를 활용한 한글 자연어 처리 연구

이종화; 이문봉; 김종원

doi:10.5859/kais.2019.28.3.105

TF-IDF를 활용한 한글 자연어 처리 연구
A study on Korean language processing using TF-IDF

정보시스템연구 = The Journal of information systems, v.28 no.3, 2019년, pp.105 - 121

이종화 (동의대학교 e비즈니스학과) , 이문봉 (동의대학교 경영학과) , 김종원 (동의대학교 경영정보학과)

Abstract ▼ AI-Helper

Purpose One of the reasons for the expansion of information systems in the enterprise is the increased efficiency of data analysis. In particular, the rapidly increasing data types which are complex and unstructured such as video, voice, images, and conversations in and out of social networks. The purpose of this study is the customer needs analysis from customer voices, ie, text data, in the web environment.. Design/methodology/approach As previous study results, the word frequency of the sentence is extracted as a word that interprets the sentence has better affects than frequency analysis. In this study, we applied the TF-IDF method, which extracts important keywords in real sentences, not the TF method, which is a word extraction technique that expresses sentences with simple frequency only, in Korean language research. We visualized the two techniques by cluster analysis and describe the difference. Findings TF technique and TF-IDF technique are applied for Korean natural language processing, the research showed the value from frequency analysis technique to semantic analysis and it is expected to change the technique by Korean language processing researcher.

주제어

표/그림 (13)

표 <표 1> 빅데이터 시장 규모 및 전망
표 <표 2> 예문A - TF Values
표 <표 3> 예문B - TF Values
표 <표 4> 예문A, B - IDF Values
표 <표 5> 예문A, B - TF-IDF Values
그림 <그림 1> 군집 분석
그림 <그림 2> 본 연구의 프레임워크
그림 <그림 3> TF, TF-IDF Value 추출 알고리즘
그림 <그림 4> 분석 웹 페이지
그림 <그림 5> 2019-05-20(7일간) “트럼프” TF 군집분석
표 <표 6> 2019-05-20(7일간) “트럼프” 뉴스 DB
그림 <그림 6> 2019-05-20(7일간) “트럼프” TF-IDF 군집분석
그림 <그림 7> 2019-05-20(7일간) “트럼프” TF, TF-IDF 비교

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

다음 장의 실험은 한글 기반 인터넷 뉴스를 이용하여 문장 내 단순 빈도 기준 군집분석과 잦은 문장 내 출현 단어를 제한 후 빈도 기준 군집 분석 결과를 표현하고 있다. 군집분석을 통하여 두 기법간의 벡터 거리와 군집거리의 변화를 통해 의미 있는 군집을 확인하고자 한다. 또한, 현장 연구를 통하여 분석의 전 과정을 웹페이지로 구현하였다.
먼저, TF기법을 적용한 연구들은 단어 빈도 중심으로 분석하면 문장의 단어 빈도가 높다면 의미 없는 단어도 그 문장을 해석하는 단어로 추출되며 연구 결과에서 영향을 주고 있다. 본 연구는 문장에서 단순 빈도만으로 문장을 대표하는 단어 추출 기법인 TF기법이 아닌 실제 문장에서 중요한 키워드를 추출하는 TF-IDF 기법을 비교하여 한글 연구에 적용하고자 한다. 두 기법을 군집분석으로 시각화하여 그 차이를 기술하고자 했다.
한글 기반 연구의 부재는 국민의 니즈 분석이 늦어진다는 뜻으로 해석된다. 본 연구는 연구 대상 문서를 문장 단위로 구분하여 TF 기법의 특정 키워드를 포함하는 문장과 TF-IDF 기법을 사용하여 문장의 주요 단어가 특징 키워드인 문장을 각각 추출 및 구분하여 두 기법의 차이를 살펴보고자 한다.
본 연구는 인터넷 뉴스 기사를 이용하여 문장 내 단어의 단순 빈도를 이용한 군집분석 결과와 문장마다 자주 등장하는 단어를 제한하여 문장 내 주요 단어 빈도를 이용한 군집 분석 결과를 비교하고자 한다. 영문 기반 TF-IDF 기법을 한글 기반 연구에 적용한 사례로 TF와 TF-IDF 각각의 결과를 군집하여 키워드 간 벡터거리, 군집 거리를 확인 할 수 있을 것이다.
본 연구는 텍스트마이닝 연구에서 키워드 중심 빈도를 기준의 TF 기법과 문장 내 중심 단어를 추출 후 빈도 기준의 TF-IDF 기법을 군집분석으로 비교하고자 한다. 군집 분석은 두 군집사이 거리를 각 군집에서 하나씩 개체를 선택해 연결한 모든 가능한 경우의 거리 평균을 계산하여 가장 유사성이 큰 군집을 묶어 나가는 방법인 와드연결법을 활용하며 가중치를 함께 표현하고자 한다.
많은 연구자들은 영문 기반 마이닝 처리를 이용하고 있다. 본 연구는 한글 기반 TF와 TF_IDF 기법의 결과를 군집분석을 이용하여 비교하고자 한다. 특히, 현장 연구 개발로 결과을 웹 페이지를 통하여 실험이 가능하며 실시간 분석을 확인 할 수 있으며 빈도 차이와 군집 간 거리를 시각화 결과로 살펴보고자 한다.
본 연구는 한글 기반 문장을 이용한 단순 빈도 위주의 분석인 TF(term frequency)기법과 문장 내 이슈 단어를 추출하여 분석하는 TF-IDF(term frequency-inverse document frequency)기법의 결과를 군집분석을 통해 비교하고자 한다. 본 논문의 2장은 TF분석과 TF-IDF분석 그리고, 군집분석에 관하여 선행연구를 살펴본다.
본 연구는 한글 기반 TF와 TF_IDF 기법의 결과를 군집분석을 이용하여 비교하고자 한다. 특히, 현장 연구 개발로 결과을 웹 페이지를 통하여 실험이 가능하며 실시간 분석을 확인 할 수 있으며 빈도 차이와 군집 간 거리를 시각화 결과로 살펴보고자 한다.

제안 방법

군집 분석을 이용하여 벡터 사이 간격과 군집 사이 거리를 이용하여 마이닝 처리에 적용하고자 한다. 많은 연구자들은 영문 기반 마이닝 처리를 이용하고 있다.
문장을 대표하는 키워드를 도출한 후 동일한 키워드를 입력하여 각각의 군집분석을 진행한다. 군집분석은 키워드 간 평균값을 이용한 군집 분석 방법으로 진행하여 서로 두 기법의 차이를 확인하고자 한다.
본 연구는 문장에서 단순 빈도만으로 문장을 대표하는 단어 추출 기법인 TF기법이 아닌 실제 문장에서 중요한 키워드를 추출하는 TF-IDF 기법을 비교하여 한글 연구에 적용하고자 한다. 두 기법을 군집분석으로 시각화하여 그 차이를 기술하고자 했다.
군집분석을 통하여 두 기법간의 벡터 거리와 군집거리의 변화를 통해 의미 있는 군집을 확인하고자 한다. 또한, 현장 연구를 통하여 분석의 전 과정을 웹페이지로 구현하였다.
TF 기법은 각 문장의 최빈수를 찾아내어 해당 단어로 문장과 연결하며 TF-IDF 기법을 활용한 방법은 연구 문장을 설명할 수 있는 정보를 갖는 단어를 찾아내어 문장과 연결한다. 문장을 대표하는 키워드를 도출한 후 동일한 키워드를 입력하여 각각의 군집분석을 진행한다. 군집분석은 키워드 간 평균값을 이용한 군집 분석 방법으로 진행하여 서로 두 기법의 차이를 확인하고자 한다.
본 연구는 한글 기반 문장을 이용한 단순 빈도 위주의 분석인 TF(term frequency)기법과 문장 내 이슈 단어를 추출하여 분석하는 TF-IDF(term frequency-inverse document frequency)기법의 결과를 군집분석을 통해 비교하고자 한다. 본 논문의 2장은 TF분석과 TF-IDF분석 그리고, 군집분석에 관하여 선행연구를 살펴본다. 3장에서는 한글기반 SNS 연구 데이터를 TF와 TF-IDF 기법으로 결과값을 추출하기 위한 프레임워크와 분석에 필요한 스크립트 소스를 제시한다.
본 연구는 대부분의 연구자들이 선택하는 연구 대상 재료를 영문기반에서 한글 기반 미디어 데이터로 분석을 진행하였으며 특정 문장에서 빈도만으로 문장을 대표하는 단어 추출이 아닌 실제 문장에서 중요한 키워드를 추출하는 TF-IDF 기법을 이용하여 문장 분석 연구를 진행하여 결과를 정리한다.
TF 기법만의 한계를 실험을 통하여 증명하였고 두 기법의 결과를 시각적으로 구분하기 위하여 군집분석을 병행하였다. 연구 과정에서 개발된 알고리즘을 함께 공유하며 시제품 서비스 웹 페이지를 통하여 독자들에게 연구 개발된 웹을 제공하였다. 연구 결과는 웹 페이지로 공개 및 공유되며 2019년 1월부터 6개월간 인터넷 뉴스 기사 전체와 기사별 네티즌들의 댓글을 함께 분석 대상에서 선택할 수 있으며 본 논문 게재일로부터 6개월 연구 결과 페이지를 공유하고자 한다( 예시 알고리즘은 두 문장을 백터로 받아들여 말뭉치로 변환하여 추출 방법을 “weightTF”와 “weightTfldf”로 각각을 추출하여 두 문장 내 단어의 가중치를 확인하고자 한다.

뉴스 기사가 인터넷을 통하여 업로드가 완료되면 1차 전처리 과정 과정을 거쳐 DB로 추출되어 저장된다. 이러한 시스템을 이용하여 웹 페이지 구축을 통하여 현장 연구를 진행하였다. <그림 4>는 연구를 위한 실제 웹페이지(
대상 데이터
- 연구 과정에서 개발된 알고리즘을 함께 공유하며 시제품 서비스 웹 페이지를 통하여 독자들에게 연구 개발된 웹을 제공하였다. 연구 결과는 웹 페이지로 공개 및 공유되며 2019년 1월부터 6개월간 인터넷 뉴스 기사 전체와 기사별 네티즌들의 댓글을 함께 분석 대상에서 선택할 수 있으며 본 논문 게재일로부터 6개월 연구 결과 페이지를 공유하고자 한다(http://14.7.122.142/dashboard/python_crawling.php).
- 연구의 실험은 인터넷 뉴스 기사의 업로드일을 기준으로 2019년 5월 20일 ~ 26일(1주일)이며 키워드는 “트럼프” 이슈를 살펴보는 실험을 진행하였다.

데이터처리

TF 기법만의 한계를 실험을 통하여 증명하였고 두 기법의 결과를 시각적으로 구분하기 위하여 군집분석을 병행하였다. 연구 과정에서 개발된 알고리즘을 함께 공유하며 시제품 서비스 웹 페이지를 통하여 독자들에게 연구 개발된 웹을 제공하였다.
TF기법과 TF-IDF기법을 구현하기 위한 알고리즘을 한글 기반 데이터에 적용하여 연구설계를 진행하므로 빈도 분석 기법에서 의미분석으로 지속적 연구의 가치를 확인하였다. 또한, 향후 BOW, N-gram, NMF Word2Vec 기법을 한글 기반 실시간 의미 분석에 적용하여 지속적 연구가 필요하다.

이론/모형

본 연구는 텍스트마이닝 연구에서 키워드 중심 빈도를 기준의 TF 기법과 문장 내 중심 단어를 추출 후 빈도 기준의 TF-IDF 기법을 군집분석으로 비교하고자 한다. 군집 분석은 두 군집사이 거리를 각 군집에서 하나씩 개체를 선택해 연결한 모든 가능한 경우의 거리 평균을 계산하여 가장 유사성이 큰 군집을 묶어 나가는 방법인 와드연결법을 활용하며 가중치를 함께 표현하고자 한다.
어떤 단어는 문장의 연관성이 낮음에도 불구하고 자주 출현하는 경우가 발생한다. 이런 연관성 없는 단어들에 제한을 주기 위한 기법으로 TF-IDF기법을 활용한다(Salton and Buckley, 1988; Christian et al., 2016; Xia et al., 2016).

성능/효과

TF기법과 TF-IDF기법을 구현하기 위한 알고리즘을 한글 자연어 처리(KoNLP)에 응용하여 연구 실험을 진행하며 빈도 분석 기법에서 의미 분석으로 지속적 연구의 가치가 있다는 점을 확인하였다. 영어 표현보다 한글 표현이 다양하다보니 한글 자연어 처리 분석이 더 어렵고 연구 설계에 많은 시간적 투자가 가중될 수밖에 없다.
반면, TF-IDF기법을 통해서만 등장한 단어는 “김정은”, “로이터”, “반도체”, “백악관”, “워싱턴”, “이란”, “인터뷰”, “일본”, “청와대”, “특파원”, “하노이”,“한미” 등이 있었으며 <그림 6>의 군집분석을 통해서 단어 간 빈도 차이나 군집 간 거리를 확인할 수 있다. 실험에서 TF기법에서 의미 없는 단어의 등장으로 상대적으로 빈도가 낮게 측정된 의미 있는 단어의 부재가 발생되었으며 TF-IDF 기법에서는 이슈와 관련 있는 의미 있는 단어들을 볼 수 있었다.

후속연구

이렇게 다른 특성으로 표현되는 수 많은 가지 수를 단 몇 개의 그룹 즉, 군집으로 분류할 수 있다면, 각각의 군집에 속한 고객들에게 군집에 맞는 적당한 서비스를 맞춤형 마케팅으로 진행할 계획을 기획할 수 있을 것이다. 고객을 여러 집단으로 나누거나 적절한 목적으로 특성 및 차이를 분석하기 위해 군집분
석이 사용될 것이다.
TF기법과 TF-IDF기법을 구현하기 위한 알고리즘을 한글 기반 데이터에 적용하여 연구설계를 진행하므로 빈도 분석 기법에서 의미분석으로 지속적 연구의 가치를 확인하였다. 또한, 향후 BOW, N-gram, NMF Word2Vec 기법을 한글 기반 실시간 의미 분석에 적용하여 지속적 연구가 필요하다.
본 연구는 인터넷 뉴스 기사를 이용하여 문장 내 단어의 단순 빈도를 이용한 군집분석 결과와 문장마다 자주 등장하는 단어를 제한하여 문장 내 주요 단어 빈도를 이용한 군집 분석 결과를 비교하고자 한다. 영문 기반 TF-IDF 기법을 한글 기반 연구에 적용한 사례로 TF와 TF-IDF 각각의 결과를 군집하여 키워드 간 벡터거리, 군집 거리를 확인 할 수 있을 것이다. 데이터 분석에 앞서 연구 재료가 되는 뉴스 기사는 본 연구자의 선행연구로 수집 시스템이 구축되어 있다.
가령 통신사에서 고객에 대한 정보는 성별, 나이, 지역 등의 개인 인적 정보 외에도 사용 요금제, 결제 방법, 가입 년 수, 통화량 등 통신서비스의 다양한 정보가 자사에서 관리되고 있을 것이다. 이렇게 다른 특성으로 표현되는 수 많은 가지 수를 단 몇 개의 그룹 즉, 군집으로 분류할 수 있다면, 각각의 군집에 속한 고객들에게 군집에 맞는 적당한 서비스를 맞춤형 마케팅으로 진행할 계획을 기획할 수 있을 것이다. 고객을 여러 집단으로 나누거나 적절한 목적으로 특성 및 차이를 분석하기 위해 군집분

질의응답

핵심어	질문	논문에서 추출한 답변
	TF기법이란?	TF기법은 문서가 주어졌을 때 이 단어가 몇 번 출현했는지를 나타내는 수치라 볼 수 있다. TF기법의 예증은 “문서가 있을 때 단어가 여러 번 출현되었다면 그 여러 번 출현한 만큼 연관성이 높을 것이다.
	한글을 이용한 텍스트마이닝에서 자주 사용되는 분석방법은?	우리말 한글을 이용하여 텍스트마이닝을 연구하는 연구자들은 대부분 빈도 분석을 기초하여 정보 추출(extraction), 문서 분류(classification), 문서 군집(clustering) 등 분석방법을 활용하고 있다(Lee and Lee, 2017; 남민지 외, 2015 ).
	텍스트 기반 비정형 데이터분석을 통해 통찰력을 얻기 위한 프로세스는?	수많은 텍스트 기반 비정형 데이터분석을 통해 패턴을 찾고 통찰력(insight)을 얻기 위해서는 복잡한 프로세스가 필요하다. 먼저, 고객의 니즈를 통찰하기 위해 그들의 마음을 읽어 들이기 위해서는 자료 수집(crawling)이 선행되어야 한다(김은우․금득규, 2014). 블로그, 소셜미디어, 웹 사이트 콘텐츠 등 복잡한 웹 페이지 구조를 분석하여 필요한 데이터를 수집 및 저장하는 과정이다. 두 번째는 수집된 데이터를 분석(analysis)하는 과정이 필요하다. 텍스트 분석은 표준어를 상대적으로 많이 사용하는 인터넷뉴스 이외의 인터넷어, 채팅어 등과 같이 비표준어가 상대적으로 많은 자연어 처리를 텍스트마이닝(text mining) 처리를 통하여 이슈를 발견하는 과정이다(서새남, 2017). 텍스트마이닝은 분석의 목적과 관점에 따라 키워드 정제작업과 필요한 데이터 추출을 통해서 시각화된 결과를 도출한다. 마지막으로 데이터 분석 목적에 따른 데이터 분석(user-driven analysis)이 필요하다. 문제의 키워드 선정과 그에 따른 시각화 데이터 추출을 활용하여 의사결정에 활용하게 된다(Amado et al., 2018; 양낙영 등, 2018; Lee, 2013; 유은지 등, 2012).

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증