$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

TF-IDF를 활용한 한글 자연어 처리 연구
A study on Korean language processing using TF-IDF

정보시스템연구 = The Journal of information systems, v.28 no.3, 2019년, pp.105 - 121  

이종화 (동의대학교 e비즈니스학과) ,  이문봉 (동의대학교 경영학과) ,  김종원 (동의대학교 경영정보학과)

Abstract AI-Helper 아이콘AI-Helper

Purpose One of the reasons for the expansion of information systems in the enterprise is the increased efficiency of data analysis. In particular, the rapidly increasing data types which are complex and unstructured such as video, voice, images, and conversations in and out of social networks. The p...

주제어

표/그림 (13)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 다음 장의 실험은 한글 기반 인터넷 뉴스를 이용하여 문장 내 단순 빈도 기준 군집분석과 잦은 문장 내 출현 단어를 제한 후 빈도 기준 군집 분석 결과를 표현하고 있다. 군집분석을 통하여 두 기법간의 벡터 거리와 군집거리의 변화를 통해 의미 있는 군집을 확인하고자 한다. 또한, 현장 연구를 통하여 분석의 전 과정을 웹페이지로 구현하였다.
  • 먼저, TF기법을 적용한 연구들은 단어 빈도 중심으로 분석하면 문장의 단어 빈도가 높다면 의미 없는 단어도 그 문장을 해석하는 단어로 추출되며 연구 결과에서 영향을 주고 있다. 본 연구는 문장에서 단순 빈도만으로 문장을 대표하는 단어 추출 기법인 TF기법이 아닌 실제 문장에서 중요한 키워드를 추출하는 TF-IDF 기법을 비교하여 한글 연구에 적용하고자 한다. 두 기법을 군집분석으로 시각화하여 그 차이를 기술하고자 했다.
  • 한글 기반 연구의 부재는 국민의 니즈 분석이 늦어진다는 뜻으로 해석된다. 본 연구는 연구 대상 문서를 문장 단위로 구분하여 TF 기법의 특정 키워드를 포함하는 문장과 TF-IDF 기법을 사용하여 문장의 주요 단어가 특징 키워드인 문장을 각각 추출 및 구분하여 두 기법의 차이를 살펴보고자 한다.
  • 본 연구는 인터넷 뉴스 기사를 이용하여 문장 내 단어의 단순 빈도를 이용한 군집분석 결과와 문장마다 자주 등장하는 단어를 제한하여 문장 내 주요 단어 빈도를 이용한 군집 분석 결과를 비교하고자 한다. 영문 기반 TF-IDF 기법을 한글 기반 연구에 적용한 사례로 TF와 TF-IDF 각각의 결과를 군집하여 키워드 간 벡터거리, 군집 거리를 확인 할 수 있을 것이다.
  • 본 연구는 텍스트마이닝 연구에서 키워드 중심 빈도를 기준의 TF 기법과 문장 내 중심 단어를 추출 후 빈도 기준의 TF-IDF 기법을 군집분석으로 비교하고자 한다. 군집 분석은 두 군집사이 거리를 각 군집에서 하나씩 개체를 선택해 연결한 모든 가능한 경우의 거리 평균을 계산하여 가장 유사성이 큰 군집을 묶어 나가는 방법인 와드연결법을 활용하며 가중치를 함께 표현하고자 한다.
  • 많은 연구자들은 영문 기반 마이닝 처리를 이용하고 있다. 본 연구는 한글 기반 TF와 TF_IDF 기법의 결과를 군집분석을 이용하여 비교하고자 한다. 특히, 현장 연구 개발로 결과을 웹 페이지를 통하여 실험이 가능하며 실시간 분석을 확인 할 수 있으며 빈도 차이와 군집 간 거리를 시각화 결과로 살펴보고자 한다.
  • 본 연구는 한글 기반 문장을 이용한 단순 빈도 위주의 분석인 TF(term frequency)기법과 문장 내 이슈 단어를 추출하여 분석하는 TF-IDF(term frequency-inverse document frequency)기법의 결과를 군집분석을 통해 비교하고자 한다. 본 논문의 2장은 TF분석과 TF-IDF분석 그리고, 군집분석에 관하여 선행연구를 살펴본다.
  • 본 연구는 한글 기반 TF와 TF_IDF 기법의 결과를 군집분석을 이용하여 비교하고자 한다. 특히, 현장 연구 개발로 결과을 웹 페이지를 통하여 실험이 가능하며 실시간 분석을 확인 할 수 있으며 빈도 차이와 군집 간 거리를 시각화 결과로 살펴보고자 한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
TF기법이란? TF기법은 문서가 주어졌을 때 이 단어가 몇 번 출현했는지를 나타내는 수치라 볼 수 있다. TF기법의 예증은 “문서가 있을 때 단어가 여러 번 출현되었다면 그 여러 번 출현한 만큼 연관성이 높을 것이다.
한글을 이용한 텍스트마이닝에서 자주 사용되는 분석방법은? 우리말 한글을 이용하여 텍스트마이닝을 연구하는 연구자들은 대부분 빈도 분석을 기초하여 정보 추출(extraction), 문서 분류(classification), 문서 군집(clustering) 등 분석방법을 활용하고 있다(Lee and Lee, 2017; 남민지 외, 2015 ).
텍스트 기반 비정형 데이터분석을 통해 통찰력을 얻기 위한 프로세스는? 수많은 텍스트 기반 비정형 데이터분석을 통해 패턴을 찾고 통찰력(insight)을 얻기 위해서는 복잡한 프로세스가 필요하다. 먼저, 고객의 니즈를 통찰하기 위해 그들의 마음을 읽어 들이기 위해서는 자료 수집(crawling)이 선행되어야 한다(김은우․금득규, 2014). 블로그, 소셜미디어, 웹 사이트 콘텐츠 등 복잡한 웹 페이지 구조를 분석하여 필요한 데이터를 수집 및 저장하는 과정이다. 두 번째는 수집된 데이터를 분석(analysis)하는 과정이 필요하다. 텍스트 분석은 표준어를 상대적으로 많이 사용하는 인터넷뉴스 이외의 인터넷어, 채팅어 등과 같이 비표준어가 상대적으로 많은 자연어 처리를 텍스트마이닝(text mining) 처리를 통하여 이슈를 발견하는 과정이다(서새남, 2017). 텍스트마이닝은 분석의 목적과 관점에 따라 키워드 정제작업과 필요한 데이터 추출을 통해서 시각화된 결과를 도출한다. 마지막으로 데이터 분석 목적에 따른 데이터 분석(user-driven analysis)이 필요하다. 문제의 키워드 선정과 그에 따른 시각화 데이터 추출을 활용하여 의사결정에 활용하게 된다(Amado et al., 2018; 양낙영 등, 2018; Lee, 2013; 유은지 등, 2012).
질의응답 정보가 도움이 되었나요?

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로