최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기응용통계연구 = The Korean journal of applied statistics, v.32 no.2, 2019년, pp.265 - 276
정호영 (부산대학교 통계학과) , 신상민 (동아대학교) , 최용석 (부산대학교 통계학과)
The document-term frequency matrix is a general data of objects in text mining. In this study, we introduce a traditional term weighting scheme TF-IDF (term frequency-inverse document frequency) which is applied in the document-term frequency matrix and used for text classifications. In addition, we...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
TF-IDF는 모든 문서에서 등장하는 중요도가 낮은 용어는 어떠한 값을 가지는가? | TF-IDF는 특정한 문서에서 많이 등장하는 용어일수록 해당문서의 특성이 되는 용어이므로 높은 가중치를 얻는다. 그러나 모든 문서에서 등장하는 중요도가 낮은 용어는 log 1의 값을 가져 가중치가 0이 된다. 예를 들어 어느 문서에서나 등장할 법한 일반적인 용어의 가중치는 상대적으로 작을 것이고 가중치가 0이 되면 용어 집합에서 제외할 수 있음을 의미한다. | |
크롤링이란? | 특정 문서나 웹 페이지에서 원하는 텍스트 데이터를 추출하는 행위를 크롤링(crawling)이라고 한다. 그리고 크롤링을 이용하여 텍스트 데이터를 추출하게 되면, 대용량의 텍스트 집합이 생성되는데 이를 Miner 등 (2012)은 말뭉치(corpus)로 정의하였다. | |
크롤링을 이용하여 텍스트 데이터를 추출하게 되면 무엇이 생성되는가? | 특정 문서나 웹 페이지에서 원하는 텍스트 데이터를 추출하는 행위를 크롤링(crawling)이라고 한다. 그리고 크롤링을 이용하여 텍스트 데이터를 추출하게 되면, 대용량의 텍스트 집합이 생성되는데 이를 Miner 등 (2012)은 말뭉치(corpus)로 정의하였다. 말뭉치는 비정형 자료이기 때문에 정형화된 자료로 변환시켜 주어야 하는데, 이를 위해 우선 문장부호, 특수문자, 불용어(stop words) 등의 제거와 같은 정제(cleaning) 과정이 필요하다. |
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.