최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기응용통계연구 = The Korean journal of applied statistics, v.32 no.3, 2019년, pp.451 - 462
정민지 (부산대학교 통계학과) , 신상민 , 최용석 (부산대학교 통계학과)
Document-term frequency matrix is a type of data used in text mining. This matrix is often based on various documents provided by the objects to be analyzed. When analyzing objects using this matrix, researchers generally select only terms that are common in documents belonging to one object as keyw...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
TF-IDF만 사용할 때 문서-용어 빈도행렬에서 발생하는 단점은? | 즉 일반적으로 흔하게 사용되는 용어에는 낮은 가중치가 부여되고 특정 문서에서 유독 많이 사용하는 용어에는 높은 가중치가 부여되는 것이다. 그러나 단순히 TF-IDF만 사용하면 문서-용어 빈도행렬 Y 전체에 가중치가 일괄적으로 부여되므로 개체 정보가 무의 미해지는 단점이 존재한다. 아래에서 소개할 [TF-IDF 가중치 부여 방법]에서는 단순한 TF-IDF인 [방법 W1]을 먼저 설명한 후 본 연구에서 새롭게 제안하는 개체별 용어 가중치 계산법인 [방법 W2]를 정의하고자 한다. | |
문서-용어 빈도행렬이란? | 문서-용어 빈도행렬(document-term frequency matrix)은 행에는 문서가 열에는 문서에서 추출한 용 어가 나열되고 각 용어의 발생빈도를 원소(element)로 하는 데이터이다. 분석하고자 하는 특정 개 체(object)가 존재할 때 해당 개체가 제공하는 문서를 바탕으로 문서-용어 빈도행렬을 만든다. | |
문서-용어 빈도행렬에서 개체가 두 개 이상인 경우 행렬을 생성하는 방법은? | 개체가 두 개 이상인 경우 다음과 같은 두 가지 방법으로 행렬을 생성할 수 있다. 첫째, 여러 개체가 제공하는 모든 문서를 종합하여 하나의 문서-용어 빈도행렬을 만 든다. 둘째, 개체들이 가지고 있는 공통 용어를 찾아내어 행에는 다수의 개체가 열에는 공통 용어가 나 열된 새로운 개체-공통어 빈도행렬을 만드는 것이다. 전자는 각 개체의 특성을 반영하지 못하고, 후자는 공통어가 아닐 경우 개별 문서에서 중요한 용어라 할지라도 삭제하기 때문에 두 방법 모두 문제가 있다. |
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.