최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기방송공학회논문지 = Journal of broadcast engineering, v.24 no.1, 2019년, pp.77 - 86
정지수 (세종대학교 소프트웨어융합학과) , 지민규 (세종대학교 소프트웨어융합학과) , 고명현 (세종대학교 디지털콘텐츠학과) , 김학동 (세종대학교 디지털콘텐츠학과) , 임헌영 (세종대학교 디지털콘텐츠학과) , 이유림 (세종대학교 인공지능언어공학과) , 김원일 (세종대학교 소프트웨어학과)
This paper proposes using machine-learning technology to analyze and classify historical collected documents based on them. Data is collected based on keywords associated with a specific domain and the non-conceptuals such as special characters are removed. Then, tag each word of the document collec...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
텍스트 마이닝이란? | 텍스트 마이닝(text mining)은 비구조적인 텍스트 문서로부터 정보를 찾아 지식을 발견하는 것으로 텍스트 분류는 텍스트 마이닝 연구 분야의 부분이다[2][3] 목적에 따라 정보를 추출하기 위해서는 분석을 통해 분류를 할 필요가 있다. 문서 분류를 위해서는 텍스트 데이터를 정형 데이터로 변환해야 하고 이러한 연구에는 통계적 정보 기반, 신경망 기반 방법 등이 존재한다. | |
어떤 모델을 사용하여 문서를 임베딩하는가? | 그리고 한글 형태소 분석기를 사용하여 수집한 문서의 각 단어에 명사, 동사, 형용사와 같은 품사를 태깅한다. 문서를 벡터로 변환하는 Doc2Vec 모델을 이용해 문서를 임베딩한다. 임베딩 모델을 통하여 문서 간 유사도를 측정하고 머신 러닝 기술을 이용하여 문서 분류기를 학습한다. | |
정형 데이터로 변환하고 문서를 분류하는 과정에서 텍스트 데이터를 정형화 하는 방법은 무엇인가? | 정형 데이터로 변환하고 문서를 분류하는 과정에서 다양한 방법이 제시된다. 텍스트 데이터를 정형화하는 방법으로 벡터값으로 표현하는 방법이 일반적이며, 분류의 성능을 높이기 위해서 연구 과정이 진행되고 있다. 본 연구에서는 단어를 벡터로 표현하여 단어간의 거리로 단어의 의미와 유사도를 알 수 있는 단어 임베딩에 대해 주목하였다. |
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.