최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기스마트미디어저널 = Smart media journal, v.7 no.4, 2018년, pp.24 - 29
이현영 (국민대학교 컴퓨터공학학과) , 강승식 (국민대학교 소프트웨어학부)
Text analysis technique for natural language processing in deep learning represents words in vector form through word embedding. In this paper, we propose a method of constructing a document vector and classifying it into spam and normal text message, using word embedding and deep learning method. A...
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
문서나 문장 등의 데이터를 이미 정해진 범주에 따라 분류하는 방법으로 어떤 기계학습 방법들을 이용하고 있나? | 문서나 문장 등의 데이터를 이미 정해진 범주에 따라 분류하는 방법으로는 K-NN 방법, SVM, Naive Bayes 등의 기계학습 방법들을 이용하고 있다[11]. 하지만 스팸 문자 메시지 필터링은 정해진 범주를 2개로 고정하여 여러 문장 및 구 형태의 텍스트 데이터를 분류하는 이진 분류(binary classification) 문제이므로 분류 기법에 적합한 딥러닝 모델을 이용하여 스팸 문자 메시지를 필터링하고자 하였다. | |
스팸 문자 메시지 데이터를 효율적으로 필터링하는 방법 중 널리 보편적으로 사용되는 방법론으로는 무엇이 있나? | 그 부작용으로 성인광고, 대출광고, 게임광고 등의 스팸 문자 텍스트 데이터도 폭발적으로 증가하여 이를 필터링 하기 위한 다양한 기법들이 개발되고 있다[2]. 이러한 스팸 문자 메시지 데이터를 효율적으로 필터링하는 방법 중 널리 보편적으로 사용되는 방법론으로는 통계적 확률 방법론과 지지 벡터 기계(SVM) 등의 기계학습 방법이 있다[3, 4]. | |
SMS 문자 메시지 데이터를 살펴보면 하나의 문장 및 구는 단어들의 집합이므로 각 단어들의 빈도수를 이용하여 하나의 벡터로 표현될 수 있는데, 이러한 빈도수 기반의 벡터는 어떤 문제점이 있나? | SMS 문자 메시지 데이터를 살펴보면, 하나의 문장 및 구는 단어들의 집합이므로 각 단어들의 빈도수를 이용하여 하나의 벡터로 표현될 수 있다. 이러한 빈도수 기반의 벡터는 단어의 수가 많아짐에 따라 차원의 수도 비례하게 커지는 차원의 저주라는 문제점이 있다. 예를 들어, 아래 5개의 문장을 살펴보면, 띄어쓰기를 기준으로 벡터로 표현하기 위한 총 차원 수는 13이다. |
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.