$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

Word2Vec를 이용한 한국어 단어 군집화 기법
Korean Language Clustering using Word2Vec 원문보기

The journal of the institute of internet, broadcasting and communication : JIIBC, v.18 no.5, 2018년, pp.25 - 30  

허지욱 (한양대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

최근 인터넷의 발전과 함께 사용자들이 원하는 정보를 빠르게 획득하기 위해서는 효율적인 검색 결과를 제공해주는 정보검색이나 데이터 추출등과 같은 연구 분야에 대한 중요성이 점점 커지고 있다. 하지만 새롭게 생겨나는 한국어 단어나 유행어들은 의미파악하기가 어렵기 때문에 주어진 단어와 의미적으로 유사한 단어들을 찾아 분석하는 기법들에 대한 연구가 필요하다. 이를 해결하기 위한 방법 중 하나인 단어 군집화 기법은 문서에서 주어진 단어와 의미상 유사한 단어들을 찾아서 묶어주는 기법이다. 본 논문에서는 Word2Vec기법을 이용하여 주어진 한글 문서의 단어들을 임베딩하여 자동적으로 유사한 한국어 단어들을 군집화 하는 기법을 제안한다.

Abstract AI-Helper 아이콘AI-Helper

Recently with the development of Internet technology, a lot of research area such as retrieval and extracting data have getting important for providing the information efficiently and quickly. Especially, the technique of analyzing and finding the semantic similar words for given korean word such as...

주제어

표/그림 (4)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 Word2Vec를 통하여 단어 임베딩을 하고 k-평균 군집화 알고리즘을 이용하여 주어진 한국어 문서들에 대한 한국어 단어 군집화를 구축하는 기법을 제안한다.
  • 본 논문에서는 주어진 한글 문서들을 기반으로 생성된 한국어 말뭉치 구축을 위하여 Word2Vec기법을 이용한 군집화 기법을 제안하였다. 주어진 문서의 단어를 임베딩하기 위하여 단순히 통계적인 방법을 기반으로 한 BOW 기법은 단어들 간의 의미적인 부분을 고려하지 않기 때문에 단어들 간의 유사도 측정이 부정확하게 된다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
단어 임베딩이란 무엇인가? 단어 임베딩은 단어들을 표현을 하기 위해서 수치화하여 벡터의 형태로 변경하는 방법이다. 대표적으로 사용되는 방법은 주어진 단어들을 리스트로 만들어서 해당 단어의 유무를 ‘1’ 또는 ‘0’으로 표현하는 BOW(Bag of Words)가 있다.
전처리 과정에서는 어떤 작업을 하는가? 전처리 과정에서는 주어진 문장들의 의미 있는 정보만을 남기기 위하여 숫자, 조사, 기호등과 같은 분석에 불필요한 불용어들을 제거하고 Park, Eunjeong L(2014) 연구에서 배포한 형태소 분석기를 사용하여 2단계에서 군집화를 위한 작업을 한다[16]. 형태소 분석기는 한국어 문장을 읽어 각 단어에 해당하는 명사, 동사, 조사 등과 같은 품사들로 분류 해주는 기능을 해주며, 본 논문에서는 형태소 분석기를 이용하여 명사, 형용사 위주로 추출을 하여 군집화를 진행하기 위한 과정에 사용한다.
단어 임베딩이 대표적으로 사용되는 방법은? 단어 임베딩은 단어들을 표현을 하기 위해서 수치화하여 벡터의 형태로 변경하는 방법이다. 대표적으로 사용되는 방법은 주어진 단어들을 리스트로 만들어서 해당 단어의 유무를 ‘1’ 또는 ‘0’으로 표현하는 BOW(Bag of Words)가 있다. 하지만 BOW는 단순한 단어의 유무를 수치적으로 표현한 방법으로 실제적으로 그 단어의 특징이나 의미적인 부분 까지는 표현을 하지 못한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (16)

  1. M. Sun, H, Um, "The Study on Recent Research Trend in Korean Tourism Using Keyword Network Analysis," Journal of the Korea Academia- Industrial cooperation Society(JKAIS), Vol. 17, No. 9, pp. 68-73, 2016. 

  2. E. Bae, S. Yu, "Keyword-based Recommender System Dataset Construction and Analysis, "Journal of KIIT. Vol. 16, No. 6, pp. 91-99, 2018. DOI : 10.14801/jkiit.2018.16.6.91. 

  3. http://www.bloter.net/archives/260569 

  4. Jae-Young Chang, "A Study on Research Trends of Graph-Based Text Representations for Text Mining", The Journal of The Institute of Internet, Broadcasting and Communication, Vol. 13, No. 5, pp. 37-47, Oct 2013. DOI: http://dx.doi.org/10.7236/JIIBC.2013.13.5.37 

  5. Shirai, Kiyoaki, and Makoto Nakamura. "JAIST: Clustering and classification based approaches for Japanese WSD." Proceedings of the 5th International Workshop on Semantic Evaluation. Association for Computational Linguistics, pp. 379-382, 2010. 

  6. Chen, Qian, Zengru Jiang, and Jinqiang Bian. "Chinese keyword extraction using semantically weighted network." In Intelligent Human-Machine Systems and Cybernetics (IHMSC), 2014 Sixth International Conference on, Vol. 2, pp. 83-86. IEEE, 2014. 

  7. Xu, G. X., W. Sun, and X. P. Peng. "Clustering Research across Tibetan and Chinese Texts." Journal of Digital Information Management Vol. 13, No. 3, pp. 163-168, 2015 

  8. Abuaiadah, Diab, Dileep Rajendran, and Mustafa Jarrar. "Clustering Arabic tweets for sentiment analysis." In Computer Systems and Applications (AICCSA), 2017 IEEE/ACS 14th International Conference on, pp. 449-456. IEEE, 2017. 

  9. Sahmoudi, Issam, and Abdelmonaime Lachkar. "Formal Concept Analysis for Arabic Web Search Results Clustering." Journal of King Saud University-Computer and Information Sciences 29, No. 2, pp 196-203. 2017 

  10. Copara, Jenny, Jose Ochoa, Camilo Thorne, and Goran Glavas. "Exploring unsupervised features in Conditional Random Fields for Spanish Named Entity Recognition." In Intelligent Systems (BRACIS), 2016 5th Brazilian Conference, pp. 283-288. IEEE, 2016. 

  11. https://ithub.korean.go.kr 

  12. https://ilis.yonsei.ac.kr 

  13. http://www.sejong21.org 

  14. T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient Estimation of Word Representations in Vector Space," In Proceedings of workshop at ICLR, pp. 1-12, 2013. 

  15. M. Kim, T. Kang,"Proposal and Analysis of Various Link Architectures in Multilayer Neural Network,"Journal of KIIT. Vol. 16, No. 4, pp. 11-19, 2018. DOI : 10.14801/jkiit.2018.16.4.11 

  16. Park, Eunjeong L., and Sungzoon Cho. "KoNLPy: Korean natural language processing in Python." Proceedings of the 26th Annual Conference on Human & Cognitive Language Technology. pp. 133-136, 2014. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로