$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계
A Design on Informal Big Data Topic Extraction System Based on Spark Framework 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.5 no.11, 2016년, pp.521 - 526  

박기진 (아주대학교 융합시스템공학과)

초록
AI-Helper 아이콘AI-Helper

온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

As on-line informal text data have massive in its volume and have unstructured characteristics in nature, there are limitations in applying traditional relational data model technologies for data storage and data analysis jobs. Moreover, using dynamically generating massive social data, social user'...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 문서 데이터 내에서 특정 단어 묶음이 실제적으로 전체 문맥 속에서 개별 단어와 같은 역할을 하기 때문에 “단어 묶음을 잘 찾아낼 경우 해당 문서 전체를 잘 파악할 수 있다”고 판단하였으며, 이에 본 논문에서는 토픽 모델링시 개별 단어 입력보다는 N-gram의 결과물인 단어 묶음을 입력 값으로 사용함으로써 우수한 토픽 추출을 달성하고자 하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
PLSA 모델의 단점은 무엇인가? LDA는 하나의 문서가 여러 개의 토픽으로 구성되어 있다고 가정한 다음, 이런 토픽들과 각 문서에서의 토픽 비율을 찾아내는 방법론이며, 각 문서를 구성하는 단어가 서로 독립 적이지 않다는 가정(Dirichlet Distribution)에서 단어를 생성 하는 조건에 따라 사후 확률을 추론한다. 한편, PLSA 모델은 하나의 문서 내에서 각 단어들이 하나의 토픽하고만 연관 되어 있기 때문에 문서 셋 전체에 걸쳐 나타나는 토픽 분포의 경향까지는 나타내지 못하며, 또한 주어진 데이터에 지나치게 맞춰지는 과적합(Over-Fitting) 등의 단점이 있다[5].
토픽 모델은 무엇인가? 즉 여러 형태의 뉴스기사, 블로그, 상품평 등이 혼재되어 있으며 이러한 텍스트 데이터로 구성된 문서 집합에서 의미 (Semantics)를 찾아내기 위한 방법으로, 최근 토픽 모델이 각광을 받고 있다[1]. 토픽 모델은 입력된 문서 집합에 대해 통계 기법을 적용하여 “문서 내에서 특정 단어들이 어떤 의미로 쓰였는지?” 구분해주는 기계학습(Machine Learning) 알고리즘이다 특히, 토픽 모델을 사용하면 문서 내용을 간결 하게 나타낼 수 있고, 단어 및 문서 간의 유사도 평가도 가능하기 때문에, 내용 구분이 모호한 비정형의 문서에서 데이터의 숨겨진 특징을 파악하는데 적합하다고 볼 수 있다.
본 논문에서 채택한 토픽 모델은 무엇인가? 확률 이론에 기반한 토픽 모델은 텍스트로 구성된 문서 내에 숨겨져 있는 토픽(의미)들을 찾기 위해 고안된 통계적 추론 기법이며 대표적으로 PLSA[6]와 LDA가 있다. 이들 중 본 논문에서는 대용량 빅데이터 처리에 적합한, 즉, 분산-병렬 처리에 적합한 LDA 기법을 채택하여, Hadoop YARN 기반 Spark 클러스터 환경에서 토픽 추출 시스템을 설계 및 구현하였다. 한편, [7]에서는 LDA 토픽 모델을 Hadoop 기반 Mapreduce 프레임워크 상에서 온라인 학습기를 개발하였으나, 디스크 기반 연산을 수행함으로 인해, 인메모리 기반 Spark 에 비해 성능에 한계가 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (13)

  1. D. M. Blei, "Probabilistic Topic Models," Communication of the ACM, Vol.55, No.4, pp.77-87, 2012. 

  2. P. F. Brown, P. V. deSouza, R. L. Mercer, V. J. D. Pietra, and J. C. Lai, "Class-Based N-gram Models of Natural Language," Computational Linguistics, Vol.18, No.4, pp.467-479, 1992. 

  3. V. K. Vavilapalli and A. C. Murthy, et al., "Apache Hadoop YARN: Yet Another Resource Negotiator," in Proceedings of the 4th annual Symposium on Cloud Computing ACM, No.5, pp.1-16, 2013. 

  4. M. Zaharia, M. Chowdhury, M. J. Franklin, S. Shenker, and I. Stoica, "Spark: Cluster Computing with Working Sets," in HotCloud, p.10, 2010. 

  5. D. M. Blei, A. Y. Ng, and M. J. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol.3, pp. 993-1022, 2003. 

  6. T. Hofmann, "Probabilistic Latent Semantic Indexing," in Proceedings of the 22nd Annual International SIGIR Conference on Research and Development in Information Retrival, pp.50-57, 1999. 

  7. J. Park and H. Oh, "Distributed Online Learning for Topic Models," Communications of the Korean Institute of Information Scientists and Engineers, Vol.32, No.7, pp.40-45, 2014. 

  8. K. Shvachko, et al., "The Hadoop Distributed File System," in Proceedings of the 26th IEEE Transactions on Computing Symposium on Mass Storage Systems and Technologies, pp. 1-10, 2010. 

  9. M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M. Franklin, S. Shenker, and I. Stoica, "Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-memory Cluster Computing," NSDI, Apr., 2012. 

  10. J. Dean and S. Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters," in Proceedings of the 6th Symposium on Operating System Design and Implementation, pp.137-150, 2004. 

  11. K. Park, C. Baek, and L. Peng, "A Development of Streaming Big Data Analysis System Using In-memory Cluster Computing Framework: Spark," LNEE, Vol.393, pp.157-163, 2016. 

  12. M. Armbrust, R. S. Xin, C. Lian, Y. Huai, D. Liu, J. K. Bradley, X. Meng, T. Kaftan, M. J. Franklin, A. Ghodsi, and M. Zaharia, "Spark SQL: Relational data processing in Spark," in Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, pp. 1383-1394, 2015. 

  13. https://www.reddit.com/wiki/ko/reddiquette. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로