[논문]주가지수 방향성 예측을 위한 도메인 맞춤형 감성사전 구축방안

김재봉; 김형중

doi:10.9728/dcs.2017.18.3.585

주가지수 방향성 예측을 위한 도메인 맞춤형 감성사전 구축방안
A domain-specific sentiment lexicon construction method for stock index directionality 원문보기

디지털콘텐츠학회 논문지 = Journal of Digital Contents Society, v.18 no.3, 2017년, pp.585 - 592

김재봉 (고려대학교 빅데이터응용및보안학과) , 김형중 (고려대학교 빅데이터응용및보안학과)

초록
AI-Helper

개인용 디바이스의 발달로 개인들이 손쉽게 인터넷에 접속할 수 있게 되었으며, 소셜미디어를 통한 정보의 공유와 습득이 일반화 되고 있다. 특히 분야별 전문 커뮤니티가 발달하며 사회적 영향력을 행사하고 있어 기업과 정부는 이들의 의견을 반영하여 전략을 수립하는 일에 관심을 기울이고 있다. 온라인상의 다양한 텍스트로부터 대중의 의견을 읽어내는 것을 오피니언마이닝이라고 한다. 그 중 하나인 감성사전은 방대한 비정형데이터를 빠르게 파악하는 도구로 여러 분야에서 활용되고 있다. 주식시장은 사회의 여러 요인을 반영하여 변동한다. 최근에는 버즈량 분석 등 빅데이터를 기반으로 오피니언마이닝을 활용한 주식시장 연구가 시도되고 있다. 대표적인 예로 뉴스와 같은 텍스트 데이터 분석을 활용한 연구들이 발표되고 있다. 본 논문에서는 뉴스의 정제된 형식과 한정된 어휘를 사용한 기존연구를 보완하고자 증권전문 사이트 'Paxnet'의 게시 글을 분석대상으로 삼아 주식시장 맞춤형 감성사전을 구축하여 투자자들의 감성을 분석하는 데 기여했다.

Abstract ▼ AI-Helper

As development of personal devices have made everyday use of internet much easier than before, it is getting generalized to find information and share it through the social media. In particular, communities specialized in each field have become so powerful that they can significantly influence our society. Finally, businesses and governments pay attentions to reflecting their opinions in their strategies. The stock market fluctuates with various factors of society. In order to consider social trends, many studies have tried making use of bigdata analysis on stock market researches as well as traditional approaches using buzz amount. In the example at the top, the studies using text data such as newspaper articles are being published. In this paper, we analyzed the post of 'Paxnet', a securities specialists' site, to supplement the limitation of the news. Based on this, we help researchers analyze the sentiment of investors by generating a domain-specific sentiment lexicon for the stock market.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

마지막으로, 다양한 주식투자자들(전문가-초보)이 이용하는 증권 전용 전업투자자 게시판을 활용하여, 증권업에서 주요 사용되는 전문용어들을 통해 전문성을 높이고자 하였다.
비정형데이터 분석방법으로는 크게 오피니언마이닝, 텍스트마이닝, 웹마이닝 등이 있다. 본 논문에서는 그 중에서도 오피니언 마이닝의 일종인 감성 분석에 대해 다룬다.
본 연구는 주식시장에 집중된 맞춤형 특화 사전을 구축함에 있어 말뭉치를 기반으로 하여 감성 분석을 시도하고, 기존 주식시장의 명사 또는 뉴스 분석을 통한 감성사전의 한계점을 보완 개선하려는 목적으로 진행하였다. 감성을 표현하는 다양한 글과 의견을 반영하기 위하여 주식 전문 커뮤니티의 게시 글을 지정하였고, 형용사를 포함한 말뭉치 별로 극성 값을 부여하는 방식으로 사전을 구축하여 유의성을 확인 하였다.
본 연구는 주식시장이라는 도메인에 특화된 감성사전 구축을 목적으로 한다. 여기서 긍정은 ‘주가상승’을, 부정은 ‘주가하락’을 의미한다.
본 연구에서는 증권 전문 소셜 커뮤니티의 다양한 게시 글을 토대로 주식시장 맞춤형 감성사전 구축하는 것을 목표로 한다.

가설 설정

PMI는 확률론에 기초한 방법으로 두 확률변수의 연관성을 나타내는 지표이다. 즉 분석하고자 하는 두 단어의 의미 극성이 비슷할 경우, 같은 문서 내에서 나타날 확률이 높다는 가정 하에 계산된다[25].

제안 방법

‘사전기반 접근법(dictionary-based approach)’이란 감성사전이 아닌 일반적인 어학 사전에 기반하여 감성사전을 구축하는 접근방법이다. 각 단어가 가지고 있는 사전적 의미에 기반하여 먼저 기초 감성 어휘 목록을 작성하고, 동의어와 반의어를 기준으로 사전을 구축한다.
각각의 말뭉치에 주가 상승의 의미는 ‘긍정’, 주가하락의 의미는 ‘부정’, 방향성이 없는 경우는 ‘중립’의 감성 분류를 적용하는 과정을 반복하였고, 향후 지속적 연구의 용이성과 활용의 편의를 위하여 웹 기반으로 감성사전을 구축하였다.
본 연구는 주식시장에 집중된 맞춤형 특화 사전을 구축함에 있어 말뭉치를 기반으로 하여 감성 분석을 시도하고, 기존 주식시장의 명사 또는 뉴스 분석을 통한 감성사전의 한계점을 보완 개선하려는 목적으로 진행하였다. 감성을 표현하는 다양한 글과 의견을 반영하기 위하여 주식 전문 커뮤니티의 게시 글을 지정하였고, 형용사를 포함한 말뭉치 별로 극성 값을 부여하는 방식으로 사전을 구축하여 유의성을 확인 하였다.
게시판 참여자들이 많이 언급하는 추출된 단어들을 기초로 위 단어와 함께 같은 문장 내에서 자주 언급되어 조합을 이루는 단어들의 말뭉치 패턴을 분석하고 각 단어별 확률 지수를 파악하기 위해 PMI를 사용하였다. PMI는 확률론에 기초한 방법으로 두 확률변수의 연관성을 나타내는 지표이다.
연구에 제한 목적으로 팍스넷 게시판의 게시 글들을 파일형태로 수령하여 데이터를 확보하였다. 동일한 단어가 시황별, 문맥상 의미, 다른 단어들과의 조합에 따라 반대의 감성으로 사용될 수 있으므로 극성의 정확한 상황별 적용을 위하여 충분한 기간 내 활용 사항을 분석 적용하기 위해서는 3년 내외의 기간이 적절한 점과 팍스넷 내 다수의 게시판 중에서 가장 조회 수가 많고 전문성이 뛰어난 점을 이유로 전업투자자 게시판을 기초로 활용하였으며 연구대상에서 제외되는 광고성 글과 이미지들을 제거하고자 하였다.
둘째, 3년의 충분한 기간 동안 축적된 데이터를 통해 단어의 고유 극성의 정확도를 높이고자 하였으며, Paxnet과의 정식 약정을 통해 게시판 데이터를 직접 받음으로써 데이터의 손실을 없앴다.
둘째, 주가 방향성 예측을 위한 감성사전 구축에 관한 기존의 연구는 명사 또는 동사를 분석했지만, 이번 연구에서는 형용사까지 활용하였으며, 특히 단어 중심의 기존 연구와 달리 데이터상의 말뭉치를 추출하거나 자주 쓰이는 단어들을 조합한 말뭉치를 활용하여 주식시장의 특성을 반영하였다.
매매 일지의 작성과 그래프에 대한 설명, 종목의 나열 등 734개의 글에서는 말뭉치가 나타나지 않았으며, 게시 내용 문장 수가 작거나 시장 상황보다 심리 상황이 많은 투자자의 애로 사항 등의 글에는 말뭉치가 충분히 나타나지 않았다. 말뭉치의 빈도수가 작아 나타날 수 있는 감성 예측의 오류 가능성을 배제하고 검증하기 위하여 출현한 말뭉치의 수가 5개 보다 적은 경우를 제외한 1,828개의 게시 글에 대하여 감성사전을 적용하였다.
명사, 형용사, 동사를 대상으로 R프로그램을 이용하여 출현 빈도를 정리하였다. 빈도 높은 순으로 정리한 단어 중 사람, 생각, 오늘, 마음, 방법, 의견 등 주가 방향성 예측과 무관한 단어들을 제외하고, 투자, 주식, 종목, 시장, 돈, 매수 등 주식시장 감성 단어 후보들을 추출하였다.
사전 구축을 위하여 활용된 전업투자자 게시판 3,809개의 글들에 주가 방향성 예측을 위하여 구축한 감성사전을 적용하였다. 매매 일지의 작성과 그래프에 대한 설명, 종목의 나열 등 734개의 글에서는 말뭉치가 나타나지 않았으며, 게시 내용 문장 수가 작거나 시장 상황보다 심리 상황이 많은 투자자의 애로 사항 등의 글에는 말뭉치가 충분히 나타나지 않았다.
이후 그림 2와 같이 플레인 텍스트 만을 추출하여 순수 게시 글 원형을 유지하였으며, 각 게시물 내 글들을 문장 단위로 구 별하고 문장 내 형태소 별로 분리하여 품사를 부착시켰다. 추출된 어휘들을 품사별로 재정리하고 조사, 감탄사, 접속사, 관형사 등 불용어를 제외하고.
일례로, “종목”이라는 핵심어와 PMI값이 높게 나온 “가다”라는 단어로 말뭉치를 구성한 후, “뜨다” “오르다”처럼 유사한 의미로 많이 사용되는 말뭉치를 포함하고, “가지 못하다” “뜨지 못하다” “오르지 못하다”처럼 반대 의미를 가지는 말뭉치들도 포함하였다.
주식시장 방향성 예측을 위한 도메인 맞춤형 감성사전 구축에 관한 본 연구 과정에서 감성사전을 핵심적으로 등장하는 단어를 중심으로 말뭉치(corpus)방식으로 구축하였으며, 297개의 핵심어와 1,614개의 말뭉치를 포함하고 있다. 1,614개의 말뭉치는 주가상승을 의미하는 ‘긍정’이 731개, 주가하락을 의미라는 ‘부정’이 654개, ‘중립’ 229개의 극성 값으로 구성되었다.
첫째, 데이터의 비 정형성을 극대화하고 시각을 다양화하기 위해 누구나 자유롭게 참여하여 의견을 개진할 수 있는 온라인 게시판을 선정하였다. 게시판에 게재된 글은 뉴스에 비해 가감 없는 솔직한 의견이 표현되며, 사용되는 용어 또한 뉴스에 비해 훨씬 다양한 특징을 가졌다.
첫째, 주가 방향성 예측을 위한 감성사전 구축에 관한 기존의 연구는 뉴스 데이터를 기반으로 진행되었다. 뉴스 데이터는 정제된 표현이 많으며, 한정된 어휘로 만들어졌기 때문에 연구의 제약사항으로 언급되었다.
추출된 단어와 PMI 값이 양수를 가진 빈도가 높은 단어를 중심으로 주식시장 변동성을 예측하는 말뭉치를 구성하였다. 일례로, “종목”이라는 핵심어와 PMI값이 높게 나온 “가다”라는 단어로 말뭉치를 구성한 후, “뜨다” “오르다”처럼 유사한 의미로 많이 사용되는 말뭉치를 포함하고, “가지 못하다” “뜨지 못하다” “오르지 못하다”처럼 반대 의미를 가지는 말뭉치들도 포함하였다.

대상 데이터

데이터로는 증권정보공유에 특화된 웹사이트인 ‘Paxnet’의 게시 글을 활용한다.
본 연구에서는 주식 전문 사이트인 ‘Paxnet’에서 운영하는 게시판의 최근 3년 치의 게시 글을 연구 데이터로 선정하였으며, 이를 선정함에 있어서 다음의 고려사항을 반영하였다.
연구에 제한 목적으로 팍스넷 게시판의 게시 글들을 파일형태로 수령하여 데이터를 확보하였다. 동일한 단어가 시황별, 문맥상 의미, 다른 단어들과의 조합에 따라 반대의 감성으로 사용될 수 있으므로 극성의 정확한 상황별 적용을 위하여 충분한 기간 내 활용 사항을 분석 적용하기 위해서는 3년 내외의 기간이 적절한 점과 팍스넷 내 다수의 게시판 중에서 가장 조회 수가 많고 전문성이 뛰어난 점을 이유로 전업투자자 게시판을 기초로 활용하였으며 연구대상에서 제외되는 광고성 글과 이미지들을 제거하고자 하였다.

데이터처리

추출된 어휘들을 품사별로 재정리하고 조사, 감탄사, 접속사, 관형사 등 불용어를 제외하고. 명사, 형용사, 동사를 대상으로 R프로그램을 이용하여 출현 빈도를 정리하였다. 빈도 높은 순으로 정리한 단어 중 사람, 생각, 오늘, 마음, 방법, 의견 등 주가 방향성 예측과 무관한 단어들을 제외하고, 투자, 주식, 종목, 시장, 돈, 매수 등 주식시장 감성 단어 후보들을 추출하였다.

성능/효과

긍정 게시 글의 수는 1,128개, 부정 또는 중립의 게시 글 수는 700개 이며, 평균 긍정 지수는 0.66998이며 메디안은 0.714로 나타났으며, 긍정 지수가 긍정과 중립 및 부정등으로 구분 분포되어 있어 긍정 지수는 게시 글 별로 유의미한 차별성이 있음을 확인 하였다.
이런 연구의 일환으로 상품 평 극성 분류를 위한 특징 별 서술어 긍정/부정 사전 자동구축 연구에서는 전자상거래에서 판매되는 상품들에 대해 고객들의 상품 평을 이용한 감성사전을 구축하였다. 이를 통해 평점 및 접속 정보 등 각 상품에 대한 고객들의 평가 방법들 중 가장 효과적인 방법을 도출해 낼 수 있었다. 다만, 이 연구는 상품 평 반응 영역(도메인)에 특화된 감성사전을 구축하여 범용 감성사전을 사용했을 때보다 예측 정확도를 끌어 올렸지만, 서술어에 대해서만 감성사전을 구축한 한계점이 있었다고 언급되었다[23].
뉴스 데이터는 정제된 표현이 많으며, 한정된 어휘로 만들어졌기 때문에 연구의 제약사항으로 언급되었다. 이번 연구에서는 인터넷 게시판 글을 통해 시각의 다양화와 데이터의 비 정형성을 극대화했다.

후속연구

인터넷 커뮤니티의 표현들 외에 전문적인 표현들도 포함될 필요가 있다. 다양성의 확보에서 한발 더 나아가 증권사 리서치 자료 등 전문적인 용어와 표현을 추가하면 더욱 정교한 감성사전을 만들 수 있을 것이다.
주가 방향성 예측에 시장 참여자들의 투자 심리와 감성 파악을 통한 참고 지표로서 의미를 확인하였으며, 주식시장의 다른 지표들과 복합적으로 분석된다면 방향성 예측에 더 크게 활용이 가능할 것이라 판단된다.
향후 연구에서는 상기 한계점을 보완하여 감성사전의 주가 지수 방향성 예측력을 향상시키고, 나아가 실제 투자에 도움을 줄 수 있는 보조 지표로 활용할 수 있는 감성사전을 구축할 수 있을 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	오피니언마이닝에서 가장 중요한 요인은 무엇인가?	오피니언마이닝에서 가장 중요한 요인은 ‘감성어(sentiment words)’일 것이다. 감성어는 긍정적, 또는 부정적 감정을 표현하는 단어나 구절을 의미하며, 빅데이터 분석의 주요 관심인 대중의 감정을 보여주는 지표가 된다.
	다양한 비정형데이터 분석 방법론 중에서 오피니언마이닝이 각광받는 이유는 무엇인가?	다양한 비정형데이터 분석 방법론 중에서도 오피니언마이닝은 가장 각광받는 분석법이다. 오피니언마이닝은 어느 도메인에나 적용이 가능하며, 대중의 의견으로부터 영향을 받는 정치, 경제 등 사회 각 분야의 의사결정에 유용한 정보를 제공하기 때문이다.
	빅데이터란 무엇인가?	빅데이터는 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 의미한다[2]. 정형데이터와 비정형데이터를 모두 포함하는 개념이지만 통상적으로는 특정한 목적을 가지고 형식에 맞추어 구축된 ‘정형 데이터’에 대비되는 개념으로 온라인상의 ‘비정형데이터’와 같은 의미로 통용되고 있다.

참고문헌 (25)

C. Han, and K. Kim, "Twitter's impact on the election of TV debates," Journal of Digital Contents Society, Vol. 14, No.2, p.207-214, 2013

원문보기 상세보기
C. Snijders, U. Matzat, and U. Reips, "Big data: Big gaps of knowledge in the field of Internet science," International Journal of Internet Science, Vol. 7, No. 1, pp. 1-5, 2012.
B. Liu, Sentiment Analysis and Opinion Mining, Morgan & Claypool, 2012.
S. Ahn and S. B. Cho, "Stock prediction using news text mining and time series analysis," Proceedings of Korea Intelligent Information Systems Society Conference, pp. 364-369, 2010.
Y. Kim, N. Kim, and S. R. Jeong, "Stock-index invest model using news big data opinion mining," KIIS Journal of Intelligence and Information Systems, Vol. 18, No. 2, pp. 143-156, 2012.
E. Yu, Y. Kim, N. Kim, and S. R. Jeong, "Predicting the direction of the stock index by using a domain-specific sentiment dictionary," KIIS Journal of Intelligence and Information Systems, vol. 19, No. 1, pp. 95-110, 2013.

원문보기 상세보기
E. Cha and T. Hong, "S&P500 Stock price index prediction using news emotion analysis and SVM," Proceedings of Korea Society of Management Information Systems Conference, pp. 173-178, 2016.
D. Kim, T. Cho and J. H. Lee, "A domain adaptive sentiment dictionary construction method for domain sentiment analysis," Proceedings of the Korean Society of Computer Information Conference, Vol. 23, No. 1, pp. 15-18, 2015.
S. H. Lee, J. Cui and J. W. Kim, "Sentiment Analysis on Movie Review Through Building Modified Sentiment Dictionary by Movie Genre," KIIS Journal of Intelligence and Information Systems, Vol. 22, No. 2, pp. 97-113, 2016.

원문보기 상세보기
B. Pang and L. Lee, Foundations and Trends(R) in Information Retrieval, Vol. 2, now Publishers Inc, 2008.
T. Nasukawa and J. Yi, "Sentiment Analysis: Capturing Favorability Using Natural Language Processing," in Proceeding of the 2nd International Conference on Knowledge Capture, Sanibel Island, FL, USA, pp. 70-77, 2003.
K. Dave, S. Lawrence, and D. M. Pennock, "Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews," in Proceeding of the 12th International Conference on World Wide Web, Budapest, Hungary, pp. 519-528, 2003.
J.Lee, W. Lee, J. Park and j. Choi, "The Blog Polarity Classification Technique using Opinion Mining," Journal of Digital Contents Society, Vol. 15, No 4, p.559-568, 2014

원문보기 상세보기
M. Hu and B. Liu, "Mining Opinion Features in Customer Reviews," AAAI journal of American Association for the Artificial Intelligence, Vol. 4, No. 4, pp. 755-760, 2004.
S. M. Kim and E. Hovy, "Determining the Sentiment of Opinions," in Proceeding of the 20th International Conference on Computational Linguistics. Association for Computational Linguistics, Geneva, Switzerland, No. 1367, 2004.
A. Hassan and D. Radev, "Identifying Text Polarity Using Random Walks," in Proceeding of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, Uppsala, Sweden, pp. 395-403, 2010.
P. D. Turney and M. L. Littman(2002, May). Unsupervised learning of semantic orientation from a hundred-billion-word corpus. arXiv preprint[Online], cs/0212012, NRC-44929, pp. 1-9, Available: https://arxiv.org/ftp/cs/papers/0212/0212012.pdf
J. An and H. W. Kim, "Building a Korean Sentiment Lexicon Using Collective Intelligence," KIIS Journal of Intelligence and Information Systems, Vol. 21, No. 2, pp. 49-67, 2015.

원문보기 상세보기
E. Riloff and J. Shepherd, "A Corpus-based Approach for Building Semantic Lexicons," Proceedings of the Second Conference on Empirical Methods in Natural Language Processing, pp. 117-124, 1997.
V. Hatzivassiloglou and K. R. McKeown, "Predicting the Semantic Orientation of Adjectives," in Proceeding of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, Madrid, Spain, pp. 174-181, 1997.
H. Chen and D. Zimbra(2010, June). AI and Opinion Mining. IEEE Journals ans Mazagines[Online]. 25(3), pp. 74-80, 2010. Available: http://ieeexplore.ieee.org/abstract/document/5475086/
S. Shin, Read Emotions in the Article! Understanding Emotional Analysis, IDG Korea, pp. 1-11, 2014.
J. Song and S. Lee, "Automatic Construction of Positive/Negative Feature-predicate Dictionary for Polarity Classification of Product Reviews" Journal of KISS: Software and Applications, Vol. 38, No. 3, pp. 157-168, 2011.
J. S. Jeong, D. S. Kim and J. W. Kim. "Influence Analysis of Internet Buzz to Corporate Performance : Individual Stock Price Prediction Using Sentiment Analysis of Online News," KIIS Journal of Intelligence and Information Systems, Vol. 21, No. 4, pp. 37-51, 2015.
S. Song, D. Lee and S. Lee. "Identifying Sentiment Polarity of Korean Vocabulary Using PMI," Journal of Korea Information Science Society, Vol. 37, No. 1(C), pp. 260-265, 2010.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증