정보통신기술의 발전과 인터넷의 등장, 스마트폰으로 대변되는 모바일 환경의 확산으로 디지털 혁명이 가속화 되었고, 기업활동뿐만 아니라 일상 생활의 모든 것들로부터 엄청남 양의 디지털 데이터가 만들어지고 있다. 최근 이러한 대용량 디지털 데이터는 소위 빅데이터라는 이름으로 불리며 그 활용에 많은 관심이 쏠리고 있다. 하지만 데이터의 축적은 한결 수월해진 반면 이를 어떻게 가공, 처리, 분석하여 유용한 정보로 변환할 것인가는 여전히 어려운 문제이다. 특히 최근 인터넷, 모바일, ...
정보통신기술의 발전과 인터넷의 등장, 스마트폰으로 대변되는 모바일 환경의 확산으로 디지털 혁명이 가속화 되었고, 기업활동뿐만 아니라 일상 생활의 모든 것들로부터 엄청남 양의 디지털 데이터가 만들어지고 있다. 최근 이러한 대용량 디지털 데이터는 소위 빅데이터라는 이름으로 불리며 그 활용에 많은 관심이 쏠리고 있다. 하지만 데이터의 축적은 한결 수월해진 반면 이를 어떻게 가공, 처리, 분석하여 유용한 정보로 변환할 것인가는 여전히 어려운 문제이다. 특히 최근 인터넷, 모바일, SNS 등에서 폭증하는 비정형 텍스트 데이터는 작성자의 의견이나 느낌, 관심, 선호, 예상, 불만 등을 직간접적으로 반영하고 있어, 이를 찾아내어 활용하고자 하는 니즈는 점차 강해지고 있다. 그러나 이러한 데이터의 출처•유형•내용에 따른 분석 기법도 매우 다양하고, 또한 언어가 갖고 있는 다양한 특성들로 인해 그 의미를 분석•도출하는데 따른 어려움으로 인해 구체적인 성과는 아직 미흡한 실정이다. 또한 아직까지는 이를 활용할만한 기술과 아이디어가 부족한 것도 사실이다. 우리가 미디어를 통해 매일 접하는 뉴스 역시 비정형 데이터 중의 하나이다. 하루에도 수천~수만 건이 생산되고 디지털화하여 전세계로 실시간 배포되는 뉴스야말로 그 양이 어마어마하여 전형적인 비정형 텍스트 빅데이터라 할 수 있다. 이렇게 양산된 뉴스는 정치•경제•사회 전반에 영향을 미치고 있으며, 특히 경제활동의 핵심 지표인 주가와도 밀접한 관계를 맺고 있다. 때문에 거의 모든 사람들이 뉴스와 주가 사이에는 긴밀한 상관관계가 있을 것이라 믿고 있으며, 뉴스를 통해 투자기회를 찾고 수익을 낼 수 있을 것으로 기대한다. 결국 뉴스를 잘 분석하여 주식시장에 호재와 악재를 가려낼 수 있다면 주가 예측이 가능하고 이를 통해 경제적 이익을 창출 할 수 있을 것이라 기대해볼 수 있겠다. 때문에 이미 오래 전부터 수많은 연구에서 뉴스와 주가 사이의 긴밀한 관계가 존재하며 뉴스로 인해 주가의 변동이 발생함을 밝히고 있으며, 뉴스와 주가 사이의 관계뿐만 아니라 뉴스로부터 주가를 예측하고자 하는 연구도 계속되고 있다. 그러나 과거의 연구들은 주로 특정 뉴스나 특정 종목의 뉴스를 대상으로 하고 있어 하루에도 수많은 뉴스들이 실시간으로 생성•전파되고 있는 현실 세계의 즉시적 반영과 분석은 미흡하였고, 기계학습을 이용한 최근의 연구에서도 개별 기업의 주가를 예측하거나 뉴스 텍스트 분석을 위한 어휘의 감성극성 도출에 인위적 판단이 작용하는 등 일부 한계가 존재한다. 본 연구에서는 이러한 한계를 극복하고자 쉼 없이 쏟아지는 대량의 뉴스를 비정형 텍스트로 구성된 빅데이터로 간주하여, 뉴스를 자동으로 스크래핑•파싱하고 어휘감성을 태깅하여 주가지수 상승/하락 오피니언을 도출하는 오피니언 마이닝 기반의 지능형 투자의사결정지원 모형을 제시하였다. 또한 이러한 비정형 텍스트 데이터의 분석을 위한 어휘극성 태깅을 범용 감성사전이 아닌 주식 도메인의 주제지향 감성사전을 프로토타입 실험으로 직접 구현하여 적용하였고, 이후 본 실험에서는 매체의 성격이 다소 상이한 2곳을 선정하여 학습과 검증 데이터 분할 실험을 거쳐 주가지수 상승/하락 예측 정확도를 비교하였다. 주식 도메인의 주제지향 감성사전을 구축하고 검증하는 프로토타입 실험에서는 범용 감성사전을 이용하였던 김유신 외(2012) 연구와 동일한 데이터를(2011년 7월 ~ 9월) 이용함으로써 상호 비교가 가능하였다. 실험 결과는 데이터를 분할하지 않고 주가예측을 시도하였을 때 특정 임계값 구간에서 범용 감성사전 대비 높은 예측 정확도를 보임으로 뉴스 오피니언 지수를 도출하는 주제지향 감성사전의 중요성을 확인 할 수 있었다. 또한 과적합화를 해소하기 위해 시도한 학습/검증 데이터 분할 실험에서도 검증 데이터 세트에서 범용 감성사전과 유사한 예측력을 보임으로서 학습 데이터에서 주가예측에 최적화된 조건과 오피니언, 임계값을 도출할 수 있다면 주가지수 상승/하락 예측의 정확도는 충분히 높아질 수 있음을 알 수 있었다. 다음 본 실험에서는 2011년 1월부터 12월까지 만 12개월 동안 포털 사이트 네이버의 증권 섹션에 게재된 M사와 H사의 뉴스 8만여 건을 대상으로 분석이 이루어졌다. 온라인 전문 매체인 M사는 비교적 신생미디어로 주식 분야에 좀더 특화되었음을 표방하고 있으며, H사는 글로벌 종합경제 미디어를 모토로 하는 선도 경제매체로서 두 미디어는 다소 상반된 성향의 매체 특성을 가지고 있다. 때문에 실험 결과도 다소 상이하게 나타나고 있는데, 결론적으로는 학습과 검증 데이터 세트 모두에서 M사의 뉴스 오피니언이 더 높은 주가 예측 정확도를 보였고, 예측력의 품질 측면에서도 가장 우수하였다. 또 한편으로는 두 매체의 뉴스를 하나의 데이터 세트로 분석하였을 때는 각 매체의 오피니언이 희석되어 개별 분석보다 못한 결과를 보임을 확인할 수 있었다. 결국 매체별로 예측 정확도와 예측 품질의 차이는 존재했지만 그럼에도 불구하고 뉴스 오피니언을 이용해
정보통신기술의 발전과 인터넷의 등장, 스마트폰으로 대변되는 모바일 환경의 확산으로 디지털 혁명이 가속화 되었고, 기업활동뿐만 아니라 일상 생활의 모든 것들로부터 엄청남 양의 디지털 데이터가 만들어지고 있다. 최근 이러한 대용량 디지털 데이터는 소위 빅데이터라는 이름으로 불리며 그 활용에 많은 관심이 쏠리고 있다. 하지만 데이터의 축적은 한결 수월해진 반면 이를 어떻게 가공, 처리, 분석하여 유용한 정보로 변환할 것인가는 여전히 어려운 문제이다. 특히 최근 인터넷, 모바일, SNS 등에서 폭증하는 비정형 텍스트 데이터는 작성자의 의견이나 느낌, 관심, 선호, 예상, 불만 등을 직간접적으로 반영하고 있어, 이를 찾아내어 활용하고자 하는 니즈는 점차 강해지고 있다. 그러나 이러한 데이터의 출처•유형•내용에 따른 분석 기법도 매우 다양하고, 또한 언어가 갖고 있는 다양한 특성들로 인해 그 의미를 분석•도출하는데 따른 어려움으로 인해 구체적인 성과는 아직 미흡한 실정이다. 또한 아직까지는 이를 활용할만한 기술과 아이디어가 부족한 것도 사실이다. 우리가 미디어를 통해 매일 접하는 뉴스 역시 비정형 데이터 중의 하나이다. 하루에도 수천~수만 건이 생산되고 디지털화하여 전세계로 실시간 배포되는 뉴스야말로 그 양이 어마어마하여 전형적인 비정형 텍스트 빅데이터라 할 수 있다. 이렇게 양산된 뉴스는 정치•경제•사회 전반에 영향을 미치고 있으며, 특히 경제활동의 핵심 지표인 주가와도 밀접한 관계를 맺고 있다. 때문에 거의 모든 사람들이 뉴스와 주가 사이에는 긴밀한 상관관계가 있을 것이라 믿고 있으며, 뉴스를 통해 투자기회를 찾고 수익을 낼 수 있을 것으로 기대한다. 결국 뉴스를 잘 분석하여 주식시장에 호재와 악재를 가려낼 수 있다면 주가 예측이 가능하고 이를 통해 경제적 이익을 창출 할 수 있을 것이라 기대해볼 수 있겠다. 때문에 이미 오래 전부터 수많은 연구에서 뉴스와 주가 사이의 긴밀한 관계가 존재하며 뉴스로 인해 주가의 변동이 발생함을 밝히고 있으며, 뉴스와 주가 사이의 관계뿐만 아니라 뉴스로부터 주가를 예측하고자 하는 연구도 계속되고 있다. 그러나 과거의 연구들은 주로 특정 뉴스나 특정 종목의 뉴스를 대상으로 하고 있어 하루에도 수많은 뉴스들이 실시간으로 생성•전파되고 있는 현실 세계의 즉시적 반영과 분석은 미흡하였고, 기계학습을 이용한 최근의 연구에서도 개별 기업의 주가를 예측하거나 뉴스 텍스트 분석을 위한 어휘의 감성극성 도출에 인위적 판단이 작용하는 등 일부 한계가 존재한다. 본 연구에서는 이러한 한계를 극복하고자 쉼 없이 쏟아지는 대량의 뉴스를 비정형 텍스트로 구성된 빅데이터로 간주하여, 뉴스를 자동으로 스크래핑•파싱하고 어휘감성을 태깅하여 주가지수 상승/하락 오피니언을 도출하는 오피니언 마이닝 기반의 지능형 투자의사결정지원 모형을 제시하였다. 또한 이러한 비정형 텍스트 데이터의 분석을 위한 어휘극성 태깅을 범용 감성사전이 아닌 주식 도메인의 주제지향 감성사전을 프로토타입 실험으로 직접 구현하여 적용하였고, 이후 본 실험에서는 매체의 성격이 다소 상이한 2곳을 선정하여 학습과 검증 데이터 분할 실험을 거쳐 주가지수 상승/하락 예측 정확도를 비교하였다. 주식 도메인의 주제지향 감성사전을 구축하고 검증하는 프로토타입 실험에서는 범용 감성사전을 이용하였던 김유신 외(2012) 연구와 동일한 데이터를(2011년 7월 ~ 9월) 이용함으로써 상호 비교가 가능하였다. 실험 결과는 데이터를 분할하지 않고 주가예측을 시도하였을 때 특정 임계값 구간에서 범용 감성사전 대비 높은 예측 정확도를 보임으로 뉴스 오피니언 지수를 도출하는 주제지향 감성사전의 중요성을 확인 할 수 있었다. 또한 과적합화를 해소하기 위해 시도한 학습/검증 데이터 분할 실험에서도 검증 데이터 세트에서 범용 감성사전과 유사한 예측력을 보임으로서 학습 데이터에서 주가예측에 최적화된 조건과 오피니언, 임계값을 도출할 수 있다면 주가지수 상승/하락 예측의 정확도는 충분히 높아질 수 있음을 알 수 있었다. 다음 본 실험에서는 2011년 1월부터 12월까지 만 12개월 동안 포털 사이트 네이버의 증권 섹션에 게재된 M사와 H사의 뉴스 8만여 건을 대상으로 분석이 이루어졌다. 온라인 전문 매체인 M사는 비교적 신생미디어로 주식 분야에 좀더 특화되었음을 표방하고 있으며, H사는 글로벌 종합경제 미디어를 모토로 하는 선도 경제매체로서 두 미디어는 다소 상반된 성향의 매체 특성을 가지고 있다. 때문에 실험 결과도 다소 상이하게 나타나고 있는데, 결론적으로는 학습과 검증 데이터 세트 모두에서 M사의 뉴스 오피니언이 더 높은 주가 예측 정확도를 보였고, 예측력의 품질 측면에서도 가장 우수하였다. 또 한편으로는 두 매체의 뉴스를 하나의 데이터 세트로 분석하였을 때는 각 매체의 오피니언이 희석되어 개별 분석보다 못한 결과를 보임을 확인할 수 있었다. 결국 매체별로 예측 정확도와 예측 품질의 차이는 존재했지만 그럼에도 불구하고 뉴스 오피니언을 이용해
The digital revolution has rapidly changed the way we live. A huge amount of digital data is created from every aspect of our daily lives due to the development of the IT technology, advent of the Internet, and proliferation of the mobile environment that is represented by the smart-phone. The large...
The digital revolution has rapidly changed the way we live. A huge amount of digital data is created from every aspect of our daily lives due to the development of the IT technology, advent of the Internet, and proliferation of the mobile environment that is represented by the smart-phone. The large quantity of digital data created is called “big data” and much interest is given to its use. Although data accumulation is easier than ever, the question of changing the data into useful information through manipulation, processing, and analysis remains a difficult one to solve. In particular, the need to identify and make use of one’s opinions, feelings, interests, preferences, expectations, and complaints is rising because informal text data on the Internet, and via mobile communication and SNS, explosively reflects them directly and indirectly. However, detailed research results are not yet satisfactory due to the difficulty in analyzing and identifying what the data means. This is due to the diversity of analysis techniques that is organized according to the data source, type, contents, and various characteristics of the language. It is also a fact that technology and the ideas to make the most of this data are not yet advanced enough. The news we watch every day is one example of informal data. Tens of thousands of news reports are created and digitalized every day, then distributed throughout the world. In that sense, news is the typical information text that makes up “big data” because its output is so enormous. The massive amount of news produced affects politics, economy, society, and is closely related to the stock price, which is the core index of economic activities. As a result, it is believed that the news has a close relationship with the stock price, and one can expect to find an investment opportunity and make a profit. Ultimately, we can predict the stock price and expect to create economic benefits if we can distinguish between favorable and unfavorable factors by properly analyzing the news. Therefore, many studies over the years have proved that the news is closely related to the stock price, and that the stock price fluctuates as a result of the news. Studies also have been conducted to forecast the stock price using the news based on this relationship between the news and stock price. However, past research targeted a particular kind of news or the news in a particular area. As a result, immediate reflection and analysis was insufficient as in the real world a massive amount of news is created and dispersed in real time every day. Also, recent research using machine learning has been limited by the fact that personal judgment acts in forecasting the stock price of a particular company or identifying the sentiment polarity of the glossary for news text analysis. This study presented an intelligent investment decision-making model based on opinion mining that extract opinions about stock price index increase/decrease, by taking massive news data as the “big data” composed of the informal text, scrapping and parsing the news automatically, and tagging the emotional word. In addition, the subject-oriented sentiment dictionary for the stock domain, not the general purpose sentiment dictionary, was directly implemented and applied by the prototype experiment for sentiment polarity tagging to analyze the informal text data. Afterwards, two spots with similar media characteristics were selected for the experiment, and the accuracy of stock price index increase/decrease was compared through learning and verification data split test. The data (July 2011 to September 2011) for the study(Kim, 2012) using the general purpose sentiment dictionary was used for mutual comparison when conducting the prototype experiment that built up and verified the subject-oriented sentiment direction of the stock domain. The experiment results confirmed the importance of the subject-oriented sentiment dictionary, which identifies the news opinion index by demonstrating high forecast efficiency compared to the general purpose sentiment dictionary in the particular threshold value section when attempting to forecast the stock price without data split. In addition, a prediction capability similar to the general purpose sentiment direction was demonstrated in the verification data set for the learning/verification data split experiment that was attempted to resolve the over-fitting problem. Therefore, it was found that the accuracy of stock price increase/decrease could be improved sufficiently if the optimized condition, opinion, and threshold value can be extracted from the learning data. The experiment was conducted for 80,000 news items about two companies, M and H, which were posted on the Stock section of the Naver portal site from January 2011 to December 2011. Company M, a relatively new online media company specialist, claims that they are more specialized in the stock exchange area, whereas Company H is a leading media company in the economy that was established with the motto of a “global comprehensive economic media company.” These two media companies have contrasting media characteristics. Consequently, the results of the experiment are different to some extent. In conclusion, Company M’s news opinion has shown a higher level of stock price prediction as well as in the quality of predictability in both the learning and verification data sets. On the other hand, it was found that analyzing two media company’s news as a single data set produced a poorer result than individual analysis because two lots of opinions are mixed. In the end, there was some difference in forecast accuracy and quality in the two media outlets, but the price index of stocks could be estimated using news opinion. It was also found that the opinion index and optimal threshold value learned through opinion mining can be useful in forecasting the actual increase/decrease of the stock price inde
The digital revolution has rapidly changed the way we live. A huge amount of digital data is created from every aspect of our daily lives due to the development of the IT technology, advent of the Internet, and proliferation of the mobile environment that is represented by the smart-phone. The large quantity of digital data created is called “big data” and much interest is given to its use. Although data accumulation is easier than ever, the question of changing the data into useful information through manipulation, processing, and analysis remains a difficult one to solve. In particular, the need to identify and make use of one’s opinions, feelings, interests, preferences, expectations, and complaints is rising because informal text data on the Internet, and via mobile communication and SNS, explosively reflects them directly and indirectly. However, detailed research results are not yet satisfactory due to the difficulty in analyzing and identifying what the data means. This is due to the diversity of analysis techniques that is organized according to the data source, type, contents, and various characteristics of the language. It is also a fact that technology and the ideas to make the most of this data are not yet advanced enough. The news we watch every day is one example of informal data. Tens of thousands of news reports are created and digitalized every day, then distributed throughout the world. In that sense, news is the typical information text that makes up “big data” because its output is so enormous. The massive amount of news produced affects politics, economy, society, and is closely related to the stock price, which is the core index of economic activities. As a result, it is believed that the news has a close relationship with the stock price, and one can expect to find an investment opportunity and make a profit. Ultimately, we can predict the stock price and expect to create economic benefits if we can distinguish between favorable and unfavorable factors by properly analyzing the news. Therefore, many studies over the years have proved that the news is closely related to the stock price, and that the stock price fluctuates as a result of the news. Studies also have been conducted to forecast the stock price using the news based on this relationship between the news and stock price. However, past research targeted a particular kind of news or the news in a particular area. As a result, immediate reflection and analysis was insufficient as in the real world a massive amount of news is created and dispersed in real time every day. Also, recent research using machine learning has been limited by the fact that personal judgment acts in forecasting the stock price of a particular company or identifying the sentiment polarity of the glossary for news text analysis. This study presented an intelligent investment decision-making model based on opinion mining that extract opinions about stock price index increase/decrease, by taking massive news data as the “big data” composed of the informal text, scrapping and parsing the news automatically, and tagging the emotional word. In addition, the subject-oriented sentiment dictionary for the stock domain, not the general purpose sentiment dictionary, was directly implemented and applied by the prototype experiment for sentiment polarity tagging to analyze the informal text data. Afterwards, two spots with similar media characteristics were selected for the experiment, and the accuracy of stock price index increase/decrease was compared through learning and verification data split test. The data (July 2011 to September 2011) for the study(Kim, 2012) using the general purpose sentiment dictionary was used for mutual comparison when conducting the prototype experiment that built up and verified the subject-oriented sentiment direction of the stock domain. The experiment results confirmed the importance of the subject-oriented sentiment dictionary, which identifies the news opinion index by demonstrating high forecast efficiency compared to the general purpose sentiment dictionary in the particular threshold value section when attempting to forecast the stock price without data split. In addition, a prediction capability similar to the general purpose sentiment direction was demonstrated in the verification data set for the learning/verification data split experiment that was attempted to resolve the over-fitting problem. Therefore, it was found that the accuracy of stock price increase/decrease could be improved sufficiently if the optimized condition, opinion, and threshold value can be extracted from the learning data. The experiment was conducted for 80,000 news items about two companies, M and H, which were posted on the Stock section of the Naver portal site from January 2011 to December 2011. Company M, a relatively new online media company specialist, claims that they are more specialized in the stock exchange area, whereas Company H is a leading media company in the economy that was established with the motto of a “global comprehensive economic media company.” These two media companies have contrasting media characteristics. Consequently, the results of the experiment are different to some extent. In conclusion, Company M’s news opinion has shown a higher level of stock price prediction as well as in the quality of predictability in both the learning and verification data sets. On the other hand, it was found that analyzing two media company’s news as a single data set produced a poorer result than individual analysis because two lots of opinions are mixed. In the end, there was some difference in forecast accuracy and quality in the two media outlets, but the price index of stocks could be estimated using news opinion. It was also found that the opinion index and optimal threshold value learned through opinion mining can be useful in forecasting the actual increase/decrease of the stock price inde
※ AI-Helper는 부적절한 답변을 할 수 있습니다.