$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구
A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network 원문보기

지능정보연구 = Journal of intelligence and information systems, v.25 no.2, 2019년, pp.25 - 38  

양윤석 (연세대학교 투자정보공학과) ,  이현준 (연세대학교 산업공학과) ,  오경주 (연세대학교 산업공학과)

초록
AI-Helper 아이콘AI-Helper

정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

Abstract AI-Helper 아이콘AI-Helper

Selecting high-quality information that meets the interests and needs of users among the overflowing contents is becoming more important as the generation continues. In the flood of information, efforts to reflect the intention of the user in the search result better are being tried, rather than rec...

주제어

표/그림 (4)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 기존 뉴럴 텐서 네트워크와 관련된 연구는 이미 존재하는 트리플 데이터베이스 내에서 관계를 추론하는 목적으로 이루어졌다. 그러나 본 연구에서는 사전적인 트리플 데이터베이스없이 개체명을 추출하는 것을 목적으로 활용될 수 있는 가능성을 제시한다. 세 번째로, 정의가 쉽지 않고 모호한 개념의 지식정보를 추출하는 본 연구 모형에 대한 합리적 성능평가 방법을 제시한다.
  • 두 번째로, 주식 개별종목 관련 개체명 정보 추출을 목적으로 뉴럴 텐서 네트워크 모델의 활용 가능성을 확인한다. 기존 뉴럴 텐서 네트워크와 관련된 연구는 이미 존재하는 트리플 데이터베이스 내에서 관계를 추론하는 목적으로 이루어졌다. 그러나 본 연구에서는 사전적인 트리플 데이터베이스없이 개체명을 추출하는 것을 목적으로 활용될 수 있는 가능성을 제시한다.
  • 따라서 본 연구에서 뉴럴 텐서 네트워크의 사용 목적은 핵심 개체명 또는 개체명 조합을 파악하는 것이라고 할 수 있다.
  • 따라서 본 연구에서는 개체명 인식을 통해 추출된 개체명들 사이의 단순한 조합만으로 트리플을 생성하는 방법을 제시한다.
  • 특히 문장 단위로 트리플 데이터를 생성함으로써 문서 내에서 서로 가깝게 존재하는 유효한 지식 정보가 추출될 수 있는 가능성을 높였다. 또한 개체명 추출 목적으로 뉴럴텐서 네트워크 모델의 활용 가능성을 제시하였는데, 이는 이미 존재하는 데이터 속에서 관계를 추론하는 목적으로 사용된 선행 연구들과 차별점이 있다. 마지막으로 비지도 학습의 특성을 가진 지식정보 추출 문제에 대하여 적절한 성능 평가 방법을 제시하였다.
  • 본 연구 역시 주식 투자 분야에 대해 기존의 키워드 중심의 검색을 넘어 사용자의 의도에 더 부합하는 정보 탐색이 이루어 질 수 있는 개선된 방법론을 제시하고자 하였다. 또한, 주식 투자 분야의 경우에는 새로운 정보가 끊임없이 생성되고, 투자자 관점에서는 일반적으로 새롭게 생성된 정보일수록 더 중요하다는 점을 고려하여 자동화된 지식 추출 방법론을 제시하고자 하였다.
  • 이러한 접근 방법은 기존 키워드 중심 검색 방식보다 사용자의 의도에 더 부합하는 방식으로, 사용자의 정보 접근성을 한 차원 높이려는 대표적인 시도이다. 본 연구 역시 주식 투자 분야에 대해 기존의 키워드 중심의 검색을 넘어 사용자의 의도에 더 부합하는 정보 탐색이 이루어 질 수 있는 개선된 방법론을 제시하고자 하였다. 또한, 주식 투자 분야의 경우에는 새로운 정보가 끊임없이 생성되고, 투자자 관점에서는 일반적으로 새롭게 생성된 정보일수록 더 중요하다는 점을 고려하여 자동화된 지식 추출 방법론을 제시하고자 하였다.
  • 본 연구는 자동으로 지식정보를 추출하는 경우 직면하게 되는 위와 같은 과제를 인지하고, 이를 극복하기 위해 뉴럴 텐서 네트워크 모형을 통한 실용적이고 자동화된 주식 개별종목 관련지식 개체명 추출 모형을 제시하고자 한다.
  • 본 연구에서는 모형의 성능 평가에 활용된 종목명 예측 테스트를 통해 의미적인 검색 목적으로 제시된 모형을 활용할 수 있는가를 판단하고자 한다. 그러나 앞선 방식과 같이 자동으로 지식 추출을 시도하는 경우에 아래와 같은 몇 가지 현실적 어려움에 직면한다.
  • 본 연구에서는 사전적인 말뭉치나 추출된 지식의 참·거짓 여부에 대한 라벨 없이 주식 개별종목에 대한 지식을 추출하고 추출 결과에 대한 평가를 진행한다.
  • 마지막으로 비지도 학습의 특성을 가진 지식정보 추출 문제에 대하여 적절한 성능 평가 방법을 제시하였다. 본 연구에서는 종목명 예측 문제를 정의하여 모형의 성능을 평가할 수 있도록 하였는데, 이는 추출된 트리플의 진위 여부를 평가를 전문가가 직접 검토하는 것이 아닌 우회적인 방법으로 수행할 수 있다는 가능성을 제시한다.
  • 반면 Socher 등과 Nickel 등의 기존 연구는 주로 이미 존재하는 노드에 대해 새로운 관계를 찾아내는 것이 목적이었다. 본 연구에서는 주식 개별종목이 주어졌을 때, 해당 종목에 대한 지식을 내포하고 있는 개체명을 추출하고, 그 단어들의 유의미한 연결 조합이라고 할 수 있는 지식 트리플 (개체명1-종목-개체명2)를 만드는 것을 목적으로 한다. 일반적으로 지식을 추출하고자 하는 대상 분야에 대해 충분한 말뭉치가 만들어져 있는 경우는 드물며, 따라서 본 연구에서는 개체명 추출을 위해 대표적인 개체명인식기 (NER, Named Entity Recognition)인 꼬꼬마 (KKMA)를 활용한다 (Lee et al.
  • 따라서 만약 자동지식추출기로 추출된 정보를 이용하여 혼재된 정보 속에서 특정 종목과 관련이 높은 콘텐츠를 분류해낼 수 있다면, 이는 정보 분류 작업에 관하여 전문가처럼 지식을 추출했다고 간주할 수 있을 것이다. 지식은 정의와 활용방법에 따라 다양한 범주가 있겠으나, 본 연구에서는 주식 투자 관점에서 개별종목과 관련이 높은 콘텐츠를 색인화하여 분류해내는 것을 목표로 한다.

가설 설정

  • , 2012). 특히 본 연구의 대상인 주식 투자 분야에서 자동화된 지식 추출이 가질 수 있는 효용을 고려하면, 개별 주식 종목에 대한 지식정보를 보유한 개체명과 그 트리플들을 사전적으로 파악함으로써 주식 정보 검색의 유효성을 높일 수 있다는 가정을 할 수 있다. 가령, 호텔신라 주식에 대해 학습한 결과 호텔신라에 대한 지식정보를 내포하고 있는 것으로 보이는 개체명들이 존재한다고 할 때, 이 개체명들과 교집합이 많은 뉴스 정보를 검색 결과에 상위 노출 시킬 수 있을 것이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
뉴럴 텐서 네트워크 모형을 통한 실용적이고 자동화된 주식 개별종목 지식개체명 추출 방법에 관한 본 연구가 가지는 의의는? 본 연구가 가지는 의의는 다음과 같다. 첫 번째로, 본 연구는 주식 개별종목과 관련된 자연어텍스트로부터 복잡한 언어학적 전처리나 휴리스틱 접근 없이 트리플 데이터를 추출하는 방법론을 제시한다. 주식 투자 분야처럼 복잡하고 광범위한 정보들을 수용하기 위해서는 오히려 유연하고 포괄적인 단순한 트리플 형태가 적합할 수있다. 따라서 본 연구에서는 개체명 인식을 통해 추출된 개체명들 사이의 단순한 조합만으로 트리플을 생성하는 방법을 제시한다. 두 번째로, 주식 개별종목 관련 개체명 정보 추출을 목적으로 뉴럴 텐서 네트워크 모델의 활용 가능성을 확인한다. 기존 뉴럴 텐서 네트워크와 관련된 연구는 이미 존재하는 트리플 데이터베이스 내에서 관계를 추론하는 목적으로 이루어졌다. 그러나 본 연구에서는 사전적인 트리플 데이터베이스없이 개체명을 추출하는 것을 목적으로 활용될 수 있는 가능성을 제시한다. 세 번째로, 정의가 쉽지 않고 모호한 개념의 지식정보를 추출하는 본 연구 모형에 대한 합리적 성능평가 방법을 제시한다.
지식기반기술이란? , 2014). 지식기반기술은 웹상에서 텍스트를 단순한 스트링 정보로 처리하는 것이 아니라 의미적으로 접근하는 것을 말하며, 이는 텍스트가 가지는 지식을 기계가 이해할 수 있는 형태로 전환해야 한다는 문제를 필연적으로 수반한다. 이러한 기계가 이해할 수 있는 형태로의 지식표현과 관련된 다양한 선행연구가 시도되었고, 최근에는 RDF (Resource Description Framework) triple과 월드와이드웹 컨소시엄 (World Wide Web Consortium, W3C)에서 만든 웹 온톨로지 언어인 OWL (Web Ontology Language) 등의 마크업 언어 (Markup Language) 표현방식이 보편적으로 활용되고 있다 (Etzioni et al.
검색엔진이나 음성비서, 챗봇 같은 대화형 어시스턴트 서비스의 핵심인 지식기반기술이 주목받고 있는 이유는? 구글 검색엔진에 적용된 구글 지식저장소 (google knowledge vault) 프로젝트와 마이크로소프트의 Bing 검색엔진에 적용된 사토리 (Satori) 프로젝트 등 시멘틱 검색을 위한 지식기반 (knowledge-based) 애플리케이션의 상용화가 이루어지면서, 검색엔진이나 음성비서, 챗봇 같은 대화형 어시스턴트 서비스의 핵심인 지식기반기술이 주목받고 있다 (Dong et al., 2014).
질의응답 정보가 도움이 되었나요?

참고문헌 (23)

  1. Banko, M., M. J. Cafarella, S. Soderland, M. Broadhead, and O. Etzioni, "Open information extraction from the web," IJCAI, Vol.7, (2007), 2670-2676. 

  2. Bollacker, K., C. Evans, P. Paritosh, T. Sturge, and J. Taylor, "Freebase: a collaboratively created graph database for structuring human knowledge," Proceedings of the 2008 ACM SIGMOD international conference on Management of data, (2008), 1247-1250. 

  3. Del Corro, L., and R. Gemulla, "Clausie: clause-based open information extraction," Proceedings of the 22nd international conference on World Wide Web, (2013), 355-366. 

  4. Dong, X., E. Gabrilovich, G. Heitz, W. Horn, N. Lao, L. Murphy, T. Strohmann, S. Sun, and W. Zhang, "Knowledge vault: A web-scale approach to probabilistic knowledge fusion," Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, (2014), 601-610. 

  5. Epstein, R., G. Roberts, and G. Beber, Parsing the Turing test, Springer, Dordrecht, 2009. 

  6. Etzioni, O., A. Fader, J. Christensen, S. Soderland, and M. Mausam, "Open information extraction: The second generation," IJCAI, Vol.11, (2011), 3-10. 

  7. Fader, A., S. Soderland, and O. Etzioni, "Identifying relations for open information extraction," Proceedings of the conference on empirical methods in natural language processing, (2011), 1535-1545. 

  8. Kim, H., Knowledge Graph, Communication Books, 2017. 

  9. Kim, J. H., and M. Lee, "Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base," Journal of Intelligence and Information Systems, Vol.25, No.1(2019), 43-61. 

  10. Kim, Y., N. Kim, and S. R. Jeong, "Stock-Index Invest Model Using New Big Data Opinion Mining," Journal of Intelligence and Information Systems, Vol.18, No.2(2012), 143-156. 

  11. Lee, D., J. Yeon, I. Hwang, and S. Lee, "KKMA : A Tool for Utilizing Sejong Corpus based on Relational Database," Journal of KIISE : Computing Practices and Letters, Vol.16, No.11(2010), 1046-1050. 

  12. Lee, H. J., and M, Sohn, "Dynamic Virtual Ontology using Tags with Semantic Relationship on Social-web to Support Effective Search," Journal of Intelligence and Information Systems, Vol.19, No.1(2013), 19-33. 

  13. Liu, P., X. Qiu, and X. Huang, "Learning Context-Sensitive Word Embeddings with Neural Tensor Skip-Gram Model," IJCAI, (2015), 1284-1290. 

  14. Mausam, M, "Open information extraction systems and downstream applications," Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence, (2016), 4074-4077. 

  15. Mesquita, F., J. Schmidek, and D. Barbosa, "Effectiveness and efficiency of open relation extraction," Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, (2013), 447-457. 

  16. Navigli, R., and P. Velardi, "Learning domain ontologies from document warehouses and dedicated web sites," Computational Linguistics, Vol.30, No.2(2004), 151-179. 

  17. Nair, S., "A Biomedical Information Extraction Primer for NLP Researchers," arXiv preprint arXiv:1705.05437, (2017). 

  18. Nickel, M., K. Murphy, V. Tresp, and E. Gabrilovich, "A review of relational machine learning for knowledge graphs," Proceedings of the IEEE, Vol.104, No.1(2016), 11-33. 

  19. Schmidek, J., and D. Barbosa, "Improving Open Relation Extraction via Sentence Re-Structuring," LREC, (2014), 3720-3723. 

  20. Schmitz, M., R. Bart, S. Soderland, and O. Etzioni, "Open language learning for information extraction," Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, (2012), 523-534. 

  21. Socher, R., D. Chen, C. D. Manning, and A. Ng, "Reasoning with neural tensor networks for knowledge base completion," Advances in neural information processing systems, (2013), 926-934. 

  22. Turian, J., L. Ratinov, and Y. Bengio, "Word representations: a simple and general method for semi-supervised learning," Proceedings of the 48th annual meeting of the association for computational linguistics, (2010), 384-394. 

  23. Zhang, X., J. Zhao, and Y. LeCun, "Character-level convolutional networks for text classification," Advances in neural information processing systems, (2015), 649-657. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로