$\require{mediawiki-texvc}$
  • 검색어에 아래의 연산자를 사용하시면 더 정확한 검색결과를 얻을 수 있습니다.
  • 검색연산자
검색연산자 기능 검색시 예
() 우선순위가 가장 높은 연산자 예1) (나노 (기계 | machine))
공백 두 개의 검색어(식)을 모두 포함하고 있는 문서 검색 예1) (나노 기계)
예2) 나노 장영실
| 두 개의 검색어(식) 중 하나 이상 포함하고 있는 문서 검색 예1) (줄기세포 | 면역)
예2) 줄기세포 | 장영실
! NOT 이후에 있는 검색어가 포함된 문서는 제외 예1) (황금 !백금)
예2) !image
* 검색어의 *란에 0개 이상의 임의의 문자가 포함된 문서 검색 예) semi*
"" 따옴표 내의 구문과 완전히 일치하는 문서만 검색 예) "Transform and Quantization"
쳇봇 이모티콘
안녕하세요!
ScienceON 챗봇입니다.
궁금한 것은 저에게 물어봐주세요.

논문 상세정보

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구

A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network

초록

정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

Abstract

Selecting high-quality information that meets the interests and needs of users among the overflowing contents is becoming more important as the generation continues. In the flood of information, efforts to reflect the intention of the user in the search result better are being tried, rather than recognizing the information request as a simple string. Also, large IT companies such as Google and Microsoft focus on developing knowledge-based technologies including search engines which provide users with satisfaction and convenience. Especially, the finance is one of the fields expected to have the usefulness and potential of text data analysis because it's constantly generating new information, and the earlier the information is, the more valuable it is. Automatic knowledge extraction can be effective in areas where information flow is vast, such as financial sector, and new information continues to emerge. However, there are several practical difficulties faced by automatic knowledge extraction. First, there are difficulties in making corpus from different fields with same algorithm, and it is difficult to extract good quality triple. Second, it becomes more difficult to produce labeled text data by people if the extent and scope of knowledge increases and patterns are constantly updated. Third, performance evaluation is difficult due to the characteristics of unsupervised learning. Finally, problem definition for automatic knowledge extraction is not easy because of ambiguous conceptual characteristics of knowledge. So, in order to overcome limits described above and improve the semantic performance of stock-related information searching, this study attempts to extract the knowledge entity by using neural tensor network and evaluate the performance of them. Different from other references, the purpose of this study is to extract knowledge entity which is related to individual stock items. Various but relatively simple data processing methods are applied in the presented model to solve the problems of previous researches and to enhance the effectiveness of the model. From these processes, this study has the following three significances. First, A practical and simple automatic knowledge extraction method that can be applied. Second, the possibility of performance evaluation is presented through simple problem definition. Finally, the expressiveness of the knowledge increased by generating input data on a sentence basis without complex morphological analysis. The results of the empirical analysis and objective performance evaluation method are also presented. The empirical study to confirm the usefulness of the presented model, experts' reports about individual 30 stocks which are top 30 items based on frequency of publication from May 30, 2017 to May 21, 2018 are used. the total number of reports are 5,600, and 3,074 reports, which accounts about 55% of the total, is designated as a training set, and other 45% of reports are designated as a testing set. Before constructing the model, all reports of a training set are classified by stocks, and their entities are extracted using named entity recognition tool which is the KKMA. for each stocks, top 100 entities based on appearance frequency are selected, and become vectorized using one-hot encoding. After that, by using neural tensor network, the same number of score functions as stocks are trained. Thus, if a new entity from a testing set appears, we can try to calculate the score by putting it into every single score function, and the stock of the function with the highest score is predicted as the related item with the entity. To evaluate presented models, we confirm prediction power and determining whether the score functions are well constructed by calculating hit ratio for all reports of testing set. As a result of the empirical study, the presented model shows 69.3% hit accuracy for testing set which consists of 2,526 reports. this hit ratio is meaningfully high despite of s

질의응답 

키워드에 따른 질의응답 제공
핵심어 질문 논문에서 추출한 답변
뉴럴 텐서 네트워크 모형을 통한 실용적이고 자동화된 주식 개별종목
뉴럴 텐서 네트워크 모형을 통한 실용적이고 자동화된 주식 개별종목 지식개체명 추출 방법에 관한 본 연구가 가지는 의의는?
첫 번째로, 본 연구는 주식 개별종목과 관련된 자연어텍스트로부터 복잡한 언어학적 전처리나 휴리스틱 접근 없이 트리플 데이터를 추출하는 방법론을 제시한다. 주식 투자 분야처럼 복잡하고 광범위한 정보들을 수용하기 위해서는 오히려 유연하고 포괄적인 단순한 트리플 형태가 적합할 수있다. 따라서 본 연구에서는 개체명 인식을 통해 추출된 개체명들 사이의 단순한 조합만으로 트리플을 생성하는 방법을 제시한다. 두 번째로, 주식 개별종목 관련 개체명 정보 추출을 목적으로 뉴럴 텐서 네트워크 모델의 활용 가능성을 확인한다. 기존 뉴럴 텐서 네트워크와 관련된 연구는 이미 존재하는 트리플 데이터베이스 내에서 관계를 추론하는 목적으로 이루어졌다. 그러나 본 연구에서는 사전적인 트리플 데이터베이스없이 개체명을 추출하는 것을 목적으로 활용될 수 있는 가능성을 제시한다. 세 번째로, 정의가 쉽지 않고 모호한 개념의 지식정보를 추출하는 본 연구 모형에 대한 합리적 성능평가 방법을 제시한다.

본 연구가 가지는 의의는 다음과 같다. 첫 번째로, 본 연구는 주식 개별종목과 관련된 자연어텍스트로부터 복잡한 언어학적 전처리나 휴리스틱 접근 없이 트리플 데이터를 추출하는 방법론을 제시한다. 주식 투자 분야처럼 복잡하고 광범위한 정보들을 수용하기 위해서는 오히려 유연하고 포괄적인 단순한 트리플 형태가 적합할 수있다. 따라서 본 연구에서는 개체명 인식을 통해 추출된 개체명들 사이의 단순한 조합만으로 트리플을 생성하는 방법을 제시한다. 두 번째로, 주식 개별종목 관련 개체명 정보 추출을 목적으로 뉴럴 텐서 네트워크 모델의 활용 가능성을 확인한다. 기존 뉴럴 텐서 네트워크와 관련된 연구는 이미 존재하는 트리플 데이터베이스 내에서 관계를 추론하는 목적으로 이루어졌다. 그러나 본 연구에서는 사전적인 트리플 데이터베이스없이 개체명을 추출하는 것을 목적으로 활용될 수 있는 가능성을 제시한다. 세 번째로, 정의가 쉽지 않고 모호한 개념의 지식정보를 추출하는 본 연구 모형에 대한 합리적 성능평가 방법을 제시한다.

지식기반기술
지식기반기술이란?
웹상에서 텍스트를 단순한 스트링 정보로 처리하는 것이 아니라 의미적으로 접근하는 것

, 2014). 지식기반기술은 웹상에서 텍스트를 단순한 스트링 정보로 처리하는 것이 아니라 의미적으로 접근하는 것을 말하며, 이는 텍스트가 가지는 지식을 기계가 이해할 수 있는 형태로 전환해야 한다는 문제를 필연적으로 수반한다. 이러한 기계가 이해할 수 있는 형태로의 지식표현과 관련된 다양한 선행연구가 시도되었고, 최근에는 RDF (Resource Description Framework) triple과 월드와이드웹 컨소시엄 (World Wide Web Consortium, W3C)에서 만든 웹 온톨로지 언어인 OWL (Web Ontology Language) 등의 마크업 언어 (Markup Language) 표현방식이 보편적으로 활용되고 있다 (Etzioni et al.

지식기반기술
검색엔진이나 음성비서, 챗봇 같은 대화형 어시스턴트 서비스의 핵심인 지식기반기술이 주목받고 있는 이유는?
구글 검색엔진에 적용된 구글 지식저장소 (google knowledge vault) 프로젝트와 마이크로소프트의 Bing 검색엔진에 적용된 사토리 (Satori) 프로젝트 등 시멘틱 검색을 위한 지식기반 (knowledge-based) 애플리케이션의 상용화가 이루어지면서

구글 검색엔진에 적용된 구글 지식저장소 (google knowledge vault) 프로젝트와 마이크로소프트의 Bing 검색엔진에 적용된 사토리 (Satori) 프로젝트 등 시멘틱 검색을 위한 지식기반 (knowledge-based) 애플리케이션의 상용화가 이루어지면서, 검색엔진이나 음성비서, 챗봇 같은 대화형 어시스턴트 서비스의 핵심인 지식기반기술이 주목받고 있다 (Dong et al., 2014).

질의응답 정보가 도움이 되었나요?

참고문헌 (0)

  1. 이 논문의 참고문헌 없음

이 논문을 인용한 문헌 (0)

  1. 이 논문을 인용한 문헌 없음

문의하기 

궁금한 사항이나 기타 의견이 있으시면 남겨주세요.

Q&A 등록

DOI 인용 스타일

"" 핵심어 질의응답