[논문]뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구

양윤석; 이현준; 오경주

doi:10.13088/jiis.2019.25.2.025

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구
A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network 원문보기

지능정보연구 = Journal of intelligence and information systems, v.25 no.2, 2019년, pp.25 - 38

양윤석 (연세대학교 투자정보공학과) , 이현준 (연세대학교 산업공학과) , 오경주 (연세대학교 산업공학과)

초록
AI-Helper

정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

Abstract ▼ AI-Helper

Selecting high-quality information that meets the interests and needs of users among the overflowing contents is becoming more important as the generation continues. In the flood of information, efforts to reflect the intention of the user in the search result better are being tried, rather than recognizing the information request as a simple string. Also, large IT companies such as Google and Microsoft focus on developing knowledge-based technologies including search engines which provide users with satisfaction and convenience. Especially, the finance is one of the fields expected to have the usefulness and potential of text data analysis because it's constantly generating new information, and the earlier the information is, the more valuable it is. Automatic knowledge extraction can be effective in areas where information flow is vast, such as financial sector, and new information continues to emerge. However, there are several practical difficulties faced by automatic knowledge extraction. First, there are difficulties in making corpus from different fields with same algorithm, and it is difficult to extract good quality triple. Second, it becomes more difficult to produce labeled text data by people if the extent and scope of knowledge increases and patterns are constantly updated. Third, performance evaluation is difficult due to the characteristics of unsupervised learning. Finally, problem definition for automatic knowledge extraction is not easy because of ambiguous conceptual characteristics of knowledge. So, in order to overcome limits described above and improve the semantic performance of stock-related information searching, this study attempts to extract the knowledge entity by using neural tensor network and evaluate the performance of them. Different from other references, the purpose of this study is to extract knowledge entity which is related to individual stock items. Various but relatively simple data processing methods are applied in the presented model to solve the problems of previous researches and to enhance the effectiveness of the model. From these processes, this study has the following three significances. First, A practical and simple automatic knowledge extraction method that can be applied. Second, the possibility of performance evaluation is presented through simple problem definition. Finally, the expressiveness of the knowledge increased by generating input data on a sentence basis without complex morphological analysis. The results of the empirical analysis and objective performance evaluation method are also presented. The empirical study to confirm the usefulness of the presented model, experts' reports about individual 30 stocks which are top 30 items based on frequency of publication from May 30, 2017 to May 21, 2018 are used. the total number of reports are 5,600, and 3,074 reports, which accounts about 55% of the total, is designated as a training set, and other 45% of reports are designated as a testing set. Before constructing the model, all reports of a training set are classified by stocks, and their entities are extracted using named entity recognition tool which is the KKMA. for each stocks, top 100 entities based on appearance frequency are selected, and become vectorized using one-hot encoding. After that, by using neural tensor network, the same number of score functions as stocks are trained. Thus, if a new entity from a testing set appears, we can try to calculate the score by putting it into every single score function, and the stock of the function with the highest score is predicted as the related item with the entity. To evaluate presented models, we confirm prediction power and determining whether the score functions are well constructed by calculating hit ratio for all reports of testing set. As a result of the empirical study, the presented model shows 69.3% hit accuracy for testing set which consists of 2,526 reports. this hit ratio is meaningfully high despite of s

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

기존 뉴럴 텐서 네트워크와 관련된 연구는 이미 존재하는 트리플 데이터베이스 내에서 관계를 추론하는 목적으로 이루어졌다. 그러나 본 연구에서는 사전적인 트리플 데이터베이스없이 개체명을 추출하는 것을 목적으로 활용될 수 있는 가능성을 제시한다. 세 번째로, 정의가 쉽지 않고 모호한 개념의 지식정보를 추출하는 본 연구 모형에 대한 합리적 성능평가 방법을 제시한다.
두 번째로, 주식 개별종목 관련 개체명 정보 추출을 목적으로 뉴럴 텐서 네트워크 모델의 활용 가능성을 확인한다. 기존 뉴럴 텐서 네트워크와 관련된 연구는 이미 존재하는 트리플 데이터베이스 내에서 관계를 추론하는 목적으로 이루어졌다. 그러나 본 연구에서는 사전적인 트리플 데이터베이스없이 개체명을 추출하는 것을 목적으로 활용될 수 있는 가능성을 제시한다.
따라서 본 연구에서 뉴럴 텐서 네트워크의 사용 목적은 핵심 개체명 또는 개체명 조합을 파악하는 것이라고 할 수 있다.
따라서 본 연구에서는 개체명 인식을 통해 추출된 개체명들 사이의 단순한 조합만으로 트리플을 생성하는 방법을 제시한다.
특히 문장 단위로 트리플 데이터를 생성함으로써 문서 내에서 서로 가깝게 존재하는 유효한 지식 정보가 추출될 수 있는 가능성을 높였다. 또한 개체명 추출 목적으로 뉴럴텐서 네트워크 모델의 활용 가능성을 제시하였는데, 이는 이미 존재하는 데이터 속에서 관계를 추론하는 목적으로 사용된 선행 연구들과 차별점이 있다. 마지막으로 비지도 학습의 특성을 가진 지식정보 추출 문제에 대하여 적절한 성능 평가 방법을 제시하였다.
본 연구 역시 주식 투자 분야에 대해 기존의 키워드 중심의 검색을 넘어 사용자의 의도에 더 부합하는 정보 탐색이 이루어 질 수 있는 개선된 방법론을 제시하고자 하였다. 또한, 주식 투자 분야의 경우에는 새로운 정보가 끊임없이 생성되고, 투자자 관점에서는 일반적으로 새롭게 생성된 정보일수록 더 중요하다는 점을 고려하여 자동화된 지식 추출 방법론을 제시하고자 하였다.
이러한 접근 방법은 기존 키워드 중심 검색 방식보다 사용자의 의도에 더 부합하는 방식으로, 사용자의 정보 접근성을 한 차원 높이려는 대표적인 시도이다. 본 연구 역시 주식 투자 분야에 대해 기존의 키워드 중심의 검색을 넘어 사용자의 의도에 더 부합하는 정보 탐색이 이루어 질 수 있는 개선된 방법론을 제시하고자 하였다. 또한, 주식 투자 분야의 경우에는 새로운 정보가 끊임없이 생성되고, 투자자 관점에서는 일반적으로 새롭게 생성된 정보일수록 더 중요하다는 점을 고려하여 자동화된 지식 추출 방법론을 제시하고자 하였다.
본 연구는 자동으로 지식정보를 추출하는 경우 직면하게 되는 위와 같은 과제를 인지하고, 이를 극복하기 위해 뉴럴 텐서 네트워크 모형을 통한 실용적이고 자동화된 주식 개별종목 관련지식 개체명 추출 모형을 제시하고자 한다.
본 연구에서는 모형의 성능 평가에 활용된 종목명 예측 테스트를 통해 의미적인 검색 목적으로 제시된 모형을 활용할 수 있는가를 판단하고자 한다. 그러나 앞선 방식과 같이 자동으로 지식 추출을 시도하는 경우에 아래와 같은 몇 가지 현실적 어려움에 직면한다.
본 연구에서는 사전적인 말뭉치나 추출된 지식의 참·거짓 여부에 대한 라벨 없이 주식 개별종목에 대한 지식을 추출하고 추출 결과에 대한 평가를 진행한다.
마지막으로 비지도 학습의 특성을 가진 지식정보 추출 문제에 대하여 적절한 성능 평가 방법을 제시하였다. 본 연구에서는 종목명 예측 문제를 정의하여 모형의 성능을 평가할 수 있도록 하였는데, 이는 추출된 트리플의 진위 여부를 평가를 전문가가 직접 검토하는 것이 아닌 우회적인 방법으로 수행할 수 있다는 가능성을 제시한다.
반면 Socher 등과 Nickel 등의 기존 연구는 주로 이미 존재하는 노드에 대해 새로운 관계를 찾아내는 것이 목적이었다. 본 연구에서는 주식 개별종목이 주어졌을 때, 해당 종목에 대한 지식을 내포하고 있는 개체명을 추출하고, 그 단어들의 유의미한 연결 조합이라고 할 수 있는 지식 트리플 (개체명1-종목-개체명2)를 만드는 것을 목적으로 한다. 일반적으로 지식을 추출하고자 하는 대상 분야에 대해 충분한 말뭉치가 만들어져 있는 경우는 드물며, 따라서 본 연구에서는 개체명 추출을 위해 대표적인 개체명인식기 (NER, Named Entity Recognition)인 꼬꼬마 (KKMA)를 활용한다 (Lee et al.
따라서 만약 자동지식추출기로 추출된 정보를 이용하여 혼재된 정보 속에서 특정 종목과 관련이 높은 콘텐츠를 분류해낼 수 있다면, 이는 정보 분류 작업에 관하여 전문가처럼 지식을 추출했다고 간주할 수 있을 것이다. 지식은 정의와 활용방법에 따라 다양한 범주가 있겠으나, 본 연구에서는 주식 투자 관점에서 개별종목과 관련이 높은 콘텐츠를 색인화하여 분류해내는 것을 목표로 한다.

가설 설정

, 2012). 특히 본 연구의 대상인 주식 투자 분야에서 자동화된 지식 추출이 가질 수 있는 효용을 고려하면, 개별 주식 종목에 대한 지식정보를 보유한 개체명과 그 트리플들을 사전적으로 파악함으로써 주식 정보 검색의 유효성을 높일 수 있다는 가정을 할 수 있다. 가령, 호텔신라 주식에 대해 학습한 결과 호텔신라에 대한 지식정보를 내포하고 있는 것으로 보이는 개체명들이 존재한다고 할 때, 이 개체명들과 교집합이 많은 뉴스 정보를 검색 결과에 상위 노출 시킬 수 있을 것이다.

제안 방법

구축된 모형의 성능 검증을 위해, 리포트 상의 종목명이나 종목코드가 삭제된 상태에서 모형이 스스로 개체명들로부터 종목을 예측하도록 하였다. 테스트 데이터로부터 추출된 트리플을 종목별로 학습된 30개의 스코어 함수에 적용하여 스코어 값을 산출하며, 결국 개체명은 산출된 스코어 값이 가장 큰 함수의 종목과 관련된 콘텐츠라고 해석할 수 있다.
그러나 추출된 개체명 중에는 지식이나 의미를 내포하고 있다고 보기 어려운 단어들도 많으며, 종목별로 추출된 개체명 개수 차이 때문에 벡터화 과정에서 차원이 달라지는 문제가 있다. 따라서 종목별 발생빈도가 높은 상위 100개 개체명으로 제한하여 차원을 일치시키는 제약조건을 설정하였다. 결과적으로 30개 종목에서 추출된 총 3000개의 개체명을 원-핫 인코딩을 통해 벡터화시켰으며, 앞선 Table 1과 같은 방법으로 트리플을 생성하여 학습을 위한 입력 데이터가 완성된다.
또한 개체명 추출 목적으로 뉴럴텐서 네트워크 모델의 활용 가능성을 제시하였는데, 이는 이미 존재하는 데이터 속에서 관계를 추론하는 목적으로 사용된 선행 연구들과 차별점이 있다. 마지막으로 비지도 학습의 특성을 가진 지식정보 추출 문제에 대하여 적절한 성능 평가 방법을 제시하였다. 본 연구에서는 종목명 예측 문제를 정의하여 모형의 성능을 평가할 수 있도록 하였는데, 이는 추출된 트리플의 진위 여부를 평가를 전문가가 직접 검토하는 것이 아닌 우회적인 방법으로 수행할 수 있다는 가능성을 제시한다.
본 연구는 증권사의 주식 개별종목 리포트에서 추출된 개체명들을 트리플 형태로 전환하고 뉴럴 텐서 네트워크 모델을 학습시킨다. 학습을 마친 뉴럴 텐서 네트워크 스코어 함수는 해당 종목과 깊이 연관된 트리플일수록 높은 값을 가짐으로써 핵심 개체명을 보유한 트리플을 파악할 수 있게 해준다.
본 연구에서는 개별 주식 분석 보고서로부터 자동화된 지식정보를 추출하기 위해 개체명 인식과 문장 단위의 트리플 생성 알고리즘을 활용하였으며, 추출된 트리플 데이터에 대하여 뉴럴텐서 네트워크 모델을 구축하여 실증 분석을 진행하였다. 30개 종목에 대해 종목명 예측 결과, 테스트 기간에 속한 총 2,526개 리포트에 대한 종목명 예측 적중률은 평균 약 69%를 나타냈다.
세 번째로, 정의가 쉽지 않고 모호한 개념의 지식정보를 추출하는 본 연구 모형에 대한 합리적 성능평가 방법을 제시한다.
본 연구가 가지는 의의는 다음과 같다. 첫 번째로, 본 연구는 주식 개별종목과 관련된 자연어텍스트로부터 복잡한 언어학적 전처리나 휴리스틱 접근 없이 트리플 데이터를 추출하는 방법론을 제시한다. 주식 투자 분야처럼 복잡하고 광범위한 정보들을 수용하기 위해서는 오히려 유연하고 포괄적인 단순한 트리플 형태가 적합할 수있다.
추출된 개체명들을 대상으로 트리플을 생성하고, 생성된 트리플을 뉴럴 텐서 네트워크에 적용하여 신경망 모형을 구축하였다. 총 N개의 개별종목에 대하여, 종목별로 \(M_N\)개의 각 증권사 리포트를 활용하였다.
, 2009). 튜링은 지능의 정의조차 합의가 쉽지 않은 모호한 개념임에도 불구하고 기계가 지능을 가졌다고 판단할 수 있는 테스트 방식을 제시하였다. 즉, “지능을 가진 실험 참가자가 기계의 응답과 사람의 응답을 구분하지 못한다면 기계가 지능을 가졌다고 간주할 수 있다”라는 논리를 통해 기계의 지능 보유 여부에 대한 테스트 방법을 제시한 것이다.
학습 대상이 되는 리포트 3,074개를 종목별로 취합한 뒤, 각 리포트를 문장 단위로 개체명인식기에 적용하여 개체명을 추출하였다. 그러나 추출된 개체명 중에는 지식이나 의미를 내포하고 있다고 보기 어려운 단어들도 많으며, 종목별로 추출된 개체명 개수 차이 때문에 벡터화 과정에서 차원이 달라지는 문제가 있다.

대상 데이터

제시된 모형의 실증 분석에는 2017년 5월 30일부터 2018년 5월 21일까지 1년간 국내 증권사에서 발행된 26,667개의 종목 분석 리포트 중 발행 빈도 기준으로 상위 30개 종목과 관련된 5,600개의 리포트를 활용하였다. 총 5,600개의 리포트 중 실험 기간의 절반에 해당하는 2017년 5월 30일부터 2017년 11월 24일 사이에 발행된 3,074개의 리포트를 학습데이터로 사용하고, 나머지 2,526개의 리포트를 모델 검증에 사용했다.
제시된 모형의 실증 분석에는 2017년 5월 30일부터 2018년 5월 21일까지 1년간 국내 증권사에서 발행된 26,667개의 종목 분석 리포트 중 발행 빈도 기준으로 상위 30개 종목과 관련된 5,600개의 리포트를 활용하였다. 총 5,600개의 리포트 중 실험 기간의 절반에 해당하는 2017년 5월 30일부터 2017년 11월 24일 사이에 발행된 3,074개의 리포트를 학습데이터로 사용하고, 나머지 2,526개의 리포트를 모델 검증에 사용했다.

이론/모형

이에 반해 Socher 등의 연구에서는 하나의 트리플에서 두 개의 개체명이 가지는 벡터값이 개체명 축에 매핑되며, 이는 하나의 트리플이 하나의 텐서값을 가지는 형태를 의미한다. 이런정의에 따라 Nickel 등은 대규모 텐서 속에서 유의미한 지식 또는 사실을 추출하기 위해 텐서 팩터라이제이션 (factorization)이라는 잠재모형(latent model) 접근법을 활용했다. 반면 Socher 등은 텐서에 대한 인공신경망 모델인 뉴럴 텐서 네트워크 모델을 활용하며, 이미 만들어져 있는 트리플 데이터베이스를 대상으로 새로운 노드간의 관계를 발굴하고자 하였다.
일반적으로 지식을 추출하고자 하는 대상 분야에 대해 충분한 말뭉치가 만들어져 있는 경우는 드물며, 따라서 본 연구에서는 개체명 추출을 위해 대표적인 개체명인식기 (NER, Named Entity Recognition)인 꼬꼬마 (KKMA)를 활용한다 (Lee et al., 2010).
제시된 모형의 학습은 Socher 등이 선행연구와 같이 contrastive max-margin objective 함수를 통해 이루어지며, 최적화 과정에서도 Socher 등이 선행연구에서 사용했던 L-BFGS (Limitedmemory Broyden-Fletcher-Goldfarb-Shanno) 알고리즘을 활용하였다.

성능/효과

30개 종목별 예측 성과를 살펴보면, LG전자, 기아자동차, 그리고 만도 3개 종목의 예측률만 현저하게 낮음을 그래프로 확인할 수 있다 (Figure 2). 이러한 결과는 유사 종목과의 간섭 효과와 새로운 지식의 발생 등을 원인으로 작용했을 수 있다.
본 연구에서는 개별 주식 분석 보고서로부터 자동화된 지식정보를 추출하기 위해 개체명 인식과 문장 단위의 트리플 생성 알고리즘을 활용하였으며, 추출된 트리플 데이터에 대하여 뉴럴텐서 네트워크 모델을 구축하여 실증 분석을 진행하였다. 30개 종목에 대해 종목명 예측 결과, 테스트 기간에 속한 총 2,526개 리포트에 대한 종목명 예측 적중률은 평균 약 69%를 나타냈다. 결과적으로 제시된 방법론은 개별 주식의 주요개체명 데이터를 통해 새롭게 주어진 텍스트가 어느 종목에 관련된 내용인지 파악 가능한 수준이며, 더욱 효과적인 정보 검색 방법론으로써 활용 가능성이 있다고 판단된다.
따라서 종목별 발생빈도가 높은 상위 100개 개체명으로 제한하여 차원을 일치시키는 제약조건을 설정하였다. 결과적으로 30개 종목에서 추출된 총 3000개의 개체명을 원-핫 인코딩을 통해 벡터화시켰으며, 앞선 Table 1과 같은 방법으로 트리플을 생성하여 학습을 위한 입력 데이터가 완성된다.
테스트 데이터로부터 추출된 트리플을 종목별로 학습된 30개의 스코어 함수에 적용하여 스코어 값을 산출하며, 결국 개체명은 산출된 스코어 값이 가장 큰 함수의 종목과 관련된 콘텐츠라고 해석할 수 있다. 예측력 검증 결과, 총 30개 종목의 2,526개 리포트에 대한 예측 적중률 (Hit Ratio)은 평균 약 69.3%를 기록하였다. 이는 모형을 구축하는 과정에서 설정된 현실적인 제약조건들에도 불구하고 유의미하게 높다고 할 수 있다 (Table 2).
상기된 요인들은 뉴럴 텐서 네트워크 모델의 문제가 아니라 입력 데이터의 질과 관련된 문제로, 개체명인식기 선택이나 개체명사전 구축 등을 통한 추가 연구를 통해 극복하기 위한 후속 연구가 필요할 것이다. 이러한 실증 연구 결과들을 통해 우리는 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련 주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.
개체명의 인식과 조합 알고리즘만을 거쳐 자연어 텍스트로부터 자동화된 트리플데이터를 추출하는 것은 금융 투자 분야처럼 정보의 흐름이 빠르고 방대한 분야에서 지속적인 정보 업데이트에 필요한 가장 현실적인 방법이라고 할 수 있다. 특히 문장 단위로 트리플 데이터를 생성함으로써 문서 내에서 서로 가깝게 존재하는 유효한 지식 정보가 추출될 수 있는 가능성을 높였다. 또한 개체명 추출 목적으로 뉴럴텐서 네트워크 모델의 활용 가능성을 제시하였는데, 이는 이미 존재하는 데이터 속에서 관계를 추론하는 목적으로 사용된 선행 연구들과 차별점이 있다.

후속연구

30개 종목에 대해 종목명 예측 결과, 테스트 기간에 속한 총 2,526개 리포트에 대한 종목명 예측 적중률은 평균 약 69%를 나타냈다. 결과적으로 제시된 방법론은 개별 주식의 주요개체명 데이터를 통해 새롭게 주어진 텍스트가 어느 종목에 관련된 내용인지 파악 가능한 수준이며, 더욱 효과적인 정보 검색 방법론으로써 활용 가능성이 있다고 판단된다. 다만 몇 개의 종목에 대한 예측력이 현저하게 낮다는 점 등에서 제시된 방법론은 보완할 여지를 확인할 수 있으며, 이러한 오차는 영어와 합성어 등으로 구성된 개체명을 처리하는 과정에서의 문제점, 유사 종목과의 간섭 효과, 그리고 새로운 지식의 추가적인 발생 등의 원인이 작용했을 것으로 예상된다.
따라서 본 연구에서는 개체명 인식을 통해 추출된 개체명들 사이의 단순한 조합만으로 트리플을 생성하는 방법을 제시한다. 두 번째로, 주식 개별종목 관련 개체명 정보 추출을 목적으로 뉴럴 텐서 네트워크 모델의 활용 가능성을 확인한다. 기존 뉴럴 텐서 네트워크와 관련된 연구는 이미 존재하는 트리플 데이터베이스 내에서 관계를 추론하는 목적으로 이루어졌다.
다만 몇 개의 종목에 대한 예측력이 현저하게 낮다는 점 등에서 제시된 방법론은 보완할 여지를 확인할 수 있으며, 이러한 오차는 영어와 합성어 등으로 구성된 개체명을 처리하는 과정에서의 문제점, 유사 종목과의 간섭 효과, 그리고 새로운 지식의 추가적인 발생 등의 원인이 작용했을 것으로 예상된다. 상기된 요인들은 뉴럴 텐서 네트워크 모델의 문제가 아니라 입력 데이터의 질과 관련된 문제로, 개체명인식기 선택이나 개체명사전 구축 등을 통한 추가 연구를 통해 극복하기 위한 후속 연구가 필요할 것이다. 이러한 실증 연구 결과들을 통해 우리는 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련 주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.
이와 더불어 지속적인 학습 과정 업데이트를 통해 관련 개체명의 변화를 관찰한다면 호텔신라와 관련된 이슈의 변화를 더 쉽게 파악할 수도 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	뉴럴 텐서 네트워크 모형을 통한 실용적이고 자동화된 주식 개별종목 지식개체명 추출 방법에 관한 본 연구가 가지는 의의는?	본 연구가 가지는 의의는 다음과 같다. 첫 번째로, 본 연구는 주식 개별종목과 관련된 자연어텍스트로부터 복잡한 언어학적 전처리나 휴리스틱 접근 없이 트리플 데이터를 추출하는 방법론을 제시한다. 주식 투자 분야처럼 복잡하고 광범위한 정보들을 수용하기 위해서는 오히려 유연하고 포괄적인 단순한 트리플 형태가 적합할 수있다. 따라서 본 연구에서는 개체명 인식을 통해 추출된 개체명들 사이의 단순한 조합만으로 트리플을 생성하는 방법을 제시한다. 두 번째로, 주식 개별종목 관련 개체명 정보 추출을 목적으로 뉴럴 텐서 네트워크 모델의 활용 가능성을 확인한다. 기존 뉴럴 텐서 네트워크와 관련된 연구는 이미 존재하는 트리플 데이터베이스 내에서 관계를 추론하는 목적으로 이루어졌다. 그러나 본 연구에서는 사전적인 트리플 데이터베이스없이 개체명을 추출하는 것을 목적으로 활용될 수 있는 가능성을 제시한다. 세 번째로, 정의가 쉽지 않고 모호한 개념의 지식정보를 추출하는 본 연구 모형에 대한 합리적 성능평가 방법을 제시한다.
	지식기반기술이란?	, 2014). 지식기반기술은 웹상에서 텍스트를 단순한 스트링 정보로 처리하는 것이 아니라 의미적으로 접근하는 것을 말하며, 이는 텍스트가 가지는 지식을 기계가 이해할 수 있는 형태로 전환해야 한다는 문제를 필연적으로 수반한다. 이러한 기계가 이해할 수 있는 형태로의 지식표현과 관련된 다양한 선행연구가 시도되었고, 최근에는 RDF (Resource Description Framework) triple과 월드와이드웹 컨소시엄 (World Wide Web Consortium, W3C)에서 만든 웹 온톨로지 언어인 OWL (Web Ontology Language) 등의 마크업 언어 (Markup Language) 표현방식이 보편적으로 활용되고 있다 (Etzioni et al.
	검색엔진이나 음성비서, 챗봇 같은 대화형 어시스턴트 서비스의 핵심인 지식기반기술이 주목받고 있는 이유는?	구글 검색엔진에 적용된 구글 지식저장소 (google knowledge vault) 프로젝트와 마이크로소프트의 Bing 검색엔진에 적용된 사토리 (Satori) 프로젝트 등 시멘틱 검색을 위한 지식기반 (knowledge-based) 애플리케이션의 상용화가 이루어지면서, 검색엔진이나 음성비서, 챗봇 같은 대화형 어시스턴트 서비스의 핵심인 지식기반기술이 주목받고 있다 (Dong et al., 2014).

참고문헌 (23)

Banko, M., M. J. Cafarella, S. Soderland, M. Broadhead, and O. Etzioni, "Open information extraction from the web," IJCAI, Vol.7, (2007), 2670-2676.
Bollacker, K., C. Evans, P. Paritosh, T. Sturge, and J. Taylor, "Freebase: a collaboratively created graph database for structuring human knowledge," Proceedings of the 2008 ACM SIGMOD international conference on Management of data, (2008), 1247-1250.
Del Corro, L., and R. Gemulla, "Clausie: clause-based open information extraction," Proceedings of the 22nd international conference on World Wide Web, (2013), 355-366.
Dong, X., E. Gabrilovich, G. Heitz, W. Horn, N. Lao, L. Murphy, T. Strohmann, S. Sun, and W. Zhang, "Knowledge vault: A web-scale approach to probabilistic knowledge fusion," Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, (2014), 601-610.
Epstein, R., G. Roberts, and G. Beber, Parsing the Turing test, Springer, Dordrecht, 2009.
Etzioni, O., A. Fader, J. Christensen, S. Soderland, and M. Mausam, "Open information extraction: The second generation," IJCAI, Vol.11, (2011), 3-10.
Fader, A., S. Soderland, and O. Etzioni, "Identifying relations for open information extraction," Proceedings of the conference on empirical methods in natural language processing, (2011), 1535-1545.
Kim, H., Knowledge Graph, Communication Books, 2017.
Kim, J. H., and M. Lee, "Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base," Journal of Intelligence and Information Systems, Vol.25, No.1(2019), 43-61.
Kim, Y., N. Kim, and S. R. Jeong, "Stock-Index Invest Model Using New Big Data Opinion Mining," Journal of Intelligence and Information Systems, Vol.18, No.2(2012), 143-156.
Lee, D., J. Yeon, I. Hwang, and S. Lee, "KKMA : A Tool for Utilizing Sejong Corpus based on Relational Database," Journal of KIISE : Computing Practices and Letters, Vol.16, No.11(2010), 1046-1050.
Lee, H. J., and M, Sohn, "Dynamic Virtual Ontology using Tags with Semantic Relationship on Social-web to Support Effective Search," Journal of Intelligence and Information Systems, Vol.19, No.1(2013), 19-33.

원문보기 상세보기
Liu, P., X. Qiu, and X. Huang, "Learning Context-Sensitive Word Embeddings with Neural Tensor Skip-Gram Model," IJCAI, (2015), 1284-1290.
Mausam, M, "Open information extraction systems and downstream applications," Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence, (2016), 4074-4077.
Mesquita, F., J. Schmidek, and D. Barbosa, "Effectiveness and efficiency of open relation extraction," Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, (2013), 447-457.
Navigli, R., and P. Velardi, "Learning domain ontologies from document warehouses and dedicated web sites," Computational Linguistics, Vol.30, No.2(2004), 151-179.

상세보기
Nair, S., "A Biomedical Information Extraction Primer for NLP Researchers," arXiv preprint arXiv:1705.05437, (2017).
Nickel, M., K. Murphy, V. Tresp, and E. Gabrilovich, "A review of relational machine learning for knowledge graphs," Proceedings of the IEEE, Vol.104, No.1(2016), 11-33.

상세보기
Schmidek, J., and D. Barbosa, "Improving Open Relation Extraction via Sentence Re-Structuring," LREC, (2014), 3720-3723.
Schmitz, M., R. Bart, S. Soderland, and O. Etzioni, "Open language learning for information extraction," Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, (2012), 523-534.
Socher, R., D. Chen, C. D. Manning, and A. Ng, "Reasoning with neural tensor networks for knowledge base completion," Advances in neural information processing systems, (2013), 926-934.
Turian, J., L. Ratinov, and Y. Bengio, "Word representations: a simple and general method for semi-supervised learning," Proceedings of the 48th annual meeting of the association for computational linguistics, (2010), 384-394.
Zhang, X., J. Zhao, and Y. LeCun, "Character-level convolutional networks for text classification," Advances in neural information processing systems, (2015), 649-657.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증