빅데이터 분석을 통한 기업 경영환경에 대한 이해와 통찰을 구하고자 하는 요구가 산업 및 기업 경영 전반에 증가하고 있다. 이러한 사회적 요구에 따라 산업의 이해와 기업 경영의 이해를 위하여 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 기업공시정보를 활용한 연구가 주목을 받고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다. 그러나 아직은 이러한 기업공시자료를 활용한 산업 및 기업 레벨에서 적용가능한 수준의 분석모델이 부족한 것으로 파악된다. 따라서 본 연구에서는 실제 활용 가능한 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 제안하고자 한다. 미국상장기업의 공시자료인 미국 SEC EDGAR 자료를 기반으로 텍스트마이닝알고리즘을 적용하여 산업 및 기업 수준의 경영주제(토픽)에 대한 추이분석이 가능한 모델을 제안하고자한다. SEC EDGAR의 10-K 문서를 대상으로 LDA 토픽 모델링을 통하여 산업 수준에서 전체 산업의 주제분야 분류를 파악하였고, 산업간 비교 측면에서 소프트웨어 산업과 하드웨어 산업 분야의 사례를 통해 최근 20년간의 토픽추이를 비교분석 하였다. 또한 최근 20년간의 기업의 경영주제 변화를 소프트웨어 산업에 속한 2개 기업을 중심으로 살펴보았다. 이를 통해 산업 및 기업 수준에서의 경영주제의 추이 변화를 파악하여 쇠퇴 및 성장 추세에 있는 경영주제를 확인 할 수 있었다. 한편 word2vec워드 임베딩 모델과 주성분분석을 통한 차원 축약을 통해 소프트웨어 산업분야의 기업 및 특정 제품(혹은 서비스)에 대한 매핑을 통해 유사한 경영주제(토픽)를 가지는 기업 및 제품(서비스)을 사례를 통해 파악하였으며, 이를 시간적 흐름에 따른 변화 양상도 관찰할 수 있었다. 본 연구의 목적이 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 개발하기 위한 방법론을 제안한 측면에서, 해외 데이터를 사용하여 산업의 경영주제 변화 추이, 기업의 경영주제 변화 추이를 거시적으로 조망할 수 있는 실무적인 방법론의 제안에서 의의가 있을 수 있다. 한편 기업의 기술경영전략 측면에서 기업의 경영토픽의 잦은 변화, 경영주제의 변화의 속도 등 다양한 변화 양상의 차이에 따른 기업의 매출 등의 경영성과와의 연관성 분석, 실제 기업의 제품포트폴리오의 구성에 따른 기업 간의 경쟁상황 등을 파악하는 미시적 모델 제안을 위한 추가 연구가 요구된다.
빅데이터 분석을 통한 기업 경영환경에 대한 이해와 통찰을 구하고자 하는 요구가 산업 및 기업 경영 전반에 증가하고 있다. 이러한 사회적 요구에 따라 산업의 이해와 기업 경영의 이해를 위하여 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 기업공시정보를 활용한 연구가 주목을 받고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다. 그러나 아직은 이러한 기업공시자료를 활용한 산업 및 기업 레벨에서 적용가능한 수준의 분석모델이 부족한 것으로 파악된다. 따라서 본 연구에서는 실제 활용 가능한 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 제안하고자 한다. 미국상장기업의 공시자료인 미국 SEC EDGAR 자료를 기반으로 텍스트마이닝 알고리즘을 적용하여 산업 및 기업 수준의 경영주제(토픽)에 대한 추이분석이 가능한 모델을 제안하고자한다. SEC EDGAR의 10-K 문서를 대상으로 LDA 토픽 모델링을 통하여 산업 수준에서 전체 산업의 주제분야 분류를 파악하였고, 산업간 비교 측면에서 소프트웨어 산업과 하드웨어 산업 분야의 사례를 통해 최근 20년간의 토픽추이를 비교분석 하였다. 또한 최근 20년간의 기업의 경영주제 변화를 소프트웨어 산업에 속한 2개 기업을 중심으로 살펴보았다. 이를 통해 산업 및 기업 수준에서의 경영주제의 추이 변화를 파악하여 쇠퇴 및 성장 추세에 있는 경영주제를 확인 할 수 있었다. 한편 word2vec 워드 임베딩 모델과 주성분분석을 통한 차원 축약을 통해 소프트웨어 산업분야의 기업 및 특정 제품(혹은 서비스)에 대한 매핑을 통해 유사한 경영주제(토픽)를 가지는 기업 및 제품(서비스)을 사례를 통해 파악하였으며, 이를 시간적 흐름에 따른 변화 양상도 관찰할 수 있었다. 본 연구의 목적이 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 개발하기 위한 방법론을 제안한 측면에서, 해외 데이터를 사용하여 산업의 경영주제 변화 추이, 기업의 경영주제 변화 추이를 거시적으로 조망할 수 있는 실무적인 방법론의 제안에서 의의가 있을 수 있다. 한편 기업의 기술경영전략 측면에서 기업의 경영토픽의 잦은 변화, 경영주제의 변화의 속도 등 다양한 변화 양상의 차이에 따른 기업의 매출 등의 경영성과와의 연관성 분석, 실제 기업의 제품포트폴리오의 구성에 따른 기업 간의 경쟁상황 등을 파악하는 미시적 모델 제안을 위한 추가 연구가 요구된다.
There are increasing needs for understanding and fathoming of business management environment through big data analysis at industrial and corporative level. The research using the company disclosure information, which is comprehensively covering the business performance and the future plan of the co...
There are increasing needs for understanding and fathoming of business management environment through big data analysis at industrial and corporative level. The research using the company disclosure information, which is comprehensively covering the business performance and the future plan of the company, is getting attention. However, there is limited research on developing applicable analytical models leveraging such corporate disclosure data due to its unstructured nature. This study proposes a text-mining-based analytical model for industrial and firm level analyses using publicly available company disclousre data. Specifically, we apply LDA topic model and word2vec word embedding model on the U.S. SEC data from the publicly listed firms and analyze the trends of business topics at the industrial and corporate levels. Using LDA topic modeling based on SEC EDGAR 10-K document, whole industrial management topics are figured out. For comparison of different pattern of industries' topic trend, software and hardware industries are compared in recent 20 years. Also, the changes of management subject at firm level are observed with comparison of two companies in software industry. The changes of topic trends provides lens for identifying decreasing and growing management subjects at industrial and firm level. Mapping companies and products(or services) based on dimension reduction after using word2vec word embedding model and principal component analysis of 10-K document at firm level in software industry, companies and products(services) that have similar management subjects are identified and also their changes in decades. For suggesting methodology to develop analysis model based on public management data at industrial and corporate level, there may be contributions in terms of making ground of practical methodology to identifying changes of managements subjects. However, there are required further researches to provide microscopic analytical model with regard to relation of technology management strategy between management performance in case of related to various pattern of management topics as of frequent changes of management subject or their momentum. Also more studies are needed for developing competitive context analysis model with product(service)-portfolios between firms.
There are increasing needs for understanding and fathoming of business management environment through big data analysis at industrial and corporative level. The research using the company disclosure information, which is comprehensively covering the business performance and the future plan of the company, is getting attention. However, there is limited research on developing applicable analytical models leveraging such corporate disclosure data due to its unstructured nature. This study proposes a text-mining-based analytical model for industrial and firm level analyses using publicly available company disclousre data. Specifically, we apply LDA topic model and word2vec word embedding model on the U.S. SEC data from the publicly listed firms and analyze the trends of business topics at the industrial and corporate levels. Using LDA topic modeling based on SEC EDGAR 10-K document, whole industrial management topics are figured out. For comparison of different pattern of industries' topic trend, software and hardware industries are compared in recent 20 years. Also, the changes of management subject at firm level are observed with comparison of two companies in software industry. The changes of topic trends provides lens for identifying decreasing and growing management subjects at industrial and firm level. Mapping companies and products(or services) based on dimension reduction after using word2vec word embedding model and principal component analysis of 10-K document at firm level in software industry, companies and products(services) that have similar management subjects are identified and also their changes in decades. For suggesting methodology to develop analysis model based on public management data at industrial and corporate level, there may be contributions in terms of making ground of practical methodology to identifying changes of managements subjects. However, there are required further researches to provide microscopic analytical model with regard to relation of technology management strategy between management performance in case of related to various pattern of management topics as of frequent changes of management subject or their momentum. Also more studies are needed for developing competitive context analysis model with product(service)-portfolios between firms.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
기존의 기업공개자료 기반의 텍스트마이닝 기법을 활용한 빅데이터 분석의 연구주제와는 다른 관점의 산업시장분석을 위한 산업 및 기업수준의 경영주제에 대한 변화추이를 파악하고자 하는 모델을 제안하고 사례분석을 통해 그 특성을 파악하고자 한 측면에서 본 연구의 의의가 있다. 또한 분석 자료로써 논문, 특허, 표준 등 기업활동의 경영성과 데이터가 아닌 기업의 경영전략 및 활동 계획을 담은 자료를 활용하여 산업시장분석이라는 분석 목적과 결합한 차별성을 가진다고 볼 수 있다.
이를 각 기업이 속한 산업 수준으로 차원을 높여서 살펴보게 되면 시기별 산업집단의 동적인 경영주제에 대한 변화를 파악할 수 있다. 따라서 본 연구에서는 10-K문서를 대상으로 토픽모델링을 통해 기업 수준 및 산업 수준에서의 시기별 기업 및 산업의 주요 경영활동 주제를 파악하고자 하였다.
따라서 본 연구에서는 국내 산업 분야의 공급사슬망, PEST, SWOT 분석 모듈에 추가하여 산업 및 기업 수준의 경영주제 변화를 통한 경영계획 및 전략 변화 분석 모델 및 산업 및 기업의 제품포트폴리오의 경쟁환경 분석 모듈을 개발하기 위한 선행 연구로써,영문 공개데이터를 활용한 산업 및 기업 수준의 경영주제 분석 및 경쟁상황 파악을 위한 연구를 통해 그 활용 및 구현 가능성을 사전에 파악하고자 한다.
본 연구는 분석 데이터 측면에서, 기존의 특허, 논문 등의 기업 경영활동의 성과정보에 기반한 연구와는 차별적으로 기업의 경영활동 및 경영전략 등 경영계획의 전반적인 내용을 포괄하고 있는 기업의 연례보고서를 활용하였다. 또한 기존 연구들이 기업의 성과 데이터에 기반하여 세부적인 연구목적에 따른 현상의 분석과 미래를 전망하는 연구주제들을 다루는 반면, 본 연구에서는 산업 및 기업 레벨의 경영주제 분석, 경쟁분석 등을 위한 경쟁/유사기업의 파악, 제품-포트폴리오의 분석 등에 기반한 다양한 세부적인 방법론 개발을 위한 기업공시정보의 실무적인 활용가능성의 탐색에 주안점을 두고 있다.
본 연구는 기존연구에서 주로 활용하고 있는 기업 경영 및 연구개발 성과로서의 정보가 아닌 경영활동 및 경영전략 등 경영 계획의 전반적인 내용을 포괄하고 있는 기업공시정보를 활용하는 측면에서 기존연구와의 차별적 특성을 가진다. 또한 기존 연구들이 성과자료에 기반하여 세부적인 연구목적에 따른 현상의 분석과 미래를 전망하는 연구주제들을 다루는 반면, 본 연구에서는 산업 및 기업 레벨의 경영주제 분석, 경쟁분석 등을 위한 경쟁/유사기업의 파악, 제품-포트폴리오의 분석 등에 기반한 다양한 세부적인 방법론 개발을 위한 기업공시정보의 실무적인 활용가능성의 탐색에 주안점을 두고 있다.
이에 기존 연구에서 활용된 데이터를 확장하고 산업 및 기업의 경영 트렌드 및 경쟁환경을 파악할 수 있는 새로운 산업시장분석 모듈 개발을 위하여, 미국 SEC EDGAR의 공시자료를 활용함으로써 공개 비정형 데이터 셋을 확장하고 다년간의 기업의 경영환경에 따른 기업 및 산업 수준에서의 토픽(경영주제)변화를 텍스트마이닝 방법을 적용하여 파악할 수 있는 모델을 제안하고자 한다. 또한 이를 통해 향후 지속적인 연구개발을 통해 구현 가능한 분석 모듈에 대해 살펴보고자 한다.
이를 통해 산업 수준의 토픽, 연도별 개별 기업의 토픽 분포 추이를 파악하고자 하였다. 보다 나아가 연도별 토픽 분포를 종합하여 기업 및 산업의 주요 경영 토픽에 대한 성장 추세 및 쇠퇴 추세를 파악 할 수 있도록 하였다.
그러나 기업경영 성과로서의 재무정보, 연구개발혁신 활동의 결과로서의 특허 및 논문 성과 정보, 표준 정보 등을 활용하여 성과측면에 주안점을 두고 산업의 트렌드 파악 및 산업혁신의 주제,유망 사업 및 연구 분야의 파악 등의 목적을 가지고 있다. 본 연구는 기존연구에서 주로 활용하고 있는 기업 경영 및 연구개발 성과로서의 정보가 아닌 경영활동 및 경영전략 등 경영 계획의 전반적인 내용을 포괄하고 있는 기업공시정보를 활용하는 측면에서 기존연구와의 차별적 특성을 가진다. 또한 기존 연구들이 성과자료에 기반하여 세부적인 연구목적에 따른 현상의 분석과 미래를 전망하는 연구주제들을 다루는 반면, 본 연구에서는 산업 및 기업 레벨의 경영주제 분석, 경쟁분석 등을 위한 경쟁/유사기업의 파악, 제품-포트폴리오의 분석 등에 기반한 다양한 세부적인 방법론 개발을 위한 기업공시정보의 실무적인 활용가능성의 탐색에 주안점을 두고 있다.
본 연구에서는 빅 데이터 분석을 통한 기업경영환경에 대한 이해와 통찰을 구하고자 하는 최근의 요구에 대응하여 공개데이터 기반의 텍스트마이닝 방법론을 적용한 산업시장분석 측면에서의 새로운 산업 및 기업 수준의 분석모델을 제안하고자 하였다. 산업시장분석 시스템 개발 관련 연구로 금융감독원에서 운영하는 전자공시시스템(DART)의사업보고서(연간) 및 국내 증권사의 산업 및 기업 분석 보고서를 활용하여 텍스트마이닝을 통한 공급사슬망 분석 모델개발 연구와 텍스트마이닝 기반 문장추출 및 긍부정 분류연구를 통한 PEST, SWOT 분석 모듈 개발 연구가 선행되었다.
이들 시스템 역시 기업 성과로서의 정보인 특허와 논문정보를 기반으로 하고 있으며, 제품 측면에서는 미국 제품코드를 기반으로 기술-제품을 매칭하여 기술적 측면에서의 서비스를 제공하고 있다. 본 연구에서는 특허, 논문, 제품 정보를 활용하지 않고 기업 경영활동계획을 포괄하고 있는 기업공시정보를 활용한 측면에서 차이점을 보인다. TOD 및 COMPAS 시스템은 2010년대 이후로 지속적인 연구개발을 통해 정교한 모듈의 개발 및 서비스 솔루션 개발에 기반하여 높은 수준의 서비스를 제공하는 시스템으로써 본 연구는 기업경영정보에 기반한 기술경영분석 방법론을 통해 향후 TOD 및 COMPAS시스템과 같은 수준의 시스템을 개발 할 수 있을 것으로 기대된다.
또한 Gémar and Jiménez-Quintero(2015)는 facebook, twitter, linkedin 등의 SNS(Social NetworkService) 데이터를 이용하여 SNS의 감성 정보를 분류하여 기업 재무성과와의 연관성을파악하는 연구를 하였다. 이들 연구는 산업시장분석의 SWOT 분석과 의사결정을 위한모듈의 개발, 소비자 성향을 통한 경영환경의 파악 등의 목적으로 본 연구는 이와는 다른 연구방향을 가지는 차별성을 가지고 있다.
, 2004). 이러한 연구는 연례 보고서의 차별화된 정보에 대한 시장 반응과 주식가격 등에 대한 사례 연구 중심으로 진행되었다
이에 산업의 조망 보다는 기업의 경쟁상황을 파악하고 경쟁(유사)기업 간의 경쟁환경을 유추할 수 있으며 키워드 정제의 이슈에서 큰 제한점이 없는, 워드임베딩 방법을 통하여 보다 심도 있는 분석방법 개발 가능성을 파악하고자 하였다. 이를 통해 기업의 경쟁관계를 파악하고, 시간적 추이별로 기업의 경영주제 혹은 제품/서비스 토픽 측면에서의 경쟁기업(유사기업)을 파악하고자 하였다.
따라서, 본 연구에서는 1995년부터 2016년까지 수집된 10-K문서로부터 말뭉치(text corpus)를 구성하고 토픽모델을 구성하였다. 이를 통해 산업 수준의 토픽, 연도별 개별 기업의 토픽 분포 추이를 파악하고자 하였다. 보다 나아가 연도별 토픽 분포를 종합하여 기업 및 산업의 주요 경영 토픽에 대한 성장 추세 및 쇠퇴 추세를 파악 할 수 있도록 하였다.
이에 본 연구는 향후 산업 및 기업 수준의 경영주제변화를 통한 경영계획 및 전략 변화 분석 모델 및 산업 및 기업의 제품포트폴리오의 경쟁환경 분석 모듈을 개발하기 위한 선행 연구로 수행되었다. 이를 통해 영문 공개데이터를 활용한 산업 및 기업 수준의 경영주제 분석 및 경쟁상황 파악을 위한 연구를 통해 그 활용 및 구현 가능성을 파악하고자 하였다.
(2017)은 10-K문서의 item7(MD & A)에 텍스트마이닝을 적용하여 M&A 거래의 취득자 혹은 피인수자가 될지를 예측하는 모델을 구축하였다. 이를 통해 인수 목표 대상이 될 확률에 영향을 미치는 문구를 확인하였다
각 단어를 50차원 공간에 임베딩하였으며 시각적 표현을 위하여 주성분분석(PCA)을 통해 이를 2차원으로 축약하였다. 이를 통해 전체 기간에서의 기업관계를 파악하고, 시간적 추이별로 기업의 토픽(경영주제) 측면에서의 경쟁기업(유사기업)을 파악하고자 하였다.
이에 기존 연구에서 활용된 데이터를 확장하고 산업 및 기업의 경영 트렌드 및 경쟁환경을 파악할 수 있는 새로운 산업시장분석 모듈 개발을 위하여, 미국 SEC EDGAR의 공시자료를 활용함으로써 공개 비정형 데이터 셋을 확장하고 다년간의 기업의 경영환경에 따른 기업 및 산업 수준에서의 토픽(경영주제)변화를 텍스트마이닝 방법을 적용하여 파악할 수 있는 모델을 제안하고자 한다. 또한 이를 통해 향후 지속적인 연구개발을 통해 구현 가능한 분석 모듈에 대해 살펴보고자 한다.
그러나 한글 기반의 전처리를 통한 어휘 및 문장 해석의 어려움에 따른 분류 성능의 한계로, 시스템 구현을 위한 신뢰도가 낮은 문제점을 보였다. 이에 본 연구는 향후 산업 및 기업 수준의 경영주제변화를 통한 경영계획 및 전략 변화 분석 모델 및 산업 및 기업의 제품포트폴리오의 경쟁환경 분석 모듈을 개발하기 위한 선행 연구로 수행되었다. 이를 통해 영문 공개데이터를 활용한 산업 및 기업 수준의 경영주제 분석 및 경쟁상황 파악을 위한 연구를 통해 그 활용 및 구현 가능성을 파악하고자 하였다.
기존 연구들은 SEC EDGAR 자료를 활용하여 투자성과와 기업활동 성과간의 관계에 주목하거나 일부 경영환경 네트워크 및 M&A 등의 특정 부분에 국한하여 이루어졌다. 이에 본 연구에서는 산업 및 기업레벨의 기업경영의 주제를 종단적 및 횡단적으로 파악하고자 하는 분석 모델을 제안하였다.
이에 산업의 조망 보다는 기업의 경쟁상황을 파악하고 경쟁(유사)기업 간의 경쟁환경을 유추할 수 있으며 키워드 정제의 이슈에서 큰 제한점이 없는, 워드임베딩 방법을 통하여 보다 심도 있는 분석방법 개발 가능성을 파악하고자 하였다. 이를 통해 기업의 경쟁관계를 파악하고, 시간적 추이별로 기업의 경영주제 혹은 제품/서비스 토픽 측면에서의 경쟁기업(유사기업)을 파악하고자 하였다.
제안 방법
10-K문서를 활용하여 LDA 토픽 모델링을 통해 전 산업의 경영주제의 관찰과 관찰 기간내에서의 경영주제의 변화를 확인하였다. 또한, 소프트웨어 산업과 하드웨어 산업의 사례분석 결과 산업간 경영주제의 차이를 관찰할 수 있었다.
1995년부터 2016년까지의 10-K 문서를 기반으로 기업 및 산업수준의 경영주제의 변화 추이 분석을 위한 LDA 토픽 모델링 수행하여 와 같이 20개의 주제분야를 파악하였다.
(2014)은 투자자들에게 경영 변화, 주요 법적 계약, 합병 등과 같은 중대한 사건을 알리는 1994년부터 2012년까지의 8-K문서를 활용하여 기업의 소셜 네트워크(618,067개 node 및 170만 개 edge)를 구축했다. 8-K문서에서 사람, 조직, 위치 및 기타객체 유형을 추출하기 위해 명명된 객체 인식을 사용하고 다양한 유형의 회사 관계를 표현하기 위해 확고한 관계 유형 분류를 구성하였다. 또한 Dyer et al.
본 분석에서는 CIK(기업고유식별자)를 기준으로 기업별로 10-K 문서를 전 기간, 5년 단위 분석기간별로 데이터 셋을 구축하여 워드임베딩 모델을 구축하고 기업과의 매칭을 통해 색인(indexing)을 하였다. 각 기업별 구축된 전 기간 및 5년 단위 구분기간의 워드임베딩 및 주성분분석 결과 값을 매핑하여 경영주제가 유사한 기업을 파악하였다. IBM사와 Apple사를 대상으로 비교분석하였다.
이에 본 연구에서는 1995년부터 2015년까지 10-K 문서의 item1의 연속 어휘 셋을 구축하여, word2vec 모델을 학습시키고 unigram 및 bigram 모델을 적용하였다. 각 단어를 50차원 공간에 임베딩하였으며 시각적 표현을 위하여 주성분분석(PCA)을 통해 이를 2차원으로 축약하였다. 이를 통해 전체 기간에서의 기업관계를 파악하고, 시간적 추이별로 기업의 토픽(경영주제) 측면에서의 경쟁기업(유사기업)을 파악하고자 하였다.
경쟁측면 관점에서 기업수준의 경영주제 파악을 위해 1995년부터 2015년까지의 10-K 문서의 item1의 연속 어휘 셋을 구축하고 word2vec 워드임베딩 모델을 학습시켰다. 각 어휘를 50차원 공간에 임베딩하고 주성분분석(PCA)을 통해 이를 2차원으로 축약하였다. 이를 통해 살펴볼 수 있는 전 기간에 대한 정적인 측면의 경영주제 파악과 시간적 추이별 기업의 경영주제 혹은 제품/서비스 토픽의 변화를 확인하였다.
경쟁측면 관점에서 기업수준의 경영주제 파악을 위해 1995년부터 2015년까지의 10-K 문서의 item1의 연속 어휘 셋을 구축하고 word2vec 워드임베딩 모델을 학습시켰다. 각 어휘를 50차원 공간에 임베딩하고 주성분분석(PCA)을 통해 이를 2차원으로 축약하였다.
경쟁측면의 기업경영주제 특성 분석모델 및 사례연구를 위해 word2vec 워드임베딩모델링과 PCA방법론을 활용하여 기업의 주요 제품/서비스, 경쟁(유사)기업 관찰하였다. 이를 위해 IT 기업인 Google을 사례로 분석하였으며, 해당 분야의 제품/서비스 차이에 따른 경영주제를 바라보는 경영전략의 차이를 엿보고자 ‘android’와 ‘iphone’을 키워드로 특징을 살펴보았다.
두 번째로, 기업측면에서 1995년부터 2015년 기간을 대상으로 한 분석과 5년을 단위로 기간별 시점을 분할하여 동적 변화를 파악하였다. 본 분석에서는 CIK(기업고유식별자)를 기준으로 기업별로 10-K 문서를 전 기간, 5년 단위 분석기간별로 데이터 셋을 구축하여 워드임베딩 모델을 구축하고 기업과의 매칭을 통해 색인(indexing)을 하였다.
주요 분석 대상으로 선정한 연례보고서인 10-K문서를 중심으로 산업표준분류코드기반 매칭을 통해 고빈도 산업을 관찰하였고, 그 결과 6000-6799(Finance, Insurance andReal Estate), 6189(Asset-Backed Securities), 6022(State Commercial Banks),6798(Real Estate Investment Trusts) 산업 순으로 많은 비중을 보이고 있음을 확인할 수 있었다. 또한 CIK(고유식별정보)의 지역별 정보를 활용하여 텍사스주와 캘리포니아주를 사례로 하여 산업 비중의 차이를 관찰하였다.
두 번째로, 기업측면에서 1995년부터 2015년 기간을 대상으로 한 분석과 5년을 단위로 기간별 시점을 분할하여 동적 변화를 파악하였다. 본 분석에서는 CIK(기업고유식별자)를 기준으로 기업별로 10-K 문서를 전 기간, 5년 단위 분석기간별로 데이터 셋을 구축하여 워드임베딩 모델을 구축하고 기업과의 매칭을 통해 색인(indexing)을 하였다. 각 기업별 구축된 전 기간 및 5년 단위 구분기간의 워드임베딩 및 주성분분석 결과 값을 매핑하여 경영주제가 유사한 기업을 파악하였다.
본 분석에서는 파싱된 전체 어휘를 기준으로 특정 키워드인 ‘google’, ‘android’, ‘iphone’을 각각의 사례로 하여 분석을 수행하였다.
본 연구는 분석 데이터 측면에서, 기존의 특허, 논문 등의 기업 경영활동의 성과정보에 기반한 연구와는 차별적으로 기업의 경영활동 및 경영전략 등 경영계획의 전반적인 내용을 포괄하고 있는 기업의 연례보고서를 활용하였다. 또한 기존 연구들이 기업의 성과 데이터에 기반하여 세부적인 연구목적에 따른 현상의 분석과 미래를 전망하는 연구주제들을 다루는 반면, 본 연구에서는 산업 및 기업 레벨의 경영주제 분석, 경쟁분석 등을 위한 경쟁/유사기업의 파악, 제품-포트폴리오의 분석 등에 기반한 다양한 세부적인 방법론 개발을 위한 기업공시정보의 실무적인 활용가능성의 탐색에 주안점을 두고 있다.
토픽모델링 분석을 통해 도출된 결과 값을 시각화하였다. 분석된 토픽모델링 결과와 정형데이터(MySQL) 서버의 메타데이터와 연계하여 인덱싱을매칭하여 시각화 시스템을 구성하였다.
수집 데이터 중 구조화된 데이터(CIK 등 메타데이터 값)는 관계형 SQL 데이터베이스(MySQL)에 저장하였다. 비정형 데이터는 문서내 문구를 파싱(parsing)하여 처리하였다. 이렇게 전처리된 비정형 데이터(추출 텍스트 단어 및 구문)는NoSQL 데이터베이스(MongoDB)에 저장하였다.
산업별 경영주제의 차이를 파악하기 위해 소프트웨어(software, SIC=73xx) 산업분야와 하드웨어(hardware, SIC=35xx) 산업분야를 비교분석하였다. 도출된 20개 토픽 내용을 비교한 결과, 각 산업분야별 특징을 비교적 잘 나타내는 토픽들이 도출되었음을 확인할 수 있다.
이를 위해 IT 기업인 Google을 사례로 분석하였으며, 해당 분야의 제품/서비스 차이에 따른 경영주제를 바라보는 경영전략의 차이를 엿보고자 ‘android’와 ‘iphone’을 키워드로 특징을 살펴보았다.
각 어휘를 50차원 공간에 임베딩하고 주성분분석(PCA)을 통해 이를 2차원으로 축약하였다. 이를 통해 살펴볼 수 있는 전 기간에 대한 정적인 측면의 경영주제 파악과 시간적 추이별 기업의 경영주제 혹은 제품/서비스 토픽의 변화를 확인하였다.
따라서 산업 및 기업을 조망하는 방법론에서 보다 확장하여 기업의 경쟁상황을 비교하기 위해서는 LDA 토픽 모델링 방법보다 Word2vec 모델을 통한 접근이 보다 적절하다. 이에 본 연구에서는 1995년부터 2015년까지 10-K 문서의 item1의 연속 어휘 셋을 구축하여, word2vec 모델을 학습시키고 unigram 및 bigram 모델을 적용하였다. 각 단어를 50차원 공간에 임베딩하였으며 시각적 표현을 위하여 주성분분석(PCA)을 통해 이를 2차원으로 축약하였다.
본 절에서는 산업코드를 4자리를 기준으로 하여 0100-8999를 대상으로 산업의 경영주제 변화를 살펴보았다. 전 산업을 대상으로 하여서는 4자리 코드 전체를 살펴보았으며,소프트웨어 산업(73xx)과 하드웨어 산업(35xx) 비교 분석에서는 산업코드의 상위 2자리를 기준으로 하여 분석하여 차이를 살펴보았다. 그러나 산업 수준에서의 조망 관점을 SIC 상위 1자리 코드 기준(1xxx 혹은 7xxx) 혹은 SIC 상위 3자리 코드 기준(353x 혹은 738x)으로 산업의 범위를 높이거나 낮추어서 산업의 경영주제 추이 변화를 살펴 볼 수도 있을 것이다
지역별 차이를 표준산업코드별 기업 비중을 텍사스 주와 캘리포니아 주를 대상으로 기업 분포를 살펴보았다. 텍사스 주는 석유 및 천연가스(petroleum & natural gas)와 오일 및 가스탐사/서비스(oil & gas exploration/services) 산업의 비중이 크고, 캘리포니아주는 컴퓨터, 데이터 처리(computer, data processing), 의료(medical) 산업의 비중이 높은 것을 알 수 있다.
첫 번째로, 전체 기간을 대상으로 IT분야의 기업인 ‘google’과 스마트폰 시장의 대표적인 제품인 ‘android’와 ‘iphone’을 키워드로 하여 경쟁(유사) 기업 및 제품/서비스를 사례로 분석하였다.
파싱 처리된 자료구조를 대상으로 텍스트마이닝 알고리즘(LDA 토픽 모델링, word2vec 모델링)을 사용하여 특성(feature)을 추출하고 분석을 수행하였다. 토픽모델링 분석을 통해 도출된 결과 값을 시각화하였다. 분석된 토픽모델링 결과와 정형데이터(MySQL) 서버의 메타데이터와 연계하여 인덱싱을매칭하여 시각화 시스템을 구성하였다.
이렇게 전처리된 비정형 데이터(추출 텍스트 단어 및 구문)는NoSQL 데이터베이스(MongoDB)에 저장하였다. 파싱 처리된 자료구조를 대상으로 텍스트마이닝 알고리즘(LDA 토픽 모델링, word2vec 모델링)을 사용하여 특성(feature)을 추출하고 분석을 수행하였다. 토픽모델링 분석을 통해 도출된 결과 값을 시각화하였다.
이를 위해 IT 기업인 Google을 사례로 분석하였으며, 해당 분야의 제품/서비스 차이에 따른 경영주제를 바라보는 경영전략의 차이를 엿보고자 ‘android’와 ‘iphone’을 키워드로 특징을 살펴보았다. 한편 IT분야의 장기간의 경영주제와 경쟁(유사)기업 관찰과 시기별 경쟁(유사)기업을 파악할 수 있도록 IT분야의 IBM과 Apple을 사례로 관찰하였다. android와 iphone 키워드를 활용한 비교분석을 통해 기업 경영을 바라보는 경쟁전략의 차이를 확인할 수 있었으며, IBM과 Apple사의 비교분석을 통해 각 기업의 경쟁(유사)기업의 시기별 변화 추이를 확인하고, 경쟁(유사)기업의 시기별 유지 상황을 추정할 수 있었다.
대상 데이터
각 기업별 구축된 전 기간 및 5년 단위 구분기간의 워드임베딩 및 주성분분석 결과 값을 매핑하여 경영주제가 유사한 기업을 파악하였다. IBM사와 Apple사를 대상으로 비교분석하였다.
앞 절에서 서술한 분석 데이터를 수집하고 분석하기 위하여 <그림 1>과 같이 시스템을 구축하였다. SEC EDGAR를 통해 1995년부터 2017년까지 원자료(raw data)를 스크래핑을 통해 수집하였다. 수집 데이터 중 구조화된 데이터(CIK 등 메타데이터 값)는 관계형 SQL 데이터베이스(MySQL)에 저장하였다.
(2016)은 이러한 LDA 토픽 모델링이 데이터 기반 산업 분류에 적용될 수 있음을 보였다. 따라서, 본 연구에서는 1995년부터 2016년까지 수집된 10-K문서로부터 말뭉치(text corpus)를 구성하고 토픽모델을 구성하였다. 이를 통해 산업 수준의 토픽, 연도별 개별 기업의 토픽 분포 추이를 파악하고자 하였다.
이러한 여러 종류의 데이터 소스는 기업의 경영활동과 전략 및 계획, 소비자 반응, 거시경제 등 다양한 관점에서 분석에 활용될 수 있으나, 정보의 접근성과 정보의 지속적인 활용성을 고려하였을 때, 본 연구에서는 상장기업의 공시자료를 활용하였다. 미국유가증권시장에 상장된 모든 상장 회사의 정기적인 보고 자료는 SEC의 EDGAR를 통해 획득할 수 있다. EDGAR는 매일 모든 파일을 압축 파일로 제공하며, <표 1>과 같이 SEC 제출 서류에는 10-K,10-Q, 8-K 및 여러 서류가 포함 되어 있다.
본 연구에서 활용하고자 하는 데이터는 10-K문서로, 이는 와 같이 part와 item 별로 각 항목의 목적에 맞게 구성이 되어 있다.
본 절에서는 산업코드를 4자리를 기준으로 하여 0100-8999를 대상으로 산업의 경영주제 변화를 살펴보았다. 전 산업을 대상으로 하여서는 4자리 코드 전체를 살펴보았으며,소프트웨어 산업(73xx)과 하드웨어 산업(35xx) 비교 분석에서는 산업코드의 상위 2자리를 기준으로 하여 분석하여 차이를 살펴보았다.
이를 통해 최종 구축된 데이터 셋은 총 727종의 문서에 대해 약 114만개의 문서로 구성되어 있으며, 이들은 450개 산업분야의 520,735개(CIK기준) 객체(기업 및 개인)를 포함한다. 이들은 251개주(비 미국 기업 포함)에 분포하였으며, 최종적으로 본 연구에서는 1995년부터 2017년 사이의 162,688개의 10-K문서를 활용하였다
또한 비상장 기업에 대한 Crunchbase, CBInsight, Angelist 등의 신생기업 및 M&A 등의 정보를 제공하는 유료 데이터도 있으며, 소셜미디어 데이터, 거시환경정보를 제공하는 OECD 및 세계은행 등의 공개 데이터를 활용할 수 있다. 이러한 여러 종류의 데이터 소스는 기업의 경영활동과 전략 및 계획, 소비자 반응, 거시경제 등 다양한 관점에서 분석에 활용될 수 있으나, 정보의 접근성과 정보의 지속적인 활용성을 고려하였을 때, 본 연구에서는 상장기업의 공시자료를 활용하였다. 미국유가증권시장에 상장된 모든 상장 회사의 정기적인 보고 자료는 SEC의 EDGAR를 통해 획득할 수 있다.
이를 위해 기업의 경영활동에 대한 비정형 공개데이터로 주로 활용되는 미국 증권거래위원회(SEC)의 EDGAR의 기업공시자료를 활용하였다. 기존 연구들은 SEC EDGAR 자료를 활용하여 투자성과와 기업활동 성과간의 관계에 주목하거나 일부 경영환경 네트워크 및 M&A 등의 특정 부분에 국한하여 이루어졌다.
이를 통해 최종 구축된 데이터 셋은 총 727종의 문서에 대해 약 114만개의 문서로 구성되어 있으며, 이들은 450개 산업분야의 520,735개(CIK기준) 객체(기업 및 개인)를 포함한다. 이들은 251개주(비 미국 기업 포함)에 분포하였으며, 최종적으로 본 연구에서는 1995년부터 2017년 사이의 162,688개의 10-K문서를 활용하였다
각 part와 item으로부터 텍스트 데이터를 추출하기 위하여 키워드 기반 정규식을 사용하였으며, 이를 통해 10-K 문서의 구문분석을 수행할 수 있도록 하였다. 추출된 텍스트 데이터는 구조화되지 않은 비정형 데이터로써 NoSQL DB인 MongoDB를 활용하여 구문 데이터를 분석에 활용하였다.
데이터처리
본 연구에서 활용하고자 하는 데이터는 10-K문서로, 이는 <표 2>와 같이 part와 item 별로 각 항목의 목적에 맞게 구성이 되어 있다. 각 part와 item으로부터 텍스트 데이터를 추출하기 위하여 키워드 기반 정규식을 사용하였으며, 이를 통해 10-K 문서의 구문분석을 수행할 수 있도록 하였다. 추출된 텍스트 데이터는 구조화되지 않은 비정형 데이터로써 NoSQL DB인 MongoDB를 활용하여 구문 데이터를 분석에 활용하였다.
이론/모형
(2016)은 1996년부터 2013년까지의 10-K문서를 통해 기업경영활동 부문의 세부 주제의 추세를 파악하였다. 150가지 주제를 추출하기 위해 LDA(Latent Dirichlet Allocation) 주제 모델링을 사용했다. 새로운 FASB(Financial Accounting Standards Board) 및 SEC 요구 사항으로 인해 공정가치, 내부 통제 및 위험 요소 공개와 같은 3가지 주제와 관련된 부분이 늘어났음을 확인하였다.
기술경영분야의 산업시장분석을 위한 분석 시스템 모듈개발을 위하여, 한국과학기술정보연구원(KISTI)에서는 우리나라 금융감독원에서 운영하는 국내 상장기업의 전자공시시스템(DART)의 사업보고서(연간발행) 및 국내 증권사의 산업 및 기업 분석 보고서를 활용하여 텍스트마이닝을 통한 공급사슬망 분석 모델을 개발하기 위한 사례연구를 통해 활용가능성을 파악하는 연구를 수행하였다(박선영, 2016). 또한, KISTI는 산업시장분석을 위한 PEST, SWOT분석 모듈 개발을 위하여 한국과학기술정보연구원에서 발간한 산업시장보고서를 활용하여 텍스트마이닝 기반 문장추출 및 긍부정 분류를 위한 기계학습 연구를 수행하였다(김유성 외, 2017). 그러나 활용 데이터의 질적 특성상 한글 기반의 전처리를 통한 어휘 및 문장 해석의 어려움에 따른 분류 성능의 한계점을 보였다.
성능/효과
10-K 자료를 기준으로 미국 전역의 SIC(산업표준분류코드)기반 매칭결과,6000-6799(Finance, Insurance and Real Estate) 코드 산업이 가장 높은 빈도를 보였으며, 세부적으로 6189(Asset-Backed Securities), 6022(State Commercial Banks),6798(Real Estate Investment Trusts) 산업 순으로 많은 비중을 보였다. 이외에 타 산업 코드 중에서는 1311(Crude Petroleum & Natural Gas), 1000(Metal Mining)이 상대적으로 많은 것으로 확인되었다.
또한, 소프트웨어 산업과 하드웨어 산업의 사례분석 결과 산업간 경영주제의 차이를 관찰할 수 있었다. 1996년부터 2016년까지의 20년 동안의 전체 산업의 장기간 토픽 변화 추이를 확인한 결과, 과거의 각각의 독립적인 토픽별 산업들이 자신의 분야를 비교적 독립적으로 유지하고 있었다면, 최근에는 분야 간의 융복합화가 이루어짐을 추정할 수 있었고, 2007년의 세계경제위기 당시에는 전산업분야의 경영활동이 크게 위축되었음도 관찰할 수 있었다. 소프트웨어 산업에 대한 경영주제 변화를 종단적으로 확인한 결과 주요 경영주제의 성장(토픽18:shares,securities, item), 토픽2:ability, adversely, subject)과 쇠퇴(토픽16:equipment,partnership, lease)의 흐름을 확인하였다.
소프트웨어 산업(SIC=73xx)의 경영주제의 시간적 추이 변화를 사례로 분석한 결과<그림 9>와 같이 나타났으며, 토픽16(equipment, partnership, lease)의 경우 1996년에 정점에 이른 후 최근까지 지속적으로 하락하고 있고, 토픽9(president, vice, executive)는1996년에 급격히 상승한 후 2004년까지 가장 대표적인 주제로 자리잡았으나, 급격히 쇠퇴하였고, 토픽10(applications, support, solutions) 역시 토픽9와 유사한 패턴을 보이고있다. 2007년 이후 가장 상승세가 높은 경영주제로는 토픽18(shares, securities, item)과토픽2(ability, adversely, subject)로 확인되어, 각 시기별 소프트웨어 산업의 경영상황을 비교적 잘 반영하고 있는 것으로 관찰되었다.
4000-4999(Transportation,Communications, Electric, Gas and Sanitary service) 분야에서는 4813(TelephoneCommunications (No Radiotelephone)) 산업이, 5200-5999(Retail Trade) 분야에서는 5812(Retail-Eating Places) 산업이, 6000-6799(Finance, Insurance and Real Estate) 분야에서는 6770(Blank Checks) 산업이, 7000-8999(Services) 분야에서는 8731(Services-Commercial Physical & Biological Research) 산업이 비교적 높은 비중을 차지하고 있었으며, 전반적으로 2002년부터 2008년에 정점에 도달할 때까지 산업이 성장세를 유지한 후, 2012년까지 쇠퇴하였으며, 이후 2015년까지 다시 회복세에 이른 후유지하고 있는 것으로 확인되었다.
LDA모델링과 word2vec 워드임베딩 모델을 통해 산업 및 기업 수준의 경영주제 변화를 통한 성장분야와 쇠퇴 분야를 파악할 수 있도록 하였으며, 기업 수준에서 경쟁(유사)기업을 파악할 수 있는 분석 방법을 제시하고, 소프트웨어 및 하드웨어 산업과의 비교,IT 분야 기업의 몇 가지 사례분석을 통해 기업 경영주제 및 경영전략의 특징을 엿볼 수 있는 결과를 확인할 수 있었다.
한편 IT분야의 장기간의 경영주제와 경쟁(유사)기업 관찰과 시기별 경쟁(유사)기업을 파악할 수 있도록 IT분야의 IBM과 Apple을 사례로 관찰하였다. android와 iphone 키워드를 활용한 비교분석을 통해 기업 경영을 바라보는 경쟁전략의 차이를 확인할 수 있었으며, IBM과 Apple사의 비교분석을 통해 각 기업의 경쟁(유사)기업의 시기별 변화 추이를 확인하고, 경쟁(유사)기업의 시기별 유지 상황을 추정할 수 있었다.
산업별 경영주제의 차이를 파악하기 위해 소프트웨어(software, SIC=73xx) 산업분야와 하드웨어(hardware, SIC=35xx) 산업분야를 비교분석하였다. 도출된 20개 토픽 내용을 비교한 결과, 각 산업분야별 특징을 비교적 잘 나타내는 토픽들이 도출되었음을 확인할 수 있다. 소프트웨어(software, SIC=73xx) 산업분야에서는 video/digital/content, healthcare, web/online/advertising 토픽이 도출되었으며, 하드웨어(hardware,SIC=35xx) 산업분야에서는 storage/data/disk, semiconductor/process/wafer과 관련된 토픽들이 도출되어 산업분야의 차이를 잘 나타내고 있음을 관찰하였다.
이는 연관 어휘 순서가 중요한 사례에서 효과적이지 못한 한계를 지닌다. 둘째로, LDA는 각 어휘를 각각의 독립적인 특성(feature)으로 인식하며 의미를 고려하지 못하는 단점을 지닌다. 도출된 토픽들은 적절하게 군집된 단어들로 구성되기는 하지만, 이러한 부족함을 해결하기 위해서는 조밀벡터(dense vector)로 표현하는 것이 의미적 표현력을 높일 수 있다.
(2004)은 10-K문서를 기반으로 거래량 규모의 편차를 파악했으며, 소량거래의 증가량에 10-K문서 발행이 영향을 미치며, 대량 거래에는 영향을 미치지 않음을 조사하였다. 또한 EDGAR 도입 이후에 소규모 거래량의 증가가 두드러졌음을 확인하였다.
10-K문서를 활용하여 LDA 토픽 모델링을 통해 전 산업의 경영주제의 관찰과 관찰 기간내에서의 경영주제의 변화를 확인하였다. 또한, 소프트웨어 산업과 하드웨어 산업의 사례분석 결과 산업간 경영주제의 차이를 관찰할 수 있었다. 1996년부터 2016년까지의 20년 동안의 전체 산업의 장기간 토픽 변화 추이를 확인한 결과, 과거의 각각의 독립적인 토픽별 산업들이 자신의 분야를 비교적 독립적으로 유지하고 있었다면, 최근에는 분야 간의 융복합화가 이루어짐을 추정할 수 있었고, 2007년의 세계경제위기 당시에는 전산업분야의 경영활동이 크게 위축되었음도 관찰할 수 있었다.
본 연구에서 분석 데이터로 활용한 1995년부터 2017년(8월까지) 사이의 162,688개의 10-K 문서를 대상으로 한 SEC EDGAR 등록(filing) 추이를 살펴본 결과 2007년까지 증가추세에 있다가, 이후 2009년까지 감소하였으며, 그 이후 지속적으로 유지되고 있다. CIK(Central Index Key, 기업 고유 식별자) 추이 역시 2007년부터 2010년까지 감소한 후 2012년까지 2010년의 수준을 유지하였으며, 2013년 이후 2007년 수준으로 회복한 것으로 확인된다.
본 연구에서 활용한 1995년부터 2017년(8월까지) 사이의 SEC EDGAR 등록(filing)된 문서의 종류별 빈도를 살펴보면, 4(지배구조 변화), 8-K(이벤트), 10-Q(분기보고서),6-K(외국기업)와 같은 순서로 높은 빈도를 보이고 있다.
본 절에서는 word2vec 워드임베딩 모델을 통해 기업 키워드를 기반으로 장기간의 경영주제와 경쟁(유사)기업을 관찰할 수 있었고, 시기별 구분을 통한 기업의 경영변화 추이 역시 경쟁(유사)기업과 비교하며 파악할 수 있었다. 그러나 본 절에서 사례분석으로선택한 IBM사 및 Apple사와 경영주제가 유사한 기업들과의 실질적인 경쟁 및 협력 관계 파악을 통해 본 방법론의 신뢰성을 검증하는 과정이 결여되어 있다.
산업 전반에 걸쳐 살펴본 1996년부터 2016년까지의 20년 동안의 산업의 장기간의 토픽의 변화 추이를 파악한 결과 토픽들이 넓게 분산되어 있다가 수렴하는 형태를 보임을 관찰하였다. 과거에는 각각의 독립적인 토픽별 산업들이 자신의 분야를 비교적 독립적으로 유지하고 있었다면, 최근에는 분야 간의 융복합화가 이루어짐을 미루어 짐작할 수 있다.
150가지 주제를 추출하기 위해 LDA(Latent Dirichlet Allocation) 주제 모델링을 사용했다. 새로운 FASB(Financial Accounting Standards Board) 및 SEC 요구 사항으로 인해 공정가치, 내부 통제 및 위험 요소 공개와 같은 3가지 주제와 관련된 부분이 늘어났음을 확인하였다. Routledge et al.
1996년부터 2016년까지의 20년 동안의 전체 산업의 장기간 토픽 변화 추이를 확인한 결과, 과거의 각각의 독립적인 토픽별 산업들이 자신의 분야를 비교적 독립적으로 유지하고 있었다면, 최근에는 분야 간의 융복합화가 이루어짐을 추정할 수 있었고, 2007년의 세계경제위기 당시에는 전산업분야의 경영활동이 크게 위축되었음도 관찰할 수 있었다. 소프트웨어 산업에 대한 경영주제 변화를 종단적으로 확인한 결과 주요 경영주제의 성장(토픽18:shares,securities, item), 토픽2:ability, adversely, subject)과 쇠퇴(토픽16:equipment,partnership, lease)의 흐름을 확인하였다. 한편 소프트웨어 산업에서 기업연령과 기업 특성이 차이가 나는 두 개의 대기업 Microsoft사와 Google사를 선택하여 기업 특성에 따른 제품/서비스 측면의 경영주제의 지속성, 성장과 쇠퇴의 추이 양상이 다르게 나타남을 파악할 수 있었다.
도출된 20개 토픽 내용을 비교한 결과, 각 산업분야별 특징을 비교적 잘 나타내는 토픽들이 도출되었음을 확인할 수 있다. 소프트웨어(software, SIC=73xx) 산업분야에서는 video/digital/content, healthcare, web/online/advertising 토픽이 도출되었으며, 하드웨어(hardware,SIC=35xx) 산업분야에서는 storage/data/disk, semiconductor/process/wafer과 관련된 토픽들이 도출되어 산업분야의 차이를 잘 나타내고 있음을 관찰하였다.
와 에서 ‘android’와 ‘iphone’의 경쟁관계를 비교하여 살펴본 결과 android와 인접한 키워드로 apple_ios, apples_ios, googles_android, symbian, ipad_iphone, iphone_ipad가 관찰되어 주로 경쟁 제품/서비스에 대한 경영주제가 중요함을 확인할 수 있었으며, iphone과 인접한 키워드로는 mobile_platforms, ipad, android_phones, tablet_devices, ipod_touch, handheld_devices가 관찰되어 경쟁 제품/서비스 보다는 제품/서비스의 확장이 주요 경영주제 임을 관찰할 수 있었다.
분류된 전산업의 경영주제분야는 유락(gaming, casino, hotel), 방송(cable,network, television), 주주 및 경영자(shares, agreement, directors), 마이닝(gas, oil,natural), 금융(loan, mortagage, rate), 유통(stores, retail, store), 의료(care, health,programs), 중국(prc, china, production), 보험(insurance, investment), IT(information,software, customer), 의약(clinical, drug, fda), 에너지(energy, power, gas), 제조(equipment, materials, manufacturing), 영향(ability, adversely, affect) 등으로 파악되었다. 이를 통해 유락, 에너지, 의료부문, 금융보험 등의 특정 산업 분야가 경영의 주제이기도 하였지만, 주주 및 경영자, 중국시장, 영향(능력/악영향)에 대한 기업 경영의 차별적 분야도 산업 전반에서 기업 경영활동의 핵심 주제임을 확인 할 수 있었다.
전체기간의 IBM의 경쟁(유사)기업으로는 silicon_graphics, sun_microsystems, microsoft_corporation, hewelett_packard, compaq가 확인되었으며(그림 16), 1995년부터 2015년까지 5년 단위로 분할하여 동적 변화를 분석한 결과 1995년에는 apple, novell이, 2000년에는 oracle, nordstorm이, 2005년에는 motorola, sun이, 2010년에는 motorola, oracle이, 2015년에는 oracle, nokia가 경쟁(유사)기업으로 관찰되었다(그림 17).
제품/서비스의 경영환경 측면에서는, 제품 혹은 서비스 키워드 기반의 android와 iphone의 사례분석을 통해 세부적으로 제품/서비스의 성격이 다른 기업의 경영활동에 있어 경쟁을 바라보는 시각이 경쟁전략 측면에 더 주안점을 두거나, 이와는 다르게 독점제품의 차별화 서비스 확장 측면에 더 주안점을 주는 시각을 가지는 사례도 관찰할 수 있었다. 이러한 관찰결과를 바탕으로 기업의 장단기적 경영방향에 따른 산업내 혹은 산업간의 전략기업집단의 변화 등의 파악도 추후 연구를 통해 가능할 것으로 기대된다.
주요 분석 대상으로 선정한 연례보고서인 10-K문서를 중심으로 산업표준분류코드기반 매칭을 통해 고빈도 산업을 관찰하였고, 그 결과 6000-6799(Finance, Insurance andReal Estate), 6189(Asset-Backed Securities), 6022(State Commercial Banks),6798(Real Estate Investment Trusts) 산업 순으로 많은 비중을 보이고 있음을 확인할 수 있었다. 또한 CIK(고유식별정보)의 지역별 정보를 활용하여 텍사스주와 캘리포니아주를 사례로 하여 산업 비중의 차이를 관찰하였다.
소프트웨어 산업에 대한 경영주제 변화를 종단적으로 확인한 결과 주요 경영주제의 성장(토픽18:shares,securities, item), 토픽2:ability, adversely, subject)과 쇠퇴(토픽16:equipment,partnership, lease)의 흐름을 확인하였다. 한편 소프트웨어 산업에서 기업연령과 기업 특성이 차이가 나는 두 개의 대기업 Microsoft사와 Google사를 선택하여 기업 특성에 따른 제품/서비스 측면의 경영주제의 지속성, 성장과 쇠퇴의 추이 양상이 다르게 나타남을 파악할 수 있었다.
후속연구
본 연구에서는 특허, 논문, 제품 정보를 활용하지 않고 기업 경영활동계획을 포괄하고 있는 기업공시정보를 활용한 측면에서 차이점을 보인다. TOD 및 COMPAS 시스템은 2010년대 이후로 지속적인 연구개발을 통해 정교한 모듈의 개발 및 서비스 솔루션 개발에 기반하여 높은 수준의 서비스를 제공하는 시스템으로써 본 연구는 기업경영정보에 기반한 기술경영분석 방법론을 통해 향후 TOD 및 COMPAS시스템과 같은 수준의 시스템을 개발 할 수 있을 것으로 기대된다. 특히 TOD 및COMPAS 시스템은 높은 신뢰성에 기반한 안정적인 서비스를 제공하기 위한 시스템으로써 유료DB 및 정보에 기반한다면, 본 연구는 무료 공개정보에 기반한 방법론 측면에서 향후 시스템 구축시 유지보수비용 및 솔루션의 개방성이 높은 방법론을 갖출 수 있을 것이다.
둘째, LDA토픽 모델링 및 word2vec 워드 임베딩 모델링을 통한 학습에 있어 산업 및 기업의 추이를 개괄적으로 파악하는 측면에서는 모델의 예측 정확도가 요구되지는 않으나, 보다 높은 수준의 해상력을 갖추기 위해 산업표준분류, 특허와 논문성과 자료를 통한 기업 전략집단 분석결과와의 비교를 통한 예측 정확도를 파악하는 것도 요구될 수 있다. 그러나 본 연구에서 파악된 전 산업의 경영주제 분야는 유락, 에너지, 의료부문, 금융보험 등의 특정 산업 분야가 경영의 주제이기도 하였지만, 주주 및 경영자, 중국시장, 영향(능력/악영향)에 대한 기업 경영의 차별적 분야도 산업 전반에서 기업 경영활동의 핵심 주제인 것으로 확인되어, 방법론 측면의 신뢰성을 파악하기 위한 비교 분석이 목적상 차이가 날 수 있을 것으로 예상된다. 그럼에도 불구하고 실제 시스템 구현을 위해서는 기업의 특허, 논문, 제품, 서비스 등의 포트폴리오 구성에 따른 전문가 기반의 기업간 비교분석 사례연구를 통해 산업내 전략집단 분석 등의 분석을 통해 해상력과 신뢰성을 제고할 수 있는 연구가 수행될 필요가 있다.
그러나 이러한 한계점에도 불구하고 727종의 다양한 파일링 유형 자료를 활용하여 다양한 연구주제로 확장이 가능할 것으로 기대된다. 특히 8-K(이벤트) 문서는 기업 경영활동에 대한 중요한 근거자료를 제시할 있을 것으로 기대되어 10-K 문서와 결합한 확장된 형태의 이벤트 대응 경영전략의 변화 등을 파악하는 연구도 가능할 것이다.
또한, KISTI는 산업시장분석을 위한 PEST, SWOT분석 모듈 개발을 위하여 한국과학기술정보연구원에서 발간한 산업시장보고서를 활용하여 텍스트마이닝 기반 문장추출 및 긍부정 분류를 위한 기계학습 연구를 수행하였다(김유성 외, 2017). 그러나 활용 데이터의 질적 특성상 한글 기반의 전처리를 통한 어휘 및 문장 해석의 어려움에 따른 분류 성능의 한계점을 보였다.
그러나 본 연구에서 파악된 전 산업의 경영주제 분야는 유락, 에너지, 의료부문, 금융보험 등의 특정 산업 분야가 경영의 주제이기도 하였지만, 주주 및 경영자, 중국시장, 영향(능력/악영향)에 대한 기업 경영의 차별적 분야도 산업 전반에서 기업 경영활동의 핵심 주제인 것으로 확인되어, 방법론 측면의 신뢰성을 파악하기 위한 비교 분석이 목적상 차이가 날 수 있을 것으로 예상된다. 그럼에도 불구하고 실제 시스템 구현을 위해서는 기업의 특허, 논문, 제품, 서비스 등의 포트폴리오 구성에 따른 전문가 기반의 기업간 비교분석 사례연구를 통해 산업내 전략집단 분석 등의 분석을 통해 해상력과 신뢰성을 제고할 수 있는 연구가 수행될 필요가 있다.
그러나 산업의 경영주제의 추이 파악이란 목적 측면에서, 산업과 기업경영활동의 특성상 경영주제의 높은 다양성에 의해 자연어 처리를 통한 파싱 키워드의 정제과정의 누락에 따른 경영주제의 의미 파악에 난관을 가져다주지는 않은 것으로 판단된다. 그럼에도 불구하고 향후 연구에는 이러한 파싱키워드의 자연어처리를 통한 정제과정을 통한 높은 신뢰도 확보가 요구된다.
기업의 경영전략 및 계획을 파악하기 위하여 상장기업의 공시자료를 활용할 수 있을 것이다. 또한 비상장 기업에 대한 Crunchbase, CBInsight, Angelist 등의 신생기업 및 M&A 등의 정보를 제공하는 유료 데이터도 있으며, 소셜미디어 데이터, 거시환경정보를 제공하는 OECD 및 세계은행 등의 공개 데이터를 활용할 수 있다.
둘째, LDA토픽 모델링 및 word2vec 워드 임베딩 모델링을 통한 학습에 있어 산업 및 기업의 추이를 개괄적으로 파악하는 측면에서는 모델의 예측 정확도가 요구되지는 않으나, 보다 높은 수준의 해상력을 갖추기 위해 산업표준분류, 특허와 논문성과 자료를 통한 기업 전략집단 분석결과와의 비교를 통한 예측 정확도를 파악하는 것도 요구될 수 있다. 그러나 본 연구에서 파악된 전 산업의 경영주제 분야는 유락, 에너지, 의료부문, 금융보험 등의 특정 산업 분야가 경영의 주제이기도 하였지만, 주주 및 경영자, 중국시장, 영향(능력/악영향)에 대한 기업 경영의 차별적 분야도 산업 전반에서 기업 경영활동의 핵심 주제인 것으로 확인되어, 방법론 측면의 신뢰성을 파악하기 위한 비교 분석이 목적상 차이가 날 수 있을 것으로 예상된다.
한편 다양한 기업들이 분포하고 있는 소프트웨어산업(73xx)과하드웨어산업(35xx)같은 경우는 매우 높은 토픽 다양성을 가지고 있는 것으로 기대되어,관찰의 깊이를 변화시킬 경우, 거시적 측면에서는 산업을 대표하는 경영주제들이 토픽으로 관찰될 것으로 기대되며, 고배율의 미시적 관찰을 할 경우 경영주제의 다양성에 기반한 토픽 변화가 클 것으로 추정된다. 따라서 관찰하고자 하는 산업의 경영주제의 특성을 사전적으로 검토한 후에, 산업의 관찰 수준을 상이하게 접근해야 할 것으로 판단된다.
특히 8-K(이벤트) 문서는 기업 경영활동에 대한 중요한 근거자료를 제시할 있을 것으로 기대되어 10-K 문서와 결합한 확장된 형태의 이벤트 대응 경영전략의 변화 등을 파악하는 연구도 가능할 것이다. 또한 기존연구와 같이 기업경영성과에 대한 재무적 정보를 활용하여 유사 경쟁환경의 파악 및 경쟁(유사)기업 간의 경영활동에 대한 성과비교분석이 가능할 것이다. 한편으로는 상장폐지 정보와 결합하여 기업 경영주제 및 경영활동에 따른 통한 기업생존 확률 혹은 상장폐지 가능성을 예측할 수 있는 학습모델의 적용이 가능할 수 있다.
본 절에서는 살펴본 LDA 주제 모델링을 통해 산업 및 기업수준의 경영주제에 대한 횡단면적 및 종단면적 파악이 가능하지만 10-K 문서의 파싱 키워드를 대상으로 정밀한자연어처리를 통한 키워드 정제가 이루어지지 않은 측면에서 높은 해상도를 보여주지 못하고, 개요를 제공하는 수준에서 한계가 있는 것으로 판단된다.
셋째, 경쟁(유사)기업 및 환경을 파악하고자 하였으나, 방법론 자체가 토픽 모델링과 워드임베딩 방법을 통한 학습, 차원축소에 따라서 기업의 경쟁환경 측면에서 기업의 특성을 대변하는 요소들의 파악이 어려운 한계점이 있다. 이는 한국과학기술정보연구원이 서비스 하고 있는 TOD 및 COMPAS 시스템을 활용하여 특허, 논문, 제품 정보와 연계된 기업 경영포트폴리오와 경영계획과의 관계를 파악하는 연구를 통해 각 자료간의 관계와 요소파악을 기반으로 한 좀 더 진일보한 시스템 구축이 가능할 것이다.
셋째, 경쟁(유사)기업 및 환경을 파악하고자 하였으나, 방법론 자체가 토픽 모델링과 워드임베딩 방법을 통한 학습, 차원축소에 따라서 기업의 경쟁환경 측면에서 기업의 특성을 대변하는 요소들의 파악이 어려운 한계점이 있다. 이는 한국과학기술정보연구원이 서비스 하고 있는 TOD 및 COMPAS 시스템을 활용하여 특허, 논문, 제품 정보와 연계된 기업 경영포트폴리오와 경영계획과의 관계를 파악하는 연구를 통해 각 자료간의 관계와 요소파악을 기반으로 한 좀 더 진일보한 시스템 구축이 가능할 것이다.
같은 소프트웨어 산업에 속해있는 기업이더라도 기업의 경영전략 및 제품/서비스 토픽의 속성상 경영주제의 추이 양상은 전혀 다르게 나타남을 관찰하였다. 이러한 경영주제변화의 안정성 혹은 변화의 모멘텀의 차이에 따른 기업 경영성과의 시점별 연관관계 파악, 경영주제 변화와 관련성이 높을 것으로 기대되는 경영진의 변화 등과의 연관관계 파악 등도 향후의 연구주제가 될 수 있을 것이다.
이를 위해서는 각 기업의 제품, 서비스, 특허 등의 기업 경영 포토플리오를 전문가 기반의 접근을 통한 분석을 통하여 전체 기간 및 분석기간 별로 경영 관계 파악이 요구된다. 이러한 과정은 많은 시간 및 비용이 필요한 바, 한국과학기술정보연구원의 TOD 및 COMPAS 시스템과 같은 서비스를 활용하여 추후 비교 검증할 수 있을 것이다
제품/서비스의 경영환경 측면에서는, 제품 혹은 서비스 키워드 기반의 android와 iphone의 사례분석을 통해 세부적으로 제품/서비스의 성격이 다른 기업의 경영활동에 있어 경쟁을 바라보는 시각이 경쟁전략 측면에 더 주안점을 두거나, 이와는 다르게 독점제품의 차별화 서비스 확장 측면에 더 주안점을 주는 시각을 가지는 사례도 관찰할 수 있었다. 이러한 관찰결과를 바탕으로 기업의 장단기적 경영방향에 따른 산업내 혹은 산업간의 전략기업집단의 변화 등의 파악도 추후 연구를 통해 가능할 것으로 기대된다.
이렇듯 미국상장기업의 공시자료를 활용한 연구는 투자자와 기업 성과 중심으로 이루어지고 있으며 일부 경영환경 네트워크 및 M&A 등의 특정부분에 국한되어 있어, 산업시장 분석을 위한 산업 및 기업 수준에서 활용가능한 모델 개발 등의 연구는 부족한 것으로 파악된다. 이에 산업 및 기업 레벨에서의 기업경영 추이를 파악하는 방법론의 제안을 통한 새로운 분석 모델의 형태를 제시하는 것은 기업의 경영환경의 이해와 미래전략을 수립하는데 큰 도움을 줄 수 있을 것이다.
그럼에도 불구하고 본 연구는 다음과 같은 한계를 가진다. 첫째, 공시자료의 파싱 키워드를 대상으로 정밀한 자연어처리 등을 활용한 키워드 정제가 이루어지지 않아, 산업 및 기업의 경영주제에 대한 추이분석측면에서, 비록 전반적인 조망을 할 수 있는 수준은 되나 높은 해상도를 보여주지 못하고 개요를 파악하는 수준에서 한계가 있다. 향후 실제 시스템 구현을 위한 심도 있는 연구 수행 시에 파싱 키워드의 자연어처리를 통한 정밀도와 신뢰도를 높이는 과정이 필요하다.
한편으로는 상장폐지 정보와 결합하여 기업 경영주제 및 경영활동에 따른 통한 기업생존 확률 혹은 상장폐지 가능성을 예측할 수 있는 학습모델의 적용이 가능할 수 있다. 추후 연구에서는 이와 같은 새로운 형태의 산업시장분석 모듈을 갖춘 시스템 개발을 위하여, 추가적인 산업 및 기업수준의 분석 모델 제시를 위한 방법론을 발굴하여 활용할 수 있을 것이다.
그러나 이러한 한계점에도 불구하고 727종의 다양한 파일링 유형 자료를 활용하여 다양한 연구주제로 확장이 가능할 것으로 기대된다. 특히 8-K(이벤트) 문서는 기업 경영활동에 대한 중요한 근거자료를 제시할 있을 것으로 기대되어 10-K 문서와 결합한 확장된 형태의 이벤트 대응 경영전략의 변화 등을 파악하는 연구도 가능할 것이다. 또한 기존연구와 같이 기업경영성과에 대한 재무적 정보를 활용하여 유사 경쟁환경의 파악 및 경쟁(유사)기업 간의 경영활동에 대한 성과비교분석이 가능할 것이다.
TOD 및 COMPAS 시스템은 2010년대 이후로 지속적인 연구개발을 통해 정교한 모듈의 개발 및 서비스 솔루션 개발에 기반하여 높은 수준의 서비스를 제공하는 시스템으로써 본 연구는 기업경영정보에 기반한 기술경영분석 방법론을 통해 향후 TOD 및 COMPAS시스템과 같은 수준의 시스템을 개발 할 수 있을 것으로 기대된다. 특히 TOD 및COMPAS 시스템은 높은 신뢰성에 기반한 안정적인 서비스를 제공하기 위한 시스템으로써 유료DB 및 정보에 기반한다면, 본 연구는 무료 공개정보에 기반한 방법론 측면에서 향후 시스템 구축시 유지보수비용 및 솔루션의 개방성이 높은 방법론을 갖출 수 있을 것이다.
한편 세부적으로 SIC 코드 상위3자리 혹은 SIC 코드 전체 4자리로 좀 더 세분화된 산업의 경영주제를 살펴볼 경우, 와 같은 제품, 서비스, 세부적인 경영전략, 응용분야등과 같이 산업 특성에 따른 미시적인 경영토픽들이 파악될 것으로 보이며, 혹은 과 같이 단일 기업의 경영주제 분야와 같이 매우 세분화된 다양한 제품, 서비스, 응용분야 중심의 토픽들을 파악할 수 있을 것으로 기대된다.
첫째, 공시자료의 파싱 키워드를 대상으로 정밀한 자연어처리 등을 활용한 키워드 정제가 이루어지지 않아, 산업 및 기업의 경영주제에 대한 추이분석측면에서, 비록 전반적인 조망을 할 수 있는 수준은 되나 높은 해상도를 보여주지 못하고 개요를 파악하는 수준에서 한계가 있다. 향후 실제 시스템 구현을 위한 심도 있는 연구 수행 시에 파싱 키워드의 자연어처리를 통한 정밀도와 신뢰도를 높이는 과정이 필요하다. 이는 본 연구가 SIC 4자리 기준의 전 산업과 상위 2자리의 소프트웨어 산업과(73xx) 하드웨어산업(35xx)을 대상으로 사례 분석을 하였으나, 산업 수준에서의 조망 관점을 SIC 상위 1자리 코드 기준(1xxx 혹은 7xxx) 혹은 SIC 상위 3자리 코드 기준(353x 혹은 738x)으로 산업의 범위를 높이거나 낮출 경우 경영주제 추이 변화를 파악하는데 있어 일부 신뢰성 확보에 걸림돌이 될 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
기업공시정보란 무엇인가?
기술경영분야에서는 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 대표적인 비정형데이터인 기업공시정보를 활용한 빅 데이터 분석 역시 활용되기 시작하고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다.
빅 데이터 분석의 적용으로 인해 어떤 측면에서 변화시키고 있는가?
빅 데이터 분석은 기술적 수준의 분석 방법론의 변화 뿐 아니라 분석 대상의 범위와 범주를 확장해 나가며 다양한 산업 및 기업의 경영활동을 변화시키고 있다. 금융, 의료산업에서부터 제조 및 서비스업에 이르기까지, 홍보, 마케팅에서부터 품질관리 등에 이르기까지 산업 분야 및 경영 분야의 범주와 특징을 구분 짓지 않고, 이들을 고객 타깃팅에서부터 경영전략을 넘나들며 여러 측면에서 변화시키고 있다(김주식 외, 2013; 윤경식 외, 2018; 윤재권 외, 2015; 정효정, 2016; 최현도 & 안종욱, 2015)
기술경영분야의 국내 산업 및 기업 수준의 연구는 어디에 집중되어 왔는가?
기술경영분야의 국내 산업 및 기업 수준의 연구는 특허, 논문, 기술표준, 산업표준, 재무정보 등의 자료를 활용하여, 특정 주제 산업 및 전 산업 레벨에서 트렌드의 파악, 산업혁신의 주제파악, 유망 분야의 도출, 분류체계의 제안 및 검증, 산업발전의 흐름, 산업 특성 지수의 개발, 사업포트폴리오 분석, 기업 공정 및 연구개발 문제의 해결 등에 집중되어 왔다(강희종 & 김기국, 2014; 고병열, 2010; 김주식 외, 2013; 김태유 & 박경민, 1997; 박선영 외, 2017; 윤경식 외, 2018; 윤재권 외, 2015; 정재용 & 황혜란, 2017; 최진호 외,2014; 최현도 & 안종욱, 2015).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.