$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

텍스트마이닝을 활용한 공개데이터 기반 기업 및 산업 토픽추이분석 모델 제안
Development of Topic Trend Analysis Model for Industrial Intelligence using Public Data 원문보기

기술혁신연구, v.26 no.4, 2018년, pp.199 - 232  

박선영 (한국과학기술정보연구원 중소기업지원센터) ,  이진무 (브리티시 콜롬비아 사우더 경영대학) ,  김유일 (한국과학기술정보연구원 중소기업지원센터) ,  서진이 (한국과학기술정보연구원 데이터분석 플랫폼센터)

초록
AI-Helper 아이콘AI-Helper

빅데이터 분석을 통한 기업 경영환경에 대한 이해와 통찰을 구하고자 하는 요구가 산업 및 기업 경영 전반에 증가하고 있다. 이러한 사회적 요구에 따라 산업의 이해와 기업 경영의 이해를 위하여 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 기업공시정보를 활용한 연구가 주목을 받고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다. 그러나 아직은 이러한 기업공시자료를 활용한 산업 및 기업 레벨에서 적용가능한 수준의 분석모델이 부족한 것으로 파악된다. 따라서 본 연구에서는 실제 활용 가능한 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 제안하고자 한다. 미국상장기업의 공시자료인 미국 SEC EDGAR 자료를 기반으로 텍스트마이닝 알고리즘을 적용하여 산업 및 기업 수준의 경영주제(토픽)에 대한 추이분석이 가능한 모델을 제안하고자한다. SEC EDGAR의 10-K 문서를 대상으로 LDA 토픽 모델링을 통하여 산업 수준에서 전체 산업의 주제분야 분류를 파악하였고, 산업간 비교 측면에서 소프트웨어 산업과 하드웨어 산업 분야의 사례를 통해 최근 20년간의 토픽추이를 비교분석 하였다. 또한 최근 20년간의 기업의 경영주제 변화를 소프트웨어 산업에 속한 2개 기업을 중심으로 살펴보았다. 이를 통해 산업 및 기업 수준에서의 경영주제의 추이 변화를 파악하여 쇠퇴 및 성장 추세에 있는 경영주제를 확인 할 수 있었다. 한편 word2vec 워드 임베딩 모델과 주성분분석을 통한 차원 축약을 통해 소프트웨어 산업분야의 기업 및 특정 제품(혹은 서비스)에 대한 매핑을 통해 유사한 경영주제(토픽)를 가지는 기업 및 제품(서비스)을 사례를 통해 파악하였으며, 이를 시간적 흐름에 따른 변화 양상도 관찰할 수 있었다. 본 연구의 목적이 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 개발하기 위한 방법론을 제안한 측면에서, 해외 데이터를 사용하여 산업의 경영주제 변화 추이, 기업의 경영주제 변화 추이를 거시적으로 조망할 수 있는 실무적인 방법론의 제안에서 의의가 있을 수 있다. 한편 기업의 기술경영전략 측면에서 기업의 경영토픽의 잦은 변화, 경영주제의 변화의 속도 등 다양한 변화 양상의 차이에 따른 기업의 매출 등의 경영성과와의 연관성 분석, 실제 기업의 제품포트폴리오의 구성에 따른 기업 간의 경쟁상황 등을 파악하는 미시적 모델 제안을 위한 추가 연구가 요구된다.

Abstract AI-Helper 아이콘AI-Helper

There are increasing needs for understanding and fathoming of business management environment through big data analysis at industrial and corporative level. The research using the company disclosure information, which is comprehensively covering the business performance and the future plan of the co...

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 기존의 기업공개자료 기반의 텍스트마이닝 기법을 활용한 빅데이터 분석의 연구주제와는 다른 관점의 산업시장분석을 위한 산업 및 기업수준의 경영주제에 대한 변화추이를 파악하고자 하는 모델을 제안하고 사례분석을 통해 그 특성을 파악하고자 한 측면에서 본 연구의 의의가 있다. 또한 분석 자료로써 논문, 특허, 표준 등 기업활동의 경영성과 데이터가 아닌 기업의 경영전략 및 활동 계획을 담은 자료를 활용하여 산업시장분석이라는 분석 목적과 결합한 차별성을 가진다고 볼 수 있다.
  • 이를 각 기업이 속한 산업 수준으로 차원을 높여서 살펴보게 되면 시기별 산업집단의 동적인 경영주제에 대한 변화를 파악할 수 있다. 따라서 본 연구에서는 10-K문서를 대상으로 토픽모델링을 통해 기업 수준 및 산업 수준에서의 시기별 기업 및 산업의 주요 경영활동 주제를 파악하고자 하였다.
  • 따라서 본 연구에서는 국내 산업 분야의 공급사슬망, PEST, SWOT 분석 모듈에 추가하여 산업 및 기업 수준의 경영주제 변화를 통한 경영계획 및 전략 변화 분석 모델 및 산업 및 기업의 제품포트폴리오의 경쟁환경 분석 모듈을 개발하기 위한 선행 연구로써,영문 공개데이터를 활용한 산업 및 기업 수준의 경영주제 분석 및 경쟁상황 파악을 위한 연구를 통해 그 활용 및 구현 가능성을 사전에 파악하고자 한다.
  • 본 연구는 분석 데이터 측면에서, 기존의 특허, 논문 등의 기업 경영활동의 성과정보에 기반한 연구와는 차별적으로 기업의 경영활동 및 경영전략 등 경영계획의 전반적인 내용을 포괄하고 있는 기업의 연례보고서를 활용하였다. 또한 기존 연구들이 기업의 성과 데이터에 기반하여 세부적인 연구목적에 따른 현상의 분석과 미래를 전망하는 연구주제들을 다루는 반면, 본 연구에서는 산업 및 기업 레벨의 경영주제 분석, 경쟁분석 등을 위한 경쟁/유사기업의 파악, 제품-포트폴리오의 분석 등에 기반한 다양한 세부적인 방법론 개발을 위한 기업공시정보의 실무적인 활용가능성의 탐색에 주안점을 두고 있다.
  • 본 연구는 기존연구에서 주로 활용하고 있는 기업 경영 및 연구개발 성과로서의 정보가 아닌 경영활동 및 경영전략 등 경영 계획의 전반적인 내용을 포괄하고 있는 기업공시정보를 활용하는 측면에서 기존연구와의 차별적 특성을 가진다. 또한 기존 연구들이 성과자료에 기반하여 세부적인 연구목적에 따른 현상의 분석과 미래를 전망하는 연구주제들을 다루는 반면, 본 연구에서는 산업 및 기업 레벨의 경영주제 분석, 경쟁분석 등을 위한 경쟁/유사기업의 파악, 제품-포트폴리오의 분석 등에 기반한 다양한 세부적인 방법론 개발을 위한 기업공시정보의 실무적인 활용가능성의 탐색에 주안점을 두고 있다.
  • 이에 기존 연구에서 활용된 데이터를 확장하고 산업 및 기업의 경영 트렌드 및 경쟁환경을 파악할 수 있는 새로운 산업시장분석 모듈 개발을 위하여, 미국 SEC EDGAR의 공시자료를 활용함으로써 공개 비정형 데이터 셋을 확장하고 다년간의 기업의 경영환경에 따른 기업 및 산업 수준에서의 토픽(경영주제)변화를 텍스트마이닝 방법을 적용하여 파악할 수 있는 모델을 제안하고자 한다. 또한 이를 통해 향후 지속적인 연구개발을 통해 구현 가능한 분석 모듈에 대해 살펴보고자 한다.
  • 이를 통해 산업 수준의 토픽, 연도별 개별 기업의 토픽 분포 추이를 파악하고자 하였다. 보다 나아가 연도별 토픽 분포를 종합하여 기업 및 산업의 주요 경영 토픽에 대한 성장 추세 및 쇠퇴 추세를 파악 할 수 있도록 하였다.
  • 그러나 기업경영 성과로서의 재무정보, 연구개발혁신 활동의 결과로서의 특허 및 논문 성과 정보, 표준 정보 등을 활용하여 성과측면에 주안점을 두고 산업의 트렌드 파악 및 산업혁신의 주제,유망 사업 및 연구 분야의 파악 등의 목적을 가지고 있다. 본 연구는 기존연구에서 주로 활용하고 있는 기업 경영 및 연구개발 성과로서의 정보가 아닌 경영활동 및 경영전략 등 경영 계획의 전반적인 내용을 포괄하고 있는 기업공시정보를 활용하는 측면에서 기존연구와의 차별적 특성을 가진다. 또한 기존 연구들이 성과자료에 기반하여 세부적인 연구목적에 따른 현상의 분석과 미래를 전망하는 연구주제들을 다루는 반면, 본 연구에서는 산업 및 기업 레벨의 경영주제 분석, 경쟁분석 등을 위한 경쟁/유사기업의 파악, 제품-포트폴리오의 분석 등에 기반한 다양한 세부적인 방법론 개발을 위한 기업공시정보의 실무적인 활용가능성의 탐색에 주안점을 두고 있다.
  • 본 연구에서는 빅 데이터 분석을 통한 기업경영환경에 대한 이해와 통찰을 구하고자 하는 최근의 요구에 대응하여 공개데이터 기반의 텍스트마이닝 방법론을 적용한 산업시장분석 측면에서의 새로운 산업 및 기업 수준의 분석모델을 제안하고자 하였다. 산업시장분석 시스템 개발 관련 연구로 금융감독원에서 운영하는 전자공시시스템(DART)의사업보고서(연간) 및 국내 증권사의 산업 및 기업 분석 보고서를 활용하여 텍스트마이닝을 통한 공급사슬망 분석 모델개발 연구와 텍스트마이닝 기반 문장추출 및 긍부정 분류연구를 통한 PEST, SWOT 분석 모듈 개발 연구가 선행되었다.
  • 이들 시스템 역시 기업 성과로서의 정보인 특허와 논문정보를 기반으로 하고 있으며, 제품 측면에서는 미국 제품코드를 기반으로 기술-제품을 매칭하여 기술적 측면에서의 서비스를 제공하고 있다. 본 연구에서는 특허, 논문, 제품 정보를 활용하지 않고 기업 경영활동계획을 포괄하고 있는 기업공시정보를 활용한 측면에서 차이점을 보인다. TOD 및 COMPAS 시스템은 2010년대 이후로 지속적인 연구개발을 통해 정교한 모듈의 개발 및 서비스 솔루션 개발에 기반하여 높은 수준의 서비스를 제공하는 시스템으로써 본 연구는 기업경영정보에 기반한 기술경영분석 방법론을 통해 향후 TOD 및 COMPAS시스템과 같은 수준의 시스템을 개발 할 수 있을 것으로 기대된다.
  • 또한 Gémar and Jiménez-Quintero(2015)는 facebook, twitter, linkedin 등의 SNS(Social NetworkService) 데이터를 이용하여 SNS의 감성 정보를 분류하여 기업 재무성과와의 연관성을파악하는 연구를 하였다. 이들 연구는 산업시장분석의 SWOT 분석과 의사결정을 위한모듈의 개발, 소비자 성향을 통한 경영환경의 파악 등의 목적으로 본 연구는 이와는 다른 연구방향을 가지는 차별성을 가지고 있다.
  • , 2004). 이러한 연구는 연례 보고서의 차별화된 정보에 대한 시장 반응과 주식가격 등에 대한 사례 연구 중심으로 진행되었다
  • 이에 산업의 조망 보다는 기업의 경쟁상황을 파악하고 경쟁(유사)기업 간의 경쟁환경을 유추할 수 있으며 키워드 정제의 이슈에서 큰 제한점이 없는, 워드임베딩 방법을 통하여 보다 심도 있는 분석방법 개발 가능성을 파악하고자 하였다. 이를 통해 기업의 경쟁관계를 파악하고, 시간적 추이별로 기업의 경영주제 혹은 제품/서비스 토픽 측면에서의 경쟁기업(유사기업)을 파악하고자 하였다.
  • 따라서, 본 연구에서는 1995년부터 2016년까지 수집된 10-K문서로부터 말뭉치(text corpus)를 구성하고 토픽모델을 구성하였다. 이를 통해 산업 수준의 토픽, 연도별 개별 기업의 토픽 분포 추이를 파악하고자 하였다. 보다 나아가 연도별 토픽 분포를 종합하여 기업 및 산업의 주요 경영 토픽에 대한 성장 추세 및 쇠퇴 추세를 파악 할 수 있도록 하였다.
  • 이에 본 연구는 향후 산업 및 기업 수준의 경영주제변화를 통한 경영계획 및 전략 변화 분석 모델 및 산업 및 기업의 제품포트폴리오의 경쟁환경 분석 모듈을 개발하기 위한 선행 연구로 수행되었다. 이를 통해 영문 공개데이터를 활용한 산업 및 기업 수준의 경영주제 분석 및 경쟁상황 파악을 위한 연구를 통해 그 활용 및 구현 가능성을 파악하고자 하였다.
  • (2017)은 10-K문서의 item7(MD & A)에 텍스트마이닝을 적용하여 M&A 거래의 취득자 혹은 피인수자가 될지를 예측하는 모델을 구축하였다. 이를 통해 인수 목표 대상이 될 확률에 영향을 미치는 문구를 확인하였다
  • 각 단어를 50차원 공간에 임베딩하였으며 시각적 표현을 위하여 주성분분석(PCA)을 통해 이를 2차원으로 축약하였다. 이를 통해 전체 기간에서의 기업관계를 파악하고, 시간적 추이별로 기업의 토픽(경영주제) 측면에서의 경쟁기업(유사기업)을 파악하고자 하였다.
  • 이에 기존 연구에서 활용된 데이터를 확장하고 산업 및 기업의 경영 트렌드 및 경쟁환경을 파악할 수 있는 새로운 산업시장분석 모듈 개발을 위하여, 미국 SEC EDGAR의 공시자료를 활용함으로써 공개 비정형 데이터 셋을 확장하고 다년간의 기업의 경영환경에 따른 기업 및 산업 수준에서의 토픽(경영주제)변화를 텍스트마이닝 방법을 적용하여 파악할 수 있는 모델을 제안하고자 한다. 또한 이를 통해 향후 지속적인 연구개발을 통해 구현 가능한 분석 모듈에 대해 살펴보고자 한다.
  • 그러나 한글 기반의 전처리를 통한 어휘 및 문장 해석의 어려움에 따른 분류 성능의 한계로, 시스템 구현을 위한 신뢰도가 낮은 문제점을 보였다. 이에 본 연구는 향후 산업 및 기업 수준의 경영주제변화를 통한 경영계획 및 전략 변화 분석 모델 및 산업 및 기업의 제품포트폴리오의 경쟁환경 분석 모듈을 개발하기 위한 선행 연구로 수행되었다. 이를 통해 영문 공개데이터를 활용한 산업 및 기업 수준의 경영주제 분석 및 경쟁상황 파악을 위한 연구를 통해 그 활용 및 구현 가능성을 파악하고자 하였다.
  • 기존 연구들은 SEC EDGAR 자료를 활용하여 투자성과와 기업활동 성과간의 관계에 주목하거나 일부 경영환경 네트워크 및 M&A 등의 특정 부분에 국한하여 이루어졌다. 이에 본 연구에서는 산업 및 기업레벨의 기업경영의 주제를 종단적 및 횡단적으로 파악하고자 하는 분석 모델을 제안하였다.
  • 이에 산업의 조망 보다는 기업의 경쟁상황을 파악하고 경쟁(유사)기업 간의 경쟁환경을 유추할 수 있으며 키워드 정제의 이슈에서 큰 제한점이 없는, 워드임베딩 방법을 통하여 보다 심도 있는 분석방법 개발 가능성을 파악하고자 하였다. 이를 통해 기업의 경쟁관계를 파악하고, 시간적 추이별로 기업의 경영주제 혹은 제품/서비스 토픽 측면에서의 경쟁기업(유사기업)을 파악하고자 하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
기업공시정보란 무엇인가? 기술경영분야에서는 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 대표적인 비정형데이터인 기업공시정보를 활용한 빅 데이터 분석 역시 활용되기 시작하고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다.
빅 데이터 분석의 적용으로 인해 어떤 측면에서 변화시키고 있는가? 빅 데이터 분석은 기술적 수준의 분석 방법론의 변화 뿐 아니라 분석 대상의 범위와 범주를 확장해 나가며 다양한 산업 및 기업의 경영활동을 변화시키고 있다. 금융, 의료산업에서부터 제조 및 서비스업에 이르기까지, 홍보, 마케팅에서부터 품질관리 등에 이르기까지 산업 분야 및 경영 분야의 범주와 특징을 구분 짓지 않고, 이들을 고객 타깃팅에서부터 경영전략을 넘나들며 여러 측면에서 변화시키고 있다(김주식 외, 2013; 윤경식 외, 2018; 윤재권 외, 2015; 정효정, 2016; 최현도 & 안종욱, 2015)
기술경영분야의 국내 산업 및 기업 수준의 연구는 어디에 집중되어 왔는가? 기술경영분야의 국내 산업 및 기업 수준의 연구는 특허, 논문, 기술표준, 산업표준, 재무정보 등의 자료를 활용하여, 특정 주제 산업 및 전 산업 레벨에서 트렌드의 파악, 산업혁신의 주제파악, 유망 분야의 도출, 분류체계의 제안 및 검증, 산업발전의 흐름, 산업 특성 지수의 개발, 사업포트폴리오 분석, 기업 공정 및 연구개발 문제의 해결 등에 집중되어 왔다(강희종 & 김기국, 2014; 고병열, 2010; 김주식 외, 2013; 김태유 & 박경민, 1997; 박선영 외, 2017; 윤경식 외, 2018; 윤재권 외, 2015; 정재용 & 황혜란, 2017; 최진호 외,2014; 최현도 & 안종욱, 2015).
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로