기업이나 정부에서는 연구나 기술 동향을 파악하고 예측하기 위해 주로 델파이 기법이 활용하여 왔다. 이 기법은 많은 시간과 비용이 소요되는 단점이 있기에 본 논문에서는 LDA 토픽모델링 기법을 활용하여 과학기술의 동향 및 예측에 관한 연구를 실시하였다. 이를 위해 미국 특허 문서중 AI(Artificial Intelligence) 초록을 대상으로 LDA 토픽모델링 기법을 활용하여 20개의 AI 세부기술을 추출하였다. 도출된 세부기술에 대해 핵심기술을 파악하고, 연도별 비중 추이 분석을 통하여 Hot기술과 Cold기술을 분류하였다. 텍스트 탐색, 컴퓨터 관리, 프로그래밍 구문, 네트워크 관리, 멀티미디어, 무선 네트워크 기술 등이 Hot 기술로 도출되었다. 이런 기술들은 최근 AI 분야에서 활발하게 연구되는 핵심 기술들이다. 본 논문에서 제시한 방법론은 사회문제나 지역혁신, 경영 등 다양한 분야에서의 동향분석이나 정책 도출 또는 기술 수요 예측에 활용되어 질 수 있을 것이다.
기업이나 정부에서는 연구나 기술 동향을 파악하고 예측하기 위해 주로 델파이 기법이 활용하여 왔다. 이 기법은 많은 시간과 비용이 소요되는 단점이 있기에 본 논문에서는 LDA 토픽모델링 기법을 활용하여 과학기술의 동향 및 예측에 관한 연구를 실시하였다. 이를 위해 미국 특허 문서중 AI(Artificial Intelligence) 초록을 대상으로 LDA 토픽모델링 기법을 활용하여 20개의 AI 세부기술을 추출하였다. 도출된 세부기술에 대해 핵심기술을 파악하고, 연도별 비중 추이 분석을 통하여 Hot기술과 Cold기술을 분류하였다. 텍스트 탐색, 컴퓨터 관리, 프로그래밍 구문, 네트워크 관리, 멀티미디어, 무선 네트워크 기술 등이 Hot 기술로 도출되었다. 이런 기술들은 최근 AI 분야에서 활발하게 연구되는 핵심 기술들이다. 본 논문에서 제시한 방법론은 사회문제나 지역혁신, 경영 등 다양한 분야에서의 동향분석이나 정책 도출 또는 기술 수요 예측에 활용되어 질 수 있을 것이다.
Companies and Governments have Mainly used the Delphi Technique to Understand Research or Technology Trends. Because this Technique has the Disadvantage of Consuming a Large Amount of Time and Money, this Study Attempted to Understand and Predict Science and Technology Trends using the Topic Modelin...
Companies and Governments have Mainly used the Delphi Technique to Understand Research or Technology Trends. Because this Technique has the Disadvantage of Consuming a Large Amount of Time and Money, this Study Attempted to Understand and Predict Science and Technology Trends using the Topic Modeling Technique Latent Dirichlet Allocation (LDA). To this end, 20 Specific Artificial Intelligence (AI) Technologies were Extracted From the Abstracts of the US Patent Documents on AI. With Regard to the Extracted Specific Technologies, Core Technologies were Identified, and then these were Divided into Hot and Cold Technologies though a Trend Analysis on their Annual Proportions. Text/Word Searching, Computer Management, Programming Syntax, Network Administration, Multimedia, and Wireless Network Technology were Derived From Hot Technologies. These Technologies are Key Technologies that are Actively Studied in the Field of AI in Recent Years. The Methodology Suggested in this Study may be used to Analyze Trends, Derive Policies, or Predict Technical Demands in Various Fields such as Social Issues, Regional Innovation, and Management.
Companies and Governments have Mainly used the Delphi Technique to Understand Research or Technology Trends. Because this Technique has the Disadvantage of Consuming a Large Amount of Time and Money, this Study Attempted to Understand and Predict Science and Technology Trends using the Topic Modeling Technique Latent Dirichlet Allocation (LDA). To this end, 20 Specific Artificial Intelligence (AI) Technologies were Extracted From the Abstracts of the US Patent Documents on AI. With Regard to the Extracted Specific Technologies, Core Technologies were Identified, and then these were Divided into Hot and Cold Technologies though a Trend Analysis on their Annual Proportions. Text/Word Searching, Computer Management, Programming Syntax, Network Administration, Multimedia, and Wireless Network Technology were Derived From Hot Technologies. These Technologies are Key Technologies that are Actively Studied in the Field of AI in Recent Years. The Methodology Suggested in this Study may be used to Analyze Trends, Derive Policies, or Predict Technical Demands in Various Fields such as Social Issues, Regional Innovation, and Management.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 LDA 토픽모델링을 활용하여 과학 기술동향 및 예측을 위한 분석 방법론을 제시하고 특허 데이터를 대상으로 실증분석을 실시하였다. LDA 토픽모델링 알고리즘을 이용하여 AI 세부 기술을 추출한 후 전체 기간(2000~2016년) 동안 핵심 기술을 도출하였으며, Hot/Cold AI(Artificial Intelligence) 세부 기술을 도출하였다.
델파이 기법은 절차의 복잡성과 시간 및 경제적 비용 증가, 소수 전문가의 과도한 영향력 발휘에 의한 왜곡 등 많은 단점이 있다[14]. 본 연구에서는 토픽모델링 기법을 활용하여 델파이 기법의 단점을 극복하고자 한다. 토픽모델링은 기존 정성적 분석의 한계를 극복하고 대량의 문서들에서 숨겨진 주제를 찾아내기 위하여 제시된 통계적 방법론으로 한 개의 문서를 한 개의 토픽으로만 할당하는 일반적인 접근법과는 달리 한 개의 문서에 여러 개의 토픽이 존재할 수 있으므로 융합성격의 기술 문서를 분석하는 데 유용하다[3].
본 연구의 목적은 LDA 토픽모델링을 활용하여 과학기술동향 및 예측을 위한 분석 방법론을 제시하는 것이다. 이를 위해 기술동향 및 예측 분석에 널리 활용되고 있는 AI 특허 초록을 이용하여 LDA 토픽모델링으로 실증분석을 실시한다.
따라서 특허 분석을 통해 미래기술에 대한 효과적인 예측이 가능하다. 특히 미국은 AI(Artificial Intelligence) 분야에서 탁월한 기술을 보유하고 있어 본 논문에서는 미국 AI 특허를 분석하여 AI 기술을 예측하고자 하였다. 이에 따라 AI 분야의 기술예측을 위해 미국 특허 DB의 초록을 분석대상으로 하였다.
제안 방법
AI 세부 기술을 추출하기 위해 전처리과정을 끝낸 특허 초록을 대상으로 오픈소스인 LDA 토픽모델링 프로그램을 사용하여 토픽을 추출하였다. 이 과정에서 적절한 토픽수와 샘플링 반복횟수는 연구자가 결과를 효과적으로 해석할 수 있는 수준에서 결정할 수 있다[12].
본 연구는 LDA 토픽모델링을 활용하여 과학 기술동향 및 예측을 위한 분석 방법론을 제시하고 특허 데이터를 대상으로 실증분석을 실시하였다. LDA 토픽모델링 알고리즘을 이용하여 AI 세부 기술을 추출한 후 전체 기간(2000~2016년) 동안 핵심 기술을 도출하였으며, Hot/Cold AI(Artificial Intelligence) 세부 기술을 도출하였다. 텍스트 탐색, 컴퓨터 관리, 프로그래밍 구문, 네트워크 관리, 멀티미디어, 무선 네트워크 기술 등이 Hot 기술로 도출되었다.
문서 내에 나타난 불필요한 특수문자, 관사, 조사 등의 불용어는 삭제하고 각 키워드들에 품사를 할당한 뒤에 명사들만 선택하였다. 도출된 키워드들의 레이블명을 정하기 위해 표제어선정(Lemmatization)을 하였다.
미국 특허 초록을 연단위로 분류한 후 개별 기술(토픽) 비중(값)을 분석한다. 즉 전 기간에 대한 연도별 비중 추이를 분석하여, 개별 기술(토 픽)의 값이 상승추세를 보이는 Hot 기술과 하락추세를 보이는 Cold 기술을 도출한다.
본 연구에서는 토픽의 수를 20개, 샘플링 반복 횟수를 1,000회로 수행하였고 LDA 프로그램에 사용된 α, β는 기본 값을 사용하였다.
주제어인 ‘Artificial Intelligence’를 키워드로 2000년 이후 미국 특허 DB에서 특허명, 특허출원 일자, 특허초록 등 14,187개의 특허문서를 연단 위로 추출하였다. 수집된 특허문서 중 초록들을 대상으로 전처리 작업을 수행하여 표제어(Lemma) 를 추출하였다. 이후 표제어에 대해 LDA 토픽모델링 기법을 활용하여 AI 기술의 토픽을 추출한 후, 이를 AI 세부 기술로 정의한다.
본 연구의 목적은 LDA 토픽모델링을 활용하여 과학기술동향 및 예측을 위한 분석 방법론을 제시하는 것이다. 이를 위해 기술동향 및 예측 분석에 널리 활용되고 있는 AI 특허 초록을 이용하여 LDA 토픽모델링으로 실증분석을 실시한다.
미국 특허 초록을 연단위로 분류한 후 개별 기술(토픽) 비중(값)을 분석한다. 즉 전 기간에 대한 연도별 비중 추이를 분석하여, 개별 기술(토 픽)의 값이 상승추세를 보이는 Hot 기술과 하락추세를 보이는 Cold 기술을 도출한다. 개별 기술 (토픽)의 추세를 판단하는 기준은 선형 회귀분석의 회귀계수 값을 사용한다.
이후 표제어에 대해 LDA 토픽모델링 기법을 활용하여 AI 기술의 토픽을 추출한 후, 이를 AI 세부 기술로 정의한다. 추출된 AI 세부 기술의 비중도 분석 및 Hot/Cold 토픽 분석을 통해 기술 흐름을 예측하였다.
특허 초록을 단어 단위로 나누기 위해 공백을기준으로 단위를 분리하였다. 문서 내에 나타난 불필요한 특수문자, 관사, 조사 등의 불용어는 삭제하고 각 키워드들에 품사를 할당한 뒤에 명사들만 선택하였다.
대상 데이터
기술동향을 분석하기 위해 수집된 14,187개 (2000년~2016년)의 미국 특허 초록을 연도별 분류 작업을 하였다. 연도별 초록 개수는 [Fig.
특히 미국은 AI(Artificial Intelligence) 분야에서 탁월한 기술을 보유하고 있어 본 논문에서는 미국 AI 특허를 분석하여 AI 기술을 예측하고자 하였다. 이에 따라 AI 분야의 기술예측을 위해 미국 특허 DB의 초록을 분석대상으로 하였다. 주제어인 ‘Artificial Intelligence’를 키워드로 2000년 이후 미국 특허 DB에서 특허명, 특허출원 일자, 특허초록 등 14,187개의 특허문서를 연단 위로 추출하였다.
토픽의 주제는 로봇공학, 비디오, 프로그래밍, 컴퓨터 관리, 문제해결 모델링, 객체인식, 게임, 가상화, 미적분학 등 다양한 AI 세부 기술을 포함하고 있다. 정의된 20개의 세부 기술들을 대상으로 추후 분석을 실시하였다.
주제어인 ‘Artificial Intelligence’를 키워드로 2000년 이후 미국 특허 DB에서 특허명, 특허출원 일자, 특허초록 등 14,187개의 특허문서를 연단 위로 추출하였다.
데이터처리
개별 기술 (토픽)의 추세를 판단하는 기준은 선형 회귀분석의 회귀계수 값을 사용한다. 독립변수는 연도로 하고, 종속변수는 개별 기술(토픽)의 연도별 비중 평균값을 사용하여 단순회귀 분석을 수행한다. 유의 수준은 0.
성능/효과
AI 분야의 핵심 기술을 파악하기 위해 특허 초록을 대상으로 2000년부터 2016년까지 세부 기술별 점유율(비중)을 분석한 결과는 [Table 2]와 같다. AI 분야의 핵심 세부 기술로 [T14] Problem solving method, [T7] SQL, [T5] Computer management, [T2] Text/Word searching 기술 등의 순으로 높은 비중을 보였다. 반면에 [T16] Game, [T6] Programming syntax, [T10] General networking, [T4] Programming 기술 등의 순으로 낮은 비중을 보였다.
LDA 토픽모델링 알고리즘을 이용하여 AI 세부 기술을 추출한 후 전체 기간(2000~2016년) 동안 핵심 기술을 도출하였으며, Hot/Cold AI(Artificial Intelligence) 세부 기술을 도출하였다. 텍스트 탐색, 컴퓨터 관리, 프로그래밍 구문, 네트워크 관리, 멀티미디어, 무선 네트워크 기술 등이 Hot 기술로 도출되었다. 이런 기술들은 최근 AI 산업에서 활발하게 연구되는 자율주행 자동차, 비서 서비스, 금융, 쇼핑, 사진이나 동영상 서비스 분야 등에서는 핵심 기술들이다.
후속연구
향후 연구과제로는 첫째, 기업이나 개인에게 맞는 텍스트 마이닝을 활용한 기술동향 및 예측을 위한 방법론이 개발된다면 예측 정확성을 높이고, 시간과 비용이 훨씬 줄어드는 효과가 발생할 것이다. 둘째, 특허 초록을 5년이나 10년 주기로 나누어서 분석 한다면 기술 예측에 있어 좀 더 의미 있는 결과를 유추할 수 있을 것이다.
본 연구를 통해 과학기술 정책 수립을 위해 빅 데이터 분석 방법을 제시하였고, 후속 연구를 유발하였다는 학문적 기여도가 있다. 현재 기술 예측을 위한 방법은 정성적 방법과 정량적 방법으로 나누어진다.
이런 방법론은 사회문제나 지역혁신, 경영 등 다양한 분야에서의 동향이나 예측에 활용이 가능할 것으로 생각된다. 실무적으로는 실제 행정기관의 과학정책 수립에 본 연구결과가 활용될 수 있을 것으로 기대된다. 그럼에도 불구하고 본 연구 방법이 과학 기술 예측에 있어서 최선의 방법인가에 대한 의문점이 있을 수 있다.
그럼에도 불구하고 본 연구 방법이 과학 기술 예측에 있어서 최선의 방법인가에 대한 의문점이 있을 수 있다. 향후 연구과제로는 첫째, 기업이나 개인에게 맞는 텍스트 마이닝을 활용한 기술동향 및 예측을 위한 방법론이 개발된다면 예측 정확성을 높이고, 시간과 비용이 훨씬 줄어드는 효과가 발생할 것이다. 둘째, 특허 초록을 5년이나 10년 주기로 나누어서 분석 한다면 기술 예측에 있어 좀 더 의미 있는 결과를 유추할 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
유망 기술을 예측하는 방법에는 무엇이 주로 활용되어 왔는가?
유망 기술을 예측하는 방법은 델파이 기법을 이용하여 전문가들의 의견을 집약하는 방식이 주로 활용되어 왔다[13]. 델파이 기법은 절차의 복잡성과 시간 및 경제적 비용 증가, 소수 전문가의 과도한 영향력 발휘에 의한 왜곡 등 많은 단점이 있다[14].
델파이 기법의 단점은 무엇인가?
유망 기술을 예측하는 방법은 델파이 기법을 이용하여 전문가들의 의견을 집약하는 방식이 주로 활용되어 왔다[13]. 델파이 기법은 절차의 복잡성과 시간 및 경제적 비용 증가, 소수 전문가의 과도한 영향력 발휘에 의한 왜곡 등 많은 단점이 있다[14]. 본 연구에서는 토픽모델링 기법을 활용하여 델파이 기법의 단점을 극복하고자 한다.
델파이 기법의 단점을 극복하고자 어떤 것을 사용하며 그것의 역할은 무엇인가?
본 연구에서는 토픽모델링 기법을 활용하여 델파이 기법의 단점을 극복하고자 한다. 토픽모델링은 기존 정성적 분석의 한계를 극복하고 대량의 문서들에서 숨겨진 주제를 찾아내기 위하여 제시된 통계적 방법론으로 한 개의 문서를 한 개의 토픽으로만 할당하는 일반적인 접근법과는 달리 한 개의 문서에 여러 개의 토픽이 존재할 수 있으므로 융합성격의 기술 문서를 분석하는 데 유용하다[3]. 토픽모델링 중 가장 대표적인 방법론은 LDA(Latent Dirichlet Allocation) 기법으로 산업공학, 문헌정보학, 전산학 등 기술 예측 연구에 활발히 활용되고 있다.
참고문헌 (14)
Kim, S. K. and Jang, S. Y., "A Study on the Research Trends in Domestic Industrial and Management Engineer ing using Topic Modeling", Journal of the Korea Management Engineers Society, Vol. 21, No. 3, pp. 71-95, 2016.
Park, J. H. and Song, M., "A Study on the Research Trends in Library & Information Science in Korea using Topic Modeling", Korea Society for Information Management, Vol. 30, No. 1, pp. 7-32, 2013.
Seo, S. H. and Lee, H. Y., "Fintech Trend Analysis using Topic Modeling of BM Patents", Proceedings of the Korean Industrial Engineering Society Fall Conference, pp. 471-480, 2015.
Lee, S. Y. and Lee, K. M., "Trend Extraction using Topic Model Based on Reply Graph", Korean Institute of Intelligent Systems, Vol. 24, No. 2, pp. 99-100, 2014.
Jeong, D. M., "Study of Topic Classification and Keywords for Online Fiction Search", Department of Transdisciplinary Studies, The Graduate School Seoul National University, 2015.
Jeong, B. K. and Lee, H. Y., "Research Topics in Industrial Engineering 2001-2015", Journal of the Korean Institute of Industrial Engineers, Vol. 42, No. 6, pp. 421-431, 2016.
Jeong, B. K., Kim, J. W. and Yoon, J. H., "Patent-Based Competitive Intelligence Analysis of Augmented Reality Technology : Application of Topic Modeling", Proceedings of the Korean Industrial Engineering Society Fall Conference, pp. 2262-2267, 2015.
Jin, S. A., Heo, C. E., Jeong, Y. K. and Song, M., "Topic-Network based Topic Shift Detection on Twitter", Korea Society for Information Management, Vol. 30, No. 1, pp. 285-302, 2013.
Song, M. and Kim, S. Y., "Detecting the Knowledge Structure of Bioinformatics by Mining Full-Text Collections", Scientometrics, Vol. 96, No. 1, pp. 183-201, 2013.
Choi, Y. S., Baek, S. C. and Kwon, H. I., "Study on City Revitalization Plan Via U-City Project", The Journal of Internet Electronic Commerce Research, Vol. 8, No. 3, pp. 183-209, 2008.
Suh, C. K., Kim E. J. and Lee Y. S., "The Development of Delphi Support Decision System on the Web", The Journal of Information Systems, Vol. 10, No. 1, pp. 5-25, 2001.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.