[논문]머신러닝 및 딥러닝 연구동향 분석: 토픽모델링을 중심으로

김창식; 김남규; 곽기영

doi:10.17662/ksdim.2019.15.2.019

머신러닝 및 딥러닝 연구동향 분석: 토픽모델링을 중심으로
Research Trends Analysis of Machine Learning and Deep Learning: Focused on the Topic Modeling 원문보기

디지털산업정보학회논문지 = Journal of the Korea Society of Digital Industry and Information Management, v.15 no.2, 2019년, pp.19 - 28

김창식 (세종대.배화여자대학교 글로벌관광과) , 김남규 (국민대 경영정보학부) , 곽기영 (국민대 경영대학)

Abstract ▼ AI-Helper

The purpose of this study is to examine the trends on machine learning and deep learning research in the published journals from the Web of Science Database. To achieve the study purpose, we used the abstracts of 20,664 articles published between 1990 and 2017, which include the word 'machine learning', 'deep learning', and 'artificial neural network' in their titles. Twenty major research topics were identified from topic modeling analysis and they were inclusive of classification accuracy, machine learning, optimization problem, time series model, temperature flow, engine variable, neuron layer, spectrum sample, image feature, strength property, extreme machine learning, control system, energy power, cancer patient, descriptor compound, fault diagnosis, soil map, concentration removal, protein gene, and job problem. The analysis of the time-series linear regression showed that all identified topics in machine learning research were 'hot' ones.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구의 목적은 인공신경망을 포함하는 머신러닝 및 딥러닝 트렌드를 분석하여 시사점을 도출하는 것이다. 연구 목적을 달성하기 위해서, 웹오브사이언스 데이터베이스의 검색 제목에 ‘머신러닝’, ‘딥러닝’ 및 ‘인공신경망’ 키워드를 포함한 논문을 검색하였으며, 1990년부터 2016년까지의 20,664 편의 논문이 추출되었다.

제안 방법

첫째, 본 연구는 최근 텍스트마이닝 연구에서 중요하게 다루어지는 토픽모델링 기법을 적용하였다. 둘째, 기존의 선행 연구들이 주로 당면한 문제를 풀기 위한 시도였으나, 본 연구는 기존 연구들의 트렌드에 초점을 두었다.
본 연구는 데이터 수집, 데이터 전처리, 데이터 분석의 절차를 따른다. 데이터는 웹오브사이언스 데이터베이스에서 수집하였고, 데이터 전처리는 excel과 SAS EM을 활용하였으며, 데이터 분석은 SAS EM으로 토픽모델링을 수행하였고, SPSS를 활용하여 시계열회귀분석을 하였다.
본 연구에서는 1990년부터 2017년까지 머신러닝및 딥러닝 관련 20,664개 논문초록을 대상으로 토픽 모델링과 시계열회귀분석 방법을 사용하여, 연구동향을 분석하였다.
본 연구의 목적을 달성하기 위해서 우선 토픽모델 링을 실시하였고, 이후 시계열회귀분석을 통해 연도별 토픽변화를 파악하였다. 분석 대상 논문 20,664편의 초록을 대상으로, 전처리 작업을 위해서 excel을사용하였다.
본 연구는 이상의 선행 연구들과 다음과 같은 차이가 있다. 첫째, 본 연구는 최근 텍스트마이닝 연구에서 중요하게 다루어지는 토픽모델링 기법을 적용하였다. 둘째, 기존의 선행 연구들이 주로 당면한 문제를 풀기 위한 시도였으나, 본 연구는 기존 연구들의 트렌드에 초점을 두었다.

대상 데이터

본 논문에서 다루는 머신러닝 및 딥러닝과 관련된 연구는 1950~1959년 3편에서 2000~2009년 5,773편, 2010~2017년 13,084편으로 급격하게 증가하였다. 이는 최근 다양한 분야의 수많은 연구자들이 머신러닝 및 딥러닝 관련분야에 관심을 두고 연구를 진행하고 있음을 의미한다.
본 연구는 2018년 3월 31일 기준으로, 웹오브사이언스(web of science) 데이터베이스에서 주제에 ‘machine learning’, ‘deep learning’, 및 ‘artificial neural network’ 키워드가 포함된 논문 21,204건 (1958년~2017년)중에서 초록이 포함된 20,664편(1990년~2017년)을 대상으로 하였다.
본 연구의 목적을 달성하기 위해서 우선 토픽모델 링을 실시하였고, 이후 시계열회귀분석을 통해 연도별 토픽변화를 파악하였다. 분석 대상 논문 20,664편의 초록을 대상으로, 전처리 작업을 위해서 excel을사용하였다. 전처리 후 SAS Enterprise Guide 7.
연구 목적을 달성하기 위해서, 웹오브사이언스 데이터베이스의 검색 제목에 ‘머신러닝’, ‘딥러닝’ 및 ‘인공신경망’ 키워드를 포함한 논문을 검색하였으며, 1990년부터 2016년까지의 20,664 편의 논문이 추출되었다.

데이터처리

본 연구는 데이터 수집, 데이터 전처리, 데이터 분석의 절차를 따른다. 데이터는 웹오브사이언스 데이터베이스에서 수집하였고, 데이터 전처리는 excel과 SAS EM을 활용하였으며, 데이터 분석은 SAS EM으로 토픽모델링을 수행하였고, SPSS를 활용하여 시계열회귀분석을 하였다. 또한 워드클라우드 분석은 R Programming을 활용하였다.
분석 대상 논문 20,664편의 초록을 대상으로, 전처리 작업을 위해서 excel을사용하였다. 전처리 후 SAS Enterprise Guide 7.2(SAS EG)를 통해 SAS EM 분석용 파일로 변환하였고, SAS EM의 토픽모델링을 기능을 활용하여 분석하였다. SAS EM을 활용한 토픽모델링은 첫째, 분석용 텍스트데이터 불러오기 둘째, 텍스트 파싱 셋째, 텍스트 필터 넷째, 토픽모델링의 단계로 수행 된다[13-17].
토픽모델링 결과 데이터를 토대로 SPSS를 활용하여 시계열회귀분석을 진행하였고, R을 활용하여 워드클라우드 분석을 수행하였다.
핵심 토픽의 변화를 시간변화에 따라 파악하기 위해, 토픽모델링 결과 값을 기준으로 SPSS를 활용하여 시계열회귀분석을 수행하였다

이론/모형

데이터는 웹오브사이언스 데이터베이스에서 수집하였고, 데이터 전처리는 excel과 SAS EM을 활용하였으며, 데이터 분석은 SAS EM으로 토픽모델링을 수행하였고, SPSS를 활용하여 시계열회귀분석을 하였다. 또한 워드클라우드 분석은 R Programming을 활용하였다. 다음 <그림 1>은 분석 절차이다[13-18].
토픽 분석은 용어의 빈도수에 기반으로 하여 유사 문서를 군집화한 뒤, 각 군집을 대표하는 주요 토픽들을 추출하여 토픽 키워드 집합을 제안하는 방식으로 이루어진다[9][19]. 본 연구에서는 잠재의미분석 개념을 바탕으로 적용된 SAS Enterprise Miner 14.1(이하 SAS EM)를 활용 하였다.
연구 목적을 달성하기 위해서, 웹오브사이언스 데이터베이스의 검색 제목에 ‘머신러닝’, ‘딥러닝’ 및 ‘인공신경망’ 키워드를 포함한 논문을 검색하였으며, 1990년부터 2016년까지의 20,664 편의 논문이 추출되었다. 추출된 논문의 초록은 토픽모델링 기법을 활용하여 분석되었다. 이 연구의 결과는 다양한 분야의 연구자들이 머신러닝 및 딥러닝 연구를 수행하는데 있어 의미있는 시사점을 제공해 줄 수 있을 것이다.

성능/효과

토픽 모델링 결과 빈도는 각각의 토픽이 해당 기간 동안 얼마나 연구되었는지를 나타내주며, 토픽명은 핵심 키워드를 대표하는 용어로 선정하였다. 1990년에서 2017년까지의 토픽 모델링 결과 classification accuracy, machine learning, optimization problem, time series model, temperature flow, engine variable, neuron layer, spectrum sample, image feature, strength property, extreme machine learning, control system, energy power, cancer patient, descriptor compound, fault diagnosis, soil map, concentration removal, protein gene, and job problem 순으로 토픽이 도출되었다. 토픽 모델링 분석 결과 classification accuracy 토픽이 가장 높은 순위에 위치한 것으로 나타났다.
결론적으로 2010년 이후 머신러닝 및 딥러닝 관련 연구는 광범위하게 많이 수행되었음을 알 수 있다. 이는 기술의 발전으로 인해, 다양한 분야의 연구자들이 자신의 도메인에 머신러닝 및 딥러닝을 접목한 연구가 이루어지기 때문이라 판단된다.
본 연구의 분석 결과, 첫째, 토픽모델링 결과 총 20 개의 토픽(classification accuracy, machine learning, optimization problem, time series model, temperature flow, engine variable, neuron layer, spectrum sample, image feature, strength property, extreme machine learning, control system, energy power, cancer patient, descriptor compound, fault diagnosis, soil map, concentration removal, protein gene, and job problem)이 도출되었다. 둘째, 시계열 회귀분석 결과 모든 토픽이 상승추세를 보이는 것으로 나타났다. 이는 모든 토픽이 통계적으로 유의미하게 상승하고 있음을 나타낸다.
다음 <표 5>, <그림 3>, <그림 4>는 시계열회귀분석 결과이다. 모든 토픽이 통계적으로 유의미하게 상승 추세를 보임을 알 수 있다.
본 연구의 분석 결과, 첫째, 토픽모델링 결과 총 20 개의 토픽(classification accuracy, machine learning, optimization problem, time series model, temperature flow, engine variable, neuron layer, spectrum sample, image feature, strength property, extreme machine learning, control system, energy power, cancer patient, descriptor compound, fault diagnosis, soil map, concentration removal, protein gene, and job problem)이 도출되었다. 둘째, 시계열 회귀분석 결과 모든 토픽이 상승추세를 보이는 것으로 나타났다.
이러한 인공지능은 딥마인드의 알파고가 인간을 상대로 한 바둑에서 승리함으로써 폭발적인 관심을 받기 시작했고, 4차 산업혁명 시대의 핵심으로 평가 받고 있다. 알파고의 후속버전인 알파고-Zero는 지도 학습 개념을 벗어난 강화학습을 기반으로 진화하였고, 이는 기존의 알파고보다 월등히 뛰어난 성능을 보여주었다. 특히 알파고-Zero는 바둑 이론을 깨우치고 실력을 갖추는데 불과 72시간 정도 소요되었다.
1990년에서 2017년까지의 토픽 모델링 결과 classification accuracy, machine learning, optimization problem, time series model, temperature flow, engine variable, neuron layer, spectrum sample, image feature, strength property, extreme machine learning, control system, energy power, cancer patient, descriptor compound, fault diagnosis, soil map, concentration removal, protein gene, and job problem 순으로 토픽이 도출되었다. 토픽 모델링 분석 결과 classification accuracy 토픽이 가장 높은 순위에 위치한 것으로 나타났다.

후속연구

추출된 논문의 초록은 토픽모델링 기법을 활용하여 분석되었다. 이 연구의 결과는 다양한 분야의 연구자들이 머신러닝 및 딥러닝 연구를 수행하는데 있어 의미있는 시사점을 제공해 줄 수 있을 것이다.
이러한 연구결과를 바탕으로, 학자들은 연구의 방향성을 수립하는데, 실무자들은 비즈니스 사업기회 또는 업무효율을 위한 접근에 활용될 수 있을 것이다.
본 연구는 여러 가지 시사점을 도출하였음에도 불구하고, 분석데이터의 세분화 관점에서 일부 한계가 있다. 향후 보다 다양한 데이터를 그룹화 해서 연구를 확장한다면 의미 있는 시사점을 도출할 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	머신러닝의 정의는 무엇인가?	인공지능의 한 분야인 머신러닝은 컴퓨터가 명시적인 프로그래밍 없이, 학습 할 수 있는 능력을 부여하는 분야로 정의[4]되고, “데이터라는 형태로 얻어지는 경험(experience)으로부터 특정한 목표 작업(task)에 대한 성능(performance)을 향상시키는 일련의 과정”이라고도 정의된다[3, p.34] [5, p.
	딥러닝이 주목받게 된 계기는 무엇인가?	딥러닝은 머신러닝의 접근 법 중 하나인 신경망 모형 패러다임에 그 뿌리를 두고 있다. 단일 퍼셉트론에서 해결하지 못하는 문제를 다층 신경망 이론(다층 퍼셉트론)으로 해결하면서 주목을 받고 있다.
	인공지능을 선도하는 글로벌 Top 10 기업에는 무엇이 있는가?	미래 산업의 핵심으로 취급되는, 인공지능을 선도하는 글로벌 Top 10 기업에는 Nvidia Corporation, Alphabet (Google), Twilio, Amazon, Micron Technology, Microsoft, Baidu, Intel Corp, Facebook, Tencent가 있다[1]. 이들 기업들은 분류, 군집, 회귀 문제 등을 다루는 머신러닝, 딥러닝 및 인공지능에 지대한 관심을 두고 있다.

참고문헌 (20)

itechkorea, http://www.itechkorea.com/4%EC%B0%A8-%EC%82%B0%EC%97%85%EC%9D%98-%ED%95%B5%EC%8B%AC-ai-%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5%EC%9D%84-%EC%84%A0%EB%8F%84%ED%95%98%EB%8A%94-top-10-%EA%B8%B0%EC%97%85/, 2018
Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A, Chen, Y., Lillicrap, T., Hui, F., Sifre, L., Driessche, G. V. D., Graepel, T., & Hassabis, D. "Mastering the game of Go without human knowledge," Nature, 550, 2017, pp. 354-359.

상세보기
조성준.강석호, "머신러닝(인공지능)의 산업 응용," IE매거진, 23(2), 2016, pp. 34-38.
Samuel, A. L. "Some studies in machine learning using the game of checkers," IBM Journal of research and development, 44, 1959, pp. 206-226.
Mitchell, T. M. "Evaluating hypotheses," Machine Learning, 1997, pp. 128-153.
최영상, "Deep learning 및 지능 기술의 현황과 미래", IE 매거진, 22(2), 2015, pp. 31-35.
Wikipeida, https://ko.wikipedia.org/wiki/%EA%B0%95%ED%99%94_%ED%95%99%EC%8A%B5, 2019.
곽기영, SPSS를 이용한 통계데이터분석, 청람, 2019. pp. 1-767.
김남규.이동훈.최호창, William Xiu Shun Wong, " 텍스트 분석 기술 및 활용 동향," 한국통신학회논문지, 42(2), 2017, pp. 471-492.

원문보기 상세보기
박자현.송민, "토픽모델링을 활용한 국내 문헌정보학 연구동향 분석", 정보관리학회지, 30(1), 2013, pp. 7-32.

원문보기 상세보기
임명수.김남규, "기간별 이슈 매핑을 통한 이슈 생명주기 분석 방법론," 지능정보연구, 20(4), 2014, pp. 25-41.

원문보기 상세보기
류신.김남규, "거시적 이슈 트래킹의 한계 극복을 위한 개인 관심 트래킹 방법론," 한국IT서비스학회지, 13(4), 2014, pp. 275-287.

원문보기 상세보기
박준석.김창식.곽기영, "텍스트마이닝과 소셜네트워크분석 기법을 활용한 호텔분야 연구동향 분석," 관광레저연구, 28(9), 2016, pp. 209-226.
김창식.최수정.곽기영, "토픽모델링과 시계열회귀 분석을 활용한 정보시스템분야 연구동향 분석," 디지털콘텐츠학회논문지, 18(6), 2017, pp. 1143-1150.

원문보기 상세보기
김창식.곽기영.윤혜진, "관광분야 연구동향 분석: 토픽모델링과 시계열분석을 중심으로," 관광레저연구, 29(12), 2017, pp. 25-39.
김태경.김창식, "텍스트마이닝을 이용한 정보보호 연구동향 분석," 디지털산업정보학회논문지, 14(2), 2018, pp. 19-25.

원문보기 상세보기
윤혜진.김창식.곽기영, "Research Trends Investigation Using Text Mining Techniques: Focusing on Social Network Services," 디지털콘텐츠학회논문지, 19(3), 2018, pp. 513-519.

원문보기 상세보기
박종순.김창식, "빅데이터 연구동향 분석: 토픽 모델링을 중심으로," 디지털산업정보학회 논문지, 15(1), 2019, pp. 1-7.

원문보기 상세보기
현윤진.김남규, "텍스트 분석의 신뢰성 확보를 위한 스팸 데이터 식별 방안," 한국통신학회논문지, 42(2), 2017, pp. 493-504.

원문보기 상세보기
Griffiths, T. L., & Steyvers, M. "Finding scientific topics," Proceedings of the National academy of Sciences, 101(suppl 1), 2004, pp. 5228-5235.

상세보기

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증