본 연구의 목적은 한국콘텐츠학회 논문지에 게재된 9,858건의 논문을 대상으로 토픽 모델링을 활용하여 지난 20년간 연구동향을 탐색함으로써 콘텐츠 연구개발에서의 주요 토픽을 도출하고 학술적 발전방향을 제공하는데 있다. 추출된 토픽의 신뢰성과 타당성을 확보하기 위해 양적 평가기법 뿐만 아니라 정성적 기법을 단계적으로 적용하여 연구자들이 합의한 수준의 말뭉치가 생성될 때까지 이를 반복적으로 수행하였으며 이에 따른 구체적인 분석 절차를 제시하였다. 분석 결과 8개의 핵심 토픽이 추출되었다. 이는 한국콘텐츠학회가 특정 학문 분야를 한정하지 않고 다양한 분야의 융·복합 연구 논문을 발간하고 있음을 보여준다. 또한 2012년 이전 상반기에는 공학기술 분야 토픽 비중이 상대적으로 높게 나타난 반면, 2012년 이후 하반기에는 사회과학 분야 토픽 출현 비중이 상대적으로 높게 나타났다. 구체적으로 '사회복지' 토픽은 상반기 대비 하반기에 약 4배수 증가세가 나타났다. 토픽별 추세분석을 통해 추세선의 변곡점이 나타난 특정 시점에 주목하여 해당 토픽의 연구동향에 영향을 미친 외적 변인을 탐색하였고 토픽과 외적 변인 간 관련성을 파악하였다. 본 연구결과가 국내 콘텐츠 관련 연구 개발 및 산업 분야에서 진행되고 있는 활발한 논의를 진행하는데 시사점을 제공할 수 있기를 기대한다.
본 연구의 목적은 한국콘텐츠학회 논문지에 게재된 9,858건의 논문을 대상으로 토픽 모델링을 활용하여 지난 20년간 연구동향을 탐색함으로써 콘텐츠 연구개발에서의 주요 토픽을 도출하고 학술적 발전방향을 제공하는데 있다. 추출된 토픽의 신뢰성과 타당성을 확보하기 위해 양적 평가기법 뿐만 아니라 정성적 기법을 단계적으로 적용하여 연구자들이 합의한 수준의 말뭉치가 생성될 때까지 이를 반복적으로 수행하였으며 이에 따른 구체적인 분석 절차를 제시하였다. 분석 결과 8개의 핵심 토픽이 추출되었다. 이는 한국콘텐츠학회가 특정 학문 분야를 한정하지 않고 다양한 분야의 융·복합 연구 논문을 발간하고 있음을 보여준다. 또한 2012년 이전 상반기에는 공학기술 분야 토픽 비중이 상대적으로 높게 나타난 반면, 2012년 이후 하반기에는 사회과학 분야 토픽 출현 비중이 상대적으로 높게 나타났다. 구체적으로 '사회복지' 토픽은 상반기 대비 하반기에 약 4배수 증가세가 나타났다. 토픽별 추세분석을 통해 추세선의 변곡점이 나타난 특정 시점에 주목하여 해당 토픽의 연구동향에 영향을 미친 외적 변인을 탐색하였고 토픽과 외적 변인 간 관련성을 파악하였다. 본 연구결과가 국내 콘텐츠 관련 연구 개발 및 산업 분야에서 진행되고 있는 활발한 논의를 진행하는데 시사점을 제공할 수 있기를 기대한다.
The purpose of this study is to derive major topics in content R&D and provide directions for academic development by exploring research trends over the past 20 years using topic modeling targeting 9,858 papers published in the Journal of the Korean Contents Association. To secure the reliability an...
The purpose of this study is to derive major topics in content R&D and provide directions for academic development by exploring research trends over the past 20 years using topic modeling targeting 9,858 papers published in the Journal of the Korean Contents Association. To secure the reliability and validity of the extracted topics, not only the quantitative evaluation technique but also the qualitative technique were applied step-by-step and repeated until a corpus of the level agreed upon by the researchers was generated, and detailed analysis procedures were presented accordingly. As a result of the analysis, 8 core topics were extracted. This shows that the Korean Contents Association is publishing convergence and complex research papers in various fields without limiting to a specific academic field. Also, before 2012, the proportion of topics in the field of engineering and technology appeared relatively high, while after 2012, the proportion of topics in the field of social sciences appeared relatively high. Specifically, the topic of 'social welfare' showed a fourfold increase in the second half compared to the first half. Through topic-specific trend analysis, we focused on the turning point in time at which the inflection point of the trend line appeared, explored the external variables that affected the research trend of the topic, and identified the relationship between the topic and the external variable. It is hoped that the results of this study can provide implications for active discussions in domestic content-related R&D and industrial fields.
The purpose of this study is to derive major topics in content R&D and provide directions for academic development by exploring research trends over the past 20 years using topic modeling targeting 9,858 papers published in the Journal of the Korean Contents Association. To secure the reliability and validity of the extracted topics, not only the quantitative evaluation technique but also the qualitative technique were applied step-by-step and repeated until a corpus of the level agreed upon by the researchers was generated, and detailed analysis procedures were presented accordingly. As a result of the analysis, 8 core topics were extracted. This shows that the Korean Contents Association is publishing convergence and complex research papers in various fields without limiting to a specific academic field. Also, before 2012, the proportion of topics in the field of engineering and technology appeared relatively high, while after 2012, the proportion of topics in the field of social sciences appeared relatively high. Specifically, the topic of 'social welfare' showed a fourfold increase in the second half compared to the first half. Through topic-specific trend analysis, we focused on the turning point in time at which the inflection point of the trend line appeared, explored the external variables that affected the research trend of the topic, and identified the relationship between the topic and the external variable. It is hoped that the results of this study can provide implications for active discussions in domestic content-related R&D and industrial fields.
그런데 국내에서 ‘콘텐츠’로 어떤 내용들이 연구되었으며 어떻게 변화하였는지에 대해 체계적으로 분석한 연구는 찾아보기 어렵다. 이러한 문제의식에서 출발한 본 연구는 한국콘텐츠학회의 논문지에 게재된 논문을 대상으로 토픽 모델링을 이용하여 심층적으로 분석해봄으로써 국내 콘텐츠와 관련된 하위영역의 주요 연구 토픽을 추출하고 이러한 토픽들이 지난 20년간 어떻게 변화되었는지 탐색한다. 한국콘텐츠학회지가 과학기술 분야 콘텐츠뿐만 아니라 융·복합 학술분야 연구를 출간하는 학술지로 성장해온 것을 고려해볼 때, 한국콘텐츠학회지에 게재된 연구들의 연구동향을 살펴봄으로써 콘텐츠와 관련된 학문적 논의와 중요한 쟁점 및 문제의식의 변화를 거시적으로 살펴보는 것은 의미가 있다.
이에 본 연구에서는 추출된 토픽의 신뢰성과 타당성을 확보하기 위해 양적 평가기법뿐만 아니라 정성적 기법을 단계적으로 적용하여 연구자들이 합의한 수준의 말뭉치가 생성될 때까지 데이터 전처리 과정을 반복적으로 수행하였으며 이에 따른 구체적인 분석 절차를 제시하였다. 최종 단계에서는 생성된 말뭉치를 이용하여주요 토픽을 추출한 후 토픽별로 지난 20년간 연구 동향을 분석하였다.
제안 방법
KoreaScience 웹페이지에서 크롤링 기법을 활용하여 한국콘텐츠학회 논문지의 국문 초록, 서명, 주제어를 수집하여 말뭉치를 생성하였다. 초록이 잘 읽혔는지 검증한 방법은 다음과 같다.
먼저 웹 크롤링을 활용하여 9, 860건의 초록으로 구성된 텍스트데이터 셋을 생성한 후, 데이터 전처리를 단계적으로 수행함으로써 분석용 말뭉치를 생성하였다. 그리고 나서 최종 말뭉치를 활용하여 LDA를 이용한 토픽 분석을 실시한 후, 추출된 토픽에 대한 지난 20년간 추세 분석을 실시하였다.
이러한 맥락에서 산업 및 다학제 기반 연구자들이 데이터 전처리 단계에서 연구 기반 필수단어 및 삭제 규칙을 생성하여 이를 적용함으로써 최종 말뭉치를 생성하였고, 혼잡도와 간섭성 지표를 이용하여 토픽 수를 결정하였다. 그리고 토픽별 핵심 단어 중에 중복되는 단어들의 비중이 낮고 토픽 내 상대점유율이 높은 단어들의 의미를 종합하여 토픽 주제를 선정하였다. 또한 시간에 따른 토픽 게재 빈도의 변화 패턴 분석을 통해 과거 시점의 중요한 쟁점과의 관련성을 도출하고 추출된 토픽들의 해석 가능성을 확인함으로써 실제적이면서도 유의미한 결과를 산출하였다.
[그림 2]는 본 연구에서의 주요 연구 절차를 도식화한 것이다. 먼저 웹 크롤링을 활용하여 9, 860건의 초록으로 구성된 텍스트데이터 셋을 생성한 후, 데이터 전처리를 단계적으로 수행함으로써 분석용 말뭉치를 생성하였다. 그리고 나서 최종 말뭉치를 활용하여 LDA를 이용한 토픽 분석을 실시한 후, 추출된 토픽에 대한 지난 20년간 추세 분석을 실시하였다.
본 연구에서는 한국콘텐츠학회 논문지에 게재된 논문자료를 이용하여 토픽 분석을 실시하였고, 추세 분석을 통해 지난 20년간 국내 콘텐츠 관련 중요한 관심사를 체계적으로 분석하였다. 본 연구의 의의는 다음과 같다.
이러한 맥락에서 산업 및 다학제 기반 연구자들이 데이터 전처리 단계에서 연구 기반 필수단어 및 삭제 규칙을 생성하여 이를 적용함으로써 최종 말뭉치를 생성하였고, 혼잡도와 간섭성 지표를 이용하여 토픽 수를 결정하였다. 그리고 토픽별 핵심 단어 중에 중복되는 단어들의 비중이 낮고 토픽 내 상대점유율이 높은 단어들의 의미를 종합하여 토픽 주제를 선정하였다.
이에 논문들의 토픽을 보다 뚜렷하게 분별하면서도 추출된 토픽들에 대한 해석의 타당성을 확보하기 위한 전략으로 토큰화(Tokenization), 정제 (Cleaning), 정규화(Normalization)를 포함한 양적 분석과 융·복합 학문 기반 불용어 및 필수단어 목록 규칙을 생성하는 질적 분석을 병행하였으며, 연구자들이 합의한 의미 있는 말뭉치가 생성될 때까지 반복적으로 실시하였다.
이에 본 연구에서는 추출된 토픽의 신뢰성과 타당성을 확보하기 위해 양적 평가기법뿐만 아니라 정성적 기법을 단계적으로 적용하여 연구자들이 합의한 수준의 말뭉치가 생성될 때까지 데이터 전처리 과정을 반복적으로 수행하였으며 이에 따른 구체적인 분석 절차를 제시하였다. 최종 단계에서는 생성된 말뭉치를 이용하여주요 토픽을 추출한 후 토픽별로 지난 20년간 연구 동향을 분석하였다. 이처럼 토픽과 시대적 변인 간 관련성을 확인하는 작업을 통해 추출된 토픽의 신뢰성과 타당성을 검증함으로써 텍스트 마이닝을 통해 찾아낸 숨겨진 패턴과 새로운 정보는 콘텐츠와 관련된 학문적 영역의 미래지향적 논의를 위한 기초자료로서 의미가 있다.
추출된 토픽별로 단순선형회귀분석 및 추세 그래프 분석을 통해 지난 20년간 토픽별 변화 패턴을 심층적으로 분석함으로써 한국콘텐츠학회 논문지 연구 자료에서 ‘콘텐츠’라는 개념이 내포하고 있는 토픽들의 특성을 도출하였다. 특히 추세선의 변곡점이 나타난 특정 시점에 주목하여 해당 토픽의 연구동향에 영향을 미친 외적 변인을 탐색하였고 토픽과 외적 변인 간 관련성을 파악하였다. 이러한 연구결과는 본 연구 결과의 신뢰성과 타당성을 지지하는 근거가 될 수 있다.
대상 데이터
연구범위는 한국콘텐츠학회에서 2001년부터 2021 년 3월까지 출판된 국내 논문 총 9, 860편의 학술논문의 초록이다. 본 연구는 한국콘텐츠학회 편집위원회로부터 학술연구를 위한 목적으로 한국콘텐츠학회 논문자료를 활용할 것을 승인받고 진행하였다.
먼저, 읽힌 자료 중에 잘린 내용을 확인하였다. 이후에는 일부 표본을 선택하여 원래 파일과 대조하여 초록 중 일부가 특수 기호의 영향으로 잘리거나, 초록이 누락된 경우 원문을 확인하여 자료를 정비하였으며, 국문 초록이 결측된 2건을 제외한 총 9, 858 건의 초록이 데이터 셋으로 입력됨을 확인하였다.
데이터처리
한국콘텐츠학회에서 과거 혹은 현재 활발하게 수행된 연구와 그렇지 않은 연구 토픽을 살펴보기 위해 2011년을 기점으로 2001년부터 2011년까지는 상반기로, 2012년부터 2021년 3월까지는 하반기로 분류한 후 워드 클라우드 및 토픽별 빈도 분석을 실시하였다. 또한 2001년부터 2021년까지 연도별 토픽 주제의 변화를 탐색하기 위해 단순선형회귀분석 및 추세 그래프분석을 실시하였다. 선형회귀분석에서 추정된 회귀 계수는 단순히 증가 혹은 감소하는 직선 형태의 패턴만을 반영하므로 해당 토픽에 대한 연도별 논문 수의 실제 변화 패턴을 확인하는데 한계가 있다.
한국콘텐츠학회에서 과거 혹은 현재 활발하게 수행된 연구와 그렇지 않은 연구 토픽을 살펴보기 위해 2011년을 기점으로 2001년부터 2011년까지는 상반기로, 2012년부터 2021년 3월까지는 하반기로 분류한 후 워드 클라우드 및 토픽별 빈도 분석을 실시하였다. 또한 2001년부터 2021년까지 연도별 토픽 주제의 변화를 탐색하기 위해 단순선형회귀분석 및 추세 그래프분석을 실시하였다.
이론/모형
3. LDA를 이용한 토픽 추출 및 타당성 검토
토픽 분석은 gensim 라이브러리의 LdaModel 함수를 이용하였다. 적절한 토픽 개수를 설정하기 위하여 혼잡도(Perplexity)와 간섭성(Coherence) 값을 계산하였다.
1단계에서는 마침표를 포함한 특수 문자들을 기준으로 문자열을 분리한 후, NLP 연구에서 일반적으로 사용되는 불용어인 특수 기호, 영어, 숫자, 문장 부호 등을 삭제하였다. 형태소 분석은 Konlpy 패키지의 okt 알고리즘을 이용하여 분석하였으며, 품사는 명사만 추출하여 약 28, 000여 개의 고유 단어를 추출하였다. 2단계에서는 1단계에서 생성된 말뭉치 중, 출현 빈도가 20회 이상인 4, 400여 개의 단어를 대상으로 연구·영역 기반 불용어 삭제 및 필수단어 목록을 위한 규칙을 생성한 뒤 2단계 규칙을 적용한 말뭉치를 다시 생성하였다.
성능/효과
그럼에도 본 연구에서 한국콘텐츠학회 논문지에 2010 년 이후 인문·사회과학 분야 연구비중이 공학·기술 분야에 비해 높게 분석된 점을 고려해 볼 때, 실제 적으로 인공지능이나 빅데이터 관련 연구의 투고 비중이 사회적 관심에 비해 낮았다고 유추할 수 있다.
그리고 토픽별 핵심 단어 중에 중복되는 단어들의 비중이 낮고 토픽 내 상대점유율이 높은 단어들의 의미를 종합하여 토픽 주제를 선정하였다. 또한 시간에 따른 토픽 게재 빈도의 변화 패턴 분석을 통해 과거 시점의 중요한 쟁점과의 관련성을 도출하고 추출된 토픽들의 해석 가능성을 확인함으로써 실제적이면서도 유의미한 결과를 산출하였다.
본 연구가 토픽 모델링을 이용하여 한국콘텐츠학회 논문지의 연구동향을 체계적으로 파악해보았다는 면에서 연구의 의의가 있지만, 토픽의 개수를 8개로 선정함으로써 본 연구에서는 규명하지 못한 중요한 관심사가 있을 수 있다. 예를 들어, 2010년대 하반기에 빅데이터와 인공지능이 사회적, 정치적으로 많은 관심을 받았음에도 추출된 8개의 토픽 혹은 연관 단어 목록에서는 관련 용어가 나타나지 않았다는 점은 주목할 만하다.
이상의 논의를 통해, 본 연구는 토픽 분석을 체계적으로 활용함으로써 실제 연구현황을 내포하고 있는 빅데이터에서 숨겨져 있는 패턴을 발견하였다는 점에서 의의가 있다. 이에 후속 연구에서는 ‘콘텐츠’라는 개념을 포괄하는 자료를 추가로 수집하여 우리나라 콘텐츠 관련 연구의 전반적인 연구동향을 파악해 볼 수 있을 것이다.
첫째, 토픽 분석을 활용하여 지난 20년간 한국콘텐츠학회 논문지에 게재된 논문으로부터 8개 영역(산업·정책, 사회복지, 교육·인력개발, 영상, 문화콘텐츠, 마케팅·서비스, 정보기술, 의료·보건)의 우세 토픽을 추출하였다
추출된 토픽별로 단순선형회귀분석 및 추세 그래프 분석을 통해 지난 20년간 토픽별 변화 패턴을 심층적으로 분석함으로써 한국콘텐츠학회 논문지 연구 자료에서 ‘콘텐츠’라는 개념이 내포하고 있는 토픽들의 특성을 도출하였다
후속연구
이에 후속 연구에서는 ‘콘텐츠’라는 개념을 포괄하는 자료를 추가로 수집하여 우리나라 콘텐츠 관련 연구의 전반적인 연구동향을 파악해 볼 수 있을 것이다. 본 연구 결과가 국내 콘텐츠 관련 연구 개발 및 산업 분야에서 진행되고 있는 활발한 논의에 학술적인 시사점을 제공할 수 있기를 기대한다.
이상의 논의를 통해, 본 연구는 토픽 분석을 체계적으로 활용함으로써 실제 연구현황을 내포하고 있는 빅데이터에서 숨겨져 있는 패턴을 발견하였다는 점에서 의의가 있다. 이에 후속 연구에서는 ‘콘텐츠’라는 개념을 포괄하는 자료를 추가로 수집하여 우리나라 콘텐츠 관련 연구의 전반적인 연구동향을 파악해 볼 수 있을 것이다. 본 연구 결과가 국내 콘텐츠 관련 연구 개발 및 산업 분야에서 진행되고 있는 활발한 논의에 학술적인 시사점을 제공할 수 있기를 기대한다.
참고문헌 (21)
G. Miner, J. Elder, A. Fast, T. Hill, R. Nisbet, and D. Delen, "Practical text mining and statistical analysis for non-structured text data applications," Elsevier Science & Technology, Waltham, https://doi.org/10.1016/C2010-0-66188-8, 2012.
한국콘텐츠진흥원, 디지털 콘텐츠 발전을 위한 인문. 사회과학 통합형 R&D 모델 개발 기초 연구, kocca 연구보고서, pp.10-47, 2010.
이수범, "콘텐츠 산업의 포스트 코로나19 이슈 탐색 연구 : 신문기사의 텍스트 마이닝 분석을 중심으로," 언론문화연구, 제30호, pp.35-70, 2021.
D. M. Blei, "Probabilistic topic models," Communications of the ACM, Vol.55, No.4, pp.77-84, 2012.
장재윤, 최연재, 강지연, "국내 ICT 업종 종사자들의 직장에 대한 불만 요인 분석 및 전/현직자 간 차이 분석: 토픽 모델링 적용," 한국심리학회지: 일반, 제39권, 제3호, pp.445-480, 2020.
K. Kim, N. C. T. Hai, and H. R. Park, "SVD-LDA: A Combined Model for Text Classification," JIPS(Journal of Information Processing Systems), Vol.5, No.1, pp.5-10, 2009.
C. E. Moody, "Mixing Dirichlet Topic Models and Word Embeddings to Make Lda2vec," arXiv Preprint arXiv: 1605.02019, 2016.
W. Choi and E. Kim, "A Large-scale Text Analysis with Word Embeddings and Topic Modeling," Journal of Cognitive Science, Vol.20, No.1, pp.147-187, 2019.
H. Jelodar, Y. Wang, C. Yuan, X. Feng, X. Jiang, Y. Li, and L. Zhao, "Latent Dirichlet allocation (LDA) and Topic modeling: models, applications, a survey," Multimedia Tools and Applications, Vol.78, Issue 11, pp.15169-15211, 2019.
D. M. Blei, A. Y. Ng, and M. I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol.3, pp.993-1022, 2003.
A. Gruber, Y. Weiss, and M. Rosen-Zvi, "Hidden topic Markov models," Proceedings of the Eleventh International Conference on Artificial Intelligence and Statistics, Vol.2, pp.163-170, 2009.
C. Sievert and K. Shirley, "LDAvis: A method for visualizing and interpreting topics," Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces, pp.63-70, 2014.
J. Chuang, D. Ramage, C. Manning, and J. Heer, "Interpretation and trust: Designing model-driven visualizations for text analysis," Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp.443-452, 2012.
보건복지부, "기관생명윤리위원회 지원을 위한 포털사이트 오픈," 보건복지부 보도자료, 2013. 01. 15.
J. Kim and J. Kim, "Institutional review board and research ethics," THE JOURNAL OF THE KOREAN ACADEMY OF PEDIATRIC DENTISTRY, Vol.41, Issue 2, pp.187-192, 2014.
L. Tay, S. Woo, L. Hickman, and R. Saef, "Psychometric and validity issues in machine learning approaches to personality assessment: A focus on social media text mining," European Journal of Personality, Vol.34, No.5, pp.826-844, 2020.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.