$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

사회과학을 위한 양적 텍스트 마이닝: 이주, 이민 키워드 논문 및 언론기사 분석
Quantitative Text Mining for Social Science: Analysis of Immigrant in the Articles 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.20 no.5, 2020년, pp.118 - 127  

이수정 (한국외국어대학교 아랍어통번역과) ,  최두영 (한국외국어대학교 중동아프리카학과)

초록
AI-Helper 아이콘AI-Helper

본 연구는 최근 사회과학에서 실시되고 있는 양적 텍스트 분석의 흐름과 분석을 실시함에 있어 주의해야 할 사례를 포함하여 기술 하였다. 특히, 2017년부터 2019년까지 3년간 학술지와 언론에서 사용된 "이주", "이민" 키워드를 기반으로 사례연구를 실시하였다. 이를 위해 최근 사회과학분야에서 주목 받는 자연어 처리 기술(NLP)를 이용한 양적 텍스트 분석 (Quantitate text analysis)을 사용하였다. 양적 텍스트 분석은 문서를 구조적 데이터로 변환하여, 가설의 발견 및 검증을 실시하는 데이터 과학의 영역으로, 데이터의 모델링 및 가시화 등이 가능하고, 특히 비구조화 된 데이터를 구조화할 수 있다는 점에서 사회과학 분야에 많이 도입하였다. 따라서 본 연구는 양적 텍스트 분석을 통해 "이주", "이민"을 키워드로 한 연구 및 언론 기사에 대한 통계 분석을 실시하고 도출된 결론에 대한 해석을 실시하였다.

Abstract AI-Helper 아이콘AI-Helper

The paper introduces trends and methodological challenges of quantitative Korean text analysis by using the case studies of academic and news media articles on "migration" and "immigration" within the periods of 2017-2019. The quantitative text analysis based on natural language processing technolog...

주제어

표/그림 (11)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 특히 단어와 단어가 선으로 연결 되어 있음으로 다차원 척도 구성법보다 이해가 쉽다는 장점이 있다[20]. 본 논문에서는 공기어 분석을 통해 도출된 자료를 해석하고자 한다.
  • 본 논문은 KCI에 등재되어 있는 논문 중에서 ‘이주’ 및 ‘이민’을 제목에 포함하거나 키워드로 하는 논문의 초록을 정리, 분석하였다.
  • 본 논문은 공기어 네트워크를 통한 연구 방법론을 다루고 있기 때문에 분석을 통해 나타난 상관관계를 가치판단 없이 표면적으로 분석하는 것을 목표로 한다. 본 논문을 토대로 분석한 내용에 인류학적인 접근이나, 인문학적인 접근법을 활용한 분석을 덧붙인다면 ‘이주’ 및 ‘이민’이라는 사회 현상이 갖는 다양한 의미를 분석하는것이 가능 할 것이라 사료된다.
  • 본 논문은 비구조형 데이터를 가진 텍스트에서 단어와 단어를 구성하는 구절이 어떠한 연관성을 가지는지 분석을 하고 이것을 다차원 데이터로 변환하여 통계적 유의미성을 찾고자 하는데 있다. 분석을 위해서 통계계산 위한 프로그래밍 언어이자 소프트웨어 환경인 R[5]을 이용하였으며, 양적 텍스트 분석을 위해서는 2012년부터 EU의 지원을 받아 영국 런던 정경대 (LSE)에서 개발한 사회과학을 위한 양적 덱스트 분석 R 패키지인 Quanteda[6]를 이용하였다.
  • 양적 텍스트 분석은 다양한 연구에서 사용된다. 본 논문은 이주와 난민이라는 키워드로 사례를 제시함으로써, 연구 방법을 보여주는 것이다. 이를 토대로 다른 사회과학 연구에서 본 연구 방법을 적용하여 다양한 양적 분석을 진행할 수 있을 것이다.
  • 본 논문은 최근 ICT 기술, 특히 최신 양적 텍스트 분석 기법을 기반으로 연구를 진행하였다. 사회 과학에 필요한 양적 텍스트 분석의 개념과 함께 적용에 필요한 과정을 설명하고자 하였다.
  • 본 논문은 텍스트를 자연어처리 기법을 이용, 통계적으로 변환하여 사회현상을 분석하는 기법을 설명하고 분석 사례를 제시하고자 한다. 텍스트는 사전 변수를 가지지 않는 비구조형 데이터(unstructured data)인 동시에 각각의 단어가 변수가 되는 다차원 데이터(high dimensional data)가 될 수도 있다[2].
  • 이주와 이민의 경우 다양한 관점에서 분석이 시도 되었고, 연구 범주의 폭 또한 광범위하기 때문에 본 논문에서 시행하고자 하는 연구 방법론을 적용할 수 있는 최적의 키워드 중 하나라고 할 수 있다. 본 연구 분석을 통하여 학계에서 출판된 논문과 신문에서 언급한 기사에서 우리나라가 이주와 이민에 대해 바라보는 관점은 무엇이며 주요 키워드와 핵심은 무엇인지 다양한 방식을 사용해 보여주고자 하였다. 본 사례는 연구 방법을 보여주는 것으로 다른 사회과학적 연구에 대해서도 본 방법을 적용할 경우 다양한 양적 분석 진행이 가능 할 것으로 판단된다.
  • 본 연구는 어떻게 하면 분석 샘플로 적용된 연구논문 및 언론 기사에 대한 객관성을 유지 할지를 주안점을 두었다. 연구 논문 및 언론 기사 모두 글에는 의도가 포함 될 수 밖에 없다.
  • 본 논문은 최근 ICT 기술, 특히 최신 양적 텍스트 분석 기법을 기반으로 연구를 진행하였다. 사회 과학에 필요한 양적 텍스트 분석의 개념과 함께 적용에 필요한 과정을 설명하고자 하였다. 아울러, 양적 텍스트 분석에 사용되는 최신 통계분석 모델을 실제 사례에 적용하여 설명하고자 하였다.
  • 연구 논문 및 언론 기사 모두 글에는 의도가 포함 될 수 밖에 없다. 이를 다시 분석하는 과정은 텍스트라는 비구조형 데이터를 다차원 데이터로 전환함으로서, 문헌 연구 자료인 논문과 신문기사가 어떤 논조를 보이고, 어떤 영역에 집중하였는지 밝히고자 하였다. 이를 위해 단순한 단어 빈도 분석 뿐 만 아니라, 공기어 네트워크 분석을 통해 상관 분석을 시도하였다.
본문요약 정보가 도움이 되었나요?

참고문헌 (20)

  1. Ithiel de Sola Pool, Trends in Content Analysis, University of Illinois Press, 1959. 

  2. Kulkarni, Parag, Sarang Joshi, and Meta S. Brown, Big data analytics, PHI Learning Pvt. Ltd., 2016. 

  3. W. H. Inmon, Daniel Linst, and Mary Levins, Data Architecture: A Primer for the Data Scientist, London: Academic Press, 2019. 

  4. A. Frigessi, P. Buhlmann, I. Glad, M. Langaas, S. Richardson, and M. E. Vannucci, "Statistical Analysis for High-Dimensional Data," Springer, 2016. 

  5. Team R Core, "R: A language and environment for statistical computing," 2013, http://www.Rproject.org 

  6. K. Benoit, K. Watanabe, H. Wang, P. Nulty, A. Obeng, S. Muller, and A. Matsuo, "Quanteda: An R Package for the Quantitative Analysis of Textual Data," Journal of Open Source Software, Vol.3, No.30, p.774, 2018. 

  7. Taku Kudo, "MeCab," Source Forge: http://sourceforge.net/projects/mecab, 2008. 

  8. Borsboom, Denny, Gideon J. Mellenbergh, and Jaap Van Heerden, "The theoretical status of latent variables," Psychological review, Vol.110, No.2, p.203, 2003 

  9. A. Frigessi, P. Buhlmann, I. Glad, M. Langaas, S. Richardson, and M. E. Vannucci, "Statistical Analysis for High-Dimensional Data," Springer, 2016 

  10. K. M. Quinn, B. L. Monroe, M. Colaresi, H. M. Crespin, and D. R. Radev, "How to analyze political attention with minimal assumptions and costs," American Journal of Political Science, Vol. 54, No.1, pp.209-228, 2010. 

  11. Baker, Paul, Costas Gabrielatos, and Tony McEnery, "Sketching Muslims: A corpus driven analysis of representations around the word 'Muslim'in the British press 1998-2009," Applied linguistics, Vol.34, No.3, pp.255-278, 2013. 

  12. H. Kluver, "Europeanization of lobbying activities: When national interest groups spill over to the European level," European Integration, Vol.32, No.2, pp.175-191, 2010. 

  13. Wilkerson, John, David Smith, and Nicholas Stramp, "Tracing the Flow of Policy Ideas in Legislatures: A Text ReuseApproach," American Journal of Political Science, Vol.59, No.4, pp.943-956, 2015. 

  14. Jansa, Joshua M., Eric R. Hansen, and Virginia H. Gray, "Copy and Paste Lawmaking: LegislativeProfessionalism and Policy Reinvention in the States," forthcoming, American Politics Research, published onlineMay, 31, 2018. 

  15. J. Grimmer, "A Bayesian Hierarchical Topic Modelfor Political Texts: Measuring Expressed Agendas in Sen-ate Press Releases," Political Analysis, Vol.18, No.1, pp.1-35, 2010. 

  16. Rozenas, Arturas and Denis Stukal, "How Autocrats Manipulate Economic News: Evidence from Russia'sState-Controlled Television," forthcoming, Journal of Politics, Vol.81, No.3, pp.982-996, 2018. 

  17. S. R. Baker, "Measuring Eco-nomic Policy Uncertainty," The Quarterly Journal of Economics, Vol.131, No.4, pp.1593-1636, 2016. 

  18. 길호현, "텍스트마이닝을 위한 한국어 불용어 목록연구," 우리말글, Vol.78, pp.1-25, 2018. 

  19. B. Grun and K. Hornik, "topicmodels: an R package for fitting topic models," Journal of Statistical Software, Vol.40, No.13, pp.1-30, 2011. 

  20. Higuchi Koichi, 社?調査のための計量テキスト分析, ナカニシヤ出版, 2014. 

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로