[논문]비정형 텍스트 테이터 분석을 위한 워드클라우드 기법에 관한 연구

이원조

doi:10.17703/jcct.2020.6.4.715

비정형 텍스트 테이터 분석을 위한 워드클라우드 기법에 관한 연구
A Study on Word Cloud Techniques for Analysis of Unstructured Text Data 원문보기

Journal of the convergence on culture technology : JCCT = 문화기술의 융합, v.6 no.4, 2020년, pp.715 - 720

이원조 (울산과학대학교 안전및산업경영공학과)

초록
AI-Helper

빅데이터 분석에서 텍스트 데이터는 대부분 비정형이고 대용량으로 분석 기법이 정립되지 않아 분석에 어려움이 많았다. 따라서 텍스트 데이터 분석 기법의 하나인 빅데이터 워드클라우드 기법의 실무 적용시 문제점과 유용성 검증을 통한 상용화 가능성을 위해 본 연구를 수행하였다. 본 논문에서는 R 프로그램 워드클라우드 기법을 이용하여 "대통령 UN연설문"을 시각화 분석을 하고 이 기법의 한계와 문제점을 도출한다. 그리고 이를 해결하기 위한 개선된 모델을 제안하여 워드클라우드 기법의 실무 적용에 대한 효율적인 방안을 제시한다.

Abstract ▼ AI-Helper

In Big data analysis, text data is mostly unstructured and large-capacity, so analysis was difficult because analysis techniques were not established. Therefore, this study was conducted for the possibility of commercialization through verification of usefulness and problems when applying the big data word cloud technique, one of the text data analysis techniques. In this paper, the limitations and problems of this technique are derived through visualization analysis of the "President UN Speech" using the R program word cloud technique. In addition, by proposing an improved model to solve this problem, an efficient method for practical application of the word cloud technique is proposed.

주제어

표/그림 (14)

그림 그림 1. 기존 비정형 데이터 정제과정 Figure 1. Existing unstructured data purification process.
그림 그림 2. 제안된 비정형 데이터 정제 모델 Figure 2. Proposed unstructured data cleaning model.
그림 그림 3. 인코딩 UTF-8 텍스트 문서로 저장 Figure 3. Save as encoded UTF-8 text document.
그림 그림 4. 분석대상 문서 원문 Figure 4. Original text of the document to be analyzed.
그림 그림 5. 수작업 전처리 후 문서 Figure 5. Manual preprocessed document.
그림 그림 6. 명사 단어 추출 프로그램 소스코드 Figure 6. Program code for extracting noun words.
그림 그림 7. 한글사전을 이용한 명사 추출 결과 Figure 7. Noun extraction result using Korean dictionary.
그림 그림 8. 빈도수 상위 10단어 막대그래프 시각화 코드 Figure 8. Program code for visualizing bar graphs with the top 10 words of frequency.
그림 그림 9. 빈도수 상위 10 단어 막대그래프 시각화 Figure 9. Bar graph visualized with the top 10 frequency words.
그림 그림 10. 워드클라우드 시각화 코드(후처리 전) Figure 10. Program code for word cloud visualization (before post-processing).
그림 그림 11. 워드클라우드 시각화 결과(후처리 전) Figure 11. Word cloud visualization analysis result (before post-processing).
그림 그림 12. 부적격 값 제거 코드(후처리) Figure 12. Word cloud visualization analysis result (before post-processing).
그림 그림 13. 워드클라우드 시각화 코드(후처리 후) Figure 13. Program code for word cloud visualization (after post-processing).
그림 그림 14. 워드클라우드 시각화 결과(후처리 후) Figure 14. Word cloud visualization analysis result (after post-processing).

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

제안된 모델에서는 분석자가 R 프로그램 사용과 휴리스틱(Heuristics) 후처리 정제를 반복하면서 부적격 값은 제거하고 한글 사전에 없는 데이터는 추가한다. 그리고 후처리가 완료된 데이터로 워드클라우드 시각화 분석을 통해 그 결과를 해석하고 정보화한다[1][2][15][16].
따라서 본 연구에서는 비정형 텍스트 데이터 분석을 위한 데이터 수집 후 수작업 전처리를 하고 R 프로그램과 휴리스틱 후처리 정제 기법을 사용한 비정형 데이터 정제 모델을 제안하고 이 정제 모델을 적용한 분석 사례로 “대통령 UN연설문” 텍스트 문서를 R 프로그램 워드클라우드 기법을 사용하여 시각화 분석하여 핵심 이슈를 추출하는 과정을 보여주고 있다.
따라서 본 연구에서는 비정형 텍스트 데이터 분석을 위한 데이터 수집 후 수작업 전처리를 하고 R 프로그램과 휴리스틱 후처리 정제 기법을 사용한 비정형 데이터 정제 모델을 제안하고 이 정제 모델을 적용한 분석 사례로 “대통령 UN연설문” 텍스트 문서를 R 프로그램 워드클라우드 기법을 사용하여 시각화 분석하여 핵심 이슈를 추출하는 과정을 보여주고 있다. 따라서 워드클라우드 기법을 이용하여 주요 이슈를 시각화하여 분석하는 과정에서 발생하는 문제점을 도출하고 이에 대한 해법으로 새로운 데이터 정제 모델을 제안하여 워드클라우드 기법의 실무 적용에 대한 효율적인 방안을 제시한다[1][2][4][6][8].
워드클라우드 작성을 위한 대상 문서는 청와대 홈페이지에서 “대통령 UN 연설문”을 대상으로 R 프로그램에서 워드클라우드를 작성하는 방법에 대해서 구현하고 그 결 과를 분석한다.
따라서 다음 그림 1은 기존 비정형 데이터 정제과정이고 그림 2는 제안된 비정형 데이터 정제과정을 보여준다. 제안된 모델에서는 분석자가 R 프로그램 사용과 휴리스틱(Heuristics) 후처리 정제를 반복하면서 부적격 값은 제거하고 한글 사전에 없는 데이터는 추가한다. 그리고 후처리가 완료된 데이터로 워드클라우드 시각화 분석을 통해 그 결과를 해석하고 정보화한다[1][2][15][16].

대상 데이터

일정한 규격이나 형태를 지닌 숫자 데이터(numeric data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 말한다. 비정형 데이터의 사례로는 책, 잡지, 문서의료 기록, 음성 정보, 영상 정보와 같은 전통적인 데이터 이외에 이메일, 트위터, 블로그처럼 모바일 기기와 온라인에서 생성되는 데이터가 있다. 이들 텍스트 데이터 분석 중에서 인터넷 검색어 분석은 검색어를 중심으로 사용자들의 관심사를 분석할 수 있도록 지원해주는 많은 사이트 들이 있다.

이론/모형

따라서 이번 연구의 실험에서 사용된 비정형 텍스트 데이터 분석 방법은 R 프로그램 워드클라우드 기법을 사용하고 빅데이터 분석에 사용되는 한글사전은 KoNLP를 사용하였으며, 검증을 위한 소스프로그램은 “모두를 위한 R데이터분석”의 워드클라우드 기법 프로그램을 사용하였다[1][3][5][11][12].

성능/효과

그리고 빈도수는 낮으나 중요성이 높은 단어는 반드시 추출하고, 상용 한글 사전에 없는 보정대상 단어는 수작업으로 사전에 추가하는 휴리스틱 전처리와 후처리 과정이 매우 중요하다. 따라서 제안된 문제점 해결 방안과 정제 모델이 검증 결과 데이터와 분석 결과 의 신뢰도를 높이는데 매우 유용한 것으로 평가되었고 이 방안들이 워드클라우드 기법의 실무 적용 지침으로써의 의미를 갖는다.
본 논문의 실험 결과에서 R 프로그램 워드클라우드 기법을 이용하여 핵심 이슈를 시각화하여 분석하는 과정에서 발생하는 문제점들은 첫째 한글사전(KoNLP)의 전문용어와 신조어가 누락되어 있으며, 사전 버전 업에 따른 이용 오류가 발생하고, 둘째 분석자의 R 프로그램 사용이 대체로 미숙하며, 휴리스틱 역량이 부족하고, 셋째 시각화 결과에 대한 해석 역량부족 등으로 나타난다. 그리고 빈도수는 낮으나 중요성이 높은 단어는 반드시 추출하고, 상용 한글 사전에 없는 보정대상 단어는 수작업으로 사전에 추가하는 휴리스틱 전처리와 후처리 과정이 매우 중요하다.

후속연구

따라서 유의미한 핵심 이슈들의 추출이 용이하게 나타난다. 또한 분석자에 의한 휴리스틱(Heuristics) 정제 방법으로 부적격 값을 제거하는 정제 작업을 반복하면 중요 핵심 이슈의 추출에 대한 신뢰도가 향상될 것으로 될 것으로 기대된다. 여기서 실무 분석 담당자가 휴리스틱으로 부적격 값을 판별할 수 있는 충분한 역량이 있는 것을 전제로 한다[11][16].
향후 연구과제는 상용 한글사전을 사용하는 방법이 아니라 빅데이터 분석을 위한 전용 시소러스(Thesaurus)의 개발과 연구 결과의 문제점들을 보완하여 흥미위주나 글자 디자인 측면의 워드클라우드가 아닌 비정형 텍스트 분석의 신뢰도를 높일 수 있는 상용 가능한 워드클라우드 기법에 대한 연구가 지속 되어야 하겠다.

참고문헌 (16)

J. Lee, D. Yun, S. O, C. Lee, A Big Data Analysis of Civel Complaint Texts Using R Language, KIICE, vol.24, no.1, pp. 323-325, 2020.
M. Chi , S. Lin, S. Chen, C. Lin, T. Lee, Morphab1e word Clouds for Time-Varying Text Data Visualization, IEEE, vol.21, no.12, pp. 1415-1426, 10.1109/TVCG.2015.2440241, 2015.

상세보기
Kumar, P. Thakur, K. Gupta, and A. Pal, Text mining approach to analyse the relation between obesity and breast cancer data, ILNS, 2015.
M. Han, Y. Kim, C. Lee, Analysis of News Regarding New southeastem Airport Using Text Mining Techniques, Smart Media Journal, Vol. 6, No. 1, 2017.
Sungeun Kim, Keywords "4 major rivers" seen through big data analysis, Korea Water Resources Association, 2017.
Jiapei Li, Seong Yoon Shin, Hyun Chang Lee, Text Mining and Visualization of Papers Reviews Using R Language, Korea Information and Communication Society, vol.15 no.3, pp. 170-174, 10.6109/jicce.2017.15.3.170, 2017.

원문보기 상세보기
I. Lee, N. Young, Unstructured data analysis and visualization, Korean Psychology Association, vol.31, no.2, pp. 499-518, 10.24230/ksiop.31.2.201805.499, 2018.
Y. Noh, S. Bae, Analysis of unstructured data for Korean traffic broadcast reports applying text mining, vol.17, no.3, pp. 87-97, 10.12815/kits.2018.17.3.87, 2018.
Dongnyeok Sim, Research on ICT issue detection and analysis methodology using text data, 2020.
Software Engineering Center Webzine Materials, Big data purification process, 2020.
Giseop Noh, 2018, An Analysis on Internet Information using Real Time Search Words, JCCT, vol. 4, No. 4, pp. 337-341
Jongyong LEE, A Study on Tourism Analysis in Uijeongbu Region Using Big Data, JCCT, vol. 6, No. 1, pp. 413-419, 2020.
Sunghuk Moon, Big data environment analysis and research on ways to secure global competitiveness, JCCT, vol. 5 No. 2, pp. 361-367.
Web Mining, IT Glossary, Korea Information and Communication Technology Association.
text mining, Biochemistry Encyclopedia.
Sejong Oh, R data analysis for everyone, R data analysis for everyone, Hanbit Media, 2019.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증