[논문]A Study on the Classification of Unstructured Data through Morpheme Analysis

Kim, SungJin; Choi, NakJin; Lee, JunDong

doi:10.9708/jksci.2021.26.04.105

A Study on the Classification of Unstructured Data through Morpheme Analysis 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.26 no.4, 2021년, pp.105 - 112

Kim, SungJin (Dept. of Multimedia Engineering, GangNeung-Wonju National University) , Choi, NakJin (Dept. of Multimedia Engineering, GangNeung-Wonju National University) , Lee, JunDong (Dept. of Multimedia Engineering, GangNeung-Wonju National University)

초록
AI-Helper

빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

Abstract ▼ AI-Helper

In the era of big data, interest in data is exploding. In particular, the development of the Internet and social media has led to the creation of new data, enabling the realization of the era of big data and artificial intelligence and opening a new chapter in convergence technology. Also, in the past, there are many demands for analysis of data that could not be handled by programs. In this paper, an analysis model was designed and verified for classification of unstructured data, which is often required in the era of big data. Data crawled DBPia's thesis summary, main words, and sub-keyword, and created a database using KoNLP's data dictionary, and tokenized words through morpheme analysis. In addition, nouns were extracted using KAIST's 9 part-of-speech classification system, TF-IDF values were generated, and an analysis dataset was created by combining training data and Y values. Finally, The adequacy of classification was measured by applying three analysis algorithms(random forest, SVM, decision tree) to the generated analysis dataset. The classification model technique proposed in this paper can be usefully used in various fields such as civil complaint classification analysis and text-related analysis in addition to thesis classification.

주제어

표/그림 (17)

그림 Fig. 1. Big Data Attribute
그림 Fig. 2. Big Data Processing
표 Table 1. Type of data collection methods
그림 Fig. 3. Textmining Processing
표 Table 2. Comparison of collection difficulty by data type
표 Table 3. Comparing the difficulty of architecture configuration by data type
표 Table 4. Data types by configuration type
표 Table 5. Types of data by type of existence
표 Table 6. Types of technologies in data collection
그림 Fig. 4. Crawled Python Source Code
그림 Fig. 5. Collection Dataset
그림 Fig. 6. Modeling Processing
그림 Fig. 7. The way words are pre-calibrated.
그림 Fig. 8. Basic Navigation - Visualization
그림 Fig. 9. Classification result of tf-idf and rule-based utilization classification.
그림 Fig. 10. Analysis Result
표 Table 7. Measurement Value

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 비정형 데이터에 대하여 형태소 분석과 상관관계 분석을 수행하여 자동으로 데이터를 분류하는 시스템을 설계 및 모델링 하였다.
있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다.

제안 방법

TF-IDF 데이터를 생성하고 학습 데이터와 와이 값(y value)에 해당하는 데이터를 결합하여 최종 분석 데이터셋을 생성하였으며, TF-IDF 값을 이용하여 문서 단어 행렬(DTM) 데이터를 구성하였다.
데이터 수집 과정은 아주 중요한 부분으로 본 논문에서는 파이썬(Python)을 이용하여 수집하였다.
디비피아 홈페이지에서 6, 002건의 논문 데이터를 Fig. 4.와 같이 파이썬을 이용하여 크롤링하고 Fig. 5.와 같이 수집된 데이터를 논문의 주제 및 부 주제별 중복 데이터를 배제하고 내용이 없는 데이터에 대한 제거 작업을 수행한 후 3, 628건의 데이터로 분석 작업을 수행하였다.
또한, 시스템을 시험하기 위하여 디비피아(DBpia)에서 제공하는 각 논문의 요약을 크롤링을 이용해 6, 002건의 데이터를 수집한 후, 전처리 작업을 통해 중복 등을 제거한 3, 628건의 논문 데이터를 활용하여 논문의 분류 작업의 적정성을 판단한다.
또한, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하였으며, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였고, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하였다.
멀티 카테고리(Multi Category) 선택을 통한 주요 단어빈도 기준으로 활용하였고, 데이터에 대한 특성을 이해하고 탐색하기 위해 Fig. 8.과 같이 R을 통해 시각화를 진행하였다.
모델링의 정확도 검증을 위하여 데이터에 대한 시각화작업을 진행하였고, 그 중 룰 기반의 TF-IDF 값을 활용한 분류가 가장 정확도가 높게 나왔으며, 이를 Fig. 9.에 시각화를 활용하여 표현하였다.
문서 단어 행렬은 특정 단어의 빈도수를 행렬로 표현하는 방식으로 시행하였다.
사용 기준으로는 실체가 명확한 것(물리적으로 존재), 업무에 명확한 단어로 진행하였다. 변환 기준으로는 형용사 + 명사 형태의 어절, 명사 + 어미 형태의 어절을 진행하였고, 금지어 기준으로는 불특정 다수가 공용으로 사용 가능한 단어 제거, 추상적인 단어 제거, 형용사/ 부사 형태의 단어를 제거하는 방법으로 진행하였다.
본 논문에서는 데이터를 분석하는 방법으로 텍스트 마이닝 기법을 활용하였고, 수행 및 알고리즘 개발을 위하여 Fig. 3.과 같은 과정을 수행하였다.
본 논문에서는 원시 데이터를 주제와 부주제별로 크롤링을 통해 수집한 후, 전체 데이터를 하나의 파일로 통합하였다. 이후 사용자 단어 사전과 금지어, 불용어 및 변환 사전을 구성 하는데 있어 언어적 특성과 상관없이 적용될 수 있는 엔그램 언어 모델(n-gram language model) 방식을 적용하였다.
생성된 분석 데이터 셋에 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다.
이후 사용자 단어 사전과 금지어, 불용어 및 변환 사전을 구성 하는데 있어 언어적 특성과 상관없이 적용될 수 있는 엔그램 언어 모델(n-gram language model) 방식을 적용하였다. 여기서 엔그램(n-gram)의 n에 해당하는 단어의 수에 따라 하나일 때는 유니그램(unigram)과 두 개일 때는 바이그램(bigram), 세 개일 때는 트리그램(trigram) 등을 적용하여 토큰화를 수행하였다. 수행 결과를 가지고 형태소 분석을 하여 분석 데이터 셋을 생성하였다.
이를 위하여 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하여 전처리 작업 등을 통해 중복 및 배제 데이터들에 대한 정제 작업을 진행하였다. 또한, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하였으며, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였고, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하였다.
추출된 명사를 이용하여 TF-IDF 값을 생성하였으며, 학습 데이터와 와이 값을 결합하여 분석 데이터 셋을 생성하였다. 생성된 분석 데이터 셋에 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다.
코엔엘피(KoNLP)의 데이터 사전을 이용하여 데이터베이스를 생성하는 작업을 수행하였다. 형태소 분석을 위하여 엔그램 언어 모델 중 유니그램과 바이그램 그리고 트리그램을활용해 단어의 토큰화 과정을 진행하였으며 카이스트의 9 품사 분류 체계를 적용하여 명사만 추출하였다[02].
특성 분석에서는 단어의 빈도수와 역문서 빈도수를 곱한 TF-IDF(Term Frequency - Inverse Document Frequency)[08] 데이터 값을 생성하고 이 값을 룰 기반의 데이터 셋으로 구성하였으며 대표 단어를 추출하는 방법을 이용하여 머신러닝을 위한 문서 단어 행렬(DTM:Document Term Matrix) 데이터를 구성하였다[18].
생성하는 작업을 수행하였다. 형태소 분석을 위하여 엔그램 언어 모델 중 유니그램과 바이그램 그리고 트리그램을활용해 단어의 토큰화 과정을 진행하였으며 카이스트의 9 품사 분류 체계를 적용하여 명사만 추출하였다[02].
형태소 분석을 한 데이터 셋을 이용해 특성 분석을 진행하였다. 특성 분석에서는 단어의 빈도수와 역문서 빈도수를 곱한 TF-IDF(Term Frequency - Inverse Document Frequency)[08] 데이터 값을 생성하고 이 값을 룰 기반의 데이터 셋으로 구성하였으며 대표 단어를 추출하는 방법을 이용하여 머신러닝을 위한 문서 단어 행렬(DTM:Document Term Matrix) 데이터를 구성하였다[18].

데이터처리

위에 서술한 분석 모델들을 적용하여 분석을 진행하였으며 그 중 가장 정확도가 높은 알고리즘을 선택하여 비정형 데이터 분석의 최종 결론을 도출하였다.

이론/모형

분석 모델 단계에서는 분류 모델(Classification Model) 에정확도 검증을 위하여 소프트맥스 회귀(Softmax Regression)와 서포트 벡터 머신(SVM : Support Vector Machine), 그리고 랜덤 포레스트의 분석 모델을 적용하였다.
서포트 벡터 머신. 의사결정트리 분석의 알고리즘을 적용하였고, 이 중 랜덤 포레스트는 Fig. 10. 및 Table.
이후 사용자 단어 사전과 금지어, 불용어 및 변환 사전을 구성 하는데 있어 언어적 특성과 상관없이 적용될 수 있는 엔그램 언어 모델(n-gram language model) 방식을 적용하였다. 여기서 엔그램(n-gram)의 n에 해당하는 단어의 수에 따라 하나일 때는 유니그램(unigram)과 두 개일 때는 바이그램(bigram), 세 개일 때는 트리그램(trigram) 등을 적용하여 토큰화를 수행하였다.

성능/효과

또한, Table. 3.과 같이 정형 데이터는 관계형 데이터베이스 시스템과 같이 고정된 컬럼에 저장되는 데이터와 파일, 그리고 지정된 행과 열에 의해 데이터의 속성이 구별되며 데이터의 스키마를 지원한다.
비록 본 논문에서는 사용된 데이터가 이미 잘 분류된 논문 관련 데이터이기에 100% 정확도를 보였지만 다른 데이터셋에서는 이렇게 정확하게 나오지는 않을 것으로 예측된다. 향후 본 연구의 내용은 민원 분석 및 텍스트 관련 분석 등으로 활용 범위를 넓혀 나갈 수 있을 것으로 기대한다.

후속연구

본 논문에서 처리하는 데이터는 기존의 정형 데이터와는 속성이 다르므로 데이터를 수집·저장·처리·분석·시각화하는 방법 또한 기존 방법과는 다른 새로운 시도와 응용이 필요하다.
향후 본 논문 내용의 기술은 민원 분석 및 텍스트 관련 분석 등에 활용 범위를 넓혀 나갈 수 있다.
예측된다. 향후 본 연구의 내용은 민원 분석 및 텍스트 관련 분석 등으로 활용 범위를 넓혀 나갈 수 있을 것으로 기대한다.

참고문헌 (21)

Barnett, T. P., and R. Preisendorfer. (1987). "Origins and levels of monthly and seasonal forecast skill for United States surface air temperatures determined by canonical correlation analysis.". 《Monthly Weather Review 115》

상세보기
Key-Sun Choi, Young S. Han, Young G. Han, Oh W. Kwon, KAIST tree bank project for Korean: Present and future development, In Proceedings of the International Workshop on Sharable Natural Language Resources, pp. 7-14, 1994
Cho Taeho "Concepts and Applications of Text Mining", Journal of scientific & technological knowledge infrastructure no.5, 2001, pp.76 - 85
Leo Breiman (2001). "Random Forests". 《Machine Learning》 45 (1): 5-32. doi:10.1023/A:1010933404324
"Regression analysis"《Encyclopedia of Mathematics》. Springer-Verlag. 2001. ISBN 978-1-55608-010-4.
Choi YunJeong, Park SeungSoo "Interplay of Text Mining and Data Mining for Classifying Web Contents" The Korea Society for Cognitive Science 13(3), 33-46, 2002
Hsu, Daniel, Sham M. Kakade, and Tong Zhang (2008). "A spectral algorithm for learning hidden markov models.". 《arXiv preprint arXiv:0811.4413》

상세보기
Manning, C. D.; Raghavan, P.; Schutze, H. 《Introduction to Information Retrieval》. Cambridge University Press. 100-123. ISBN 9780521865715. 2008 Scoring, term weighting, and the vector space model
Douglas, Laney. " 3D Data Management: Controlling Data Volume, Velocity and Variety ." Gartner. Retrieved February 6, 2001
Beom Jiin, Choi Sungjong, "Bigdata use cases and implications", CEO Focus Vol. 312, 2013
EunSoon You, GunHee, Choi, SeungHoon Kim "Study on Extraction of Keywords Using TF-IDF and Text Structure of Novels", Journal of The Korea Society of Computer and Information Vol. 20, No. 2, February 2015
Mary Meeker's 2016 internet trends report
Kaminski, B.; Jakubczyk, M.; Szufel, P. (2017). "A framework for sensitivity analysis of decision trees". 《Central European Journal of Operations Research》. doi:10.1007/s10100-017-0479-6

상세보기
Park Jooseok "A Comparative Study of Big Data, Open Data, and My Data", Korea Bigdata Society, 41-46, No 3, Vol. 23, 2018
Liaw, Andy March 25, 2018. "Documentation for R package randomForest"
Kim HyunJong, Lee TaiHun, Ryu SeungEui, Kim NaRang "A Study on Text Mining Methods to Analyze Civil Complaints: Structured Association Analysis", Journal of the Korea Industrial Information Systems Research Vol. 23 No. 3, 2018.6
Cho ByungSun "A Comparative Study on Requirements Analysis Techniques using Natural Language Processing and Machine Learning", Ajou Univ. 2020.
Bryan Bischof. Higher order co-occurrence tensors for hypergraphs via face-splitting. Published 15 February, 2020, Mathematics, Computer Science, ArXiv
HyunJin Yeo "Mobile Commerce Brand Identity Strategy by SNS Text mining", Journal of The Korea Society of Computer and Information, Vol. 25 No. 10, October 2020
Hello data science - www.hellodatascience.com Jinyoung Kim
Data collection - www.dbguide.net KOREA Data Agency

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증