[논문]국내 온라인 커뮤니티 게시글에 기반한 신조어 추출 방법 및 형태소 분석 적용에 관한 실증적 연구

김한준

국내 온라인 커뮤니티 게시글에 기반한 신조어 추출 방법 및 형태소 분석 적용에 관한 실증적 연구 원문보기

김한준 (연세대학교 정보대학원 빅데이터 석사과정 국내석사)

초록 ▼
AI-Helper

신조어는 생성 당시의 사회상을 반영하는 단어라는 특징이 있기 때문에 텍스트 분석 시 무시할 수 없는 중요 단어라고 할 수 있다. 사회의 변화 속도가 점점 빨라짐에 따라 신조어의 생성과 소멸도 빨라지는 경향이 있어서, 신조어가 사전으로 구축되는 시점이 생성된 시점보다 늦기 마련이다. 그리고 한글은 영어와 달리 하나의 어절이 여러 형태소를 가지고 있기 때문에 자연어 처리 시 형태소 분석 과정이 필요한데, 형태소 분석 중 신조어로 인해 미등록어 처리에 대한 문제가 나타난다. 형태소 분석 결과에 신조어가 하나의 형태소로 유지되지 못 하고 더 작은 형태소로 잘 못 분해되어 신조어의 의미를 잃어버리는 경우가 발생하는 것이다.
신조어의 양이 급격하게 증가하고 있는 환경에서 신조어 사전을 미리 구축하여 텍스트 분석 시 활용하기에는 무리가 있다. 만약 분석하고자 하는 텍스트 데이터에 처음으로 등장한 신조어가 있다면 해당 신조어는 하나의 형태소로 추출되지 않을 것이다. 따라서 텍스트 분석을 진행할 때마다 분석하고자 하는 텍스트 데이터로부터 신조어를 추출하는 과정을 먼저 진행하여, 해당 텍스트 데이터만을 위한 신조어 사전을 먼저 구축하고, 이를 형태소 분석 시 다시 활용하는 방법이 텍스트 분석할 때 텍스트의 의미를 더 정확하게 파악하는 방법이 될 것이다.
본 연구에서는 텍스트 데이터로부터 신조어를 추출하는 방법으로 신조어 판별 모델을 제시하였다. 모델을 만들기 위해 국내 최대 온라인 커뮤니티인 디시인사이드의 국내 야구 갤러리의 2018년 7월부터 9월까지 3개월간의 게시물 제목을 수집하였다. 수집된 데이터를 전처리한 후 각 어절에서 조합이 가능한 모든 부분 글자들을 생성하여 빈도수가 전체 어절 수의 0.01%를 넘는 단어를 신조어 후보 단어로 선정하였다. 후보 단어가 전체 텍스트 데이터에서 가지는 통계적 특징을 독립변수로 사용하기 위하여, 각 후보 단어의 길이와 빈도수와 어절에서 시작부분에 위치하는 비율과 끝부분에 위치하는 비율을 계산하고, Python 패키지인 soynlp의 WordExtractor 클래스를 사용하여 각 후보 단어의 글자가 함께 등장하는 정도와 후보 단어의 왼쪽과 오른쪽에 등장하는 글자의 다양성을 수치화하였다. 모델의 종속변수를 확보하기 위하여 신조어 후보 단어가 실제로 신조어인지를 파악해야 하는데, 이는 본 연구자가 각 후보 단어를 인터넷에 검색해 보거나 후보 단어가 사용된 데이터 내의 문장을 검토하여 판단하였다.
확보된 분석 데이터에 로지스틱 회귀분석을 수행하여 7개의 변수로 구성된 신조어 판별 모델을 생성하였다. 한글을 형태소 분석할 때에 신조어가 더 분해되거나 빠뜨리지 않고 포함되도록 하는 것이 본 연구의 궁극적인 목적이기 때문에 신조어가 아닌 단어를 신조어라고 판단하는 경우보다, 신조어인데 신조어로 판별하지 못하는 경우를 줄이는 것이 중요하다. 따라서 모델의 정확도만큼 민감도도 중요하다고 볼 수 있다. 본 연구에서 생성한 신조어 판별 모델의 정확도는 81.94%, 민감도는 81.2%이다.
본 연구에서 생성한 신조어 판별 모델을 실증적으로 적용해보기 위해 디시인사이드 국내 야구 갤러리의 2018년 10월 게시물 제목으로부터 신조어 후보 단어를 추출하고 추출된 후보 단어마다 모델에 필요한 7개 독립변수를 계산하여 127개의 신조어를 추출하였다. 추출한 신조어를 형태소 분석 프로그램의 시스템 사전 또는 사용자 사전에 추가하여 2018년 10월 게시물 중 무작위로 뽑은 5,000건을 형태소 분석하여 데이터에서 자주 언급되는 명사 단어로 워드 클라우드를 생성하였다. 그리고 신조어를 추가하기 전의 형태소 분석 결과와 비교하여, 신조어 사전이 추가됨으로 인해 추출되지 않던 단어가 빈도수 상위 단어로 추출되고, 하나의 신조어가 나누어 추출되던 오류가 수정되는 것을 확인하였다.

Abstract ▼ AI-Helper

A new-word is an important factor when you implement text analysis because new words are produced rapidly as times go by. The process of new words’ appearance and disappearance are as fast as the change of society. Unlike English, Hangul has many morphemes in one word, so morphological analysis is essential in natural language processing. Without using dictionary including newly produced words, you cannot analyze an appropriate morphological analysis because newly produced words might be broken down into smaller morphemes, and thus losing its meaning. When you analyze morphological analysis without including newly produced words, you cannot expect to get good results from morphological analysis.
In addition, it is not easy to construct a dictionary that includes rapidly produced new words. If the text data contains a previously unknown new word, the new word will not be extracted into one morpheme. Therefore, it is necessary to construct a dictionary that includes new word from the text data if you analyze text analysis. This dictionary should be used again for morphological analysis process.
In the study, a new-word discrimination model was proposed as a method of extracting new-word from text data. To make a model, 3 month(from July to September 2018) post titles are collected from Domestic Baseball Gallery of www.dcinside.com, the largest online community in Korea. After preprocessing the collected data, all possible partial characters in each word were generated and partial characters with frequency more than 0.01% of total number of words were selected as new-word candidates word.
The statistical characteristics of each candidate word in the whole text data were used as independent variables. And the logistic regression analysis was performed with dependent variables as the actual new-word. As a result of the analysis, the model is constructed with 7 variables and the accuracy of the model is 81.94% and the sensitivity is 81.2%.
In order to apply the model empirically, the title of the post in October 2018 from the site were collected. 127 new-words were extracted from the text by calculating 7 statistical variables for each candidate word. The extracted new-words were added into the morpheme analysis program as a user dictionary. And two word clouds were generated with most frequently mentioned nouns from 10,000 randomly selected post titles. One was with new-word dictionary, and the other was without new-word dictionary. It was confirmed that the nouns that were not appeared in word cloud without new-word dictionary are appeared in word cloud with new-word dictionary.

주제어

학위논문 정보

저자	김한준
학위수여기관	연세대학교 정보대학원
학위구분	국내석사
학과	빅데이터 석사과정
지도교수	이상우
발행연도	2019
총페이지	v, 42장
키워드	텍스트마이닝 형태소분석 신조어 온라인커뮤니티 사용자사전 text mining morphological analysis new word online community user dictionary
언어	kor
원문 URL	http://www.riss.kr/link?id=T15011210&outLink=K
정보원	한국교육학술정보원

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

국내 온라인 커뮤니티 게시글에 기반한 신조어 추출 방법 및 형태소 분석 적용에 관한 실증적 연구 원문보기

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

국내 온라인 커뮤니티 게시글에 기반한 신조어 추출 방법 및 형태소 분석 적용에 관한 실증적 연구 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록 ▼
AI-Helper