특정한 관심이나 활동을 공유하는 관계망을 구축해주는 온라인 서비스인 소셜네트워크서비스(SNS), 자신의 관심사에 따라 자유롭게 글, 사진, 동영상 등을 올릴 수 있는 공간인 블로그(Blog) 등은 자신을 알리고 표현하는 사회현상으로 자리 매김하고 있다. 이러한 SNS나 블로그를 통해 사용자들이 자유롭게 표현한 글들을 분석하여 의미있는 정보와 가치, 그리고 패턴을 찾기 위한 텍스트 마이닝(Text Mining), 오피니언 마이닝(Opinion Mining), 의미 분석(Semantic Analysis) 등의 연구가 활발히 이루어지고 있다. 또한, 연구자들의 연구 효율을 보다 높이기 위하여 키워드 기반 연구들도 이루어져있다. 하지만 대부분의 연구들은 한글의 맞춤법에 많은 한계점을 나타내고 있다. 본 연구는 어근을 찾기 힘든 이상한 외계 언어, 무분별하게 표현되는 속어, 알기 힘든 한글 이모티콘 인터넷 언어, 마이닝 처리 과정에서 파악하기 어려운 단어들을 데이터베이스에 구축하여 데이터 사전 기반 마이닝 처리 기법의 한계를 극복하고자 한다. 특정 주제에 대한 주관적 견해로 구성된 블로그를 사례 분석 대상으로 연구를 진행하였으며 유니코드를 활용한 비표준어 추출은 텍스트 마이닝 처리에 유용함을 발견할 수 있었다.
특정한 관심이나 활동을 공유하는 관계망을 구축해주는 온라인 서비스인 소셜네트워크서비스(SNS), 자신의 관심사에 따라 자유롭게 글, 사진, 동영상 등을 올릴 수 있는 공간인 블로그(Blog) 등은 자신을 알리고 표현하는 사회현상으로 자리 매김하고 있다. 이러한 SNS나 블로그를 통해 사용자들이 자유롭게 표현한 글들을 분석하여 의미있는 정보와 가치, 그리고 패턴을 찾기 위한 텍스트 마이닝(Text Mining), 오피니언 마이닝(Opinion Mining), 의미 분석(Semantic Analysis) 등의 연구가 활발히 이루어지고 있다. 또한, 연구자들의 연구 효율을 보다 높이기 위하여 키워드 기반 연구들도 이루어져있다. 하지만 대부분의 연구들은 한글의 맞춤법에 많은 한계점을 나타내고 있다. 본 연구는 어근을 찾기 힘든 이상한 외계 언어, 무분별하게 표현되는 속어, 알기 힘든 한글 이모티콘 인터넷 언어, 마이닝 처리 과정에서 파악하기 어려운 단어들을 데이터베이스에 구축하여 데이터 사전 기반 마이닝 처리 기법의 한계를 극복하고자 한다. 특정 주제에 대한 주관적 견해로 구성된 블로그를 사례 분석 대상으로 연구를 진행하였으며 유니코드를 활용한 비표준어 추출은 텍스트 마이닝 처리에 유용함을 발견할 수 있었다.
Social network services (SNS) that help to build relationship network and share a particular interest or activity freely according to their interests by posting comments, photos, videos,${\ldots}$ on online communities such as blogs have adopted and developed widely as a social phenomenon...
Social network services (SNS) that help to build relationship network and share a particular interest or activity freely according to their interests by posting comments, photos, videos,${\ldots}$ on online communities such as blogs have adopted and developed widely as a social phenomenon. Several researches have been done to explore the pattern and valuable information in social networks data via text mining such as opinion mining and semantic analysis. For improving the efficiency of text mining, keyword-based approach have been applied but most of researchers argued the limitations of the rules of Korean orthography. This research aims to construct a database of non-standard Korean words which are difficulty in data mining such abbreviations, slangs, strange expressions, emoticons in order to improve the limitations in keyword-based text mining techniques. Based on the study of subjective opinions about specific topics on blogs, this research extracted non-standard words that were found useful in text mining process.
Social network services (SNS) that help to build relationship network and share a particular interest or activity freely according to their interests by posting comments, photos, videos,${\ldots}$ on online communities such as blogs have adopted and developed widely as a social phenomenon. Several researches have been done to explore the pattern and valuable information in social networks data via text mining such as opinion mining and semantic analysis. For improving the efficiency of text mining, keyword-based approach have been applied but most of researchers argued the limitations of the rules of Korean orthography. This research aims to construct a database of non-standard Korean words which are difficulty in data mining such abbreviations, slangs, strange expressions, emoticons in order to improve the limitations in keyword-based text mining techniques. Based on the study of subjective opinions about specific topics on blogs, this research extracted non-standard words that were found useful in text mining process.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
”와 같이 소셜 미디어 간 통용되는 단어들의 차이와 그 문화가 세대 간의 소통 장벽으로 작용되는 것을 조금이나마 해소하고 건 전한 언어 문화에 기여하고자 비표준어 사전을 연구하였고 그에 앞서 표제부 리스트를 기존의 소셜 데이터에서 찾고자 노력하였다.
SNS의 사회적 팽창 보급과 확산은 세대 간 소통의 많은 차이를 낳고 있다. 국어의 정확한 표준어와 닷컴(Dot com) 세대의 자유분방한 표현 언어들과의 괴리의 연결고리를 연구하자고 한다.
또한, 우리 글자 한글의 우수 성을 기리기 위한 국경일인 “한글날”을 통하여 선조들의 지혜와 후손들의 한글 바로 쓰기를 고취시키고자 함이다.
하지만, 한글 처리에 한계점이 지적되어왔고 소비자의 행동 패턴, 감정 표현 정보 분석이 늘어가는 SNS 전성 시대에 비표준어 연구의 필요가 절실하다고 판단 되어 본 연구의 주제로 정하였다. 본 연구는 비표준어 사전을 통한 텍스트마이닝 처리 기법을 연구하고자 한다. 한국복제전송저작권협회의 승인을 받아 국립국어원에서 제공하는 표준국어대 사전의 표제어 리스트를 근거로 비표준어 사전을 구축하였다.
본 연구는 선행연구를 통한 한글의 텍스트마이닝 처리 기법(데이터 사전 기반 마이닝 처리 기법 포함)의 한계를 극복하고자 한다. 인터넷에서 사용하는 인터넷어, 신조어 들의 한글 분석에 기존 연구자들의 키워드 기반 텍스트마이닝 처리 기법을 많이 사용하였다[6, 7, 9].
본 연구는 표준 단어 중심의 분석 과정의 이전 단계로써 보다 의미 있는 비표준어 단어를 포함 시키는 비표준어 표제어 리스트를 구축하는 과정을 연구하였다. 원진영·김대곤(2014), 이종화·이현규(2015), 장청윤 외(2013) 연구 대상 문서의 1차 텍스트마이닝 결과와 연구 관점의 데이터 사전을 비교함으로써 보다 연구자의 연구 방향에 집중할 수 있는 텍스트마이닝 처리 기법을 기반으로 텍스트마이닝을 넘어 스마트한 텍스트마이닝 처리를 제안한다.
이러한 문제는 “KoNLP”의 패키지의 단점이기도 하지만 한글 처리의 어려움을 보여주는 예이기도 하다. 본 연구자는 이러한 문제를 해결하고자 단어의 형태소 분석을 통한 품사 분리 작업을 시도해 보았다. <그림 3> 는 SimplePos09명령을 통한 형태소 분리 작업한 예이다.
가설 설정
인터넷에서 사용하는 인터넷어, 신조어 들의 한글 분석에 기존 연구자들의 키워드 기반 텍스트마이닝 처리 기법을 많이 사용하였다[6, 7, 9]. 하지만, 한글 처리에 한계점이 지적되어왔고 소비자의 행동 패턴, 감정 표현 정보 분석이 늘어가는 SNS 전성 시대에 비표준어 연구의 필요가 절실하다고 판단 되어 본 연구의 주제로 정하였다. 본 연구는 비표준어 사전을 통한 텍스트마이닝 처리 기법을 연구하고자 한다.
제안 방법
“가격할인간접할인”, “완료함으로명실상부한” 등 띄어쓰기 문제의 단어와 “오픈캐스트”와 같은 영문 한글 표기, “올 라왔답니다짜자잔”과 같은 마침표(.) 오류 표기 등으로 인하여 영문 한글 표시는 삭제, 띄어쓰기 오류는 줄 바꿈, 기호 오류는 기호 삽입 및 줄 바꿈으로 교정하여 전 과정을 다시 진행하였다.
본 연구자는 2012년, 2013년, 2014년, 2015년 등 각 기간 설정을 활용하여 처리 조건을 확대하여 4000여개의 텍스트를 수집하였다. 네이버측은 사용자의 컴퓨터 고유 숫자 주소인 IP를 분석하여 짧은 시간에 같은 IP 주소에서 블로그를 접속한다면 무차별 로봇들의 공격으로 판단하여 블로그 서버에서 같은 IP의 모든 접촉을 차단하고 있는것 또한 확인하였다. 이러한 보안 정책을 경험한 본 연구자는 연구 목적 로봇의 접속 시간을 1분으로 지연 처리하여 분당 하나의 블로그를 수집하는 것으로 만족해야만 하였다.
또한 R 프로그램을 통한 한글 명사 처리 신뢰성을 높이기 위한 실험으로 명사 추출용 extractNoun명령의 결과를 형태소 태그 부착을 통한 여과망 역할의 SimplePos09을 통해 보다 깔끔한 명사 처리에 기여한 알고리즘을 제시하였다. extractNoun명령을 사용하여 아래와 같은 문장의 명사 처리 결과는 다음과 같다.
또한 효율성을 높이기 위해 31만 단어의 음절수 순으로 정렬하여 과 같은 해시 테이블(Hash Table) 세트를 만들었다.
또한, 웹 환경에서의 수집과정에 “&nbs;”, 영문, 숫자 등을 제외한 순수 한글 음절의 구분을 위하여 유니코드 체계를 이용하였다.
국립국어원에서 제공하는 표준국어대사전의 말뭉치 중 ‘복합명사구’나 ‘연어’ 관련 단어들을 명사 처리 과정과 모든 품사 단어들을 하나로 뭉쳐 중복된 단어를 필터링하는 과정을 거쳐 316,838 개의 방대한 표준어 명사 리스트를 추출하였다. 또한, 해시테이블(Hash Table) 원리를 이용한 단어의 음절 수 기준으로 각각의 인덱스(Index) 값을 기억하여 보다 효율적인 검색 알고리즘을 구현하였다.
먼저 비교 대상이 빅데이터이며 연구 문서에서 표준화 사전의 단어를 최대 추출하여 후처리 과정이나 수작업을 줄일 수 있기 때문에 연구 대상 단어 하나를 표준 사전 전체와 비교하는 방식으로 구축하였다. 또한 효율성을 높이기 위해 31만 단어의 음절수 순으로 정렬하여 <표 3>과 같은 해시 테이블(Hash Table) 세트를 만들었다.
본 연구의 진행 과정은 다음의 단계로 진행하였다. 먼저, 표준국어대사전의 모든 품사를 말뭉 치(Corpus)로 조합하여 명사 추출 과정을 거쳐 표준어 단어사전을 작성하였다. 특정 주제에 대한 주관적 견해로 구성된 소셜 미디어의 비정형 데이터 중 텍스트 자료들을 1차 수집한다.
1,000개의 블로그를 수집하는데 17시간에 가까운 시간을 사용한 것으로 나타났다. 물론, 블로그 URL 수집기 또한 별도의 프로그램 과정을 통하여 먼저 수집 후 진행하였다.
빅데이터 분석 기법인 텍스트마이닝, 오피니언 마이닝, 의미분석 등 다양한 연구가 진행되어 왔다[1, 5, 7, 8, 9, 11, 12]. 본 연구는 2012년부터 2015년까지 4,000개의 블로그 소셜 데이터를 이용하여 마이닝 처리의 신뢰성을 높여 비표준어 단어 리스트를 작성하였다. 연구 대상 문서의 단어 수 1,251,011개, 표준국어대사전 단어 수 316,838개를 비교 과정을 거치며 표준어 이 외의 단어를 추출하였다.
본 연구에 사용된 문장들은 과 같이 1,251,011개의 수집된 단어들 전체에 형태소 분리 작업 처리가 이루어졌으며 “/N”에 해당하는 명사 단어만 분리 작업을 하였다.
본 연구를 위한 오픈 소스 통계분석용 SW인 R 프로그램을 사용하였다. 비정형 텍스트마이닝 처리의 필수 패키지인 tm()를 활용하여 같은 폴더의 텍스트 모두를 컴퓨터가 읽을 수 있는 형태로 모아 놓아 단어들의 뭉치로 변환되는 Corpus 기능과 한글 명사 처리를 위한 KoNLP() 패키지를 활용하여 명사를 추출하는 extractNoun 명령과 단어들의 형태소를 9개의 품사로 분리 가능한 명령어 SimplePos09 등을 이용하여 명사 처리의 신뢰도를 높였다. 수집된 사전들의 명사화는 extractNoun 명령을 사용하여 진행되었다.
종성은 원래 27개지만, 종성이 없는 경우를 포함 해 28개가 된 것이다. 서버측 웹 스크립트(ASP) 의 ChrW함수는 유니코드 문자 코드 인수를 사용하고 ANSI에서 유니코드로 변환할 필요가 없으며 본 연구의 한글 아스키코드 값 추출 과정에 활용하였다 <그림 6>.
특정 주제에 대한 주관적 견해로 구성된 소셜 미디어의 비정형 데이터 중 텍스트 자료들을 1차 수집한다. 수집 된 자료들 중 연구에 필요한 한글 자음, 모음을 비롯한 한글을 추출하기 위하여 유니코드를 활용하여 정제된 연구 대상 말뭉치(Corpus)를 작성한 다. 실제 사례 분석 대상으로 자신의 의견을 자유롭게 표현하는 소셜미디어인 블로그를 대상으로 진행하였으며 표준어 단어사전과 비교하여 그 외의 단어들을 비표준어 단어로 구분하여 사전을 구축, 구현하였다.
수집 된 자료들 중 연구에 필요한 한글 자음, 모음을 비롯한 한글을 추출하기 위하여 유니코드를 활용하여 정제된 연구 대상 말뭉치(Corpus)를 작성한 다. 실제 사례 분석 대상으로 자신의 의견을 자유롭게 표현하는 소셜미디어인 블로그를 대상으로 진행하였으며 표준어 단어사전과 비교하여 그 외의 단어들을 비표준어 단어로 구분하여 사전을 구축, 구현하였다.
연구 대상 문서를 유니코드의 한글 영역 코드 값을 이용한 한글 추출과 1, 2차 명사 처리 과정과 표준어 사전 명사 리스트, 그리고 해시테이블 을 이용한 검색 알고리즘을 활용하여 소셜 빅데이터를 활용한 비표준어 단어 추출 과정을 설계함으로써 보다 가치 있고 의미 있는 단어의 추출을 위한 과정을 설계하였다.
<그림 1>은 소셜 데이터에서 우리말인 한글만을 추출하기 위하여 유니코드(Uni code)의 각 음절 코드 값을 이용하여 숫자, 특수문자, 외국어 등을 제외한 순수 한글만을 포함시켰다. 연구 대상 문서의 명사 처리와 명사 처리의 비정상 명사 를 정확히 판단하기 위하여 형태소 분석의 품사 태그를 부착하여 명사 여과망을 보다 견고하게 설계하였다. 한편, 국립국어원 표준국어대사전 표제어 데이터는 모든 품사별 자료를 확보하고 ‘복합명사구’, ‘연어’ 등은 명사 처리가 불가피하므로 연구 대상 문서와 같은 방법으로 명사 처리, 품사 태그 부착과정을 진행하면서 텍스트마이닝을 처리하였다.
<그림 8>은 해시 테이블 구조로 연구 대상 단어 리스트에서 한 단어를 받아 주어진 단어의 길이 정보와 동일 길이의 표준어 리스트 영역 정보를 확보하는 과정을 거쳐 해싱함수에 의해 계산 된 주소(버킷 주소)에 레코드 키를 저장하는 과정을 나타낸 것이며, 비교 처리 과정의 반복 횟수를 줄이는 코딩 작업을 하였다.
조사 역할의 “은/는”이 “핵노잼은”이란 명사에 포함되어 명사 처리에 미비함을 보이고 있다. 이에 연구자는 SimplePos09를 사용하여 명사의 형태소 분석과 품사별 태그를 부착하여 명사 확인 과정을 거쳤다.
이와 같은 배경으로 연구 프레임워크을 제시하였고 다음과 같이 설명하였다 은 소셜 데이터에서 우리말인 한글만을 추출하기 위하여 유니코드(Uni code)의 각 음 절 코드 값을 이용하여 숫자, 특수문자, 외국어 등을 제외한 순수 한글만을 포함시켰다.
국립국어원 언어정보나눔터에서 전자사전의 파일자료를 수집하였다. 체언, 용언, 수식언, 독립언, 관계언, 어미, 접사 등 품사별 단어들을 수집하였고 연어과 같은 두 단어들의 결합된 문장도 함께 수집하였다. 이렇게 추출된 표준어 품사 단어 수는 <표 2>과 같이 553,103개의 단어로 블로그 문서들에서 제외될 표준 단어들을 수집하였다.
또한, 다른 어휘적 관계성을 보이는 단어들 사이의 결합 양상으로 구성된 ‘연어’는 “가벼운 농담”, “얼굴이 환하다”, “포스터를 떼다” 등의 단어의 결합으로 이루어져 있었다. 표준어 전체를 명사 처리하여 조사 및 특수 문자 등을 제외하고 명사의 수를 확보하였다. 그렇게 처리된 명사 단어의 수는 중복을 제외하고 316,838개를 확보하였다.
본 연구는 비표준어 사전을 통한 텍스트마이닝 처리 기법을 연구하고자 한다. 한국복제전송저작권협회의 승인을 받아 국립국어원에서 제공하는 표준국어대 사전의 표제어 리스트를 근거로 비표준어 사전을 구축하였다.
한편, 국립국어원 표준국어대사전 표제어 데이터는 모든 품사별 자료를 확보하고 ‘복합명사구’, ‘연어’ 등은 명사 처리가 불가피하므로 연구 대상 문서와 같은 방법으로 명사 처리, 품사 태그 부착과정을 진행하면서 텍스트마이닝을 처리하였다.
대상 데이터
비표준어 단어 추출을 위한 우리말 표준국어대사전의 표제부 리스트의 자료 수집이 추가로 이루어졌다. 국립국어원 언어정보나눔터에서 전자사전의 파일자료를 수집하였다. 체언, 용언, 수식언, 독립언, 관계언, 어미, 접사 등 품사별 단어들을 수집하였고 연어과 같은 두 단어들의 결합된 문장도 함께 수집하였다.
국립국어원에서 제공하는 표준국어대사전의 말 뭉치 중 ‘복합명사구’나 ‘연어’ 관련 단어들을 명 사 처리 과정과 모든 품사 단어들을 하나로 뭉쳐 중복된 단어를 필터링 하는 과정을 거쳐 316,838 개의 방대한 표준어 명사 리스트를 추출하였다.
그렇게 처리된 명사 단어의 수는 중복을 제외하고 316,838개를 확보하였다.
본 연구는 자신의 관심에 따라 자유롭게 글과 사진을 올릴 수 있는 블로그를 대상으로 하였다.
본 연구의 모형으로 4000여개의 블로그를 대상으로 비표준어 단어를 추출한 결과는 에서 312여개의 비표준어 단어를 제시하였다. 비표준어 단어를 살펴보면 3음절 단어가 142개로 가장 많았고 2음절 84개, 4음절 72개 순의 분포를 보였다.
검색 포털 사이트는 검색어에 대한 정확도를 고려하여 네이버 블로그에서는 한 검색 조건 당 1,000개의 블로그 만을 제공한다는 것을 확인하였다. 본 연구자는 2012년, 2013년, 2014년, 2015년 등 각 기간 설정을 활용하여 처리 조건을 확대하여 4000여개의 텍스트를 수집하였다. 네이버측은 사용자의 컴퓨터 고유 숫자 주소인 IP를 분석하여 짧은 시간에 같은 IP 주소에서 블로그를 접속한다면 무차별 로봇들의 공격으로 판단하여 블로그 서버에서 같은 IP의 모든 접촉을 차단하고 있는것 또한 확인하였다.
분석 대상인 네이버 블로그 내 “신조어” 검색 어로 13만여개의 블로그 리스트가 확인 되었다.
분석의 대상으로 네이버 블로그 페이지를 선정하였다. 국내 최대 검색 포털 사이트로 검색은 물론 이메일, 카페, 블로그, 지식iN, 사전, 지도, 동영상, 이미지검색 등 다양한 서비스를 제공하며 가입자 및 사용자가 국내 최대를 자랑하고 있다.
본 연구는 2012년부터 2015년까지 4,000개의 블로그 소셜 데이터를 이용하여 마이닝 처리의 신뢰성을 높여 비표준어 단어 리스트를 작성하였다. 연구 대상 문서의 단어 수 1,251,011개, 표준국어대사전 단어 수 316,838개를 비교 과정을 거치며 표준어 이 외의 단어를 추출하였다.
이렇게 추출된 표준어 품사 단어 수는 과 같이 553,103개의 단 어로 블로그 문서들에서 제외될 표준 단어들을 수집하였다.
이미지, 동영상을 제외한 텍스트 기준으로 수집하였고 이렇게 추출된 자료는 과 같이 3,850개의 블로그 수와 범용 워드프로세서를 이용하여 수집된 블로그의 단어 수는 1,251,011개의 낱말 수를 대상으로 표준 단어 이외의 단어들을 찾고자 한다.
먼저, 표준국어대사전의 모든 품사를 말뭉 치(Corpus)로 조합하여 명사 추출 과정을 거쳐 표준어 단어사전을 작성하였다. 특정 주제에 대한 주관적 견해로 구성된 소셜 미디어의 비정형 데이터 중 텍스트 자료들을 1차 수집한다. 수집 된 자료들 중 연구에 필요한 한글 자음, 모음을 비롯한 한글을 추출하기 위하여 유니코드를 활용하여 정제된 연구 대상 말뭉치(Corpus)를 작성한 다.
데이터처리
본 연구를 위한 오픈 소스 통계분석용 SW인 R 프로그램을 사용하였다. 비정형 텍스트마이닝 처리의 필수 패키지인 tm()를 활용하여 같은 폴더의 텍스트 모두를 컴퓨터가 읽을 수 있는 형태로 모아 놓아 단어들의 뭉치로 변환되는 Corpus 기능과 한글 명사 처리를 위한 KoNLP() 패키지를 활용하여 명사를 추출하는 extractNoun 명령과 단어들의 형태소를 9개의 품사로 분리 가능한 명령어 SimplePos09 등을 이용하여 명사 처리의 신뢰도를 높였다.
이론/모형
비정형 텍스트마이닝 처리의 필수 패키지인 tm()를 활용하여 같은 폴더의 텍스트 모두를 컴퓨터가 읽을 수 있는 형태로 모아 놓아 단어들의 뭉치로 변환되는 Corpus 기능과 한글 명사 처리를 위한 KoNLP() 패키지를 활용하여 명사를 추출하는 extractNoun 명령과 단어들의 형태소를 9개의 품사로 분리 가능한 명령어 SimplePos09 등을 이용하여 명사 처리의 신뢰도를 높였다. 수집된 사전들의 명사화는 extractNoun 명령을 사용하여 진행되었다. 하지만 <그림 2> 같이 예를 보면 일부 명사 추출에 조사가 편입된 것을 확인할 수 있었다.
성능/효과
이러한 보안 정책을 경험한 본 연구자는 연구 목적 로봇의 접속 시간을 1분으로 지연 처리하여 분당 하나의 블로그를 수집하는 것으로 만족해야만 하였다. 1,000개의 블로그를 수집하는데 17시간에 가까운 시간을 사용한 것으로 나타났다. 물론, 블로그 URL 수집기 또한 별도의 프로그램 과정을 통하여 먼저 수집 후 진행하였다.
com)로 제한을 하였다. 검색 포털 사이트는 검색어에 대한 정확도를 고려하여 네이버 블로그에서는 한 검색 조건 당 1,000개의 블로그 만을 제공한다는 것을 확인하였다. 본 연구자는 2012년, 2013년, 2014년, 2015년 등 각 기간 설정을 활용하여 처리 조건을 확대하여 4000여개의 텍스트를 수집하였다.
<표 1> 과 같이 3,850여개의 블로그에서 1,251,011개 낱말의 단어들 중 표준 사전 316,838 개의 단어를 제외한 결과 40,447개의 단어가 비표준어 단어로 나타났다. “가격할인간접할인”, “완료함으로 명실상부한” 등 띄어쓰기 문제의 단어와 “오픈캐스트”와 같은 영문 한글 표기, “올라왔답니다짜자잔”과 같은 마침표(.
국어와 외국어를 조합하는 합성 단어는 “코드 갱어”, “낫닝겐”, “노답”, “노잼”, “딘치” 등을 확 인하였고 초성만을 사용하는 이모티콘 언어는 “ㅋㅋ”, “ㅇㅋ”, “ㅎㅎ”, “ㅇㅇ” 등이 나타났으며, 단어들의 첫 글자 혹은 첫 음절을 줄이고 결합하는 형태의 단어들이 포진되어 있었다.
본 연구의 모형으로 4000여개의 블로그를 대상으로 비표준어 단어를 추출한 결과는 에서 312여개의 비표준어 단어를 제시하였다. 비표준어 단어를 살펴보면 3음절 단어가 142개로 가장 많았고 2음절 84개, 4음절 72개 순의 분포를 보였다. 두 단어의 조합을 2음절 또는 3음절로 표현한 것들이 대부분이며 한 가지 재미있는 예를 들면 다음과 같다.
디지털 정보 사회를 맞아 다양한 데이터가 축적되고 자료의 가공 처리에 대한 활용이 증가하였을 뿐 아니라, 데이터 형태 또한 다양하게 변화하였다. 사용자가 적극적으로 콘텐츠 제작에 참여하고 생산 주체로 자리매김할 수 있는 웹2.0의 환경이 이 모든 변화들을 제공하였고 사이버 공간의 네트워크 확장으로 인하여 현실사회에서의 변화 또한 증폭되고 있다는 것을 알 수 있다. 또한, 구조화된 정형적 데이터보다 문자, 사진, 동영상과 같은 비정형적 데이터가 훨씬 많은 양을 차지하고 있다[1, 2].
어근을 찾기 힘든 이상한 외계 언어, 무분별하게 표현되는 속어, 알기 힘든 한글 이모티콘 인터넷 언어, 마이닝 처리 과정에서 파악하기 어려운 단어들을 데이터베이스에 구축함으로써 보다 마이닝 처리의 속도와 신뢰도를 높일 수 있었고, 특정 주제에 대한 주관적 견해로 구성된 블로그를 실제 사례 분석 대상으로 연구를 진행하였으며 비표준어 사전을 통한 텍스트 마이닝 처리의 유용한 점을 발견할 수 있었다.
또한 효율성을 높이기 위해 31만 단어의 음절수 순으로 정렬하여 <표 3>과 같은 해시 테이블(Hash Table) 세트를 만들었다. 연구 대상 단어의 길이가 3자리이면 49,371 ~ 146,539 사이의 단어를 검색, 5자리이면 226,460 ~ 260,084 사이의 단어를 검색하여 유휴시간(Idle time)으로 느껴지는 반복을 최소화 시켰다. 또한 11자리 이상되는 단어는 사전 끝까지 검색되도록 설정하였다.
후속연구
기성세대와 소통의 장이 될 수 있는 자연어 처리를 비표준어 사전 구축으로 시작해본다. 또한, 수집된 비표준어를 표준어와 매칭하여 SNS 환경에 비표준어와 표준어의 변환 자동화를 기대해 본다. 포털사이트의 한글 영문 자동 변환 기능처럼 비표준어 연구는 세대 간 소통에 새로운 기준이 마련될 것으로 본다.
물론 같은 뜻이지만 다른 표현 방법도 자연어에서는 가능한 일들이다. 이러한 한계점을 극복하기 위한 노력은 계속 진행되어야 하며 소셜 네트워크 내 소통 언어의 형태 분석, 의미 분석, 대화 분석 등을 연구하는 표준화 처리 과정의 자연어 처리 연구는 지속될 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
SNS 환경이 집단지성화 되는 소셜미디어로 확산된 이유는?
SNS는 인터넷이 연결되지 않은 오프라인(Offline) 공간을 인터넷이 연결된 온라인(Online) 공간으로 확장시키면서 온라인 환경의 특성이 형성되었다. SNS 환경은 사용자들의 콘텐츠 생성과 다수의 의견, 경험, 관점 등을 공유함으로써 집단지성 (Collective Knowledge)화 되는 소셜미디어 (Social Media)로 확산되었다. 이는 SNS의 기본적 네트워크 특성과 함께 콘텐츠의 생성과 사용자들의 공유 측면이 부각되어 온 것이다[3, 4].
소셜네트워크서비스란?
특정한 관심이나 활동을 공유하는 관계망을 구축해주는 온라인 서비스인 소셜네트워크서비스(SNS), 자신의 관심사에 따라 자유롭게 글, 사진, 동영상 등을 올릴 수 있는 공간인 블로그(Blog) 등은 자신을 알리고 표현하는 사회현상으로 자리 매김하고 있다. 이러한 SNS나 블로그를 통해 사용자들이 자유롭게 표현한 글들을 분석하여 의미있는 정보와 가치, 그리고 패턴을 찾기 위한 텍스트 마이닝(Text Mining), 오피니언 마이닝(Opinion Mining), 의미 분석(Semantic Analysis) 등의 연구가 활발히 이루어지고 있다.
소셜 네트워크 서비스는 무엇을 통해 온라인 환경의 특성이 형성되었는가?
이러한 네트워크를 사용하는 온라인 이용자는 빠르고 광범위하게 증가하였고 콘텐츠를 생산하는 주체로서 소셜 네트워크 서비스(Social Network Service)의 중심에 자리 잡고 있다. SNS는 인터넷이 연결되지 않은 오프라인(Offline) 공간을 인터넷이 연결된 온라인(Online) 공간으로 확장시키면서 온라인 환경의 특성이 형성되었다. SNS 환경은 사용자들의 콘텐츠 생성과 다수의 의견, 경험, 관점 등을 공유함으로써 집단지성 (Collective Knowledge)화 되는 소셜미디어 (Social Media)로 확산되었다.
참고문헌 (19)
Lee, J. H., "Big Data, Data Mining and Temporary Reproduction," The Journal of Intellectual Property, Vol. 8, No. 4, 2013, pp. 93-125.
Kang, S. J., "Constructing a Large Interlinked Ontology Network for the Web of Data," Journal of Korean Industrial Information Systems Society, Vol. 15, No. 1, 2010, pp. 15-23.
Park, C. S., Hong, Y. J. and Cho, I. H., "An Analysis on Journalism Characteristics of SNS based on Issued Cases : With Twitter as the Center," Proceedings in 2012 Fall Conference of The Korean Entertainment Industry Association, 2012, pp. 36-40.
Boyd, D. M. and Ellison, N. B., "Social Network Sites: Definition, History, and Scholarship," Journal of Computer-Mediated Communication, Vol. 13, No. 4, 2007, pp. 210-230.
Kim, W. S., Lee, J. H., Park, j. W. and Choi, j. H.,"A Technique of the Approval Rating Analysis for Political Party Using Opinion Mining,", Journal of Korean Institute of Information Technology, Vol. 12, No. 10, 2014, pp. 133-141.
Won, J. Y. and Kim, D. G., "Deduction of Social Risk Issues Using Text Mining," Journal of safety and crisis management, Vol. 10, No. 7, 2014, pp. 33-52.
Lee, J. H. and Lee, H. K., "A Study on Unstructured Text Mining Algorithm through R Programming based on Data Dictionary," Journal of the Korea Society Industrial Information System, Vol. 20, No. 2, 2015, pp. 113-124.
Chang, J. Y., Lee, s. Y. and Han, J. B., "Machine-Learned Classification Technique for Opinion Documents Retrieval in Social Network Services," Proceedings in 2013 Conference of Korean Institute of Information Scientists and Engineers, 2013, pp. 245-247.
Chang, C. Y., Jang, J. H., Kim, S, H., Lee, H. K. and Lee, C. H., "A Study on the Efficient Patent Search Process using Big Data Analysis Tool R," Journal of Korea Safety Management & Science, Vol. 15, No. 4, 2013, pp. 289-294.
Le, H., and Lee, H. K., "Exploring Relationship Between Social ICT Issues And Academic Research Interests Through Text Mining Analysis," The Journal of Internet Electronic Commerce Research, Vol. 14, No. 5, 2014, pp. 161-180.
Le, H., Lee, J. H. and Lee, H. K., "Purchase Process Aspect-based Opinion Mining : An Application for Online Shopping Mall," The Journal of Internet Electronic Commerce Research, Vol. 15, No. 2, 2015, pp. 15-28.
Yun, B. H., "Natural Language Processing based Information Extraction for Newspapers," Journal of Korean Institute of Information Technology, Vol. 6, No. 4, 2008, pp. 188-195.
Hong, J. P. and Cha, J. W., "Error Correction of Sejong Morphological Annotation Corpora using Part-of-Speech Tagger andFrequency Information," Journal of KISS : Software and Applications, 2013, Vol. 40, No. 7, pp. 417-428.
Sim, K. S., "Syllable-based POS Tagging without Korean Morphological Analysis," Korean Journal of Cognitive Science, Vol. 22, No. 3, 2011, pp. 327-345.
An, J. K. and Kim, H. U., "Building a Korean Sentiment Dictionary and Applications of Natural Language Processing," Proceedings in 2014 Summer Conference of Korea Intelligent Information Systems Society, 2014, pp. 177-182.
Kwon H. R., Na J. H., Yoo J. S. and Cho W. S., "Text-mining Techniques for Metabolic Pathway Reconstruction," Journal of Korean Industrial Information Systems Society, Vol. 12, No. 4, pp. 138-147, 2007.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.