[논문]소셜네트워크서비스에 활용할 비표준어 한글 처리 방법 연구

이종화; 레환수; 이현규

doi:10.9723/jksiis.2016.21.3.035

문제 정의

”와 같이 소셜 미디어 간 통용되는 단어들의 차이와 그 문화가 세대 간의 소통 장벽으로 작용되는 것을 조금이나마 해소하고 건 전한 언어 문화에 기여하고자 비표준어 사전을 연구하였고 그에 앞서 표제부 리스트를 기존의 소셜 데이터에서 찾고자 노력하였다.
SNS의 사회적 팽창 보급과 확산은 세대 간 소통의 많은 차이를 낳고 있다. 국어의 정확한 표준어와 닷컴(Dot com) 세대의 자유분방한 표현 언어들과의 괴리의 연결고리를 연구하자고 한다.
또한, 우리 글자 한글의 우수 성을 기리기 위한 국경일인 “한글날”을 통하여 선조들의 지혜와 후손들의 한글 바로 쓰기를 고취시키고자 함이다.
하지만, 한글 처리에 한계점이 지적되어왔고 소비자의 행동 패턴, 감정 표현 정보 분석이 늘어가는 SNS 전성 시대에 비표준어 연구의 필요가 절실하다고 판단 되어 본 연구의 주제로 정하였다. 본 연구는 비표준어 사전을 통한 텍스트마이닝 처리 기법을 연구하고자 한다. 한국복제전송저작권협회의 승인을 받아 국립국어원에서 제공하는 표준국어대 사전의 표제어 리스트를 근거로 비표준어 사전을 구축하였다.
본 연구는 선행연구를 통한 한글의 텍스트마이닝 처리 기법(데이터 사전 기반 마이닝 처리 기법 포함)의 한계를 극복하고자 한다. 인터넷에서 사용하는 인터넷어, 신조어 들의 한글 분석에 기존 연구자들의 키워드 기반 텍스트마이닝 처리 기법을 많이 사용하였다[6, 7, 9].
본 연구는 표준 단어 중심의 분석 과정의 이전 단계로써 보다 의미 있는 비표준어 단어를 포함 시키는 비표준어 표제어 리스트를 구축하는 과정을 연구하였다. 원진영·김대곤(2014), 이종화·이현규(2015), 장청윤 외(2013) 연구 대상 문서의 1차 텍스트마이닝 결과와 연구 관점의 데이터 사전을 비교함으로써 보다 연구자의 연구 방향에 집중할 수 있는 텍스트마이닝 처리 기법을 기반으로 텍스트마이닝을 넘어 스마트한 텍스트마이닝 처리를 제안한다.
이러한 문제는 “KoNLP”의 패키지의 단점이기도 하지만 한글 처리의 어려움을 보여주는 예이기도 하다. 본 연구자는 이러한 문제를 해결하고자 단어의 형태소 분석을 통한 품사 분리 작업을 시도해 보았다. <그림 3> 는 SimplePos09명령을 통한 형태소 분리 작업한 예이다.

가설 설정

인터넷에서 사용하는 인터넷어, 신조어 들의 한글 분석에 기존 연구자들의 키워드 기반 텍스트마이닝 처리 기법을 많이 사용하였다[6, 7, 9]. 하지만, 한글 처리에 한계점이 지적되어왔고 소비자의 행동 패턴, 감정 표현 정보 분석이 늘어가는 SNS 전성 시대에 비표준어 연구의 필요가 절실하다고 판단 되어 본 연구의 주제로 정하였다. 본 연구는 비표준어 사전을 통한 텍스트마이닝 처리 기법을 연구하고자 한다.

제안 방법

“가격할인간접할인”, “완료함으로명실상부한” 등 띄어쓰기 문제의 단어와 “오픈캐스트”와 같은 영문 한글 표기, “올 라왔답니다짜자잔”과 같은 마침표(.) 오류 표기 등으로 인하여 영문 한글 표시는 삭제, 띄어쓰기 오류는 줄 바꿈, 기호 오류는 기호 삽입 및 줄 바꿈으로 교정하여 전 과정을 다시 진행하였다.
본 연구자는 2012년, 2013년, 2014년, 2015년 등 각 기간 설정을 활용하여 처리 조건을 확대하여 4000여개의 텍스트를 수집하였다. 네이버측은 사용자의 컴퓨터 고유 숫자 주소인 IP를 분석하여 짧은 시간에 같은 IP 주소에서 블로그를 접속한다면 무차별 로봇들의 공격으로 판단하여 블로그 서버에서 같은 IP의 모든 접촉을 차단하고 있는것 또한 확인하였다. 이러한 보안 정책을 경험한 본 연구자는 연구 목적 로봇의 접속 시간을 1분으로 지연 처리하여 분당 하나의 블로그를 수집하는 것으로 만족해야만 하였다.
또한 R 프로그램을 통한 한글 명사 처리 신뢰성을 높이기 위한 실험으로 명사 추출용 extractNoun명령의 결과를 형태소 태그 부착을 통한 여과망 역할의 SimplePos09을 통해 보다 깔끔한 명사 처리에 기여한 알고리즘을 제시하였다. extractNoun명령을 사용하여 아래와 같은 문장의 명사 처리 결과는 다음과 같다.
또한 효율성을 높이기 위해 31만 단어의 음절수 순으로 정렬하여 과 같은 해시 테이블(Hash Table) 세트를 만들었다.
또한, 웹 환경에서의 수집과정에 “&nbs;”, 영문, 숫자 등을 제외한 순수 한글 음절의 구분을 위하여 유니코드 체계를 이용하였다.
국립국어원에서 제공하는 표준국어대사전의 말뭉치 중 ‘복합명사구’나 ‘연어’ 관련 단어들을 명사 처리 과정과 모든 품사 단어들을 하나로 뭉쳐 중복된 단어를 필터링하는 과정을 거쳐 316,838 개의 방대한 표준어 명사 리스트를 추출하였다. 또한, 해시테이블(Hash Table) 원리를 이용한 단어의 음절 수 기준으로 각각의 인덱스(Index) 값을 기억하여 보다 효율적인 검색 알고리즘을 구현하였다.
먼저 비교 대상이 빅데이터이며 연구 문서에서 표준화 사전의 단어를 최대 추출하여 후처리 과정이나 수작업을 줄일 수 있기 때문에 연구 대상 단어 하나를 표준 사전 전체와 비교하는 방식으로 구축하였다. 또한 효율성을 높이기 위해 31만 단어의 음절수 순으로 정렬하여 <표 3>과 같은 해시 테이블(Hash Table) 세트를 만들었다.
본 연구의 진행 과정은 다음의 단계로 진행하였다. 먼저, 표준국어대사전의 모든 품사를 말뭉 치(Corpus)로 조합하여 명사 추출 과정을 거쳐 표준어 단어사전을 작성하였다. 특정 주제에 대한 주관적 견해로 구성된 소셜 미디어의 비정형 데이터 중 텍스트 자료들을 1차 수집한다.
1,000개의 블로그를 수집하는데 17시간에 가까운 시간을 사용한 것으로 나타났다. 물론, 블로그 URL 수집기 또한 별도의 프로그램 과정을 통하여 먼저 수집 후 진행하였다.
빅데이터 분석 기법인 텍스트마이닝, 오피니언 마이닝, 의미분석 등 다양한 연구가 진행되어 왔다[1, 5, 7, 8, 9, 11, 12]. 본 연구는 2012년부터 2015년까지 4,000개의 블로그 소셜 데이터를 이용하여 마이닝 처리의 신뢰성을 높여 비표준어 단어 리스트를 작성하였다. 연구 대상 문서의 단어 수 1,251,011개, 표준국어대사전 단어 수 316,838개를 비교 과정을 거치며 표준어 이 외의 단어를 추출하였다.
본 연구에 사용된 문장들은 과 같이 1,251,011개의 수집된 단어들 전체에 형태소 분리 작업 처리가 이루어졌으며 “/N”에 해당하는 명사 단어만 분리 작업을 하였다.
본 연구를 위한 오픈 소스 통계분석용 SW인 R 프로그램을 사용하였다. 비정형 텍스트마이닝 처리의 필수 패키지인 tm()를 활용하여 같은 폴더의 텍스트 모두를 컴퓨터가 읽을 수 있는 형태로 모아 놓아 단어들의 뭉치로 변환되는 Corpus 기능과 한글 명사 처리를 위한 KoNLP() 패키지를 활용하여 명사를 추출하는 extractNoun 명령과 단어들의 형태소를 9개의 품사로 분리 가능한 명령어 SimplePos09 등을 이용하여 명사 처리의 신뢰도를 높였다. 수집된 사전들의 명사화는 extractNoun 명령을 사용하여 진행되었다.
종성은 원래 27개지만, 종성이 없는 경우를 포함 해 28개가 된 것이다. 서버측 웹 스크립트(ASP) 의 ChrW함수는 유니코드 문자 코드 인수를 사용하고 ANSI에서 유니코드로 변환할 필요가 없으며 본 연구의 한글 아스키코드 값 추출 과정에 활용하였다 <그림 6>.
특정 주제에 대한 주관적 견해로 구성된 소셜 미디어의 비정형 데이터 중 텍스트 자료들을 1차 수집한다. 수집 된 자료들 중 연구에 필요한 한글 자음, 모음을 비롯한 한글을 추출하기 위하여 유니코드를 활용하여 정제된 연구 대상 말뭉치(Corpus)를 작성한 다. 실제 사례 분석 대상으로 자신의 의견을 자유롭게 표현하는 소셜미디어인 블로그를 대상으로 진행하였으며 표준어 단어사전과 비교하여 그 외의 단어들을 비표준어 단어로 구분하여 사전을 구축, 구현하였다.
수집 된 자료들 중 연구에 필요한 한글 자음, 모음을 비롯한 한글을 추출하기 위하여 유니코드를 활용하여 정제된 연구 대상 말뭉치(Corpus)를 작성한 다. 실제 사례 분석 대상으로 자신의 의견을 자유롭게 표현하는 소셜미디어인 블로그를 대상으로 진행하였으며 표준어 단어사전과 비교하여 그 외의 단어들을 비표준어 단어로 구분하여 사전을 구축, 구현하였다.
연구 대상 문서를 유니코드의 한글 영역 코드 값을 이용한 한글 추출과 1, 2차 명사 처리 과정과 표준어 사전 명사 리스트, 그리고 해시테이블 을 이용한 검색 알고리즘을 활용하여 소셜 빅데이터를 활용한 비표준어 단어 추출 과정을 설계함으로써 보다 가치 있고 의미 있는 단어의 추출을 위한 과정을 설계하였다.
<그림 1>은 소셜 데이터에서 우리말인 한글만을 추출하기 위하여 유니코드(Uni code)의 각 음절 코드 값을 이용하여 숫자, 특수문자, 외국어 등을 제외한 순수 한글만을 포함시켰다. 연구 대상 문서의 명사 처리와 명사 처리의 비정상 명사 를 정확히 판단하기 위하여 형태소 분석의 품사 태그를 부착하여 명사 여과망을 보다 견고하게 설계하였다. 한편, 국립국어원 표준국어대사전 표제어 데이터는 모든 품사별 자료를 확보하고 ‘복합명사구’, ‘연어’ 등은 명사 처리가 불가피하므로 연구 대상 문서와 같은 방법으로 명사 처리, 품사 태그 부착과정을 진행하면서 텍스트마이닝을 처리하였다.
<그림 8>은 해시 테이블 구조로 연구 대상 단어 리스트에서 한 단어를 받아 주어진 단어의 길이 정보와 동일 길이의 표준어 리스트 영역 정보를 확보하는 과정을 거쳐 해싱함수에 의해 계산 된 주소(버킷 주소)에 레코드 키를 저장하는 과정을 나타낸 것이며, 비교 처리 과정의 반복 횟수를 줄이는 코딩 작업을 하였다.
조사 역할의 “은/는”이 “핵노잼은”이란 명사에 포함되어 명사 처리에 미비함을 보이고 있다. 이에 연구자는 SimplePos09를 사용하여 명사의 형태소 분석과 품사별 태그를 부착하여 명사 확인 과정을 거쳤다.
이와 같은 배경으로 연구 프레임워크을 제시하였고 다음과 같이 설명하였다 은 소셜 데이터에서 우리말인 한글만을 추출하기 위하여 유니코드(Uni code)의 각 음 절 코드 값을 이용하여 숫자, 특수문자, 외국어 등을 제외한 순수 한글만을 포함시켰다.
국립국어원 언어정보나눔터에서 전자사전의 파일자료를 수집하였다. 체언, 용언, 수식언, 독립언, 관계언, 어미, 접사 등 품사별 단어들을 수집하였고 연어과 같은 두 단어들의 결합된 문장도 함께 수집하였다. 이렇게 추출된 표준어 품사 단어 수는 <표 2>과 같이 553,103개의 단어로 블로그 문서들에서 제외될 표준 단어들을 수집하였다.
또한, 다른 어휘적 관계성을 보이는 단어들 사이의 결합 양상으로 구성된 ‘연어’는 “가벼운 농담”, “얼굴이 환하다”, “포스터를 떼다” 등의 단어의 결합으로 이루어져 있었다. 표준어 전체를 명사 처리하여 조사 및 특수 문자 등을 제외하고 명사의 수를 확보하였다. 그렇게 처리된 명사 단어의 수는 중복을 제외하고 316,838개를 확보하였다.
본 연구는 비표준어 사전을 통한 텍스트마이닝 처리 기법을 연구하고자 한다. 한국복제전송저작권협회의 승인을 받아 국립국어원에서 제공하는 표준국어대 사전의 표제어 리스트를 근거로 비표준어 사전을 구축하였다.
한편, 국립국어원 표준국어대사전 표제어 데이터는 모든 품사별 자료를 확보하고 ‘복합명사구’, ‘연어’ 등은 명사 처리가 불가피하므로 연구 대상 문서와 같은 방법으로 명사 처리, 품사 태그 부착과정을 진행하면서 텍스트마이닝을 처리하였다.

대상 데이터

비표준어 단어 추출을 위한 우리말 표준국어대사전의 표제부 리스트의 자료 수집이 추가로 이루어졌다. 국립국어원 언어정보나눔터에서 전자사전의 파일자료를 수집하였다. 체언, 용언, 수식언, 독립언, 관계언, 어미, 접사 등 품사별 단어들을 수집하였고 연어과 같은 두 단어들의 결합된 문장도 함께 수집하였다.
국립국어원에서 제공하는 표준국어대사전의 말 뭉치 중 ‘복합명사구’나 ‘연어’ 관련 단어들을 명 사 처리 과정과 모든 품사 단어들을 하나로 뭉쳐 중복된 단어를 필터링 하는 과정을 거쳐 316,838 개의 방대한 표준어 명사 리스트를 추출하였다.
그렇게 처리된 명사 단어의 수는 중복을 제외하고 316,838개를 확보하였다.
본 연구는 자신의 관심에 따라 자유롭게 글과 사진을 올릴 수 있는 블로그를 대상으로 하였다.
본 연구의 모형으로 4000여개의 블로그를 대상으로 비표준어 단어를 추출한 결과는 에서 312여개의 비표준어 단어를 제시하였다. 비표준어 단어를 살펴보면 3음절 단어가 142개로 가장 많았고 2음절 84개, 4음절 72개 순의 분포를 보였다.
검색 포털 사이트는 검색어에 대한 정확도를 고려하여 네이버 블로그에서는 한 검색 조건 당 1,000개의 블로그 만을 제공한다는 것을 확인하였다. 본 연구자는 2012년, 2013년, 2014년, 2015년 등 각 기간 설정을 활용하여 처리 조건을 확대하여 4000여개의 텍스트를 수집하였다. 네이버측은 사용자의 컴퓨터 고유 숫자 주소인 IP를 분석하여 짧은 시간에 같은 IP 주소에서 블로그를 접속한다면 무차별 로봇들의 공격으로 판단하여 블로그 서버에서 같은 IP의 모든 접촉을 차단하고 있는것 또한 확인하였다.
분석 대상인 네이버 블로그 내 “신조어” 검색 어로 13만여개의 블로그 리스트가 확인 되었다.
분석의 대상으로 네이버 블로그 페이지를 선정하였다. 국내 최대 검색 포털 사이트로 검색은 물론 이메일, 카페, 블로그, 지식iN, 사전, 지도, 동영상, 이미지검색 등 다양한 서비스를 제공하며 가입자 및 사용자가 국내 최대를 자랑하고 있다.
본 연구는 2012년부터 2015년까지 4,000개의 블로그 소셜 데이터를 이용하여 마이닝 처리의 신뢰성을 높여 비표준어 단어 리스트를 작성하였다. 연구 대상 문서의 단어 수 1,251,011개, 표준국어대사전 단어 수 316,838개를 비교 과정을 거치며 표준어 이 외의 단어를 추출하였다.
이렇게 추출된 표준어 품사 단어 수는 과 같이 553,103개의 단 어로 블로그 문서들에서 제외될 표준 단어들을 수집하였다.
이미지, 동영상을 제외한 텍스트 기준으로 수집하였고 이렇게 추출된 자료는 과 같이 3,850개의 블로그 수와 범용 워드프로세서를 이용하여 수집된 블로그의 단어 수는 1,251,011개의 낱말 수를 대상으로 표준 단어 이외의 단어들을 찾고자 한다.
먼저, 표준국어대사전의 모든 품사를 말뭉 치(Corpus)로 조합하여 명사 추출 과정을 거쳐 표준어 단어사전을 작성하였다. 특정 주제에 대한 주관적 견해로 구성된 소셜 미디어의 비정형 데이터 중 텍스트 자료들을 1차 수집한다. 수집 된 자료들 중 연구에 필요한 한글 자음, 모음을 비롯한 한글을 추출하기 위하여 유니코드를 활용하여 정제된 연구 대상 말뭉치(Corpus)를 작성한 다.

데이터처리

본 연구를 위한 오픈 소스 통계분석용 SW인 R 프로그램을 사용하였다. 비정형 텍스트마이닝 처리의 필수 패키지인 tm()를 활용하여 같은 폴더의 텍스트 모두를 컴퓨터가 읽을 수 있는 형태로 모아 놓아 단어들의 뭉치로 변환되는 Corpus 기능과 한글 명사 처리를 위한 KoNLP() 패키지를 활용하여 명사를 추출하는 extractNoun 명령과 단어들의 형태소를 9개의 품사로 분리 가능한 명령어 SimplePos09 등을 이용하여 명사 처리의 신뢰도를 높였다.

이론/모형

비정형 텍스트마이닝 처리의 필수 패키지인 tm()를 활용하여 같은 폴더의 텍스트 모두를 컴퓨터가 읽을 수 있는 형태로 모아 놓아 단어들의 뭉치로 변환되는 Corpus 기능과 한글 명사 처리를 위한 KoNLP() 패키지를 활용하여 명사를 추출하는 extractNoun 명령과 단어들의 형태소를 9개의 품사로 분리 가능한 명령어 SimplePos09 등을 이용하여 명사 처리의 신뢰도를 높였다. 수집된 사전들의 명사화는 extractNoun 명령을 사용하여 진행되었다. 하지만 <그림 2> 같이 예를 보면 일부 명사 추출에 조사가 편입된 것을 확인할 수 있었다.

성능/효과

이러한 보안 정책을 경험한 본 연구자는 연구 목적 로봇의 접속 시간을 1분으로 지연 처리하여 분당 하나의 블로그를 수집하는 것으로 만족해야만 하였다. 1,000개의 블로그를 수집하는데 17시간에 가까운 시간을 사용한 것으로 나타났다. 물론, 블로그 URL 수집기 또한 별도의 프로그램 과정을 통하여 먼저 수집 후 진행하였다.
com)로 제한을 하였다. 검색 포털 사이트는 검색어에 대한 정확도를 고려하여 네이버 블로그에서는 한 검색 조건 당 1,000개의 블로그 만을 제공한다는 것을 확인하였다. 본 연구자는 2012년, 2013년, 2014년, 2015년 등 각 기간 설정을 활용하여 처리 조건을 확대하여 4000여개의 텍스트를 수집하였다.
<표 1> 과 같이 3,850여개의 블로그에서 1,251,011개 낱말의 단어들 중 표준 사전 316,838 개의 단어를 제외한 결과 40,447개의 단어가 비표준어 단어로 나타났다. “가격할인간접할인”, “완료함으로 명실상부한” 등 띄어쓰기 문제의 단어와 “오픈캐스트”와 같은 영문 한글 표기, “올라왔답니다짜자잔”과 같은 마침표(.
국어와 외국어를 조합하는 합성 단어는 “코드 갱어”, “낫닝겐”, “노답”, “노잼”, “딘치” 등을 확 인하였고 초성만을 사용하는 이모티콘 언어는 “ㅋㅋ”, “ㅇㅋ”, “ㅎㅎ”, “ㅇㅇ” 등이 나타났으며, 단어들의 첫 글자 혹은 첫 음절을 줄이고 결합하는 형태의 단어들이 포진되어 있었다.
본 연구의 모형으로 4000여개의 블로그를 대상으로 비표준어 단어를 추출한 결과는 에서 312여개의 비표준어 단어를 제시하였다. 비표준어 단어를 살펴보면 3음절 단어가 142개로 가장 많았고 2음절 84개, 4음절 72개 순의 분포를 보였다. 두 단어의 조합을 2음절 또는 3음절로 표현한 것들이 대부분이며 한 가지 재미있는 예를 들면 다음과 같다.
디지털 정보 사회를 맞아 다양한 데이터가 축적되고 자료의 가공 처리에 대한 활용이 증가하였을 뿐 아니라, 데이터 형태 또한 다양하게 변화하였다. 사용자가 적극적으로 콘텐츠 제작에 참여하고 생산 주체로 자리매김할 수 있는 웹2.0의 환경이 이 모든 변화들을 제공하였고 사이버 공간의 네트워크 확장으로 인하여 현실사회에서의 변화 또한 증폭되고 있다는 것을 알 수 있다. 또한, 구조화된 정형적 데이터보다 문자, 사진, 동영상과 같은 비정형적 데이터가 훨씬 많은 양을 차지하고 있다[1, 2].
어근을 찾기 힘든 이상한 외계 언어, 무분별하게 표현되는 속어, 알기 힘든 한글 이모티콘 인터넷 언어, 마이닝 처리 과정에서 파악하기 어려운 단어들을 데이터베이스에 구축함으로써 보다 마이닝 처리의 속도와 신뢰도를 높일 수 있었고, 특정 주제에 대한 주관적 견해로 구성된 블로그를 실제 사례 분석 대상으로 연구를 진행하였으며 비표준어 사전을 통한 텍스트 마이닝 처리의 유용한 점을 발견할 수 있었다.
또한 효율성을 높이기 위해 31만 단어의 음절수 순으로 정렬하여 <표 3>과 같은 해시 테이블(Hash Table) 세트를 만들었다. 연구 대상 단어의 길이가 3자리이면 49,371 ～ 146,539 사이의 단어를 검색, 5자리이면 226,460 ～ 260,084 사이의 단어를 검색하여 유휴시간(Idle time)으로 느껴지는 반복을 최소화 시켰다. 또한 11자리 이상되는 단어는 사전 끝까지 검색되도록 설정하였다.

후속연구

기성세대와 소통의 장이 될 수 있는 자연어 처리를 비표준어 사전 구축으로 시작해본다. 또한, 수집된 비표준어를 표준어와 매칭하여 SNS 환경에 비표준어와 표준어의 변환 자동화를 기대해 본다. 포털사이트의 한글 영문 자동 변환 기능처럼 비표준어 연구는 세대 간 소통에 새로운 기준이 마련될 것으로 본다.
물론 같은 뜻이지만 다른 표현 방법도 자연어에서는 가능한 일들이다. 이러한 한계점을 극복하기 위한 노력은 계속 진행되어야 하며 소셜 네트워크 내 소통 언어의 형태 분석, 의미 분석, 대화 분석 등을 연구하는 표준화 처리 과정의 자연어 처리 연구는 지속될 것으로 기대된다.

핵심어	질문	논문에서 추출한 답변
	SNS 환경이 집단지성화 되는 소셜미디어로 확산된 이유는?	SNS는 인터넷이 연결되지 않은 오프라인(Offline) 공간을 인터넷이 연결된 온라인(Online) 공간으로 확장시키면서 온라인 환경의 특성이 형성되었다. SNS 환경은 사용자들의 콘텐츠 생성과 다수의 의견, 경험, 관점 등을 공유함으로써 집단지성 (Collective Knowledge)화 되는 소셜미디어 (Social Media)로 확산되었다. 이는 SNS의 기본적 네트워크 특성과 함께 콘텐츠의 생성과 사용자들의 공유 측면이 부각되어 온 것이다[3, 4].
	소셜네트워크서비스란?	특정한 관심이나 활동을 공유하는 관계망을 구축해주는 온라인 서비스인 소셜네트워크서비스(SNS), 자신의 관심사에 따라 자유롭게 글, 사진, 동영상 등을 올릴 수 있는 공간인 블로그(Blog) 등은 자신을 알리고 표현하는 사회현상으로 자리 매김하고 있다. 이러한 SNS나 블로그를 통해 사용자들이 자유롭게 표현한 글들을 분석하여 의미있는 정보와 가치, 그리고 패턴을 찾기 위한 텍스트 마이닝(Text Mining), 오피니언 마이닝(Opinion Mining), 의미 분석(Semantic Analysis) 등의 연구가 활발히 이루어지고 있다.
	소셜 네트워크 서비스는 무엇을 통해 온라인 환경의 특성이 형성되었는가?	이러한 네트워크를 사용하는 온라인 이용자는 빠르고 광범위하게 증가하였고 콘텐츠를 생산하는 주체로서 소셜 네트워크 서비스(Social Network Service)의 중심에 자리 잡고 있다. SNS는 인터넷이 연결되지 않은 오프라인(Offline) 공간을 인터넷이 연결된 온라인(Online) 공간으로 확장시키면서 온라인 환경의 특성이 형성되었다. SNS 환경은 사용자들의 콘텐츠 생성과 다수의 의견, 경험, 관점 등을 공유함으로써 집단지성 (Collective Knowledge)화 되는 소셜미디어 (Social Media)로 확산되었다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

소셜네트워크서비스에 활용할 비표준어 한글 처리 방법 연구
Research on Methods for Processing Nonstandard Korean Words on Social Network Services 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

소셜네트워크서비스에 활용할 비표준어 한글 처리 방법 연구 Research on Methods for Processing Nonstandard Korean Words on Social Network Services 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

이종화 (5) 이현규 (14)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

소셜네트워크서비스에 활용할 비표준어 한글 처리 방법 연구
Research on Methods for Processing Nonstandard Korean Words on Social Network Services 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper