[논문]딥러닝을 활용한 웹 텍스트 저자의 남녀 구분 및 연령 판별 : SNS 사용자를 중심으로

박찬엽; 장인호; 이준기

doi:10.9716/kits.2016.15.3.147

딥러닝을 활용한 웹 텍스트 저자의 남녀 구분 및 연령 판별 : SNS 사용자를 중심으로
Authorship Attribution of Web Texts with Korean Language Applying Deep Learning Method 원문보기

한국IT서비스학회지 = Journal of Information Technology Services, v.15 no.3, 2016년, pp.147 - 155

박찬엽 (공개SW역량프라자) , 장인호 (연세대학교 정보대학원) , 이준기 (연세대학교 정보대학원)

Abstract ▼ AI-Helper

According to rapid development of technology, web text is growing explosively and attracting many fields as substitution for survey. The user of Facebook is reaching up to 113 million people per month, Twitter is used in various institution or company as a behavioral analysis tool. However, many research has focused on meaning of the text itself. And there is a lack of study for text's creation subject. Therefore, this research consists of sex/age text classification with by using 20,187 Facebook users' posts that reveal the sex and age of the writer. This research utilized Convolution Neural Networks, a type of deep learning algorithms which came into the spotlight as a recent image classifier in web text analyzing. The following result assured with 92% of accuracy for possibility as a text classifier. Also, this research was minimizing the Korean morpheme analysis and it was conducted using a Korean web text to Authorship Attribution. Based on these feature, this study can develop users' multiple capacity such as web text management information resource for worker, non-grammatical analyzing system for researchers. Thus, this study proposes a new method for web text analysis.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구는 연구적, 실무적으로 시사하는 바가 있는데, 연구적 시사점으로는 첫 번째로 한글 저자 판별에 딥러닝 기법 중 하나인 CNN을 사용함으로써 한글의 문법적 특성에 따른 데이터 전처리의 복잡성과 분석의 어려움을 최소화하고자 했다는 것이다. 그리고 두 번째로는 본 연구가 기본 자모 단위의 통계적 분석으로도 충분히 효과적인 결과를 도출할 수 있다는 것을 확인함으로써 한글의 복잡한 문법체계로 제한적인 연구를 진행할 수 밖에 없었던 국내 웹 텍스트 연구에 새로운 대안을 제시하였다는 것이다.
본 연구에서는 기존의 국내 저자판별 연구에서 활용한 유사도 기반 방법이 아닌, 기계학습 기법 중 새롭게 각광 받고 있는 CNN을 한글 텍스트 저자판별에 적용한다. 또한 데이터 확보에 어려움을 겪었던 기존 연구를 보완하여 현실의 웹 텍스트를 확보하고 이를 기반으로 한글의 자연어처리를 최소화한 한국어 텍스트 저자판별 방법론을 제시하는 것을 목적으로 한다.
본 연구는 연구적, 실무적으로 시사하는 바가 있는데, 연구적 시사점으로는 첫 번째로 한글 저자 판별에 딥러닝 기법 중 하나인 CNN을 사용함으로써 한글의 문법적 특성에 따른 데이터 전처리의 복잡성과 분석의 어려움을 최소화하고자 했다는 것이다. 그리고 두 번째로는 본 연구가 기본 자모 단위의 통계적 분석으로도 충분히 효과적인 결과를 도출할 수 있다는 것을 확인함으로써 한글의 복잡한 문법체계로 제한적인 연구를 진행할 수 밖에 없었던 국내 웹 텍스트 연구에 새로운 대안을 제시하였다는 것이다.
본 연구는 저자 판별 연구에 있어 딥러닝 알고리즘인 CNN을 활용하여 검증하였고 텍스트 분석 방법으로의 활용 가능성에 대해 확인함으로써 향후 다양한 분야로의 적용을 확대해 가는 단초가 될 것이다.
본 연구는 한글 웹 텍스트 데이터 분석에 있어 교착어의 문법적 특성을 극복하고 이전의 행동기반 고객군 추정으로 진행된 연구에서 벗어나 경영정보 자원으로써의 활용 안을 제시했다. 하지만 페이스북 이외의 다른 SNS 상의 웹 텍스트에 검증해보지 못했다는 점과 데이터가 부족한 다른 연령대를 포함하지 못했다는 점, 그리고 딥러닝 알고리즘의 블랙박스 현상으로 인해 세대와 연령의 분류에 대해 이해할 수 있는 변수를 찾기 힘들다는 한계점을 가지고 있다.

가설 설정

수집한 아이디의 페이스북 타임 라인에서 총 527,172개의 포스트를 확보하였으며 전처리를 통해 3,000자 이상, 100자 미만의 포스트는 제거하였다. 또한 기본 자모로 변환한 길이가 1,024를 초과한 경우 글자를 자르고 새로운 포스트로 가정하여 샘플을 확보하였다. 이러한 방법으로 확보한 포스트 샘플은 [Table 2]와 같다.

제안 방법

따라서 본 연구는 딥러닝 기법을 활용하여 한글의 문법적 특성에 따른 분석의 어려움을 최소화하고 웹 상의 텍스트를 대량으로 수집하여 분석에 활용하였고, 그 결과를 검증한다.
반복 학습은 5,000회, 20번 반복하였으며 드랍아웃(Dropout)은 풀리 커넥티드 층에서 작동하는 크레페의 기본 설정을 따랐다.
본 연구에서는 기존의 국내 저자판별 연구에서 활용한 유사도 기반 방법이 아닌, 기계학습 기법 중 새롭게 각광 받고 있는 CNN을 한글 텍스트 저자판별에 적용한다. 또한 데이터 확보에 어려움을 겪었던 기존 연구를 보완하여 현실의 웹 텍스트를 확보하고 이를 기반으로 한글의 자연어처리를 최소화한 한국어 텍스트 저자판별 방법론을 제시하는 것을 목적으로 한다.
본 연구에서는 텍스트의 연속된 값을 입력층으로 사용한다. 입력층의 차원을 최소화하기 위해 24자의 기본자모 수준 데이터와 띄어쓰기, 특수 문자 일부를 포함해 총 50개의 글자로 입력층 데이터를 제한했으며 포함하는 글자는 [Figure 3]과 같다.
사용자 아이디를 확보하기 위해 국내 페이스북 페이지 중 ‘좋아요’ 수 상위 20개 페이지의 최근 10개 포스트에 댓글 및 ‘좋아요’를 수행한 아이디를 페이스북 API를 이용해 수집하였다. 이 후, Rwebdriver와 Rvest를 활용하여 페이스북 이용자의 프로필 페이지를 파싱(Parsing)하여 연령과 성별이 공개되어 있는지를 확인하고 공개가 확인된 아이디만 따로 저장 하였다.
컨볼루션을 수행하는 것은 입력층의 홀수 배 크기인 커널(Kernel)의 중심이 입력 프레임의 픽셀에 놓인 상태에서 입력 프레임과 커널이 겹쳐진 부분들만 계산해 출력값을 만드는 과정이다. 커널과 입력 프레임을 겹쳐 컨볼루션을 진행하는 방법은 3가지가 존재하는데, 본 연구에서는 커널을 입력 프레임에 완전히 겹치게 하여 출력 프레임을 축소시키는 것을 기본으로 했다.
(2015)은 CNN을 활용하여 문자 수준(Charater-level) 텍스트 데이터를 분류하는 연구를 진행했다. 한글 자모에 해당하는 영어 알파벳과 공백, 일정 특수문자를 분류하고 이를 70개의 세로 프레임, 1,024개의 가로 프레임의 벡터 이미지로 전환하는 방법을 제안했다.

대상 데이터

10대 데이터 또한 샘플 수가 부족하며 확보된 샘플의 포스트수도 적어 대상 데이터로 사용하지 않았다. 이를 통해 CNN의 출력층은 최종적으로 20대 남 · 여, 30대 남 · 여, 40대 이상 남 · 여의 총 6개 집단으로 구성되었다.
40대 이상 여성의 포스트 샘플 수가 약 5만 개로 6개의 집단 중 그 수가 가장 적어 균질한 분석을 위해 분석에 활용할 각 집단의 포스트 샘플 수를 5만 개로 설정했으며, 나머지 5개의 집단(20대 남․여, 30대 남․여, 40대 이상 남)은 5만 개의 포스트 샘플을 무작위 추출하여 최종 데이터 셋을 30만 개 구축하였다.
6개 집단 모두 학습 셋은 45,000개, 테스트 셋은 5,000개로 구성하여 분석을 진행했다.
[Table 1]은 페이스북에서 수집한 데이터 중 생년월일과 성별 기록을 프로필에 공개한 총 20,187명의 아이디를 성별, 연령별로 나타낸 것이며, 이들의 2015년 1년간의 포스트를 데이터로 사용하였다.
본 연구는 한국 페이스북 페이지 ‘좋아요’ 수 상위 20개의 페이지 내 최근 10개의 포스트에 ‘좋아요’와 댓글을 단 아이디 중 성별, 연령 정보가 입력된 사용자의 2015년 포스트를 분석용 데이터로 사용했다.
본 연구에 사용된 데이터는 페이스북 내에 성별과 연령을 프로필에 공개한 사용자의 포스트를 수집하여 전처리 하였다. 수집도구는 R 3.
본 연구에서는 텍스트를 이해할 CNN을 6층의 컨볼루션 층과 3층의 풀리 커넥티드 층(Fully-Connected Layer), 총 9개 층으로 구성했다. 입력층은 앞서 구성한 50×1,024 크기의 프레임을 가지며 각 층 역시 1,024 프레임으로 구성하였다.
분석 툴은 페이스북이 공개한 딥러닝 플랫폼인 토치7(Torch7)을 활용한 오픈 소스 크레페를 사용하였으며, 분석 머신은 CPU : Xeon E5, GPU : Ndivia GTX 750i(cuda processor 680 uits), RAM : 16G DDR, OS : Ubunto 14.04 LTS로 구성하였다.
사용자 아이디를 확보하기 위해 국내 페이스북 페이지 중 ‘좋아요’ 수 상위 20개 페이지의 최근 10개 포스트에 댓글 및 ‘좋아요’를 수행한 아이디를 페이스북 API를 이용해 수집하였다.
수집한 아이디의 페이스북 타임 라인에서 총 527,172개의 포스트를 확보하였으며 전처리를 통해 3,000자 이상, 100자 미만의 포스트는 제거하였다. 또한 기본 자모로 변환한 길이가 1,024를 초과한 경우 글자를 자르고 새로운 포스트로 가정하여 샘플을 확보하였다.
이렇게 저장된 아이디의 2015년 포스트만을 분석 대상으로 삼았으며, 이보다 과거의 데이터는 연령대 구분에 혼선이 있을 수 있기 때문에 제외하였다.
이를 통해 CNN의 출력층은 최종적으로 20대 남 · 여, 30대 남 · 여, 40대 이상 남 · 여의 총 6개 집단으로 구성되었다.

이론/모형

픽셀이 매우 높은 경우 컨볼루션을 수행하는데 많은 시간이 소요 되는데, 서브샘플링 단계는 이 계산량을 효과적으로 줄이는 방법으로, 4개 픽셀의 평균값을 결과 프레임으로 출력하는 평균 풀링(Mean Pooling)과 4개 픽셀 중 가장 높은 값을 결과 프레임으로 출력하는 맥스 풀링(Max Pooling)방법이 대중적으로 사용되고 있다. 본 연구에서는 이 중 성능이 우수한 맥스 풀링 방법을 사용했다.

성능/효과

최근 기계학습 분야에서는 딥러닝 기법의 발달로 해당 분야의 지식 없이 데이터로부터 자동으로 특징을 추출해내는 연구가 시작되고 있다. 특히 특징 추출기와 분류기를 대규모 신경망으로 통합하여 학습함으로써 기존의 기계학습에 비해 비약적인 성능 향상을 이루었다.

후속연구

따라서 차후 연구에서는 현재 성별과 연령대가 표시된 웹 텍스트를 확보 할 수 있는 다른 데이터 소스가 거의 없다는 점에서 지속적인 말뭉치 구축이 필요해 보인다. 또한 미래의 고객으로서 트렌드에 민감한 10대의 웹 텍스트 사용을 추적하는 연구를 병행한다면 경영정보로서 더욱 가치 있는 연구가 될 것이다.
따라서 차후 연구에서는 현재 성별과 연령대가 표시된 웹 텍스트를 확보 할 수 있는 다른 데이터 소스가 거의 없다는 점에서 지속적인 말뭉치 구축이 필요해 보인다. 또한 미래의 고객으로서 트렌드에 민감한 10대의 웹 텍스트 사용을 추적하는 연구를 병행한다면 경영정보로서 더욱 가치 있는 연구가 될 것이다.
이 연구는 딥러닝 기법을 한글 텍스트 대상으로 하여 저자판별의 연구에 적용한 것으로, 향후 딥러닝 연구가 다양한 분야에 접목이 가능하게끔 해주는 방향성을 제시할 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	유사도 기반을 통한 저자 판별 연구란?	저자판별 연구는 유사도 기반 방법과 기계학습 방법으로 나눌 수 있다(Stamatatos, 2009). 유사도 기반을 통한 저자 판별 연구는 기존의 저자가 알려진 문서들과 무기명 문서의 특징을 측정하여 이를 여러 거리 계산 방법으로 가장 거리가 가까운 문서를 찾아 저자를 추정하는 방법이다(Abbasiand Chen, 2008; Argamon et al., 2009).
	인공 신경망의 구성인 단층 퍼셉트론과 다층 퍼셉트론의 특징은?	단층 퍼셉트론은 입력노드로 들어오는 값에 가중치를 고려하여 출력노드에 전달할 값을 결정한다. 하지만 단층 퍼셉트론은 이진 분류기로서 그 한계에 부딪히는데, 이를 개선한 것이 단층 퍼셉트론을 여러 개 연결한 다층 퍼셉트론이다. 다층 퍼셉트론은 여러 개의 단층 퍼셉트론을 합친 모델로 입력층과 은닉층, 출력층으로 구성되어있다. 다층 퍼셉트론은 입, 출력층의 중간에 은닉층을 삽입하여 선형 분리가 가능하도록 하며, 입출력 특성을 비선형화 함으로써 네트워크 능력을 향상시켜 단층 퍼셉트론의 여러 단점을 보완할 수 있다.
	유사도 기반 방법과 기계학습 방법의 차이점은?	유사도 기반 방법은 효과적인 특징 추출 및 추상화 방법과 거리 계산방식에 대해 집중하지만, 기계학습 방법은 특징 추출과 분류기 선정 및 분류기 파라미터 최적화에 집중한다.

참고문헌 (12)

Abbasi, A. and H. Chen, "Writerprints : A Stylometric Approach to Identity-level Identification and Similarity Detection", ACM Transactions on Information Systems, Vol.26, No.2, 2008.
Argamon, S., M. Koppel, J.W. Pennebaker, and J. Schler, "Automatically Profiling the Author of an Anonymous Text", Communications of the ACM, Vol.52, No.2, 2009, 119-123.

상세보기
Bhargava, M., P. Mehndiratta, and K. Asawa, "Stylometric Analysis for Authorship Attribution on Twitter", BDA, Vol.8302, 2013, 37-47.
Choi, J.M., "Authorship Attribution of Korean Texts Using Machine Learning Methods : A Study on Movie Reviews on Blogs", Yonsei University Master's thesis located, 2015. (최지명, "기계학습을 활용한 한국어 텍스트 저자판별", 연세대학교 석사학위논문, 2015.)
Han, N.R., "Authorship Attribution in Korean Using Frequency Profiles", KJCS, Vol.20, No.2, 2009, 225-241. (한나래, "빈도정보를 이용한 한국어 저자판별", 인지과학학회지, 제20권, 제2호, 2009, 225-241.)
IWGDPT, "Report and Guidance on Privacy in Social Network Services : Rome Memorandum", 2008. Available at http://www.datenschutz-berlin.de/attachments/461/WP_social_network_services.pdf(Downloaded June 15. 2015).
Kang, B.I. and J.Y. Lee, "A Bibliometric Analysis on Twitter Research", Journal of the Korean Society for Information Management, Vol.31, No.3, 2014, 293-311. (강범일, 이재윤, "트위터 관련 연구에 대한 계량정보학적 분석", 정보관리학회지, 제31권, 제3호, 2014, 293-311.)

원문보기 상세보기
Mikolov, T., K. Chen, G. Corrado, and J. Dean, "Efficient Estimation of Word Representations in Vector Space", 2013. Available at https://arxiv.org/pdf/1301.3781.pdf(Downloaded June 12. 2015.)
Park, C.Y, "Korean Authorship Attribution from Web Texts Using Machine Learning Methods-Facebook post", Yonsei University Master's thesis located, 2015. (박찬엽, "기계학습을 활용한 한국어 웹 텍스트 저자판별(성별, 연령별) : 페이스북 사용자를 중심으로", 연세대학교 석사학위논문, 2015.)
Stamatatos, E., "A Survey of Modern Authorship Attribution Methods", Journal of the American Society for Information Science and Technology, Vol.60, No.3, 2009, 538-556.

상세보기
Zhang, X., J. Zhao, and Y. LeCun, "Character-Level Convolutional Networks for Text Classification", Advances in Neural Information Processing Systems, Vol.28, 2015.
Zheng, R., J.X. Li, H.C. Chen, and Z. Huang, "A Framework for Authorship Identification of Online Messages : Writing-style Features and Classification Techniques", Journal of the American Society for Information Science and Technology, Vol.57, No.3, 2006, 378-393.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증