[논문]맵리듀스와 대응분석을 활용한 비정형 빅 데이터의 정형화와 시각적 해석

최요셉; 최용석

doi:10.5351/kjas.2014.27.2.169

맵리듀스와 대응분석을 활용한 비정형 빅 데이터의 정형화와 시각적 해석
Standardizing Unstructured Big Data and Visual Interpretation using MapReduce and Correspondence Analysis 원문보기

응용통계연구 = The Korean journal of applied statistics, v.27 no.2, 2014년, pp.169 - 183

초록
AI-Helper

오늘날, 다양한 분야에서 다양한 형태의 빅 데이터들이 축적되고 있다. 이에, 빅 데이터를 분석하고 그 속에서 가치 있는 정보를 찾아내는 것은 매우 중요해지고 있다. 또한, 비정형 빅 데이터를 정형화하여 통계적 기법을 적용할 수 있게 하는 것은 매우 중요해지고 있다. 본 연구에서는 분산처리 시스템인 맵리듀스를 활용하여 비정형 빅 데이터를 정형화하고, 통계적 분석 기법인 단순 대응분석과 다중 대응분석을 적용하여, 한국 경제 신문의 지면에 실린 기사를 이용해 삼성전자와 애플을 언급하고 있는 단어들의 관계와 특성을 각각 파악하였다.

Abstract ▼ AI-Helper

Massive and various types of data recorded everywhere are called big data. Therefore, it is important to analyze big data and to nd valuable information. Besides, to standardize unstructured big data is important for the application of statistical methods. In this paper, we will show how to standardize unstructured big data using MapReduce which is a distribution processing system. We also apply simple correspondence analysis and multiple correspondence analysis to nd the relationship and characteristic of direct relationship words for Samsung Electronics and The Korea Economic Daily newspaper as well as Apple Inc.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

첫 번째로, 전체 기사에 대해 언급된 단어들을 살펴보면, 식음료, 상승세, 참이슬 등 삼성전자와 관계가 없는 단어들로 인해 삼성전자에 대한 잘못된 분석이 될 가능성이 크다. 두 번째로, 삼성전자라는 단어가 포함된 문단들에 대해 단어들을 살펴보자. 전체 기사보다는 삼성전자를 분석하는 불필요한 단어들이 줄어들지만 여전히 KT, 올레, 국민은행 등과 같은 단어들의 영향으로 잘못된 분석이 될 가능성이 남아 있다.
빅 데이터 분석은 다양한 분야에서 빠른 속도로 증가하는 정형화 및 비정형화 데이터를 분석하여, 다양한 형태로 축적되어 있는 대용량의 데이터로부터 잠재 되어 있는 가치를 찾아낼 수 있다. 본 연구에서는 맵리듀스를 활용하여 비정형 빅 데이터를 정형화하고, 가공 및 군집화를 통하여 통계적 기법에 적용할 수 있도록 하였다. 더불어, 대응분석을 활용하여, 정형화된 빅 데이터를 시각화하고 해석하였다.
본 연구에서는 이러한 빅 데이터를 분석하기 위하여, 분산 처리 시스템(distribution processing system)인 맵리듀스(MapReduce)를 활용하여, 비정형 빅 데이터(unstructured big data)를 정형화하고, 이를 분석하고 시각화하기 위하여 대응분석(correspondence analysis)을 활용하려 한다. 이에 먼저 2장에서는 빅 데이터의 출현배경과 개념에 대해서 설명하고, 3장에서는 빅 데이터를 처리하는 맵리듀스의 개념과 처리방법 및 대응분석의 이론에 대해 설명하고, 추가적으로 비정형 데이터를 정형화하여 분석하고 시각화하는 전체적인 작업흐름에 대하여 소개하려 한다.

제안 방법

1절의 비정형 납품 빅 데이터의 정형화와 군집화 과정을 거쳐 정형화된 신문 기사 데이터를 활용하여 삼성전자와 애플의 분기별 특징을 살펴보기 위해, 삼성전자와 애플에 대해 단순대응분석과 다중대응분석을 이용하여 보았다. 군집된 데이터로부터 각 분기별 이슈를 살펴보기 위하여 단어 출현 빈도수가 상위 5%인 군집단어를 추출하였으며, 조금 더 세밀하게 분석하기 위하여 군집을 세분화하는 작업을 하였다.
본 연구에서는 맵리듀스를 활용하여 비정형 빅 데이터를 정형화하고, 가공 및 군집화를 통하여 통계적 기법에 적용할 수 있도록 하였다. 더불어, 대응분석을 활용하여, 정형화된 빅 데이터를 시각화하고 해석하였다. 이에 삼성전자와 애플이 언급된 2012년 1월부터 2012년 12월까지의 신문 기사를 정형화하여 통계적 분석 기법에 활용할 수 있도록 하였고, 대응분석에 적용하여 분기별 삼성전자와 애플의 특징과 동향을 살펴보 았다.
제목으로 언급된 지면 기사만을 이용한 이유는 삼성전자와 애플을 주제로 한 신문 기사라 판단되어서이며, 두 기업을 언급하는 불필요한 단어들을 줄이고 삼성전자와 애플에 초점을 맞추기 위한 것이다. 더욱 세밀한 분석을 하기 위하여 3.3절에서 소개한 삼성전자와 애플이 제목으로 언급된 지면 기사들 중 직접관계에 있는 단어들을 추출하였다.
더불어, 대응분석을 활용하여, 정형화된 빅 데이터를 시각화하고 해석하였다. 이에 삼성전자와 애플이 언급된 2012년 1월부터 2012년 12월까지의 신문 기사를 정형화하여 통계적 분석 기법에 활용할 수 있도록 하였고, 대응분석에 적용하여 분기별 삼성전자와 애플의 특징과 동향을 살펴보 았다.

대상 데이터

본 연구는 대표적인 비정형 빅 데이터인 신문 기사에서 삼성전자와 애플을 언급하는 단어들을 토대로 두기업의 분기별 동향과 이슈를 살펴보기 위하여, 2012년 1월부터 2012년 12월까지의 경제 중심 종합일간지인 한국경제신문사의 지면 기사를 사용하였다. 그 중 삼성전자와 애플이라는 단어가 제목으로 언급된 지면 기사만을 이용하였다.
본 연구에서 사용된 맵리듀스 처리 과정의 코딩 파일(MapReduce.txt)과 예제파일(Apple.txt)의 내용은 저자의 홈페이지(yschoi.pusan.ac.kr)의 Researches>Systems 메뉴에서 받아갈 수 있다.

데이터처리

4.1절의 비정형 납품 빅 데이터의 정형화와 군집화 과정을 거쳐 정형화된 신문 기사 데이터를 활용하여 삼성전자와 애플의 분기별 특징을 살펴보기 위해, 삼성전자와 애플에 대해 단순대응분석과 다중대응분석을 이용하여 보았다. 군집된 데이터로부터 각 분기별 이슈를 살펴보기 위하여 단어 출현 빈도수가 상위 5%인 군집단어를 추출하였으며, 조금 더 세밀하게 분석하기 위하여 군집을 세분화하는 작업을 하였다.

이론/모형

5) 표시행렬 Z의 내적은 버트행렬(Burt matrix)이 된다. 다중대응분석의 대수적 알고리즘은 고유치체계를 이용한다.

성능/효과

‘변호’, ‘변호인’, ‘변호사’는 ‘변호’로 군집의 의미를 살렸으며, ‘증거’ 또한 군집을 잘 대표하고 있는 군집명인 것을 확인할 수 있다.
2분기가 나타나 있는, 제4사분면을 살펴보면, 의 단어들이 나타나 삼성전자의 주력상품인 갤럭시 시리즈와 더불어 스마트TV 시장 진출에 힘을 쓰고 있는 것을 확인 할 수 있다.
3분기가 나타난 제1사분면과 제2사분면에는 의 단어들이 위치하여, 애플과의 특허 소송에 의하여 외국인들 순매도가 일어난 것을 확인 할 수 있지만, 의 단어들도 함께 나타나 삼성전자가 애플과의 특허 소송에 맞대응하면서도 지속인 연구와 합병, 인수 등의 사업 확장을 통하여 성장하고 있는 것을 확인할 수 있다.
그 결과 삼성전자는 1분기와 4분기에 주가의 상승, 최고 실적 달성, 목표주가 경신 등을 확인 할 수 있었고, 2분기에는 스마트TV 시장, 시장 분석과 전략을 통해 새로운 시장 진출에 주력한 것을 확인 할 수 있 었다. 3분기에는 애플과의 특허 소송으로 인하여 일시적으로 외국인의 순매도가 일어났지만, 합병과 기업 인수 계획 등의 사업 확장을 통하여 성장하였던 것을 확인 할 수 있었다.
3분기에는 애플과의 특허 소송으로 인하여 일시적으로 외국인의 순매도가 일어났지만, 합병과 기업 인수 계획 등의 사업 확장을 통하여 성장하였던 것을 확인 할 수 있었다. 또한, 애플의 1분기와 2분기는 주력 상품인 아이폰과 더불어 시리, 디지털 교과서, 애플리케이션 개발, 스마트TV 시장과 같은 새로운 시장 진출에 주력하였으나, 3분기와 4분기에는 삼성전자와의 특허 소송에 주력 하였던 것을 확인할 수 있었다. 뿐만 아니라, 이를 토대로 2013년 상반기 IT시장에서는 기업의 성장과 사업 확장에 주력했던 삼성전자의 강세를 전망할 수 있었으며, 혁신이 경영방침과 기업 이미지였던 애플의 성장은 주춤할 것이라고 전망할 수 있었다.
1의 (a)는 애플을 제목으로 언급한 신문 기사의 직접관계에 있는 단어들 중 분기별 빈도수가 상위 5%에 포함된 단어군집을 활용한 단순대응분석도이며, (b)는 (a)의 제4사분면, (c)는 제1사분면, (d)는 제2사분면과 제3사분면을 나타낸 그림이다. 먼저, 각 축에 대한 설명력은 제1축(Dim1)이 50.05%이고, 제2축(Dim2)은 34.32%로 총 84.37%의 설명력이 있는 것으로 나타났으며, Q1(1분기)은 제4사분 면에, Q2(2분기)는 제1사분면에, Q3(3분기)과 Q4(4 분기)는 제2사분면과 제3사분면으로 나누어지는 것을 확인 할 수 있다. Table 4.
또한, 애플의 1분기와 2분기는 주력 상품인 아이폰과 더불어 시리, 디지털 교과서, 애플리케이션 개발, 스마트TV 시장과 같은 새로운 시장 진출에 주력하였으나, 3분기와 4분기에는 삼성전자와의 특허 소송에 주력 하였던 것을 확인할 수 있었다. 뿐만 아니라, 이를 토대로 2013년 상반기 IT시장에서는 기업의 성장과 사업 확장에 주력했던 삼성전자의 강세를 전망할 수 있었으며, 혁신이 경영방침과 기업 이미지였던 애플의 성장은 주춤할 것이라고 전망할 수 있었다. 실제로도 2013년 상반기 삼성전자는 새로운 개념의 스마트 카메라 출시, 매출 200조, 1분기 순이익 7조, 갤럭시S4 출시, 스마트 시장 공략 강화 등 IT시장에서의 강세를 보이고 있다.
전체 기사보다는 삼성전자를 분석하는 불필요한 단어들이 줄어들지만 여전히 KT, 올레, 국민은행 등과 같은 단어들의 영향으로 잘못된 분석이 될 가능성이 남아 있다. 세 번째로, 분석 대상이 되는 삼성전자를 포함하고 있는 문장에 대해서만 단어들을 살펴보면, 갤럭시, 7분기째, 대한민국, 1위 등 관계가 있는 단어들로 삼성전자가 언급되어 올바른 분석을 할 수 있다. 이와 같이 관심 대상이 되는 특정 단어가 포함된 문장의 단어들을 분석하게 되면, 불필요하게 언급된 단어들을 제외할 수 있고 관심 대상에 대해 명확하고 안정된 분석을 할 수 있다.
반면, Apple이 위치하고 있는제2사분면과 제4사분면의 3분기와 4분기에 대응하는 <가처분, 경쟁사, 소송, 판매금지, 기각, 판결, 항소 법원, 침해, 재판, 특허 등>은 주로 특허 소송에 관련된 단어들인 것을 확인 할 수 있다. 이를 토대로 2012년 애플은 특허 관련 소송에 주력을 하였으며, 삼성전자는 사업 확장과 성장에 주력을 하였다는 것을 확인할 수 있다. 또한, 이는 2013년 상반기 삼성전자는 지속적인 성장과 사업 확장으로 인한 상승세를 전망할 수 있으며, 애플은 계속되는 특허 관련 소송으로 인해 자사의 슬로건인 혁신적 기업 이미지에 타격받아 성장이 주춤할 것 할 것으로 전망할 수 있다.
3분기와 4분기가 나타난 제2사분면과 제3사분면에는 <판매금지, 디자인, 갤럭시, 소송, 법원, 특허, 침해, 항소, 삼성전자 등>이 위치하여, 애플이 특허 소송에 주력하고 있음을 나타내고 있다. 이를 토대로, 애플과 삼성전자의 관계는 악화될 것이라고 예상 가능하며, 애플과 삼성전자의 경쟁구도는 계속해서 치열해 질 것으로 예상된다.
(b)는 (a)의 제3사분면, (c)는 제4사분면, (d)는 제1사분 면과 제2사분면을 나타낸 그림이다. 제1축의 설명력은 40.79%이고, 제2축의 설명력은 32.42%로, 총 73.21%의 설명력이 있는 것으로 나타났으며, Q1(1분기)과 Q4(4 분기)는 제3사분면에, Q2(2분기)는 제4사분면에, Q3(3분기)은 제1사분면과 제2사분면으로 나누어지는 것을 확인 할 수 있다.

후속연구

2분기가 나타난 제1사분면은<애플TV, TV, 컴퓨터, 개발, 신제품, 아이폰, 아이패드 등>의 단어들이 나타나 있다. 이는 애플의 주력 상품이었던 아이폰, 아이패드와 더불어 스마트TV나 신개념의 컴퓨터와 같은 새로운 시장 진출에 주력하고 있으며, 향후 애플이 스마트TV, 컴퓨터, 아이폰과 같은 신제품을 내놓을 것으로 예상할 수 있다. 3분기와 4분기가 나타난 제2사분면과 제3사분면에는 <판매금지, 디자인, 갤럭시, 소송, 법원, 특허, 침해, 항소, 삼성전자 등>이 위치하여, 애플이 특허 소송에 주력하고 있음을 나타내고 있다.
이처럼, 대용량의 텍스트를 정독하지 않고도, 빅 데이터 분석만으로 많은 정보를 얻을 수 있으며, 나아가 현재에도 폭발적으로 증가하고 있는 빅 데이터를 이해하고 분석함으로써, 다양한 분야에서 가치 있는 정보를 얻고, 활용 할 수 있을 것이라고 기대하여 본다.
2에서 관심 대상을 삼성전자로 정하고 신문 기사의 단어들을 분석하는 방법을 살펴보자. 첫 번째로, 전체 기사에 대해 언급된 단어들을 살펴보면, 식음료, 상승세, 참이슬 등 삼성전자와 관계가 없는 단어들로 인해 삼성전자에 대한 잘못된 분석이 될 가능성이 크다. 두 번째로, 삼성전자라는 단어가 포함된 문단들에 대해 단어들을 살펴보자.

질의응답

핵심어	질문	논문에서 추출한 답변
	맵리듀스란?	맵리듀스는 대용량의 데이터를 처리하기 위한 분산 처리 시스템의 프레임워크 구조이다. 맵리듀스는단어의 의미 그대로 매핑(mapping)을 하는 맵(map) 단계와 데이터를 줄이는 리듀스(reduce) 단계로 구성되어 있다.
	빅 데이터의 특성을 나타내는 3가지 키워드는?	빅 데이터의 특성은 크기(volume), 다양성(variety), 속도(velocity) 3개의 키워드로 나타낼 수 있다. 크기는 앞서 언급한 것과 같이 시대와 데이터를 다루는 대상에 따라 상대적으로 다를 수는 있지만, 현재는 수십 테라바이트에서 수십 페타바이트(petabyte) 이상 크기의 데이터량을 말하며, 일반적으로는 데이터를 관리하는 기존의 기술역량을 넘어서는 크기의 데이터량을 말한다.
	맵리듀스는 어떤 과정을 통해 생성되는가?	맵리듀스는단어의 의미 그대로 매핑(mapping)을 하는 맵(map) 단계와 데이터를 줄이는 리듀스(reduce) 단계로 구성되어 있다. 맵 단계에서는 입력데이터(input data)로부터 분리된 데이터(separated data)의<키(key), 값(value)>을 입력 받아 맵 함수를 통해 매핑된 <키(list(key)), 값(list(value))>의 쌍으로 내보내며 이렇게 생성된 쌍은 리듀스 단계를 거쳐 맵 단계에서 매핑된 키를 기준으로 집계 연산된 새로운 쌍의 <키(key), 값(value)>을 생성한다.

참고문헌 (13)

Adrian, M. (2011). It's going mainstream, and it's your next opportunity, Teradata Magazine, AR-6309.
Choi, Y. S. (2001). Understanding and Application of Correspondence Analysis using SAS, Freedom Academy, Seoul.
Chiang, O. (2011). Twitter Hits Nearly 200M Accounts, 110M Tweets Per Day, Focuses On Global Ex- pansion, Forbes, Available from: http://www.forbes.com/sites/oliverchiang/2011/01/19/twitter-hits- nearly-200m-users-110m-tweets-per-day-focuses-on-global-expansion/
Dean, J. and Ghemawat, S. (2004). MapReduce: Simplied Data Processing on Large Clusters, OSDI, 1.
Gantz, J. and Reinsel, D. (2010). The digital universe decade-are you ready, White Paper, IDC.
Gantz, J. and Reinsel, D. (2011). Extracting value from chaos, IDC iView, 1-12.
Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S. and Brilliant, L. (2008). Detecting in uenza epidemics using search engine query data, Nature, 457(7232), 1012-1014.
Greenacre, M. J. (1984). The and Applications of Correspondence Analysis, Academic Press, New York.
Gruman, G. (2010). Tapping into the power of big data, Technology Forecast, 2010(3), 4-13.
Jeong, J. S. (2011). New value creation engine, new possibilities of big data and the corresponding strategy, IT & Future Strategy, 18, National Information Society Agency.
Kim, Y. and Cho, K. H. (2011). Big data and statistics, Journal of the Korean Data & Information Sciences Society, 24(5), 959-974.

원문보기 상세보기
Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C. and Byers, A. H. (2011). big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, 1-137.
Special Report (2010.02.25). Data, data everywhere, The Economist, Available from: http://www.eco- nomist.com/node/15557443

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증