[논문]통계적 텍스트 마이닝을 이용한 빅 데이터 전처리

전성해

doi:10.5391/jkiis.2015.25.5.470

통계적 텍스트 마이닝을 이용한 빅 데이터 전처리
A Big Data Preprocessing using Statistical Text Mining 원문보기 논문타임라인

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.25 no.5, 2015년, pp.470 - 476

초록
AI-Helper

빅 데이터는 여러 분야에서 다양하게 사용되고 있다. 예를 들어, 컴퓨터학과 사회학에서 빅 데이터에 대한 서로간의 접근방법에 대한 차이는 있겠지만 빅 데이터의 분석을 통한 활용 측면에서는 공통적인 부분을 갖는다. 따라서 대부분의 분야에서 빅 데이터에 대한 의미 있는 분석과 활용은 필요하게 된다. 통계학과 기계학습은 빅 데이터의 분석을 위한 다양한 방법론을 제공한다. 본 논문에서는 빅 데이터분석 과정에 대하여 알아보고 수집된 빅데이터의 원천에서부터 분석을 거쳐 최종적으로 분석결과를 활용하는 전체 과정을 위한 효율적인 빅 데이터 분석방법에 대하여 연구한다. 특히, 빅 데이터의 특성을 갖는 여러 데이터 중 하나인 특허문서 데이터에 대하여 빅데이터분석을 적용하여 효과적인 특허분석을 수행하고 이 결과를 연구개발 기획에 적용하는 방법론에 대하여 제안한다. 제안방법에 대한 실제적용을 위하여 전 세계 특허데이터베이스로부터 실제 기업의 전체 출원, 등록 특허 문서를 수집, 분석하고 연구개발 업무에 활용하는 전 과정에 대한 사례연구를 수행하였다.

Abstract ▼ AI-Helper

Big data has been used in diverse areas. For example, in computer science and sociology, there is a difference in their issues to approach big data, but they have same usage to analyze big data and imply the analysis result. So the meaningful analysis and implication of big data are needed in most areas. Statistics and machine learning provide various methods for big data analysis. In this paper, we study a process for big data analysis, and propose an efficient methodology of entire process from collecting big data to implying the result of big data analysis. In addition, patent documents have the characteristics of big data, we propose an approach to apply big data analysis to patent data, and imply the result of patent big data to build R&D strategy. To illustrate how to use our proposed methodology for real problem, we perform a case study using applied and registered patent documents retrieved from the patent databases in the world.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

즉 하나의 과정 속에서 빅데이터의 전처리와 분석이 가능할 수 있는 방법론을 제시한다. 또한 기술경영 분야에서 적용 가능한 사례분석을 통하여 제안하는 방법론의 실제적용에 대하여 알아본다.
통계학을 이용한 빅 데이터 분석을 위하여 우선적으로 필요한 것은 분석이 가능한 형태로 수집된 빅 데이터를 변형시키는 작업이 필요하다. 본 논문에서는 빅 데이터의 효율적인 전처리와 통계분석을 함께 수행하는 통계적 텍스트 마이닝(statistical text mining; STM) 방법에 대하여 연구한다. 특히 특허 빅 데이터의 STM에 대하여 연구한다.
이와 같은 정형화된 데이터 구조를 구축하면 본격적인 통계분석이 가능하게 된다. 본 논문에서는 통계학, 텍스트 마이닝, 자연어 처리 기법 등을 이용하여 빅 데이터의 효율적 전처리 방법과 통계분석에 대한 방법론을 제안한다.
본 논문은 빅 데이터의 효과적인 분석과 분석 결과의 활용을 위한 통계적 텍스트 마이닝 방법론에 대하여 연구하였다. 제안된 통계적 텍스트 마이닝 절차는 통계분석, 자연어처리, 텍스트 마이닝의 기법들과 R 데이터 언어를 이용하여 수행되었다.
왜냐하면 빅 데이터 그 자체는 아직 정형화되지 않았기 때문이다. 이와 같은 문제점을 해결하기 위하여 본 연구에서는 빅 데이터의 전처리를 통하여 정형화된 데이터 구조를 만들고 이를 이용한 빅 데이터 분석이 가능한 방법을 제안한다. 즉 하나의 과정 속에서 빅데이터의 전처리와 분석이 가능할 수 있는 방법론을 제시한다.
제안하는 STM 기반 빅 데이터 전처리의 실제 사례분석을 위하여 본 논문에서는 대표적인 컴퓨터기업인 휴렛팩커드(Hewlett Packard; HP)의 출원, 등록 특허를 수집하여 분석하고 HP의 R&D 전략수립을 위한 결과를 얻었다.
이와 같은 문제점을 해결하기 위하여 본 연구에서는 빅 데이터의 전처리를 통하여 정형화된 데이터 구조를 만들고 이를 이용한 빅 데이터 분석이 가능한 방법을 제안한다. 즉 하나의 과정 속에서 빅데이터의 전처리와 분석이 가능할 수 있는 방법론을 제시한다. 또한 기술경영 분야에서 적용 가능한 사례분석을 통하여 제안하는 방법론의 실제적용에 대하여 알아본다.
본 논문에서는 빅 데이터의 효율적인 전처리와 통계분석을 함께 수행하는 통계적 텍스트 마이닝(statistical text mining; STM) 방법에 대하여 연구한다. 특히 특허 빅 데이터의 STM에 대하여 연구한다.

제안 방법

새로운 분석 알고리즘보다는 방법론에 대한 소개이기 때문에 기존의 분석 기법들과의 비교보다는 실제 적용이 가능한 사례연구를 수행하였다. HP가 지금까지 출원, 등록한 전체 특허문서 데이터를 이용한 사례분석을 수행하였다. 초기에 특허 빅 데이터의 수집에서부터 정형화된 데이터 구축, 시각화, 통계분석을 통하여 최종적으로 HP의 R&D 전략수립을 위한 결과에 이르기까지 전 과정을 진행하였다.
즉 HP 기업이 보유한 다양한 기술은 위의 26개 키워드를 바탕으로 이루어진다고 할 때, HP의 키워드 간의 연관성을 파악하면 HP의 보유 기술 간의 상호 의존성을 확인할 수 있다. 또한 HP를 대표할 수 있는 중심 기술이 무엇인지를 찾기 위하여 SNA를 이용한 시각화 작업을 수행하였다. 그림 8은 HP 특허 데이터의 시각화 결과를 나타내고 있다.
또한 특허 문서 안에 포함되어 있는 기술 간 연관성을 파악하기 위하여 사회네트워크 분석(social network analysis)인 “sna” 패키지를 이용한다 [21].
위 데이터 구조는 각 행이 관측치(특허)가 되고 각 열이 변수(단어)로 이루어진 테이블 구조를 이루고 있기 때문에 통계학 및 기계학습 알고리즘 기반의 데이터 분석이 가능하게 된다. 먼저 정형화된 특허 데이터로부터 키워드를 추출하기 위하여 본 논문에서는 HP의 기술과 경영에 관한 여러 가지 자료를 이용하였다 [4],[24],[25],[26],[27]. 왜냐하면 제안하는 STM 방법론을 이용한 사례분석의 목적이 HP의 효율적인 R&D 전략기획이기 때문이다.
본 논문에서 제안하는 방법론을 실제 R&D 전략구축에 적용하는 과정을 보이기 위하여 다음 절에서는 실제 사례분석을 수행한다.
HP가 2013년까지 출원, 등록한 전체 특허 수는 29,043 건이었다. 본 논문의 STM을 수행하기 위하여 수집된 특허데이터로부터 코퍼스를 만들고 각 특허의 제목(title)과 요약(abstract) 정보를 추출하여 하나의 텍스트저장소를 구축하였다. 자연어처리 과정과 텍스트 마이닝의 과정을 통하여 정형화된 데이터구조를 만들었다.
자연어처리 과정과 텍스트 마이닝의 과정을 통하여 정형화된 데이터구조를 만들었다. 본 사례분석에서 만들어진 정형화된 데이터의 각 행은 특허를 나타내고 각 열은 전체 특허문서에 나타난 단어(term)를 나타내었다. 그림 7은 HP 특허문서 데이터로부터 구축된 정형화된 데이터 구조를 나타내고 있다.
본 연구에서는 표준화된 선형회귀모형을 이용하여 키워드 간 기술 연관모형을 구축하였다. 그림 10은 Server에 영향을 미치는 키워드에 대한 기술모형을 나타내고 있다.
제안된 통계적 텍스트 마이닝 절차는 통계분석, 자연어처리, 텍스트 마이닝의 기법들과 R 데이터 언어를 이용하여 수행되었다. 새로운 분석 알고리즘보다는 방법론에 대한 소개이기 때문에 기존의 분석 기법들과의 비교보다는 실제 적용이 가능한 사례연구를 수행하였다. HP가 지금까지 출원, 등록한 전체 특허문서 데이터를 이용한 사례분석을 수행하였다.
수집된 문서 데이터에 대하여 R의 ‘NLP'와 ’tm' 패키지를 이용하여 문서 코퍼스(corpus)와 데이터 저장소를 구축하고, 이를 바탕으로 정형화된 특허 데이터를 만든다.
데이터 마이닝 단계에서는 데이터의 정제(cleaning)와 통합(integration)을 통하여 예측, 분류, 그리고 군집화가 이루어진다. 자연어 처리 기법을 이용하여 수집된 텍스트 문서 데이터로부터 코퍼스(corpus)를 만들고, 텍스트 마이닝의 전처리 전 단계로서 텍스트 저장소(text repository)를 구축한다. 통계학과 데이터 마이닝의 여러 기법들을 이용하여 통계적 데이터 마이닝 단계가 구축되며 이 단계에는 선형모형(linear model), 연관성(association) 분석, 측도와 추론 및 네트워크 모형, 그리고 정교한 시각화 작업이 포함된다.
본 논문의 STM을 수행하기 위하여 수집된 특허데이터로부터 코퍼스를 만들고 각 특허의 제목(title)과 요약(abstract) 정보를 추출하여 하나의 텍스트저장소를 구축하였다. 자연어처리 과정과 텍스트 마이닝의 과정을 통하여 정형화된 데이터구조를 만들었다. 본 사례분석에서 만들어진 정형화된 데이터의 각 행은 특허를 나타내고 각 열은 전체 특허문서에 나타난 단어(term)를 나타내었다.
본 논문은 빅 데이터의 효과적인 분석과 분석 결과의 활용을 위한 통계적 텍스트 마이닝 방법론에 대하여 연구하였다. 제안된 통계적 텍스트 마이닝 절차는 통계분석, 자연어처리, 텍스트 마이닝의 기법들과 R 데이터 언어를 이용하여 수행되었다. 새로운 분석 알고리즘보다는 방법론에 대한 소개이기 때문에 기존의 분석 기법들과의 비교보다는 실제 적용이 가능한 사례연구를 수행하였다.
위 그림을 통하여 server와 network에 영향을 미치는 키워드에 대한 다음과 같은 모형을 만들 수 있다. 즉 server와 network를 종속변수(dependent variable)로 하고, 이들에 연결된 키워드들을 독립변수(independent variable)로 하였다.
초기에 특허 빅 데이터의 수집에서부터 정형화된 데이터 구축, 시각화, 통계분석을 통하여 최종적으로 HP의 R&D 전략수립을 위한 결과에 이르기까지 전 과정을 진행하였다.
그림 8의 SNA 그래프를 얻기 위하여 먼저 정형화된 특허 데이터를 이용하여 HP 특허 데이터의 키워드 간 상관분석을 실시하였고, 이 결과를 이용하여 SNA 그래프 작성에 필요한 인접행렬을 구하였다. 최종적으로 인접행렬을 이용한 SNA 그래프를 통하여 HP의 보유기술을 대표할 수 있는 중심 단어를 찾았다. 즉 그림 8의 SNA 그래프를 통하여 표 1과 같이 각 키워드 노드에 대한 차수(degree)를 계산하였다.

대상 데이터

제안하는 STM 기반 빅 데이터 전처리의 실제 사례분석을 위하여 본 논문에서는 대표적인 컴퓨터기업인 휴렛팩커드(Hewlett Packard; HP)의 출원, 등록 특허를 수집하여 분석하고 HP의 R&D 전략수립을 위한 결과를 얻었다. 먼저 특허 문서의 수집을 위하여 미국특허청인 USPTO(United States Patent and Trademark Office)[22]와 특허검색 전문회사인WIPSON(WIPS Corporation)[23]을 이용하였다. HP가 2013년까지 출원, 등록한 전체 특허 수는 29,043 건이었다.
본 논문에서는 제안방법의 구체적 적용을 위하여 대표적인 데이터 언어(data language)인 R을 이용한다. R은 소스가 공개된 무료 소프트웨어이다 [17].

데이터처리

그림 8의 SNA 그래프를 얻기 위하여 먼저 정형화된 특허 데이터를 이용하여 HP 특허 데이터의 키워드 간 상관분석을 실시하였고, 이 결과를 이용하여 SNA 그래프 작성에 필요한 인접행렬을 구하였다. 최종적으로 인접행렬을 이용한 SNA 그래프를 통하여 HP의 보유기술을 대표할 수 있는 중심 단어를 찾았다.
데이터의 요약과 추정, 검정의 추론(inference)을 이용하여 통계 모형화가 이루어지고, 통계 그래픽스(statistical graphics)를 이용하여 빅 데이터의 시각화 결과를 얻는다. 데이터 마이닝 단계에서는 데이터의 정제(cleaning)와 통합(integration)을 통하여 예측, 분류, 그리고 군집화가 이루어진다.

이론/모형

R 기본에서 제공하지 않는 고급 통계분석과 데이터 마이닝 기법을 사용하기 위하여 R 패키지인 “e1071”을 사용한다 [20].

성능/효과

Network에 영향을 미치는 5개의 키워드 중에서 Internet이 가장 큰 영향을 미치는 것으로 나타났다. 다음으로 Management, Server, Service, Information의 순서였다.
다음으로 network이 6의 차수를 가지고 있고 computer, information, 그리고 management가 5의 차수를 나타내고 있다. 따라서 SNA 그래프 결과를 통하여 HP의 기술을 나타내는 중심 키워드는 server와 network이 우선적으로 고려될 수 있음을 알 수 있다. 이들 키워드에 연결된 다른 노드를 간의 관계를 좀 더 자세하게 파악하기 위하여 HP의 중심 키워드와 이에 연결된 키워드들로 이루어진 SNA 그래프는 그림 9와 같다.
즉 HP 기업이 보유한 다양한 기술은 위의 26개 키워드를 바탕으로 이루어진다고 할 때, HP의 키워드 간의 연관성을 파악하면 HP의 보유 기술 간의 상호 의존성을 확인할 수 있다. 또한 HP를 대표할 수 있는 중심 기술이 무엇인지를 찾기 위하여 SNA를 이용한 시각화 작업을 수행하였다.

후속연구

본 논문에서는 STM 절차를 기업의 R&D 전략수립을 위한 과정에 사용되었지만 기업의 마케팅, 바이오 신약 개발, 사회연결망 분석 등 다양한 분야에서 여러 가지 목적을 위하여 응용될 수 있으리라 기대된다.
본 논문에서는 STM 절차를 기업의 R&D 전략수립을 위한 과정에 사용되었지만 기업의 마케팅, 바이오 신약 개발, 사회연결망 분석 등 다양한 분야에서 여러 가지 목적을 위하여 응용될 수 있으리라 기대된다. 본 연구에서는 선형회귀모형과 SNA 그래프 등 방대한 통계분석의 일부 기법만을 사용하였지만 앞으로 더 많은 분석 기법을 사용하여 더 정교하고 다양한 STM 방법론에 대한 연구가 기대된다.
제안된 HP의 특허데이터에 대한 STM 결과가 HP의 모든 R&D 전략을 결정하는 것은 아니지만 본 연구의 결과가 기업의 R&D 기획 과정에 사용되어 더 좋은 전략수립에 기여하게 될 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	R언어의 특징은 무엇인가?	R은 소스가 공개된 무료 소프트웨어이다 [17]. R은 데이터의 조정(manipulation), 계산(calculation), 그리고 그래픽(graphical display) 기능을 모두 가지고 있는 통합된 데이터 분석 환경을 제공한다 [18]. 처음 R을 설치하면 기본적인 통계분석과 시각화 기능을 포함한 R 기본(R base)이 생성된다.
	전 세계 특허청에 출원, 등록된 각 특허문서는 어떤 형태로 구성되어 있는가?	특히 기술경영(management of engineering; MOT) 분야에서 대표적인 빅 데이터인 특허문서의 분석을 통하여 기업의 R&D 계획을 위한 기술예측 및 혁신에 대한 연구가 이루어지고 있다 [8],[9],[10],[11],[12]. 전 세계 특허청에 출원, 등록된 특허문서는 매우 방대하고 각 특허에는 출원날짜, 출원인, 특허명칭, 발명의 요약, 특허분류번호, 기술상세도면, 청구항, 등 다양하고 서로 이질적인 데이터 형태로 구성되어 있다 [13],[14]. 따라서 특허문서는 빅 데이터 구조를 갖는다 [15].
	STM의 과정은 어떠한가?	먼저 키워드 검색식에 의해 분석의 대상이 되는 목표기술과 관련된 특허문서를 전 세계의 특허 데이터베이스로(patent DB)부터 수집한다. 수집된 특허 빅 데이터는 자연어처리와 텍스트 마이닝의 전처리 과정을 거쳐 정형화된 데이터(structured data)로 변환된다. 정형화된 데이터를 이용하여 모형화(modeling)와 시각화(visualization) 등의 빅 데이터 분석이 이루어진다. 그러므로 본 논문의 STM은 그림 3과 같이 통계학, 데이터 마이닝, 그리고 자연어처리의 학제적(interdisciplinary) 연계에 의해 구성된다.

참고문헌 (28)
타임라인 바로가기

IBM, "What is big data?" www-01.ibm.com/software/data/bigdata, 2015.
Gartner, "Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data," www.gartner.com/newsroom/id/1731916, 2015.
J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, 2011.
B. Choi, J. Kong, and M. Han, "The Model of Network Packet Analysis based on Big Data", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 392-399, 2013.

원문보기 상세보기 타임라인에서 보기
K. Kim, J. Jeong, and G. Park, "Assessment of External Force Acting on Ship Using Big Data in Maritime Traffic", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 379-384, 2013.

원문보기 상세보기 타임라인에서 보기
S. Hong, and M. Han, "The Efficient Method of Parallel Genetic Algorithm using MapReduce of Big Data", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 385-391, 2013.

원문보기 상세보기 타임라인에서 보기
H. Yoon, S. Park, "Pattern and Instance Generation for Self-knowledge Learning in Korean", Journal of Korean Institute of Intelligent Systems, Vol. 25, No. 1, pp. 63-69, 2015.

원문보기 상세보기 타임라인에서 보기
S. Jun, "A Big Data Learning for Patent Analysis", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 406-411, 2013.

원문보기 상세보기 타임라인에서 보기
S. Choi, and S. Jun, "Vacant technology forecasting using new Bayesian patent clustering," Technology Analysis & Strategic Management, Vol. 26, Iss. 3, pp. 241-251, 2014.

상세보기
S. Park, and S. Jun, "A Technology Forecasting Model Using Support Vector Clustering and Voting Approach," Information - An International Interdisciplinary Journal, Vol. 16, No. 2(B), pp. 1523-1528, 2013.
H. Kim, J. Kim, J. Lee, S. Park, D. Jang, "A Novel Methodology for Extracting Core Technology and Patents by IP Mining", Journal of Korean Institute of Intelligent Systems, Vol. 25, No. 4, pp. 392-397, 2015.

원문보기 상세보기 타임라인에서 보기
S. Jun, "Technology Forecasting of Intelligent Systems using Patent Analysis", Journal of Korean Institute of Intelligent Systems, Vol. 21, No. 1, pp. 100-105, 2011.

원문보기 상세보기 타임라인에서 보기
D. Hunt, L. D. Nguyen, and M. Rodgers, Patent Searching Tools & Techniques, Wiley, 2007.
A. T. Roper, S. W. Cunningham, A. L. Porter, T. W. Mason, F. A. Rossini, and J. Banks, Forecasting and Management of Technology, Wiley, 2011.
S. Jun, and J. Choi, "Patent and Big Data, What's the Connection?", Proceedings of KIIS Autumn Conference 2014 Vol. 24, No. 2, pp 183-184, 2014.
J. Han, and M. Kamber, Data Mining Concepts and Techniques, Morgan Kaufmann, 2001.
R Development Core Team, R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria, 2015.
K. Hornik, Package 'NLP' - Natural Language Processing Infrastructure, CRAN R Project, 2015.
I. Feinerer, K. Hornik, and D. Meyer, "Text mining infrastructure in R", Journal of Statistical Software, Vol. 25, No. 5, pp. 1-54, 2008.
D. Meyer, E. Dimitriadou, K. Hornik, A. Weingessel, F. Leisch, C. C. Chang, and C. C. Lin, Package 'e1071' - Misc Functions of the Department of Statistics, Probability Theory Group, CRAN R Project, 2015.
C. T. Butts, "Social Network Analysis with sna", Journal of Statistical Software, Vol. 24, Iss. 6, pp. 1-51, 2008.
USPTO, The United States Patent and Trademark Office, http://www.uspto.gov, 2015.
WIPSON, 'WIPS Corporation'. http://www.wipson.com, 2015.
V. Nagali, J. Hwang, D. Sanghera, M. Gaskins, M. Pridgen, T. Thurston, P. Mackenroth, D. Branvold, P. Scholler, and G. Shoemaker, "Procurement Risk Management (PRM) at Hewlett-Packard Company", Interfaces, Vol. 38, Iss. 1, pp. 51-60, 2008.

상세보기
HP Office Site, http://www.hp.com, 2015.
Hewlett-Packard from Wikipedia, https://en.wikipedia.org/wiki/Hewlett-Packard, 2015.
Hewlett-Packard on Forbes Lists, http://www.forbes.com/companies/hewlett-packard, 2015.
S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists, Elsevier, 2012.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증