[논문]특허분석을 위한 빅 데이터학습

전성해

doi:10.5391/jkiis.2013.23.5.406

특허분석을 위한 빅 데이터학습
A Big Data Learning for Patent Analysis 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.23 no.5, 2013년, pp.406 - 411

초록
AI-Helper

빅 데이터는 여러 분야에서 다양한 개념으로 사용된다. 예를 들어, 컴퓨터학과 사회학에서 빅 데이터에 대한 접근방법에 차이가 있지만, 데이터분석 관점에서는 공통적인 부분을 갖는다. 즉, 공학이든 사회과학이든 빅 데이터에 대한 분석은 반드시 필요하다. 통계학과 기계학습은 빅 데이터의 분석을 위한 대표적인 분석도구이다. 본 논문에서는 빅 데이터분석을 위한 학습도구에 대하여 알아보고 검색된 빅 데이터 원천에서부터 분석을 거쳐 최종적으로 분석결과를 사용하는 전체과정에 대하여 효율적인 빅 데이터학습 절차에 대하여 제안한다. 특히, 대표적인 빅 데이터 구조를 갖고 있는 특허문서에 대하여 빅데이터학습을 적용하여 특허분석을 수행하고 이 결과를 기술예측에 적용하는 방법에 대하여 연구한다. 제안방법에 대한 실제적용을 위하여 전 세계 특허청으로부터 빅 데이터 관련 특허문서를 검색하여 텍스트 마이닝의 전처리와 통계학의 다중선형회귀분석을 이용한 구체적인 빅 데이터학습에 대한 사례연구를 수행하였다.

Abstract ▼ AI-Helper

Big data issue has been considered in diverse fields. Also, big data learning has been required in all areas such as engineering and social science. Statistics and machine learning algorithms are representative tools for big data learning. In this paper, we study learning tools for big data and propose an efficient methodology for big data learning via legacy data to practical application. We apply our big data learning to patent analysis, because patent is one of big data. Also, we use patent analysis result for technology forecasting. To illustrate how the proposed methodology could be applied in real domain, we will retrieve patents related to big data from patent databases in the world. Using searched patent data, we perform a case study by text mining preprocessing and multiple linear regression of statistics.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러므로 레거시데이터에서 바로 데이터분석이 이루어지고 이를 통해 즉각적인 실제적용이 가능해야 한다. 본 논문에서는 이와 같은 대용량 데이터분석방법을 빅 데이터학습(big data learning)이라 하고, 이에 대한 효율적인 방법을 연구한다. 특히, 본 연구는 제안하는 빅 데이터학습을 특허문서의 데이터분석에 적용한다.
본 연구에서는 빅 데이터로서 특허문서가 고려되었기 때문에 특허분석을 고려하여 다양한 전처리 과정이 이루어진다. 본 논문에서는 특허 데이터의 여러 유형 중에서 문자 데이터를 선택하여 분석한다. 특허문서를 구성하는 세부요소들 중에서 특허제목(title)과 기술요약정보(abstract)만을 선택하여 별도의 데이터 셋(data set)을 구축한다.
이와 같은 빅 데이터의 특성 때문에 기존의 데이터 분석기법을 그대로 적용하는 데는 한계가 있다. 본 논문은 빅 데이터 환경에서 주어진 레거시데이터를 효율적으로 분석할 수 있는 빅 데이터학습 방법에 대하여 연구한다.
본 논문은 빅 데이터에 대한 효율적인 분석을 위하여 빅 데이터학습에 대한 방법을 제안하였다. 관계형 데이터베이스를 구축하고 분석을 위한 데이터웨어하우스를 추가적으로 만들어야 하는 기존의 데이터 마이닝 과정에 비해 제안하는 빅 데이터학습 방법은 레거시데이터로부터 직접 필요한 항목만을 선별적으로 찾아내어 데이터 셋을 구축하고 텍스트 마이닝의 전처리과정을 통하여 분석에 필요한 구조화된 데이터를 최종적으로 구축하였다.

제안 방법

개별 특허문서로부터 제목과 요약정보만을 추출하여 별도의 엑셀(Excel) 파일을 만들고, 이를 이용하여 전처리를 포함한 데이터분석을 수행한다. 이 작업은 기존의 데이터마이닝과정에서 분석을 위한 데이터베이스와 데이터웨어하우스의 구축과정과 같은 의미를 갖는다.
본 논문은 빅 데이터에 대한 효율적인 분석을 위하여 빅 데이터학습에 대한 방법을 제안하였다. 관계형 데이터베이스를 구축하고 분석을 위한 데이터웨어하우스를 추가적으로 만들어야 하는 기존의 데이터 마이닝 과정에 비해 제안하는 빅 데이터학습 방법은 레거시데이터로부터 직접 필요한 항목만을 선별적으로 찾아내어 데이터 셋을 구축하고 텍스트 마이닝의 전처리과정을 통하여 분석에 필요한 구조화된 데이터를 최종적으로 구축하였다. 기존의 방법에 비해 시간과 비용의 측면에서 효율적 빅 데이터분석이 가능하게 되었다.
본 논문에서는 제안방법의 성능평가를 위하여 특허데이터를 이용한 사례분석을 수행하였다. 특허의 제목에 “빅 데이터”를 포함하는 전 세계 모든 특허를 검색하였다 [20].
현재 개발된 기술결과에 대하여 가장 상세하고 방대한 정보를 가지고 있는 레거시데이터는 특허이기 때문에 특허분석을 통하여 신상품개발, 기술예측(technology forecasting) 등이 가능하게 된다 [8]. 본 연구에서는 전 세계에 출원된 빅 데이터 관련 특허문서를 검색하여 빅 데이터학습을 통해 처리, 분석하고 이 분야에 대한 기술관계를 찾아내는 사례연구를 통하여 제안방법에 대한 실제적용 과정을 단계별로 나타낸다.
빅 데이터 관련 특허문서에 대한 분석이기 때문에 “big” 과 “data”를 목표변수로 하고 20번 이상 나타나 단어들을 설명변수로 하였다.
기존의 방법에 비해 시간과 비용의 측면에서 효율적 빅 데이터분석이 가능하게 되었다. 빅 데이터분석을 위한 학습도구로 본 연구에서는 통계학, 기계학습, 그리고 자료구조 및 컴퓨터 알고리즘으로부터의 개념 및 분석기법을 사용하였다. 제안방법의 실제적용을 보이기 위하여 빅 데이터관련 특허문서를 수집하여 제안한 빅 데이터학습 절차에 따라 분석하였다.
모두 빅 데이터의 효과적인 분석도구가 된다. 제안방법은 빅 데이터학습을 위한 3가지 분석도구를 이용하여 구조화된 특허데이터를 분석하고 이 결과를 이용하여 기술예측을 위한 유용한 패턴을 찾는 것이다. 다음 그림은 레거시데이터로부터 빅 데이터학습과정을 일반화하여 보여준다.
빅 데이터분석을 위한 학습도구로 본 연구에서는 통계학, 기계학습, 그리고 자료구조 및 컴퓨터 알고리즘으로부터의 개념 및 분석기법을 사용하였다. 제안방법의 실제적용을 보이기 위하여 빅 데이터관련 특허문서를 수집하여 제안한 빅 데이터학습 절차에 따라 분석하였다. 최종적으로 특허분석을 이용한 기술예측의 결론을 도출하였다.
즉, 검색된 특허문서들로부터 빅 데이터학습에 필요한 항목들만 별도로 추출하여 엑셀파일 형식의 데이터 셋을 만들었다. 미국특허청(USPTO)에 비해 한국특허청(KIPRIS)의 검색사이트에서는 검색된 특허문서에 대한 엑셀파일을 자동으로 제공해 준다.
그러므로 빅 데이터의 분석은 레거시데이터로부터 직접적인 분석 작업이 요구된다. 즉, 레거시데이터로부터 전처리(preprocessing)를 통하여 분석에 적합한 데이터를 직접 구축한다. 데이터 마이닝 과정에서는 레거시데이터로부터 관계형 데이터베이스와 데이터웨어하우스를 구축하는 작업은 분석가가 직접 하지 않고 데이터베이스 전문가에게 맡겼지만 빅 데이터 환경에서는 분석가가 레거시데이터로부터 분석을 위한 구조화된(structured) 데이터를 직접 만들어야 한다.
즉, 빅 데이터관련 특허문서를 검색하고 기술예측이라는 주제에 필요한 항목만 별도로 엑셀파일에 저장하였다. 텍스트 마이닝을 이용한 전처리과정을 통하여 특허-단어 행렬을 구축하고 이를 이용하여 특허분석을 하였다. 본 연구에서는 빅 데이터학습 도구로 통계학의 회귀분석모형을 이용하였다.
특허문서 데이터는 전 세계에 존재하는 각국의 특허데이터베이스가 레거시데이터가 되며 이곳으로부터 특정기술에 대한 특허문서를 검색하고 엑셀파일과 같은 특허데이터 셋을 구축한다. 이와 같이 구축된 n개의 특허문서들은 텍스트 마이닝의 전처리 과정을 통하여[12-14] 분석모형에 적합한 데이터 구조를 같는 특허-IPC 코드 행렬, 또는 특허-단어행렬로 변환된다.
본 논문에서는 이와 같은 대용량 데이터분석방법을 빅 데이터학습(big data learning)이라 하고, 이에 대한 효율적인 방법을 연구한다. 특히, 본 연구는 제안하는 빅 데이터학습을 특허문서의 데이터분석에 적용한다. 왜냐하면 특허문서는 출원 및 등록날짜를 비롯하여 발명가, 특허제목, 기술요약, 인용정보, 기술상세기술, 도면, 절차도 등 숫자와 문자, 그리고 그림까지 다양한 형태의 데이터 특성을 가지고 있으며 [7] 동시에 전 세계에 출원된 특허 데이터의 크기는 매우 방대하기 때문이다.
회귀분석결과 “big data"에 통계적으로 유의한 영향을 미치는 단어들로 “block”, “control”, “endian”, “method”, “processing”, 그리고 “memory”을 찾았다.
본 연구에서는 통계학, 기계학습, 자료구조 및 컴퓨터알고리즘의 3가지 학습도구 중에서 통계학에서 제공하는 회귀분석모형(regression model)을 사용한다 [17]. 회귀분석을 통하여 검색된 특허데이터에 포함된 단어들 간의 인과관계를 모형화하여 기술들 간의 연관관계를 찾아낸다. 다음 식은 본 연구에서 사용되는 다중선형회귀모형이다.

대상 데이터

특허데이터셋의 전처리를 위하여 본 논문에서는 R Project와 ‘tm' 패키지를 사용하였다 [13, 21].

데이터처리

1992년에 빅 데이터 관련 기술특허가 처음 출원, 등록되었고 비교적 최근에 증가하는 경향을 나타내기 때문에 향 후 더 많은 관련기술의 개발이 기대된다. 다음으로 빅 데이터에 구체적으로 유의한 영향을 미치는 기술단어가 무엇인지 찾기 위하여 다중선형회귀분석을 수행한다. 빅 데이터 관련 특허문서에 대한 분석이기 때문에 “big” 과 “data”를 목표변수로 하고 20번 이상 나타나 단어들을 설명변수로 하였다.

이론/모형

텍스트 마이닝을 이용한 전처리과정을 통하여 특허-단어 행렬을 구축하고 이를 이용하여 특허분석을 하였다. 본 연구에서는 빅 데이터학습 도구로 통계학의 회귀분석모형을 이용하였다. 물론 통계학과 기계학습에서 제공하는 대부분의 분석기법들은 빅 데이터학습 도구로 사용될 수 있다.
그림4는 빅 데이터의 레거시데이터로부터 최종적인 실제 적용까지 전 과정에 대하여 세부적으로 보여준다. 본 연구에서는 통계학, 기계학습, 자료구조 및 컴퓨터알고리즘의 3가지 학습도구 중에서 통계학에서 제공하는 회귀분석모형(regression model)을 사용한다 [17]. 회귀분석을 통하여 검색된 특허데이터에 포함된 단어들 간의 인과관계를 모형화하여 기술들 간의 연관관계를 찾아낸다.

성능/효과

관계형 데이터베이스를 구축하고 분석을 위한 데이터웨어하우스를 추가적으로 만들어야 하는 기존의 데이터 마이닝 과정에 비해 제안하는 빅 데이터학습 방법은 레거시데이터로부터 직접 필요한 항목만을 선별적으로 찾아내어 데이터 셋을 구축하고 텍스트 마이닝의 전처리과정을 통하여 분석에 필요한 구조화된 데이터를 최종적으로 구축하였다. 기존의 방법에 비해 시간과 비용의 측면에서 효율적 빅 데이터분석이 가능하게 되었다. 빅 데이터분석을 위한 학습도구로 본 연구에서는 통계학, 기계학습, 그리고 자료구조 및 컴퓨터 알고리즘으로부터의 개념 및 분석기법을 사용하였다.
데이터의 크기는 데이터베이스 마케팅, 데이터 마이닝 등이 널리 알려진 1980년대부터 예상이 가능한 부분이었다. 또한 전 세계의 데이터가 서로 연결되어 누구든지 방대한 양의 데이터를 주고 받을 수 있게 되었기 때문에 데이터 전달속도의 증가도 충분히 예견되었다. 하지만 데이터의 크기와 속도의 증가에 따라 나타난 데이터의 복잡성과 다양성에 대한 문제는 상대적으로 대비가 덜 된 부분이다.
제안방법의 실제적용을 보이기 위하여 빅 데이터관련 특허문서를 수집하여 제안한 빅 데이터학습 절차에 따라 분석하였다. 최종적으로 특허분석을 이용한 기술예측의 결론을 도출하였다. 제안방법은 다른 기술의 모든 특허분석에 적용될 수 있을 뿐만 아니라 특허를 포함한 다른 빅 데이터의 분석에도 사용될 수 있다.

후속연구

전체적으로 현재까지 빅 데이터 관련 특허에서는 소프트웨어보다는 하드웨어 관련 기술이 주로 개발되고 있음을 알 수 있다. 1992년에 빅 데이터 관련 기술특허가 처음 출원, 등록되었고 비교적 최근에 증가하는 경향을 나타내기 때문에 향 후 더 많은 관련기술의 개발이 기대된다. 다음으로 빅 데이터에 구체적으로 유의한 영향을 미치는 기술단어가 무엇인지 찾기 위하여 다중선형회귀분석을 수행한다.
앞으로도 데이터의 크기는 빠른 속도로 증가할 것이고 빅 데이터에 포함된 데이터의 형태는 더욱 이질적인 특징을 갖게 될 것으로 기대된다. 이에 따라 더욱 빠르고 정확한 빅 데이터학습 방법이 연구되어야 할 것이다.
이에 따라 더욱 빠르고 정확한 빅 데이터학습 방법이 연구되어야 할 것이다. 이를 위하여 통계학과 기계학습, 그리고 자료구조 및 컴퓨터 알고리즘에 대한 다양한 분석기법들이 빅 데이터학습에 적용될 때 발생될 수 있는 문제점과 이에 대한 해결방안에 대한 연구가 진행되어야 할 것이다.
회귀분석결과 “big data"에 통계적으로 유의한 영향을 미치는 단어들로 “block”, “control”, “endian”, “method”, “processing”, 그리고 “memory”을 찾았다. 이를 통해 기술예측의 실제 적용에 대한 지식으로 빅 데이터 관련 기술의 개발을 위해서 통계적으로 유의한 판정을 받은 설명변수에 해당되는 단어들로 이루어진 기술들에 대한 선행개발이 필요하다는 결론을 얻게 되었다.
앞으로도 데이터의 크기는 빠른 속도로 증가할 것이고 빅 데이터에 포함된 데이터의 형태는 더욱 이질적인 특징을 갖게 될 것으로 기대된다. 이에 따라 더욱 빠르고 정확한 빅 데이터학습 방법이 연구되어야 할 것이다. 이를 위하여 통계학과 기계학습, 그리고 자료구조 및 컴퓨터 알고리즘에 대한 다양한 분석기법들이 빅 데이터학습에 적용될 때 발생될 수 있는 문제점과 이에 대한 해결방안에 대한 연구가 진행되어야 할 것이다.
최종적으로 특허분석을 이용한 기술예측의 결론을 도출하였다. 제안방법은 다른 기술의 모든 특허분석에 적용될 수 있을 뿐만 아니라 특허를 포함한 다른 빅 데이터의 분석에도 사용될 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	대용량 데이터에 대한 간편한 접근이 가능해진 이유는?	데이터 저장장치와 클라우드 컴퓨팅 기술의 발달로 인해 대용량 데이터에 대한 간편한 접근이 가능해졌다. 이와 함께 컴퓨터 처리능력이 지속적으로 발전되어 오고 있기 때문에 대용량 데이터의 분석이 중요한 이슈가 되는 빅 데이터 시대가 되었다 [1].
	빅 데이터의 분석을 위한 대표적인 분석 도구는?	즉, 공학이든 사회과학이든 빅 데이터에 대한 분석은 반드시 필요하다. 통계학과 기계학습은 빅 데이터의 분석을 위한 대표적인 분석도구이다. 본 논문에서는 빅 데이터분석을 위한 학습도구에 대하여 알아보고 검색된 빅 데이터 원천에서부터 분석을 거쳐 최종적으로 분석결과를 사용하는 전체과정에 대하여 효율적인 빅 데이터학습 절차에 대하여 제안한다.
	레거시데이터를 관계형 데이터베이스로 구축하기에는 어려움이 있는 이유는 어떤 데이터들로 이루어져 있기 때문인가?	이전에 비해 최근의 레거시 데이터는 훨씬 크고 이질적인 특성을 갖고 있다. 즉, 숫자와 문자, 그림과 그래프, 동영상 등 매우 다양한 데이터들로 이루어졌다. 데이터 분석에서 고려해야 할 사항들이 더 많아졌다.

참고문헌 (21)
타임라인 바로가기

H. Yang, Technology Planning Methodology Using Big Data, Issue paper 2012-14, Korea Institue of Science & Technology Evaluation and Planning, 2012.
J. Han, M. Kamber, Data Mining Concepts and Techniques, Morgan Kaufmann, 2001.
H. Shin, H. Jung, K. Cho, J. Lee, "A Prediction Method of Learning Outcomes based on Regression Model for Effective Peer Review Learning," Journal of Korean Institute od Intelligent Systems, vol. 22, no. 5, pp. 624-630, 2012.

원문보기 상세보기 타임라인에서 보기
Y. Park, K. Park, "Estimation of Project Performance Using Fuzzy Linear Regression," Journal of Korean Institute od Intelligent Systems, vol. 18, no. 6, pp. 832-836, 2008.

원문보기 상세보기 타임라인에서 보기
S. Kang, J. Kim, "Intelligent Spam-mail Filtering Based on Textual Information and Hyperlinks," Journal of Korean Institute od Intelligent Systems, vol. 14, no. 7, pp. 895-901, 2004.

원문보기 상세보기 타임라인에서 보기
K. Kim, S. Lim, "Building Domain Ontology Based on Linguistic Patterns," Journal of Korean Institute od Intelligent Systems, vol. 16, no. 6, pp. 766-771, 2006.

원문보기 상세보기 타임라인에서 보기
D. Hunt, L. D. Nguyen, M. Rodgers, Patent Searching Tools & Techniques, Wiley, 2007.
A. T. Roper, S. W. Cunningham, A. L. Porter, T. W. Mason, F. A. Rossini, J. Banks, Forecasting and Management of Technology, Wiley, 2011.
IBM, "What is big data?" www-01.ibm.com/software/data/bigdata, 2013, [Accessed: July 11, 2013]
Gartner, "Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data," www.gartner.com/newsroom/id/1731916, 2013, [Accessed: July 22, 2013]
J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, A. H. Byers, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, 2011.
I. Feinerer, A Text Mining Framework in R and I ts Applications, PhD Dissertation, Department of Statistics and Mathematics Vienna University of Economics and Business Administration, 2008.
I. Feinerer, K. Hornik, Package 'tm', Text Mining Package, R Project CRAN, 2013.
I. Feinerer, K. Hornik, D. Meyer, "Text mining infrastructure in R," Journal of Statistical Software, vol. 25, no. 5, pp. 1-54, 2008.
S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists, Elsevier, 2009.
T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning, Data Mining, Inference, and Prediction, Springer, 2001.
B. L. Bowerman, R. T. O'Connell, A. B. Koehler, Forecasting, Time Series, and Regression, An Applied Approach, Brooks/Cole, 2005.
S. Jun, "Technology Forecasting of Intelligent Systems Using Patent Analysis," Journal of Korean Institute od Intelligent Systems, vol. 21, no. 1, pp. 1-6, 2011.

원문보기 상세보기
S. Jun, "Vacant Technology Forecasting Using Ensemble Model," Journal of Korean Institute od Intelligent Systems, vol. 21, no. 3, pp. 341-346, 2011.

원문보기 상세보기 타임라인에서 보기
KIPRIS, "Korea Intellectual Property Rights Information Service," www.kipris.or.kr, 2013, [Accessed: July 5, 2013]
R Development Core Team, R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria, 2013.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증