$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

통계적 텍스트 마이닝을 이용한 빅 데이터 전처리
A Big Data Preprocessing using Statistical Text Mining 원문보기 논문타임라인

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.25 no.5, 2015년, pp.470 - 476  

전성해 (청주대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

빅 데이터는 여러 분야에서 다양하게 사용되고 있다. 예를 들어, 컴퓨터학과 사회학에서 빅 데이터에 대한 서로간의 접근방법에 대한 차이는 있겠지만 빅 데이터의 분석을 통한 활용 측면에서는 공통적인 부분을 갖는다. 따라서 대부분의 분야에서 빅 데이터에 대한 의미 있는 분석과 활용은 필요하게 된다. 통계학과 기계학습은 빅 데이터의 분석을 위한 다양한 방법론을 제공한다. 본 논문에서는 빅 데이터분석 과정에 대하여 알아보고 수집된 빅데이터의 원천에서부터 분석을 거쳐 최종적으로 분석결과를 활용하는 전체 과정을 위한 효율적인 빅 데이터 분석방법에 대하여 연구한다. 특히, 빅 데이터의 특성을 갖는 여러 데이터 중 하나인 특허문서 데이터에 대하여 빅데이터분석을 적용하여 효과적인 특허분석을 수행하고 이 결과를 연구개발 기획에 적용하는 방법론에 대하여 제안한다. 제안방법에 대한 실제적용을 위하여 전 세계 특허데이터베이스로부터 실제 기업의 전체 출원, 등록 특허 문서를 수집, 분석하고 연구개발 업무에 활용하는 전 과정에 대한 사례연구를 수행하였다.

Abstract AI-Helper 아이콘AI-Helper

Big data has been used in diverse areas. For example, in computer science and sociology, there is a difference in their issues to approach big data, but they have same usage to analyze big data and imply the analysis result. So the meaningful analysis and implication of big data are needed in most a...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 즉 하나의 과정 속에서 빅데이터의 전처리와 분석이 가능할 수 있는 방법론을 제시한다. 또한 기술경영 분야에서 적용 가능한 사례분석을 통하여 제안하는 방법론의 실제적용에 대하여 알아본다.
  • 통계학을 이용한 빅 데이터 분석을 위하여 우선적으로 필요한 것은 분석이 가능한 형태로 수집된 빅 데이터를 변형시키는 작업이 필요하다. 본 논문에서는 빅 데이터의 효율적인 전처리와 통계분석을 함께 수행하는 통계적 텍스트 마이닝(statistical text mining; STM) 방법에 대하여 연구한다. 특히 특허 빅 데이터의 STM에 대하여 연구한다.
  • 이와 같은 정형화된 데이터 구조를 구축하면 본격적인 통계분석이 가능하게 된다. 본 논문에서는 통계학, 텍스트 마이닝, 자연어 처리 기법 등을 이용하여 빅 데이터의 효율적 전처리 방법과 통계분석에 대한 방법론을 제안한다.
  • 본 논문은 빅 데이터의 효과적인 분석과 분석 결과의 활용을 위한 통계적 텍스트 마이닝 방법론에 대하여 연구하였다. 제안된 통계적 텍스트 마이닝 절차는 통계분석, 자연어처리, 텍스트 마이닝의 기법들과 R 데이터 언어를 이용하여 수행되었다.
  • 왜냐하면 빅 데이터 그 자체는 아직 정형화되지 않았기 때문이다. 이와 같은 문제점을 해결하기 위하여 본 연구에서는 빅 데이터의 전처리를 통하여 정형화된 데이터 구조를 만들고 이를 이용한 빅 데이터 분석이 가능한 방법을 제안한다. 즉 하나의 과정 속에서 빅데이터의 전처리와 분석이 가능할 수 있는 방법론을 제시한다.
  • 제안하는 STM 기반 빅 데이터 전처리의 실제 사례분석을 위하여 본 논문에서는 대표적인 컴퓨터기업인 휴렛팩커드(Hewlett Packard; HP)의 출원, 등록 특허를 수집하여 분석하고 HP의 R&D 전략수립을 위한 결과를 얻었다.
  • 이와 같은 문제점을 해결하기 위하여 본 연구에서는 빅 데이터의 전처리를 통하여 정형화된 데이터 구조를 만들고 이를 이용한 빅 데이터 분석이 가능한 방법을 제안한다. 즉 하나의 과정 속에서 빅데이터의 전처리와 분석이 가능할 수 있는 방법론을 제시한다. 또한 기술경영 분야에서 적용 가능한 사례분석을 통하여 제안하는 방법론의 실제적용에 대하여 알아본다.
  • 본 논문에서는 빅 데이터의 효율적인 전처리와 통계분석을 함께 수행하는 통계적 텍스트 마이닝(statistical text mining; STM) 방법에 대하여 연구한다. 특히 특허 빅 데이터의 STM에 대하여 연구한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
R언어의 특징은 무엇인가? R은 소스가 공개된 무료 소프트웨어이다 [17]. R은 데이터의 조정(manipulation), 계산(calculation), 그리고 그래픽(graphical display) 기능을 모두 가지고 있는 통합된 데이터 분석 환경을 제공한다 [18]. 처음 R을 설치하면 기본적인 통계분석과 시각화 기능을 포함한 R 기본(R base)이 생성된다.
전 세계 특허청에 출원, 등록된 각 특허문서는 어떤 형태로 구성되어 있는가? 특히 기술경영(management of engineering; MOT) 분야에서 대표적인 빅 데이터인 특허문서의 분석을 통하여 기업의 R&D 계획을 위한 기술예측 및 혁신에 대한 연구가 이루어지고 있다 [8],[9],[10],[11],[12]. 전 세계 특허청에 출원, 등록된 특허문서는 매우 방대하고 각 특허에는 출원날짜, 출원인, 특허명칭, 발명의 요약, 특허분류번호, 기술상세도면, 청구항, 등 다양하고 서로 이질적인 데이터 형태로 구성되어 있다 [13],[14]. 따라서 특허문서는 빅 데이터 구조를 갖는다 [15].
STM의 과정은 어떠한가? 먼저 키워드 검색식에 의해 분석의 대상이 되는 목표기술과 관련된 특허문서를 전 세계의 특허 데이터베이스로(patent DB)부터 수집한다. 수집된 특허 빅 데이터는 자연어처리와 텍스트 마이닝의 전처리 과정을 거쳐 정형화된 데이터(structured data)로 변환된다. 정형화된 데이터를 이용하여 모형화(modeling)와 시각화(visualization) 등의 빅 데이터 분석이 이루어진다. 그러므로 본 논문의 STM은 그림 3과 같이 통계학, 데이터 마이닝, 그리고 자연어처리의 학제적(interdisciplinary) 연계에 의해 구성된다.
질의응답 정보가 도움이 되었나요?

참고문헌 (28)

  1. IBM, "What is big data?" www-01.ibm.com/software/data/bigdata, 2015. 

  2. Gartner, "Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data," www.gartner.com/newsroom/id/1731916, 2015. 

  3. J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, 2011. 

  4. B. Choi, J. Kong, and M. Han, "The Model of Network Packet Analysis based on Big Data", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 392-399, 2013. 

  5. K. Kim, J. Jeong, and G. Park, "Assessment of External Force Acting on Ship Using Big Data in Maritime Traffic", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 379-384, 2013. 

  6. S. Hong, and M. Han, "The Efficient Method of Parallel Genetic Algorithm using MapReduce of Big Data", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 385-391, 2013. 

  7. H. Yoon, S. Park, "Pattern and Instance Generation for Self-knowledge Learning in Korean", Journal of Korean Institute of Intelligent Systems, Vol. 25, No. 1, pp. 63-69, 2015. 

  8. S. Jun, "A Big Data Learning for Patent Analysis", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 406-411, 2013. 

  9. S. Choi, and S. Jun, "Vacant technology forecasting using new Bayesian patent clustering," Technology Analysis & Strategic Management, Vol. 26, Iss. 3, pp. 241-251, 2014. 

  10. S. Park, and S. Jun, "A Technology Forecasting Model Using Support Vector Clustering and Voting Approach," Information - An International Interdisciplinary Journal, Vol. 16, No. 2(B), pp. 1523-1528, 2013. 

  11. H. Kim, J. Kim, J. Lee, S. Park, D. Jang, "A Novel Methodology for Extracting Core Technology and Patents by IP Mining", Journal of Korean Institute of Intelligent Systems, Vol. 25, No. 4, pp. 392-397, 2015. 

  12. S. Jun, "Technology Forecasting of Intelligent Systems using Patent Analysis", Journal of Korean Institute of Intelligent Systems, Vol. 21, No. 1, pp. 100-105, 2011. 

  13. D. Hunt, L. D. Nguyen, and M. Rodgers, Patent Searching Tools & Techniques, Wiley, 2007. 

  14. A. T. Roper, S. W. Cunningham, A. L. Porter, T. W. Mason, F. A. Rossini, and J. Banks, Forecasting and Management of Technology, Wiley, 2011. 

  15. S. Jun, and J. Choi, "Patent and Big Data, What's the Connection?", Proceedings of KIIS Autumn Conference 2014 Vol. 24, No. 2, pp 183-184, 2014. 

  16. J. Han, and M. Kamber, Data Mining Concepts and Techniques, Morgan Kaufmann, 2001. 

  17. R Development Core Team, R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria, 2015. 

  18. K. Hornik, Package 'NLP' - Natural Language Processing Infrastructure, CRAN R Project, 2015. 

  19. I. Feinerer, K. Hornik, and D. Meyer, "Text mining infrastructure in R", Journal of Statistical Software, Vol. 25, No. 5, pp. 1-54, 2008. 

  20. D. Meyer, E. Dimitriadou, K. Hornik, A. Weingessel, F. Leisch, C. C. Chang, and C. C. Lin, Package 'e1071' - Misc Functions of the Department of Statistics, Probability Theory Group, CRAN R Project, 2015. 

  21. C. T. Butts, "Social Network Analysis with sna", Journal of Statistical Software, Vol. 24, Iss. 6, pp. 1-51, 2008. 

  22. USPTO, The United States Patent and Trademark Office, http://www.uspto.gov, 2015. 

  23. WIPSON, 'WIPS Corporation'. http://www.wipson.com, 2015. 

  24. V. Nagali, J. Hwang, D. Sanghera, M. Gaskins, M. Pridgen, T. Thurston, P. Mackenroth, D. Branvold, P. Scholler, and G. Shoemaker, "Procurement Risk Management (PRM) at Hewlett-Packard Company", Interfaces, Vol. 38, Iss. 1, pp. 51-60, 2008. 

  25. HP Office Site, http://www.hp.com, 2015. 

  26. Hewlett-Packard from Wikipedia, https://en.wikipedia.org/wiki/Hewlett-Packard, 2015. 

  27. Hewlett-Packard on Forbes Lists, http://www.forbes.com/companies/hewlett-packard, 2015. 

  28. S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists, Elsevier, 2012. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로