$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

특허분석을 위한 빅 데이터학습
A Big Data Learning for Patent Analysis 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.23 no.5, 2013년, pp.406 - 411  

전성해 (청주대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

빅 데이터는 여러 분야에서 다양한 개념으로 사용된다. 예를 들어, 컴퓨터학과 사회학에서 빅 데이터에 대한 접근방법에 차이가 있지만, 데이터분석 관점에서는 공통적인 부분을 갖는다. 즉, 공학이든 사회과학이든 빅 데이터에 대한 분석은 반드시 필요하다. 통계학과 기계학습빅 데이터의 분석을 위한 대표적인 분석도구이다. 본 논문에서는 빅 데이터분석을 위한 학습도구에 대하여 알아보고 검색된 빅 데이터 원천에서부터 분석을 거쳐 최종적으로 분석결과를 사용하는 전체과정에 대하여 효율적인 빅 데이터학습 절차에 대하여 제안한다. 특히, 대표적인 빅 데이터 구조를 갖고 있는 특허문서에 대하여 빅데이터학습을 적용하여 특허분석을 수행하고 이 결과를 기술예측에 적용하는 방법에 대하여 연구한다. 제안방법에 대한 실제적용을 위하여 전 세계 특허청으로부터 빅 데이터 관련 특허문서를 검색하여 텍스트 마이닝의 전처리와 통계학의 다중선형회귀분석을 이용한 구체적인 빅 데이터학습에 대한 사례연구를 수행하였다.

Abstract AI-Helper 아이콘AI-Helper

Big data issue has been considered in diverse fields. Also, big data learning has been required in all areas such as engineering and social science. Statistics and machine learning algorithms are representative tools for big data learning. In this paper, we study learning tools for big data and prop...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 그러므로 레거시데이터에서 바로 데이터분석이 이루어지고 이를 통해 즉각적인 실제적용이 가능해야 한다. 본 논문에서는 이와 같은 대용량 데이터분석방법을 빅 데이터학습(big data learning)이라 하고, 이에 대한 효율적인 방법을 연구한다. 특히, 본 연구는 제안하는 빅 데이터학습을 특허문서의 데이터분석에 적용한다.
  • 본 연구에서는 빅 데이터로서 특허문서가 고려되었기 때문에 특허분석을 고려하여 다양한 전처리 과정이 이루어진다. 본 논문에서는 특허 데이터의 여러 유형 중에서 문자 데이터를 선택하여 분석한다. 특허문서를 구성하는 세부요소들 중에서 특허제목(title)과 기술요약정보(abstract)만을 선택하여 별도의 데이터 셋(data set)을 구축한다.
  • 이와 같은 빅 데이터의 특성 때문에 기존의 데이터 분석기법을 그대로 적용하는 데는 한계가 있다. 본 논문은 빅 데이터 환경에서 주어진 레거시데이터를 효율적으로 분석할 수 있는 빅 데이터학습 방법에 대하여 연구한다.
  • 본 논문은 빅 데이터에 대한 효율적인 분석을 위하여 빅 데이터학습에 대한 방법을 제안하였다. 관계형 데이터베이스를 구축하고 분석을 위한 데이터웨어하우스를 추가적으로 만들어야 하는 기존의 데이터 마이닝 과정에 비해 제안하는 빅 데이터학습 방법은 레거시데이터로부터 직접 필요한 항목만을 선별적으로 찾아내어 데이터 셋을 구축하고 텍스트 마이닝의 전처리과정을 통하여 분석에 필요한 구조화된 데이터를 최종적으로 구축하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
대용량 데이터에 대한 간편한 접근이 가능해진 이유는? 데이터 저장장치와 클라우드 컴퓨팅 기술의 발달로 인해 대용량 데이터에 대한 간편한 접근이 가능해졌다. 이와 함께 컴퓨터 처리능력이 지속적으로 발전되어 오고 있기 때문에 대용량 데이터의 분석이 중요한 이슈가 되는 빅 데이터 시대가 되었다 [1].
빅 데이터의 분석을 위한 대표적인 분석 도구는? 즉, 공학이든 사회과학이든 빅 데이터에 대한 분석은 반드시 필요하다. 통계학과 기계학습은 빅 데이터의 분석을 위한 대표적인 분석도구이다. 본 논문에서는 빅 데이터분석을 위한 학습도구에 대하여 알아보고 검색된 빅 데이터 원천에서부터 분석을 거쳐 최종적으로 분석결과를 사용하는 전체과정에 대하여 효율적인 빅 데이터학습 절차에 대하여 제안한다.
레거시데이터를 관계형 데이터베이스로 구축하기에는 어려움이 있는 이유는 어떤 데이터들로 이루어져 있기 때문인가? 이전에 비해 최근의 레거시 데이터는 훨씬 크고 이질적인 특성을 갖고 있다. 즉, 숫자와 문자, 그림과 그래프, 동영상 등 매우 다양한 데이터들로 이루어졌다. 데이터 분석에서 고려해야 할 사항들이 더 많아졌다.
질의응답 정보가 도움이 되었나요?

참고문헌 (21)

  1. H. Yang, Technology Planning Methodology Using Big Data, Issue paper 2012-14, Korea Institue of Science & Technology Evaluation and Planning, 2012. 

  2. J. Han, M. Kamber, Data Mining Concepts and Techniques, Morgan Kaufmann, 2001. 

  3. H. Shin, H. Jung, K. Cho, J. Lee, "A Prediction Method of Learning Outcomes based on Regression Model for Effective Peer Review Learning," Journal of Korean Institute od Intelligent Systems, vol. 22, no. 5, pp. 624-630, 2012. 

  4. Y. Park, K. Park, "Estimation of Project Performance Using Fuzzy Linear Regression," Journal of Korean Institute od Intelligent Systems, vol. 18, no. 6, pp. 832-836, 2008. 

  5. S. Kang, J. Kim, "Intelligent Spam-mail Filtering Based on Textual Information and Hyperlinks," Journal of Korean Institute od Intelligent Systems, vol. 14, no. 7, pp. 895-901, 2004. 

  6. K. Kim, S. Lim, "Building Domain Ontology Based on Linguistic Patterns," Journal of Korean Institute od Intelligent Systems, vol. 16, no. 6, pp. 766-771, 2006. 

  7. D. Hunt, L. D. Nguyen, M. Rodgers, Patent Searching Tools & Techniques, Wiley, 2007. 

  8. A. T. Roper, S. W. Cunningham, A. L. Porter, T. W. Mason, F. A. Rossini, J. Banks, Forecasting and Management of Technology, Wiley, 2011. 

  9. IBM, "What is big data?" www-01.ibm.com/software/data/bigdata, 2013, [Accessed: July 11, 2013] 

  10. Gartner, "Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data," www.gartner.com/newsroom/id/1731916, 2013, [Accessed: July 22, 2013] 

  11. J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, A. H. Byers, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, 2011. 

  12. I. Feinerer, A Text Mining Framework in R and I ts Applications, PhD Dissertation, Department of Statistics and Mathematics Vienna University of Economics and Business Administration, 2008. 

  13. I. Feinerer, K. Hornik, Package 'tm', Text Mining Package, R Project CRAN, 2013. 

  14. I. Feinerer, K. Hornik, D. Meyer, "Text mining infrastructure in R," Journal of Statistical Software, vol. 25, no. 5, pp. 1-54, 2008. 

  15. S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists, Elsevier, 2009. 

  16. T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning, Data Mining, Inference, and Prediction, Springer, 2001. 

  17. B. L. Bowerman, R. T. O'Connell, A. B. Koehler, Forecasting, Time Series, and Regression, An Applied Approach, Brooks/Cole, 2005. 

  18. S. Jun, "Technology Forecasting of Intelligent Systems Using Patent Analysis," Journal of Korean Institute od Intelligent Systems, vol. 21, no. 1, pp. 1-6, 2011. 

  19. S. Jun, "Vacant Technology Forecasting Using Ensemble Model," Journal of Korean Institute od Intelligent Systems, vol. 21, no. 3, pp. 341-346, 2011. 

  20. KIPRIS, "Korea Intellectual Property Rights Information Service," www.kipris.or.kr, 2013, [Accessed: July 5, 2013] 

  21. R Development Core Team, R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria, 2013. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로