$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구
Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base 원문보기

지능정보연구 = Journal of intelligence and information systems, v.25 no.1, 2019년, pp.43 - 61  

김재헌 (기술연구소, 리스트) ,  이명진 (기술연구소, 리스트)

초록
AI-Helper 아이콘AI-Helper

최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

Abstract AI-Helper 아이콘AI-Helper

Development of technologies in artificial intelligence has been rapidly increasing with the Fourth Industrial Revolution, and researches related to AI have been actively conducted in a variety of fields such as autonomous vehicles, natural language processing, and robotics. These researches have bee...

주제어

표/그림 (9)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문의 목적은 위키피디아의 인포박스를 학습하여 지식을 추출함으로써 지식베이스를 구축할 수 있는 방법을 제안하는 것이다. 이를 위해 이번 절에서는 우선 위키피디아의 인포박스중 학습을 위한 범위를 결정한다.
  • 인공지능 기술의 발전과 함께 최근 지식베이스에 대한 필요성과 중요성이 점차 높아지고 있지만 지식베이스를 구축하는 것은 사람의 많은 노력과 시간을 필요로 하는 작업이다. 이러한 문제를 해결하기 위해 본 논문에서는 기계학습을 이용해 자연어 텍스트로부터 지식을 추출하여 지식베이스를 구축 및 확장해 나가는 방법을 제안하였다. 이를 위해 위키피디아의 인포박스를이용하여 학습 데이터를 만들고 추출될 지식의 유형을 결정하기 위한 문서 분류, 지식 추출에 적합한 문장을 고르기 위한 적합 문장 분류, 적합한 문장으로 분류된 문장을 대상으로 실제 지식을 추출하는 과정 및 지식베이스 구조에 따른 검증 과정으로 지식 추출 방법을 제안하였다.
  • 이러한 문제점을 해결하기 위해 본 논문에서는 온톨로지의 지식을 구축하기 위해 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이를 위한 다양한 선행 연구가 수행되었지만(Wu and Weld, 2007; Lange et.
  • 하지만 본 연구에서는 지식베이스의 구조를 바탕으로 학습을 수행하고, 속성의 타입 및 속성이 가져야 하는 값의 형식인 XML 스키마 데이터타입에 따라 적절한 유형의 값을 추출하여 지식베이스를 구축한다. 이러한 방법의 적절성을 보이기 위해 DBpedia의 온톨로지 구조에 맞추어 자동화된 지식베이스 확장을 위한 기계학습 기반의 방법론을 제안하고자 한다. 이를 위해 DBpedia의 온톨로지 구조에 따라 위키피디아의 인포박스에 기술되어 있는 정보를 이용하여 학습 데이터를 만들고 학습을 수행하여, 지식을 추출할 수 있는 모델을 구축한다.
  • 지식추출을 위한 학습은 위키피디아의 인포박스를 이용하여 학습을 수행하며, 지식추출의 프로세스는 문서분류, 문장 분류, 지식 추출, 마지막으로 트리플형태의 지식으로 변환하는 절차로 이루어진다. 이러한 절차의 목적은 특정 자연어 문서에 나타날 수 있는 모든 지식을 추출하기 보다는 사전에 온톨로지의 구조에 따라 정의된 유형의 지식을 추출하기 위함이다. 따라서 문서를 분류하는 모델은 입력된 문서가 속할 클래스(class)를 정의하는 것과 동일하며, 문장 분류와 지식 추출 과정을 통해 온톨로지의 정의를 따르는 속성과 값을 추출하는 과정이라 볼 수 있다.
  • 이번 장에서는 텍스트 형태의 문서로부터 지식을 추출하여 지식베이스를 구축하는 방법에 대해 설명하고자 한다. [Figure 1]은 이에 대한 전체 프로세스를 보여주고 있다.
  • 인공지능 분야는 최근 기술에 대한 높은 관심과 다양한 알고리즘에 대한 연구로 인해 그 어느 때보다도 많은 기술적 발전을 이루어가고 있다. 지식베이스를 기반으로 한 시스템은 인공지능의 하위 영역으로서(Engelmore, 1984), 다양한 분야의 복잡하고 비정형화된 전문 지식과 규칙 등을 저장 및 운용하여 인공지능 에이전트가 의사결정을 하는데 활용할 수 있도록 하는 것을 목적으로 한다(Krishna, 1992). 이러한 지식베이스는 최근 기계학습을 수행하는데 있어 특징 선택(feature selection)을 위해 활용되거나 설명 가능한 기계학습 알고리즘(Explainable AI)에 적용되는 등 통계 기반의 인공지능과 융합되어 그 활용성이 점차 높아지고 있다(Bergman, 2014).
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
지식추출의 프로세스에서 문서분류, 문장 분류, 지식 추출, 마지막으로 트리플형태의 지식으로 변환하는 절차의 목적은? 지식추출을 위한 학습은 위키피디아의 인포박스를 이용하여 학습을 수행하며, 지식추출의 프로세스는 문서분류, 문장 분류, 지식 추출, 마지막으로 트리플형태의 지식으로 변환하는 절차로 이루어진다. 이러한 절차의 목적은 특정 자연어 문서에 나타날 수 있는 모든 지식을 추출하기 보다는 사전에 온톨로지의 구조에 따라 정의된 유형의 지식을 추출하기 위함이다. 따라서 문서를 분류하는 모델은 입력된 문서가 속할 클래스(class)를 정의하는 것과 동일하며, 문장 분류와 지식 추출 과정을 통해 온톨로지의 정의를 따르는 속성과 값을 추출하는 과정이라 볼 수 있다.
지식베이스는 어떤 형태로 활용되고 있는가? 최근의 지식베이스는 인터넷이 보편화되고 확산됨에 따라 웹에 존재하는 자원들을 연결하고 의미를 부여함으로써 지식을 표현하고 공유하는 형태로 활용되고 있다. 또한 인공지능 스피커를 통해 이루어지는 질의응답 시스템 등 다양한 영역에서 지능화된 처리를 위한 기반 지식으로 활용되고 있다.
지식베이스를 기반으로 한 시스템의 목적은? 인공지능 분야는 최근 기술에 대한 높은 관심과 다양한 알고리즘에 대한 연구로 인해 그 어느 때보다도 많은 기술적 발전을 이루어가고 있다. 지식베이스를 기반으로 한 시스템은 인공지능의 하위 영역으로서(Engelmore, 1984), 다양한 분야의 복잡하고 비정형화된 전문 지식과 규칙 등을 저장 및 운용하여 인공지능 에이전트가 의사결정을 하는데 활용할 수 있도록 하는 것을 목적으로 한다(Krishna, 1992). 이러한 지식베이스는 최근 기계학습을 수행하는데 있어 특징 선택(feature selection)을 위해 활용되거나 설명 가능한 기계학습 알고리즘(Explainable AI)에 적용되는 등 통계 기반의 인공지능과 융합되어 그 활용성이 점차 높아지고 있다(Bergman, 2014).
질의응답 정보가 도움이 되었나요?

참고문헌 (30)

  1. Berger, A. L., V. J. D. Pietra, and S. A. D. Pietra, "A maximum entropy approach to natural language processing," Computational linguistics, Vol.22, No.1(1996), 39-71. 

  2. Bergman, M., Knowledge-based Artificial Intelligence, AI3, 2014. Available at http://www.mkbergman.com/1816/knowledge-based-artificial-intelligence/ (Accessed 13 November, 2018). 

  3. Bhuiyan, H., K. J. Oh, M. D. Hong, and G. S. Jo, "An effective approach to generate Wikipedia infobox of movie domain using semi-structured data," Journal of Internet Computing and Services, Vol.18, No.3(2017), 49-61. 

  4. Bizer, C., T. Heath, K. Idehen, and T. Berners-Lee, "Linked Data on the Web (LDOW2008)," Workshop at the 17th International World Wide Web Conference, (2008). 

  5. Bizer, C., J. Lehmann, G. Kobilarov, S. Auer, C. Becker, R. Cyganiak, and S. Hellmann, "DBpedia - A Crystallization Point for the Web of Data," Journal of Web Semantics: Science, Services and Agents on the World Wide Web, Vol. 7, No. 3(2009), 154-165. 

  6. Brandao, W. C., E. S. Moura, A. S. Silva, and N. Ziviani, "A Self-Supervised Approach for Extraction of Attribute-Value Pairs from Wikipedia Articles," Proceedings of the 17th international conference on String processing and information retrieval, (2010), 279-289. 

  7. Chiu, J. and E. Nichols, "Named Entity Recognition with Bidirectional LSTM-CNNs," Transactions of the Association for Computational Linguistics, Vol. 4, No. 1(2016), 357-370. 

  8. Choi, H., M. Kim, W. Kim, D. Shin, and Y. H. Lee, "Development of Information Extraction System from Multi Source Unstructured Documents for Knowledge Base Expansion," Journal of Intelligence and Information Systems, Vol. 24, No. 4(2018), 111-136. 

  9. Dai, A. M., C. Olah, and Q. V. Le, "Document Embedding with Paragraph Vectors," NIPS Deep Learning Workshop, (2014). 

  10. Engelmore, R. S., "Artificial Intelligence and Knowledge Based Systems: Origins, Methods and Opportunities for NDE," Review of Progress in Quantitative Nondestructive Evaluation, Springer Science, New York, 1987. 

  11. Forsythe, D. E., "Engineering Knowledge: The Construction of Knowledge in Artificial Intelligence," Social Studies of Science, Vol.23, No.3(1993), 445-477. 

  12. Hearst, M. A., S. T. Dumais, E. Osuna, J. Platt, and B. Scholkopf, "Support vector machines," IEEE Intelligent Systems and their Applications, Vol.13, No.4(1998), 18-28. 

  13. Higashinaka, R., K. Dohsaka, and H. Isozaki, "Learning to rank definitions to generate quizzes for interactive information presentation," Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, (2007), 117-120. 

  14. Huang, Z., W. Xu, and K. Yu, "Bidirectional LSTM-CRF models for sequence tagging," arXiv.org preprint, 2015. Available at https://arxiv.org/pdf/1508.01991.pdf (Downloaded 15 November, 2018). 

  15. Jeong, S., M. Choi, and H. Kim, "Construction of Korean Knowledge Base Based on Machine Learning from Wikipedia," Journal of KIISE, Vol. 42, No. 8(2015), 1065-1070. 

  16. Jin, S., H. Jang, and W. Kim, "Improving Bidirectional LSTM-CRF model Of Sequence Tagging by using Ontology knowledge based feature," Journal of intelligence and information systems, Vol.24, No.1(2018), 253-266. 

  17. Kaisser, M., "The qualim question answering demo: Supplementing answers with paragraphs drawn from wikipedia," Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics, (2008), 32-35. 

  18. Kingma, D. and J. Ba, "Adam: A method for stochastic optimization," Proceedings of the 3rd International Conference for Learning Representations, (2015). 

  19. Krishna, S, Introduction to Database and Knowledge-base Systems, World Scientific Publishing, Singapore, 1992. 

  20. Lafferty, J., A. McCallum, and F. C.N. Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," Proceedings of the Eighteenth International Conference on Machine Learning, (2001), 282-289. 

  21. Lange, D., C. Bohm, and F. Naumann, "Extracting structured information from Wikipedia articles to populate infoboxes," Proceedings of the 19th ACM international conference on Information and knowledge management, (2010), 1661-1664. 

  22. Lehmann, J. R. Isele, M. Jakob, A. Jentzsch, D. Kontokostas, P. N. Mendes, S. Hellmann, M. Morsey, P. van Kleef, S. Auer, and C. Bizer, "DBpedia - A large-scale, multilingual knowledge base extracted from Wikipedia," Semantic Web, Vol.6, No.2(2015), 167-195. 

  23. Ljubesic, N., "Comparing CRF and LSTM performance on the task of morphosyntactic tagging of non-standard varieties of South Slavic languages," Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects, (2018), 156-163. 

  24. Ramshaw, L. A. and M. P. Marcus, "Text Chunking using Transformation-Based Learning," ACL Third Workshop on Very Large Corpora, (1995), 82-94. 

  25. Russell, S. J., and P. Norvig, Artificial Intelligence : A Modern Approach, Prentice Hall, 2009. 

  26. Suchanek, F. M., G. Kasneci, and G. Weikum, "Yago:a core of semantic knowledge," Proceedings of the 16th international conference on World Wide Web, (2007), 697-706. 

  27. Sun, R., Artificial intelligence: Connectionist and symbolic approaches, In: N. J. Smelser and P. B. Baltes (eds.), International Encyclopedia of the Social and Behavioral Sciences, Pergamon/Elsevier, Oxford, 2001. 

  28. Viterbi, A. J., "Error bounds for convolutional codes and an asymptotically optimum decoding algorithm," IEEE Transactions on Information Theory, Vol.13, No.2(1967), 260-269. 

  29. Wu, F. and D.S. Weld, "Autonomously semantifying Wikipedia," Proceedings of the sixteenth ACM conference on Conference on Information and knowledge management, (2007), 41-50. 

  30. Wu, J., X. Hu, R. Zhao, F. Ren, and M. Hu, "Clinical Named Entity Recognition via Bi-directional LSTM-CRF Model," Proceedings of the Evaluation Task at the China Conference on Knowledge Graph and Semantic Computing, (2017), 31-36. 

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로