과학기술 분야 연구자들은 이전 연구와 개발 결과에 대한 조사 연구에 많은 시간을 소비한다. 또한, 연구자들은 유리한 입지를 성공적으로 차지하기 위해 일반적으로 학술 논문, 특허, 최근 연구 동향에 대한 웹 문서 등의 다양한 학술 자원을 분석하여 새롭게 등장하는 연구 주제를 선점하려고 한다. 하지만 키워드 기반의 정보 검색이나 참고문헌 정보에 근거한 연관 문서 추출 방법을 사용해서는 방대한 문헌에서 투자 가능한 연구 주제를 효율적으로 찾는 일이 쉽지 않다. 본 논문에서는 대규모 기술 문헌 자료에서 추출되는 기술, 제품, 연구 주체 간의 의미론적으로 연결된 정보를 효율적으로 생성, 저장하고 활용할 수 있는 방법을 제안한다. 세부적으로 텍스트 마이닝 기술을 활용하여 문헌에서 나타나는 주요 개체들과 연관 관계를 추출하여 시맨틱 웹 환경에 적용 가능한 기술 지식으로 생성하는데 적합한 온톨로지를 구축한다. 이렇게 구축된 온톨로지는 연관 관계를 가진 기술 지식 탐색을 지원하기에 연구 개발 트렌드 예측 및 분석 서비스인 InSciTe Adaptive에 사용되었다.
과학기술 분야 연구자들은 이전 연구와 개발 결과에 대한 조사 연구에 많은 시간을 소비한다. 또한, 연구자들은 유리한 입지를 성공적으로 차지하기 위해 일반적으로 학술 논문, 특허, 최근 연구 동향에 대한 웹 문서 등의 다양한 학술 자원을 분석하여 새롭게 등장하는 연구 주제를 선점하려고 한다. 하지만 키워드 기반의 정보 검색이나 참고문헌 정보에 근거한 연관 문서 추출 방법을 사용해서는 방대한 문헌에서 투자 가능한 연구 주제를 효율적으로 찾는 일이 쉽지 않다. 본 논문에서는 대규모 기술 문헌 자료에서 추출되는 기술, 제품, 연구 주체 간의 의미론적으로 연결된 정보를 효율적으로 생성, 저장하고 활용할 수 있는 방법을 제안한다. 세부적으로 텍스트 마이닝 기술을 활용하여 문헌에서 나타나는 주요 개체들과 연관 관계를 추출하여 시맨틱 웹 환경에 적용 가능한 기술 지식으로 생성하는데 적합한 온톨로지를 구축한다. 이렇게 구축된 온톨로지는 연관 관계를 가진 기술 지식 탐색을 지원하기에 연구 개발 트렌드 예측 및 분석 서비스인 InSciTe Adaptive에 사용되었다.
Researchers and scientists spend huge amount of time in analyzing the previous studies and their results. In order to timely take the advantageous position, they usually analyze various resources such as paper, patents, and Web documents on recent research issues to preoccupy newly emerging technolo...
Researchers and scientists spend huge amount of time in analyzing the previous studies and their results. In order to timely take the advantageous position, they usually analyze various resources such as paper, patents, and Web documents on recent research issues to preoccupy newly emerging technologies. However, it is difficult to select invest-worthy research fields out of huge corpus by using the traditional information search based on keywords and bibliographic information. In this paper, we propose a method for efficient creation, storage, and utilization of semantically relevant information among technologies, products and research agents extracted from 'big data' by using text mining. In order to implement the proposed method, we designed an ontology that creates technological knowledge for semantic web environment based on the relationships extracted by text mining techniques. The ontology was utilized for InSciTe Adaptive, a R&D trends analysis and forecast service which supports the search for the relevant technological knowledge.
Researchers and scientists spend huge amount of time in analyzing the previous studies and their results. In order to timely take the advantageous position, they usually analyze various resources such as paper, patents, and Web documents on recent research issues to preoccupy newly emerging technologies. However, it is difficult to select invest-worthy research fields out of huge corpus by using the traditional information search based on keywords and bibliographic information. In this paper, we propose a method for efficient creation, storage, and utilization of semantically relevant information among technologies, products and research agents extracted from 'big data' by using text mining. In order to implement the proposed method, we designed an ontology that creates technological knowledge for semantic web environment based on the relationships extracted by text mining techniques. The ontology was utilized for InSciTe Adaptive, a R&D trends analysis and forecast service which supports the search for the relevant technological knowledge.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이들 문헌에서 추출하는 개체들은 인명(Person), 위치(Location), 기관(Organization), 용어(Term: 기술명, 제품명), 시간(Time) 정보로 한정한다. 그리하여 기초 자료를 바탕으로 공통적으로 쓰이는 개념이나 특성, 개별적으로 쓰이는 개념이나 특성을 파악하고, 각각의 세부 영역 정보가 다른 세부 영역 정보와 어떠한 관계를 맺고 있는지를 열거해본다.
03을 활용하여 온톨로지 스키마를 제작하였다. 다음 장에서는 이 온톨로지를 기반으로 하여 실제 인스턴스를 생성하여 기술 지식 정보 체계를 구축하는 과정에 대해 기술하고자 한다.
도메인 내의 지식의 연결뿐만 아니라 지식이 문법과 어휘 같은 언어적인 구조의 연관 관계를 이해할 수 있도록 설계되어있다. 따라서 온톨로지는 다양한 도메인에 적용이 가능하도록 표준을 제시함으로써 웹 문서에 나타난 지식을 표현, 공유, 재사용하는 것을 목적으로 두고 있다. 의미에 따른 추론을 하기 위해서 온톨로지는 시맨틱 웹의 중요한 기반이 된다.
이와 같은 시맨틱 웹 서비스에는 시맨틱 웹에 알맞은 데이터를 생성하는데 필요한 기술, 방대해진 데이터를 다룰 수 있는 빅데이터 처리 기술, 도출된 결론을 사용자에게 전달하는 인터페이스 기술이 필요하다. 본 논문에서는 기술 지식의 활용성 극대화를 위해 기반이 되는 온톨로지 설계 과정을 소개하고, 이를 기초로 하여 문헌에서 추출된 기술 지식을 온톨로지 정보 시스템으로 구축하는 방법에 대해 설명하고자 한다.
본 논문을 통해 과학기술 문헌에서 텍스트 마이닝 기술을 이용하여 개체 및 관계를 파악하여 자동으로 추출된 기술 지식을 시맨틱 웹 기술에 적용하기 위해 적합한 온톨로지를 설계하는 과정에 대해 살펴보고, 실제 인스턴스, 트리플 데이터를 시맨틱 저장소에 적재하여 정보 시스템을 구축하는 과정에 대해 설명하였다. 기술, 제품, 연구주체 간 다양한 관계들을 객체 속성으로 정의하여 온톨로지로 설계하는 것은 인과 관계 등의 의미 연관 관계 분석을 가능하게 지원해준다.
본 연구의 기술 지식 온톨로지는 문헌의 내용에서 주요한 개체들을 추출하여 각 개체들의 의미를 인식하고, 이들 개체들 사이의 연관 관계를 정의하는 의미적 지식 네트워크 구축을 목적으로 하기에 보편적인 온톨로지 구축 방법인 Ontology Development 101을 토대로 기술 지식 온톨로지를 설계하기로 한다[14].
제안 방법
다음 장에서는 문헌에서 텍스트 마이닝을 이용하여 추출된 개체 정보와 이들 개체 간의 의미적 연관 관계를 표현하기 위한 기술 지식 도메인 온톨로지를 설계하고 이를 바탕으로 기술 지식 정보 체계를 구축하는 과정에 대해서 서술하기로 한다.
도메인의 범위, 클래스의 정의, 관계 속성의 세부 정의 등의 단계를 거치면서 온톨로지 구성이 순조롭게 진행되었고, 온톨로지 편집 도구인 Protégé 4.03을 활용하여 온톨로지 스키마를 제작하였다.
본 논문에서는 RDF를 사용하여 온톨로지를 구축한다. RDF(Resource Description Framework)은 W3C에서 제정한 것으로 특정 리소스를 정의하고 그 리소스에 대한 설명이나 관계를 기술함으로써 온톨로지를 구축할 수 있는 방법을 제공한다[5].
기구축된 학술문헌 온톨로지는 논문과 특허를 대상으로 하여 기술용어를 추출하고, 논문, 특허의 서지 메타 데이터인 인명, 기관, 국가와 연관 관계를 매핑하였다[16]. 본 연구는 이 학술문헌 온톨로지를 기반으로 사용하되 웹 자원 도메인을 추가하고, 기존의 기술용어를 기술명 및 제품명으로 추출 대상 개체를 구분한 후, 이들 개체 사이의 의미 연관 관계를 세분화하여 추가 정의한다. 지명과 관련하여 도메인 온톨로지인 GeoName2을 재사용한다.
이 과정에서 지명, 인명, 기관명 등의 개체가 사전을 참조하거나 규칙화된 패턴을 통해 추출된다. 이 때 추출된 용어가 동의어인 경우에 명확성을 규명하여 URI를 부여한 후, 온톨로지를 이용하여 개체와 관계를 매핑하여 RDF 트리플을 생성해낸다. 기술지식을 추출하는 대상인 문헌 데이터는 RDB에 저장되어 있으므로 RDB-to-트리플 매핑 규칙에 의해 변환되어 트리플 저장소에 저장된다.
대상 데이터
기술 지식을 추출하는 대상으로 선정된 논문, 특허, 웹 자원을 수집한다. 이 수집된 문헌 자원의 현황은 [표 3]에서 확인할 수 있다.
첫 번째 단계로 구축하고자 하는 온톨로지의 도메인과 범위를 결정해야 한다. 기술 지식을 추출하는 대상인 과학기술 문헌으로 논문, 특허, 웹 자원을 선정하고 [표 1], 이들 콘텐츠 유형의 자료가 가지는 서지 메타데이터들과 텍스트에서 추출해낸 기술 지식들을 온톨로지 구축 범위로 한다.
웹에서 수집하는 자원은 뉴스(NewYork Times, BBC, Fox News, CNN, USA TODAY, EtnEws), 매거진(InformationWeek, Gizmag, TechnologyReview, Ieee Spectrum, TechnewsWorld, DiscoverMagazine), 보고서(IDC Press Release, Thomson Reuters), 사전(Wikipedia) 분야에서 과학, 비즈니스 섹션으로 한정하여 자원을 수집하도록 한다. 또한 정보 추출 과정에서 개체 추출의 정확성을 높이기 위해 외부에서 수집한 전거 데이터도 포함한다[15].
이러한 추출 과정을 통해서 생성된 기술 지식의 인스턴스는 [표 4]에서 보듯이 Technology 316,143건, Product 40,976건으로 정보 추출 과정을 통해 생성된 것이고, Nation, Region 인스턴스는 GeoName에서 수집한 전거 데이터로 정보 추출 단계에서 위치명 인식을 위한 사전으로 사용되었다. 수집된 문헌 자원은 중복되지 않았기에 수집 건수와 생성된 인스턴스의 생성 건수가 동일하다.
이론/모형
이렇게 생성된 트리플 데이터는 시맨틱 지식 저장소에 적재되는데 저장소로는 Native 기반의 시맨틱 서비스 프레임워크인 SEMON을 사용하였다[20]. 트리플 저장소와 추론 엔진이 통합된 시스템인 SEMON에 적재한 트리플 데이터를 검색하기 위해서는 SPARQL 질의어를 사용한다[21].
이렇게 생성된 트리플 데이터는 시맨틱 지식 저장소에 적재되는데 저장소로는 Native 기반의 시맨틱 서비스 프레임워크인 SEMON을 사용하였다[20]. 트리플 저장소와 추론 엔진이 통합된 시스템인 SEMON에 적재한 트리플 데이터를 검색하기 위해서는 SPARQL 질의어를 사용한다[21]. [표 6]에서 연관 정보를 가져오는 SPARQL 질의어 타입 3가지를 실례로 제시하고 있다.
성능/효과
[표 5]에서는 정보 추출 과정을 통해 생성되는 기관, 기술, 제품 인스턴스 간의 주요 객체 속성과 실제로 추출된 트리플의 건수를 표기하고 있다. 기술의 동향 파악을 위한 관계 추출 어휘 중에서 경쟁, 동종 관계에 비해 기술 발달의 전후를 분석할 수 있는 근거가 되는 후속, 대체 관계는 비교적 적은 수가 추출되었음을 알 수 있다.
후속연구
또한, 본 기술 지식 정보 체계를 기반으로 하여 R&D 전략을 수립하고자 하는 사용자에게 기술, 연구주체와 연구 성과의 다양한 조합을 통해 통찰력을 제공하기 위한 서비스 간 연계, 융합 및 예측기반 분석 서비스인 InSciTe Adaptive를 제공할 예정이다.
이와 같이 온톨로지를 기반으로 하여 기술 지식 정보 체계를 구축하게 되면 이들 지식 간의 상호참조적 네비게이션이 가능하게 될 뿐 아니라, 이러한 기술 지식 간의 네트워크 관계에 의해 추가적인 지식 간의 관계를 추론할 수 있다. 향후에는 온톨로지로 생성된 기술 지식들을 링크드 데이터(Linked Data)로 공개하고 기존의 링크드 데이터와의 상호 연계도 지원하여 기술 지식의 재사용과 공유를 지원하기 위한 연구가 필요할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
도메인 온톨로지는 어떠한 분야에서 구축되고 있는가?
또한, 구축 범위에 따라 일반적인 개념을 대상으로 구축하는 일반 온톨로지(Generic or common-sense ontology)와 특정 영역에서 유효한 지식들을 대상으로 구축하는 도메인 온톨로지(Domain ontology)로 구분된다. 도메인 온톨로지는 인공지능, 정보검색, 유비쿼터스, 전자상거래, 의학 분야에서 활발하게 구축되고 있다[6-8].
온톨로지란 무엇인가?
온톨로지란 도메인 내에서 공유되는 데이터들의 개념화한 형식적이고 명백한 규정이며 이는 특정 분야에서 사용되는 표준 어휘들의 집합이라고 할 수 있다. 즉, 온톨로지는 도메인 내의 지식을 개념화하고 이를 명세화하는 것으로 정의된다.
클래스의 속성의 종류는 어떻게 구분하는가?
클래스와 클래스 간의 계층 구조의 정의와 함께 클래스의 속성을 생성, 수정, 삭제하는 단계이다. 속성의 종류에는 데이터타입 속성(DatatypeProperty), 객체속성(ObjectProperty), 주석 속성(Annotation Property)으로 구분한다. 객체 속성은 인스턴스와 인스턴스를 연결하기 위함이며, 데이터타입 속성은 인스턴스와 값, 주석 속성은 인스턴스의 값이 주석의 형태를 지니는 경우를 포현한다.
참고문헌 (21)
M. Blume, "Automatic entity disambiguation: Benefits to NER, relation extraction, link analysis, and inference," International Conference on Intelligence Analysis, 2005.
정한민, 김진형, 정도헌, 조민희, 송사광, 이승우, 이상환, "사용자 적응적 가이드 방식의 R&D 기획 시스템에 대하여", 컴퓨터종합학술대회, pp.411-413, 2012.
T. Berners-Lee, J. Hendler, and O. Lassila, "The Semantic Web: A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities," Scientific American, May 2001.
C. Blakeley, "RDF Views of SQL Data(Declarative SQL Schema to RDF Mapping)," OpenLink Software, 2007.
M. Uschold and M. King, "Towards A Methodology for Building Ontologies," IJCAI-95 Workshop on Basic Ontological Issues in Knowledge Sharing, 1995.
M. Gruninger and M. S. Fox, "Methodology for the Design and Evaluation of ontologies," IJCAI-95 Workshop on Basic ontological Issues in Knowledge Sharing, 1995.
M. F. Lopez, A. Gomez-Perez, and J. P. Sierra, "Building a Chemical Ontology Using Methontology and the Ontology Design Environment," IEEE Intelligent Systems, Vol.14, No.1, 1999.
S. Staab, H. Schnurr, R. Studer, and Y. Sure, "Knowledge processes and ontologies," IEEE Intelligent Systems, Special Issue on Knowledges ㅡanagement, Vol.16, No.1, 2001.
N. F. Noy and D. L. McGuinness, "Ontology Development 101: A Guide to Creating Your First Ontology," Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report SMI-2001-0880, 2001.
황미녕, 김태홍, 최성필, 조민희, 홍순찬, 정한민, "DBpedia를 이용한 공개 정보 수집 방법", 2012년도 한국인터넷정보학회 하계학술발표대회 논문집, 제13권, 제1호, pp.75-76. 2012.
http://www.ontoframe.kr/sw/UseCases/InSciTe.html
조민희, 이승우, 송사광, 이진희, 구희관, 홍순찬, 정한민, "R&D 기획 지원을 위한 개체-관계 모델링", 2012년도 한국인터넷정보학회 하계학술발표 대회 논문집, 제13권, 제1호, pp.137-138, 2012.
M. N. Hwang, D. M. Seo, S. W. Lee, M. H. Cho, S. K. Song, J. H Lee, S. C. Hong, S. P. Choi, and H. M Jung, "Ontology Model of Technical Knowledge for Analytics," International Conference on Smart Media and Applications, pp.66-67, 2012.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.