[논문]온톨로지 기반 지능형 규칙 구성요소 추출에 관한 연구

김우주; 채상용; 박상언

문제 정의

본 연구에서는 본 연구의 목적과 맞게 새로운 의미유사도 측정방안을 제안하고자 한다. 이는 두 단어들이 상위어, 하위어 관계이 있으면 그 pathlength 를 구하여 의미유사도를 즉정하고자 한다.
이 연구에서 규칙식별을 위한 첫 번째 단계인 규칙 구성요소 식별단계에서는 문자열 비교와 지식관리자가 수작업으로 규칙 구성요소를 식별을 하게 되어 있다. 본 연구에서는 이러한 규칙 구성요소의 식별을 자동화시켜주어 지식관리자의 부담을 줄여주고, 찾아내지 못했던 규칙 구성요소들을 자동적으로 찾아 주고자 하는 방법을 제안하였다.
본 장에서는 규칙 구성요소 식별 시 온톨로지의 역할 및 온톨로지를 활용한 규칙 구성요소 식별과 관련된 접근 방법을 설명하고자 한다.
웹으로부터 규칙 구성요소를 추출하여 지식을 추출하는 연구는 온톨로지를 활용하여 좀 더 쉽고 효율적인 지식 습득 방법론을 제안하고자 노력하고 있다. 따라서 이러한 온톨로지의 활용이 규칙 습득에도 도움을 줄 수 있을 것으로 기대된다.
우선 규칙을 식별하기 위하여서는 기준이 되는 기준 온톨로지가 필요하다. 이는 기존연구인 XRML 방법론 [Kang and Lee, 2005], [Park and Lee, 2006] 에서 Amazon.com에 관하여 추출한 규칙 구성요소의 온톨로지를 이용하여 유사한 도메인인 웹 페이지(ex. Baens&Nobles.com)로부터 규칙 구성요소를 추출하고자 한다.
규칙 구성요소 식별과 관련된 작업으로 웹 페이지로부터 규칙을 구성하고 있는 변수 (variables)나 변수값 (values) 을 찾아내어서 이를 조합하여 규칙을 만들어 낸다. 이때, 현재까지 규칙 구성요소를 식별해 올 때 단순히 문자열 비교로 이루어져 있던 식별과정을 2장에서 설명하였던 관련 연구들 (owl의 사용, 워드넷 확장, 스테밍 알고리즘 사용, 의미유사도 측정 방법)을 토대로 이를 자동화 시켜주고자 한다. 이를 위해서 다음과 같은 방법을 사용하였다.
°1 방법은 우선 규칙 식별 요소인 변수(variables)와 변수값 (values) 을 추출해 오고, 추출된 규칙식별 요소들을 결합하고 조합하여 규칙을 구성하게 된다. 이러한 순차적인 방법을 통하여 본 연구에서는 규칙 구성요소를 자동적으로 추출해오는 방법론을 제안하고 구현하고자 한다.
이는 웹 페이지에 존재하는 수많은 규칙 구성요소의 후보들 중에 온톨로지에는 나타나 있지만 웹 페이지에 그 규칙 구성요소들의 후보가 온톨로지 인스턴스들의 유의어나 동의어 등으로 존재 할 때, 규칙 구성요소후보자들을 규칙 구성요소로 추출해 올 수가 없다. 이를 보완하기 위해서 워드넷을 가지고 각 인스턴스들을 확장하여 규칙 구성요소 추출을 하고자 하는 것이다. 이를 위해서 워드넷 2.

제안 방법

본 연구에서 기술적인 차별성을 두기 위해서 시맨틱웹에서 주요 근간을 이루는 온톨로지를 활용하였다.
이러한 의미 유사도 측정 방법은 pathlength 측정방법, Resinik measure 등 여러 가지의 측정 방법이 있다. 본 연구에서 사용한 의미유사도 측정 방법으로 본 논문의 연구와 걸 맞는 새로운 measure를 제안하였다. 그 유사도 측정 방법을 subclass path measure 라 하겠다.
본 연구에서는 온톨로지, 워드넷 확장, 스테밍 알고리즘, 의미 유사도 측정 방법 등을 이용하여 규칙 구성요소 자동 추출기인 를 구현하였다.
1과 이를 유용하게 사용하기 위하여 JWNL api 를 사용하였다. 스테밍 알고리즘은 가장 널리 보편적으로 쓰이고 있는 Porter의 스테밍 알고리즘을 사용하였고, 의미 유사도 측정 방법으로는 subclass path measure 라는 새로운 의미 유사도 측정 방법을 설계하여 제안하였다. 비교 대상이 되는 웹 페이지로는 Amazon.
앞에서 제시한 방법을 하나의 플랫폼으로 통합해서 순차적으로 수행해 나가면서 기존 온톨로지와 비교 대상이 되는 웹 페이지를 비교하여서 규칙 구성요소 (Rule Components : variables, valuesX 추출흐H 낸다.
이러한 문제점 등을 해결하기 위하여 워드넷 확장, 스테밍 알고리즘의 적용, 의미유사도 측정을 수행하고자 한다. 다음의 그림은 이러한 방법들을 적용하여 본 논문에서 제안하는 자동적으로 규칙 구성요소를 추출해 오는 시스템인 <Rule Components Extractor>의 전체 개념도를 도식화해 놓은 것이다.
첫 번째, 비교 대상이 되는 두 단어가 서로 subclass 관계인지 파악을 한다. 이 방법으로 처음 나온 단어가 두 번째 나오는 단어의 상위어 (Hypernym)이거나 하위어 (Hypo -nym) 이면 두 단어는 subclass 관계가 성립을 하게 된다.

대상 데이터

본 연구에서는 온톨로지의 형태로 OWL 형태의 온톨로지를 채택하였고, 이의 활용을 위하여 Jena api 를 활용하였다.
스테밍 알고리즘은 가장 널리 보편적으로 쓰이고 있는 Porter의 스테밍 알고리즘을 사용하였고, 의미 유사도 측정 방법으로는 subclass path measure 라는 새로운 의미 유사도 측정 방법을 설계하여 제안하였다. 비교 대상이 되는 웹 페이지로는 Amazon.com과 유사한 Domain을 가지고 있는 Banes&Nobles.com을 가지고 실험을 하였다. 본 논문에서 구현한 Rule Components Extractor는 특정 주제에 관한 전문가 시스템을 구축하기 위해 웹 페이지로부터 규칙을 추출할 때 규칙 구성요소를 자동적으로 추출하여 규칙을 추출할 때 매우 효율적인 도구가 될 수 있다.

이론/모형

첫 번째로 웹 페이지를 html로 읽어 들이는 부분인데 이 부분에서는 Jericho - 2 - html api 를 사용하여 수행하였다. 두 번째 부분에서는 읽어온 html 파일을 확장된 온톨로지와의 비교를 위해서 앞에서 언급한 Porter의 스테밍 알고리즘을 사용하여 스테밍을 수행한다.
용어 대신 어간을 저장함으로써 정보 검색 시에 완전한 용어와 일치시킬 수 있다. 본 연구에서는 스테밍 알고리즘의 한 종류인 Porter의 스테밍 알고리즘을 사용하였다.
본 연구에서는 온톨로지, 워드넷 확장, 스테밍 알고리즘, 의미 유사도 측정 방법 등을 이용하여 규칙 구성요소 자동 추출기인 <Rule Components Extractor>를 구현하였다. 온톨로지는 Amazon.com을 기본으로 하여 규칙 구성요소로 구성이 되어 있으며, 워드넷 확장을 위하여 WordNet 2.1과 이를 유용하게 사용하기 위하여 JWNL api 를 사용하였다. 스테밍 알고리즘은 가장 널리 보편적으로 쓰이고 있는 Porter의 스테밍 알고리즘을 사용하였고, 의미 유사도 측정 방법으로는 subclass path measure 라는 새로운 의미 유사도 측정 방법을 설계하여 제안하였다.
온톨로지 인스턴스들은 원형으로 이루어져 있는데, 웹 페이지에 나타나 있는 단어들은 단어의 원형만으로 이루어지지 않고 복수형, 단수형 또는 과거형, 현재형둥으로 이루어져 있다. 이 문제의 해결을 위하여 탐색용어의 어형론적인 변형을 찾는 방법을 제공하는 스테밍 알고리즘을 사용하였다. 많은 스테밍 알고리즘들 중에 사용한 스테밍 알고리즘은 Porter의 스테밍 알고리즘이다.
이를 보완하기 위해서 워드넷을 가지고 각 인스턴스들을 확장하여 규칙 구성요소 추출을 하고자 하는 것이다. 이를 위해서 워드넷 2.1 버전을 사용하였고, 이 워드넷을 유용하게 사용하기 위하여 JWNLapi 를 사용하였다.

성능/효과

com을 가지고 실험을 하였다. 본 논문에서 구현한 Rule Components Extractor는 특정 주제에 관한 전문가 시스템을 구축하기 위해 웹 페이지로부터 규칙을 추출할 때 규칙 구성요소를 자동적으로 추출하여 규칙을 추출할 때 매우 효율적인 도구가 될 수 있다.

후속연구

본 연구는 다양한 분야에서 적용될 수 있을 것으로 기대된다. 예를 들어, 쇼핑몰에서 약관으로부터의 규칙 추출, 각 보험 회사들의 보험 산정 규칙, 그리고 은행의 대출 평가 규칙 등이 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

온톨로지 기반 지능형 규칙 구성요소 추출에 관한 연구
Ontology - Based Intelligent Rule Components Extraction 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

온톨로지 기반 지능형 규칙 구성요소 추출에 관한 연구 Ontology - Based Intelligent Rule Components Extraction 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

온톨로지 기반 지능형 규칙 구성요소 추출에 관한 연구
Ontology - Based Intelligent Rule Components Extraction 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper