[논문]도메인 지식 기반 랩퍼 생성의 추출 성능 향상에 관한 연구

정창후; 최윤수; 서정현; 윤화묵

문제 정의

본 논문에서 제시하는 ERM(Entity Recognition Model) 은 HMM(Hidden Markov Model) 에서아이디어를 얻은 것이다. HMMe 문장이 있을 때 문장의 구성 요소인 각 단어(word)에 품사 (category)를 태깅하는 기능을 수행한다[12].
본 논문에서는 인터넷에 존재하는 준구조화 된 웹 정보 소스에서 효율적이고 정확하게 정보를 추출하는 도메인 지식 기반의 확률적 랩 퍼 생성 시스템에 관해서 설명하도록 한다. 시스템의 추출 정확도를 높이기 위해 레이블이 없이 나오는 텍스트들에 대해서 해당 텍스트의 엔티티를 자동으로 인식할 수 있는 확률 모델을 제안한다.
위에서 기술된 것을 바탕으로 토큰 집합에 엔티티 이름을 배타적으로 부여하는 확률 모델 에 대해서 제안하고자 한다.
그러나 레이블을 가지고 있지 않는 텍스트는 도메인 지식을 이용하더라도 해당 텍스트에 대한 의미를 이해할 수 있는 단 서가 없기 때문에, 텍스트에 대한 엔티티를 인 식할 수가 없다. 이렇게 인식되지 않는 텍스트 의 의미를 이해하기 위해서 확률적인 방법을 도입하도록 한다.

제안 방법

영화에 관련된 도 메인 지식을 구축할 때 시스템의 응용 분야에 맞게 도메인 지식의 엔티티를 적절히 선택해야 한다. 그러나 본 논문에서는 엔티티 인식 모델 에 대한 평가를 목적으로 하기 때문에, 영화에 관련된 최대 도메인 지식을 가지고 실험을 수행하였다. 본 논문에서 정의한 영화 도메인의 엔티티는 제목, 장르, 감독, 출연, 등급, 제작, 각본, 촬영, 음악, 상영시간, 시작일 그리고 종 료일로 구성되어 있다.
많은 웹 정보 소스가 사용자에게 정보를 제 공할 때, 처음에는 간략 정보만을 제공하는 방 식을 취하고 있다. 그리고 나서 해당 아이템의 상세 정보 보기를 원했을 경우에만 하이퍼링크 로 연결되어 있는 상세 정보를 보여주도록 한다. 이러한 방법은 사용자가 원하는 정보를 대 략적으로 빨리 훑어볼 수 있게 해주는 장점이 있다.
두 번째 실험에서는 하이퍼링크에 대한 처 리를 수행하여 랩퍼를 생성하도록 하였다. 실험 결과 일부 정보 소스에서 추출할 수 있는 엔티 티의 수가 배가 넘게 증가하는 것을 관찰할 수 있었다.
즉, 처음에는 도메인 지식만을 적용하여 랩퍼를 생성하도록 하였고, 다음에는 하이퍼 링크에 대한 처리를 주가하여 랩퍼를 생성하도 록 하였다. 마지막으로 본 논문에서 가장 중요 하게 생각하는 인식되지 않는 토큰들에 대한 엔티티 인식 알고리즘을 적용하여 랩퍼를 생성 하여 그 결과를 비교하였다.
HMMe 문장이 있을 때 문장의 구성 요소인 각 단어(word)에 품사 (category)를 태깅하는 기능을 수행한다[12]. 본 논문에서 제안하는 ERM 역시 하나의 아이템을 구성하는 각 토큰(t6ken)에 엔티티(entity)를 부여 하는 기능을 수행한다. 다만 HMM과 다른 점은 HMM처럼 모든 단어에 확률적 방법을 적용하는 것이 아니라, 이미 레이블이 있어서 어떤 엔 티티에 속하는지 결정이 된 토큰은 제외하고 그 외의 토큰에만 확률적 방법을 적용하도록 했다는 점이다.
본 논문에서 제안한 몇 가지 방법들의 유용 성을 검증하기 위해서 실험을 단계적으로 수행하였다. 즉, 처음에는 도메인 지식만을 적용하여 랩퍼를 생성하도록 하였고, 다음에는 하이퍼 링크에 대한 처리를 주가하여 랩퍼를 생성하도 록 하였다.
본 논문에서 제안한 알고리즘을 영화 도메인에 속하는 7개의 정보 소스(Site A, Site B, …, Site G)에 적용시켜 보았다. 영화에 관련된 도 메인 지식을 구축할 때 시스템의 응용 분야에 맞게 도메인 지식의 엔티티를 적절히 선택해야 한다.
세 번째 실험에서는 인식되지 않은 토큰들에 대해서 엔티티 인식 알고리즘을 적용하여 랩퍼 를 생성하도록 하였다. 실험 결과 일부 정보 소 스에서 추출할 수 있는 엔티티의 수가 증가하는 것을 관찰할 수 있었다.
본 논문에서는 인터넷에 존재하는 준구조화 된 웹 정보 소스에서 효율적이고 정확하게 정보를 추출하는 도메인 지식 기반의 확률적 랩 퍼 생성 시스템에 관해서 설명하도록 한다. 시스템의 추출 정확도를 높이기 위해 레이블이 없이 나오는 텍스트들에 대해서 해당 텍스트의 엔티티를 자동으로 인식할 수 있는 확률 모델을 제안한다. 이 방법은 도메인 지식 기반의 랩 퍼 생성과 마찬가지로 인간의 개입을 최소로 요구하기 때문에 실세계의 응용에 보다 편리하 게 적용시킬 수 있을 뿐만 아니라, 기존의 도메 인 지식만을 이용한 랩퍼 생성 시스템이 수행 하지 못하는 단서가 없는 텍스트에 대해서도 엔티티 인식을 효과적으로 수행한다.
단, 이때 토큰 이 엔티티가 될 확률이 임계값(threshold)을 넘 지 않을 경우에는 해당 토큰의 엔티티 식별은 무효로 한다. 임계값에 의해서 정보 소스에서 실제로 중요하게 사용될 수 있는 토큰인지 별 로 의미가 없는 토큰인지를 구별해 내도록 한다. 임계값은 실험에 의해서 추정하도록 했다.
자동 랩퍼 생성의 연구로는 주줄 가능한 정보 소스의 클래스를 구분해 놓고서 어떤 클래 스에 속하는 지를 학습하는 방법[1이과 도메인 지식 기반의 학습 방법 [11]이 있다. 전자는 자 동으로 랩퍼를 생성하는 기술인 랩퍼 유도(wrapper induction)에 대해서 제안하는데, 빠르게 학습할 수 있는 여러 개의 랩퍼 클래스를 구분해 놓은 후에 정보 소스를 처리하도록 한다. 6개의 구분된 클래스가 있고 각각의 클래스 W에 대해서 랩퍼를 생성하는 알고리즘 leam-W 를 제공한다.
참고로 ERMe HMM에서와 같이 각 구성 요 소간의 순서에 대한 제약 사항이 없으므로, 두 개의 확률을 가중치 변수 a를 이용하여 결합 하도록 했다. 베이지언 모델을 이용하는 Model 1과 컨텍스트 정보를 이용하는 Model 2가 나름 대로의 타당성있는 가치를 지니기는 하지만, 각각 상대적인 가중치를 두어 두 가지 모델을 혼 합함으로써 좀 더 신뢰성있는 그리고 여러가지 정보가 혼합된 견고한 모델을 구성할 수 있다.
첫 번째 실험에서는 도메인 지식만을 적용하여 랩퍼를 생성하도록 하였다. 실험 결과 해 당정보 소스에서 추출할 수 있는 엔티티들에 대해서 적절하게 랩퍼를 생성하는 것을 관찰할 수 있었다.
6개의 구분된 클래스가 있고 각각의 클래스 W에 대해서 랩퍼를 생성하는 알고리즘 leam-W 를 제공한다. 후자는 적용 도메인별로 도메인 지식을 구축해 놓고 이것을 이용하여 각각의 정보 소스에 대한 랩퍼를 생성하는 방법에 대해서 제안하고 있다. 도메인 지식에 이미 추출 되어야 할 정보들이 표현되어 있기 때문에 학 습 데이터를 미리 구축해 놓을 필요가 없다.

성능/효과

각 사이트에서 새로운 방법을 추가함에 따라 추출 정확도가 점점 향상되는 것을 확인할 수 있다. 그러나 모든 사이트에서 각 단계의 추출 정확도가 항상 증가하는 것은 아니다.
결과적으로 도메인 지식을 이용하여 랩퍼를 생성하는 시스템은 그 나름대로 많은 장점을 가지고 있음에도 불구하고 레이블이 없는 텍스 트 인식에 있어서는 치명적인 약점을 가지고 있기 때문에, 확률적인 방법을 적용한 랩퍼 생 성시스템은 그 중요성이 아주 크다고 볼 수 있다. 더군다나, 확률적인 방법을 적용해서 새롭 게 인식하고 있는 텍스트의 대부분이 해당 아 이템의 식별자가 될 수 있는 타이틀 역할의 엔 티티가 많다는 점은 본 연구에서 제시한 방법 론이 아주 유용하고 효과적이었다는 것을 입증 하고 있다.
결과적으로 도메인 지식을 이용하여 랩퍼를 생성하는 시스템은 그 나름대로 많은 장점을 가지고 있음에도 불구하고 레이블이 없는 텍스 트 인식에 있어서는 치명적인 약점을 가지고 있기 때문에, 확률적인 방법을 적용한 랩퍼 생 성시스템은 그 중요성이 아주 크다고 볼 수 있다. 더군다나, 확률적인 방법을 적용해서 새롭 게 인식하고 있는 텍스트의 대부분이 해당 아 이템의 식별자가 될 수 있는 타이틀 역할의 엔 티티가 많다는 점은 본 연구에서 제시한 방법 론이 아주 유용하고 효과적이었다는 것을 입증 하고 있다.
이것은 사 이트마다 나오는 정보의 특성 때문으로 생각된다. 베이지언 모델을 이용하는 Model 1보다 컨 텍스트 정보를 이용하는 Model 2의 확률 값이 크게 나오는 정보 소스의 경우, 데이터 안에 레 이블이 있는 텍스트가 상대적으로 많이 나오는 것을 확인할 수 있었다. 이러한 현상은 레이블 이 많은 데이터가 컨텍스트 정보도 많이 가지고 있다는 것을 의미한다.
세 번째 실험에서는 인식되지 않은 토큰들에 대해서 엔티티 인식 알고리즘을 적용하여 랩퍼 를 생성하도록 하였다. 실험 결과 일부 정보 소 스에서 추출할 수 있는 엔티티의 수가 증가하는 것을 관찰할 수 있었다. 이것은 레이블이 없는 토큰들에 대해서 확률적 방법을 적용해서 엔티티 인식을 수행한 방법이 적절했다는 것을 보여준다.
두 번째 실험에서는 하이퍼링크에 대한 처 리를 수행하여 랩퍼를 생성하도록 하였다. 실험 결과 일부 정보 소스에서 추출할 수 있는 엔티 티의 수가 배가 넘게 증가하는 것을 관찰할 수 있었다. 이것은 웹 사이트의 구조적 특성을 감 안하여 하이퍼링크에 대한 처리를 수행했기 때 문이라고 보여진다.
첫 번째 실험에서는 도메인 지식만을 적용하여 랩퍼를 생성하도록 하였다. 실험 결과 해 당정보 소스에서 추출할 수 있는 엔티티들에 대해서 적절하게 랩퍼를 생성하는 것을 관찰할 수 있었다. 그러나 이러한 방법은 웹사이트가 가지고 있는 하이퍼링크의 유용성을 제대로 활 용하지 못한 결과를 초래하였다.
또한 실험을 통하여 부가적으로 얻어진 중요한 사실은 정보 소스에 따라 Model 1과 Model 2의 크기가 서로 다르다는 것이다. 실험에서 확 인해 본 결과, 어떤 사이트에서는 Model 1의 확률 값이 크게 나왔고, 또 다른 사이트에서는 Model 2의 확률 값이 크게 나왔다. 이것은 사 이트마다 나오는 정보의 특성 때문으로 생각된다.

후속연구

향후 연구로는 정보 소스별로 추출된 개별적 결과의 통합에 관련된 작업과 규칙 생성의 정 확도 향상 관점에서 다루어질 수 있는 도메인 지식의 자동 확장에 관련된 작업이 이루어져야 할 것이다. 서로 다른 정보 소스에서 추출된 정 보들은 각기 서로 다른 아이템을 표현하는 경우가 많지만 동일한 아이템에 대해서 서로 다른 엔티티들을 가지고 있는 경우도 있기 때문 에, 추출된 아이템의 식별자를 기반으로 데이터를 통합해서 정제된 정보를 생성할 필요가 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

도메인 지식 기반 랩퍼 생성의 추출 성능 향상에 관한 연구
Study on the Improvement of Extraction Performance for Domain Knowledge based Wrapper Generation 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

도메인 지식 기반 랩퍼 생성의 추출 성능 향상에 관한 연구 Study on the Improvement of Extraction Performance for Domain Knowledge based Wrapper Generation 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

정창후 (16) 최윤수 (19) 서정현 (10) 윤화묵 (20)

관련 콘텐츠

원문 보기

원문 URL 링크

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

도메인 지식 기반 랩퍼 생성의 추출 성능 향상에 관한 연구
Study on the Improvement of Extraction Performance for Domain Knowledge based Wrapper Generation 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper