$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

도메인 지식 기반 랩퍼 생성의 추출 성능 향상에 관한 연구
Study on the Improvement of Extraction Performance for Domain Knowledge based Wrapper Generation 원문보기

인터넷정보학회논문지 = Journal of Korean Society for Internet Information, v.7 no.4, 2006년, pp.67 - 77  

정창후 (한국과학기술정보연구원 시스템개발팀) ,  최윤수 (한국과학기술정보연구원 시스템개발팀) ,  서정현 (한국과학기술정보연구원 시스템개발팀) ,  윤화묵 (한국과학기술정보연구원 시스템개발팀)

초록
AI-Helper 아이콘AI-Helper

기존의 도메인 지식 기반의 랩퍼 학습 방법은 도메인에 대한 정보를 바탕으로 해당 정보 소스에 대한 랩퍼를 생성한다. 용용 분야에 맞게 정의된 도메인 지식을 이용함으로써 정보 소스에서 제공하는 다양한 텍스트의 의미와 형태를 이해할 수 있다. 그러나 정보 소스에서 제공되는 모든 텍스트에 의미 인식의 근거가 되는 레이블이 붙어서 제공되는 것이 아니기 때문에 도메인 지식만을 이용해서 랩퍼를 학습하는 방법은 한계에 부딪힐 수밖에 없다. 이러한 문제를 해결하기 위해서 본 논문은 인터넷에 존재하는 다양한 웹 정보 소스에서 효율적이고 정확하게 랩퍼를 생성하는 도메인 지식 기반의 확률적 랩퍼 생성 시스템을 제안한다. 효율적이고 정확한 랩퍼 생성 시스템을 구축하기 위해서 도메인 지식뿐 아니라 상세 정보로 연결되어 있는 하이퍼링크와 엔티티 인식을 위한 확률 모델을 이용한다. 이와 같은 방법을 적용함으로써 사용자의 개입 없이 다양한 정보 소스에 대해서 보다 추출 성능이 좋은 랩퍼를 생성할 수 있다.

Abstract AI-Helper 아이콘AI-Helper

Wrappers play an important role in extracting specified information from various sources. Wrapper rules by which information is extracted are often created from the domain-specific knowledge. Domain-specific knowledge helps recognizing the meaning the text representing various entities and values an...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서 제시하는 ERM(Entity Recognition Model) 은 HMM(Hidden Markov Model) 에서아이디어를 얻은 것이다. HMMe 문장이 있을 때 문장의 구성 요소인 각 단어(word)에 품사 (category)를 태깅하는 기능을 수행한다[12].
  • 본 논문에서는 인터넷에 존재하는 준구조화 된 웹 정보 소스에서 효율적이고 정확하게 정보를 추출하는 도메인 지식 기반의 확률적 랩 퍼 생성 시스템에 관해서 설명하도록 한다. 시스템의 추출 정확도를 높이기 위해 레이블이 없이 나오는 텍스트들에 대해서 해당 텍스트의 엔티티를 자동으로 인식할 수 있는 확률 모델을 제안한다.
  • 위에서 기술된 것을 바탕으로 토큰 집합에 엔티티 이름을 배타적으로 부여하는 확률 모델 에 대해서 제안하고자 한다.
  • 그러나 레이블을 가지고 있지 않는 텍스트는 도메인 지식을 이용하더라도 해당 텍스트에 대한 의미를 이해할 수 있는 단 서가 없기 때문에, 텍스트에 대한 엔티티를 인 식할 수가 없다. 이렇게 인식되지 않는 텍스트 의 의미를 이해하기 위해서 확률적인 방법을 도입하도록 한다.
본문요약 정보가 도움이 되었나요?

저자의 다른 논문 :

관련 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로