[논문]테이블 객체 모델링을 이용한 웹 문서의 제목추출

박세종; 윤주형; 이승욱; 한영석

테이블 객체 모델링을 이용한 웹 문서의 제목추출
An Object Model of Korean Web Pages for Title Identification 원문보기

박세종 (수원대학교 컴퓨터과학과) , 윤주형 (수원대학교 컴퓨터과학과) , 이승욱 (수원대학교 컴퓨터과학과) , 한영석 (수원대학교 컴퓨터과학과)

한국어 웹 문서에는 일반적으로 제목이 명시가 되어 있음으로 텍스트를 하는 방식의 제목추출과는 달리 여러 테이블 형태로 이루어진 웹 문서의 특성을 고려하여 제목에 해당하는 테이블 객체를 찾아내야 한다. 웹 문서를 테이블 객체의 리스트로 보고, 이들을 휴리스틱 규칙에 의해서 본문 후보와 이를 기준으로 하는 제목 후보 객체들로 구분하는 단계와 제목 후보들 간의 확률적 분포 값과 본문과의 언어적 유사도를 이용하여 제목 개체를 결정하는 단계를 통하여 제목을 인식한다. 인식의 정확성에 기여하는 것은 제목과 본문 객체를 구분하는 규칙 그리고 제목의 확률분포 및 언어적 유사정도 등이며 이들 각 정보가 정확성에 기여하는 정도를 실험하였다. 무작위로 추출된 500개의 다양한 양식의 웹 문서를 대상으로 실험한 결과 제목인식 정확성은 95.1%였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 테이블 객체에 의한 위치 정보로 선정한 제목 후보와 본문 후보에 확률 모델과 언어적 유사 계수를 적용하여 웹 페이지에서 중심 제목을 주 출하는 방법에 대해 기술하였다. 이 시스템을 실제 웹 페이지 500개에 적용한 결과 95.

제안 방법

생성된 객체를 중심으로 휴리스틱 규칙에 의해 본문 후보와 제목 후보를 추출한다. 2단계에서눈 추출된 후보들 간의 위치에 대한 확률 분포 값을 적용하고, 제목 후보와 본문 후보 간의 언어적 유사도를 코사인 계수를 통해 구하여 최종적으로 두 가지 데이터에 대한 가중치를 구하여 제목을 인식한다. 마지막으로 후처 리 단계를 거쳐 추출한 제목을 정규화한다.
본 연구에서 제시하는 제목추출 방법은 휴리스틱 규칙을 적용하여 제목과 본문 후보객체들을 생성하는 1단계와 각 본문 후보에 대한 여러 개의 제목 후보의 확률분포 및 언어적 유사도를 계산하여 최종적으로 제목을 결정하는 2단계를 거쳐 후처리를 통한 정규화 과정으로 이루어진다.
본 연구에서는 규칙 정보를 이용한 1단계와 확률 및 언어정보를 이용하는 2단계를 통해 실제적인 제목 인식이 가능한 모델을 제안한다. 1단계에서는 웹 페이지 상의 불필요한 태그(Tag) 정보를 걸러낸 후, 테이블(Table) 단위로 객체를 생성한다.
본문 후보 객체의 수에 따른 실제 본문의 분포와, 이 본문 객 체 위에 존재하는 제목 후보 객체 중에서 실제 제목의 분포를 조사하여 확률을 계산하였다. (표 1)
1단계에서는 웹 페이지 상의 불필요한 태그(Tag) 정보를 걸러낸 후, 테이블(Table) 단위로 객체를 생성한다. 생성된 객체를 중심으로 휴리스틱 규칙에 의해 본문 후보와 제목 후보를 추출한다. 2단계에서눈 추출된 후보들 간의 위치에 대한 확률 분포 값을 적용하고, 제목 후보와 본문 후보 간의 언어적 유사도를 코사인 계수를 통해 구하여 최종적으로 두 가지 데이터에 대한 가중치를 구하여 제목을 인식한다.
실험을 위한 자료는 같은 방법으로 테이블 구조를 가진 위와 다른 웹 문서 약 500개를 추출하였다. 실험의 정확성에 적용한 방법은 본문 인식 규칙, 확률값 적용, 언어적 유사도의 3가지이고 각기 어느 정도의 정확성을 가지고 있나 계산하였다. (표 2)
두 과정을 거치면 각 후보 객체는 확률값과 유사도를 가진다. 이 두 수치의 비율을 달리하면서 합한 후 정확률을 비교하여 최적의 비율을 찾아낸다.
확률값 추출을 위해서 테이블 구조를 가진 웹 문서 약 270개를 대상으로 본문과 제목 후보를 인식하는 규칙을 적용하여 후보로 선정된 텍스트를 두고 수작업으로 실제 제목, 본문을 선정하고 이로부터 본문객체대비 제목객체의 빈도수를 계산하였다. (그림 4)
확률적 모델의 가중치와 언어 유사성에 의한 가중치 모두 적용할 경우에, 두 정보가 정확도에 기여하는 정도가 다를 것임오 로 두 정도를 각기 다른 가중치로 배합하였다.(표 3)

대상 데이터

제목 후보는 4바이트 이 상 73바이트 이하의 문자열이고 74바이트 이상의 객체와 4바이트 이하의 연속된 후보들을 본문 후보로 한다. 기준이 되는 74바이트는 473개의 웹 문서에서 제목과 본문의 구분을 가장 적은 오류로 나눌 수 있는 값으로 결정되었다 (그림 3).
실험을 위한 자료는 같은 방법으로 테이블 구조를 가진 위와 다른 웹 문서 약 500개를 추출하였다. 실험의 정확성에 적용한 방법은 본문 인식 규칙, 확률값 적용, 언어적 유사도의 3가지이고 각기 어느 정도의 정확성을 가지고 있나 계산하였다.
(2) 제목(후보) 객체는 반드시 본문 객체와 쌍으로 존재해야하 며 없으면 더미 객체를 만들어 준다. 제목 후보는 4바이트 이 상 73바이트 이하의 문자열이고 74바이트 이상의 객체와 4바이트 이하의 연속된 후보들을 본문 후보로 한다. 기준이 되는 74바이트는 473개의 웹 문서에서 제목과 본문의 구분을 가장 적은 오류로 나눌 수 있는 값으로 결정되었다 (그림 3).
후처리 단계에서는 추출된 제목 중에 정규화가 필요한 제목의 비율과 정규화한 제목의 유효성에 대한 수치를 나타내었다. 추출된 500개의 문서에서 변환이 수행된 제목의 숫자는 370개로 전체의 74%가 정규화 대상이 되었다. 이중 정규화로 인한 제목의 손실은 20개로 18.

성능/효과

따라서 본문 인식의 결정이 확률값과 언어적 유사성의 작용에 큰 영향이 있으며, 확률값보다는 언어적 유사성의 결과에 좀 더 가중치를 두어야 한다는 것을 알 수 있다.
본 논문에서는 테이블 객체에 의한 위치 정보로 선정한 제목 후보와 본문 후보에 확률 모델과 언어적 유사 계수를 적용하여 웹 페이지에서 중심 제목을 주 출하는 방법에 대해 기술하였다. 이 시스템을 실제 웹 페이지 500개에 적용한 결과 95.1%의 정확성을 얻을 수 있었다.
제안하는 방법에 의해서 다양한 객체 패턴을 가진 웹 문서들을 대상으로 실험한 결과 본문 인식 규칙, 확률값 적용, 언어적 유사도 규칙 등이 제목객체와의 유효한 관계에 있음을 알 수 있었다.

원문 보기

ScienceON 원문보기

*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.

내보내기 메뉴

내보내기 구분

파일저장
인쇄
메일전송

구성항목

기본정보
상세정보

관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관

저장형식

Text(ASCII format)
Excel format
RefWorks Direct Export
RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley

메일정보

받는사람 (필수): @
보내는사람 (선택): @
제목
내용: KISTI 검색결과 이메일 서비스

안내

총 건의 자료가 검색되었습니다.

다운받으실 자료의 인덱스를 입력하세요. (1-10,000)

검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다.

데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요)

다운로드 파일은 UTF-8 형태로 저장됩니다.
파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오.

Text(ASCII format)
Excel format

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

AI-Helper ※ AI-Helper는 을 사용합니다.

AI-Helper

안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

연합인증

테이블 객체 모델링을 이용한 웹 문서의 제목추출
An Object Model of Korean Web Pages for Title Identification 원문보기

초록
AI-Helper