보고서 정보
주관연구기관 |
한국과학기술원 Korea Advanced Institute of Science and Technology |
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2013-03 |
과제시작연도 |
2012 |
주관부처 |
교육과학기술부 Ministry of Education and Science Technology(MEST) |
등록번호 |
TRKO201300035454 |
과제고유번호 |
1345174963 |
사업명 |
일반연구자지원 |
DB 구축일자 |
2013-12-21
|
키워드 |
반구조화 데이터.지능형 시스템.데이터 통합.전자 도서관.시맨틱 검색.테이블 검색 및 분류.모바일 환경 문서요약.데이터 통합.반구조 데이터 베이스.Semi-structured data.Automatic Data integration.Multidisciplinary collaboration.Document analysis and understanding.Semi-structured data modeling Table Search and Classification.Data annotation and indexing.Infrastructure designing.Learning process.
|
DOI |
https://doi.org/10.23000/TRKO201300035454 |
초록
▼
연구의 목적 및 내용
학제간 협력을 위한 지능형 테이블 및 그림 추출, 통합, 및 검색 시스템 및 이와 관련된 응용 기술을 개발하여 차세대 전자도서관의 정보 서비스 및 다양한 응용에 적용할 수 있는 핵심 실용화 기술 개발
연구결과
• 대용량 문서 수집 및 자동 테이블, 그림 데이터 추출
- 문서를 수집하고, 이 문서들에서 테이블 객체를 정확하게 추출하는 기술개발. HTML, PDF등 다양한 포맷에 저장되어있는 테이블을 원본에서 추출하는 전처리 기술을 개발하고 문서 구조 분석, 테이블, 그림, 수식 등의 경계 분
연구의 목적 및 내용
학제간 협력을 위한 지능형 테이블 및 그림 추출, 통합, 및 검색 시스템 및 이와 관련된 응용 기술을 개발하여 차세대 전자도서관의 정보 서비스 및 다양한 응용에 적용할 수 있는 핵심 실용화 기술 개발
연구결과
• 대용량 문서 수집 및 자동 테이블, 그림 데이터 추출
- 문서를 수집하고, 이 문서들에서 테이블 객체를 정확하게 추출하는 기술개발. HTML, PDF등 다양한 포맷에 저장되어있는 테이블을 원본에서 추출하는 전처리 기술을 개발하고 문서 구조 분석, 테이블, 그림, 수식 등의 경계 분석, 탐지 등을 통해 추출 정확도 향상.
• 반 구조화된 데이터 저장 및 색인 생성 연구
- 추출된 테이블, 그림, 수식에 대한 표현을 다양화하고 접근성을 높이기 위해 메타 데이타를 추출. 이를 저장하는 대용량의 데이터베이스 설계, 검색을 위한 데이터 색인 생성을 위한 표준 모델을 설계함.
• 반 구조화 데이터 검색 기술 개발
- 반 구조화된 데이터 검색의 높은 성능향상을 위해 새로운 스키마와 랭킹 알고리즘, 질의 모델 기술 개발.
• 반 구조화 데이터 마이닝
- 분류 및 클러스터링을 통한 다양한 수준의 반 구조화된 데이터 제공. 의미론적 유사성 분석에 따라 다양한 수준에서 반 구조화 데이터를 새로운 데이터마이닝 기법으로 처리하는 기술 개발.
• 다양한 형태의 구조화 반구조화 데이터 통합 기술 연구
- 구조화 데이터 - 반구조화 데이터 통합, 반구조화 - 구조화 되지 않은 데이터(free-text)의 통합 기술 개발. 이를 활용한 수집, 저장, 분석, 관리 및 활용 기술.
• 모바일 환경을 위한 문서 요약 및 추천 기술 개발
- 조직화 된 사용자 테이블, 그림, 수식 등을 모바일 기기에 적합하게 표현해주는 기술 및 자연어 문서에서 반 구조화된 객체로 요약하는 기술을 개발하고, 사용자가 원하는 반구조화 자료를 추천해 주는 시스템 개발.
연구결과의 활용계획
● 반 구조화된 문서에서 핵심 데이터의 추출, 통합, 제공에 관련된 기술로 차세대 정보검색 및 텍스트마이닝(Text-mining) 분야 및 문서요약 및 지능형 전자도서관 분야에 획기적인 발전을 기대
● 시멘틱 웹(Semantic Web)과 연동을 통한 차세대 웹 및 전자도서관(Digital Library)에 대한 우위권 확보
● 학제간 협력 연구 수행 및 학제간 협력에 필수 요소 기술로서 막대한 산업적, 경제적 효과 기대
● 특히 시맨틱 웹 분야의 각종 응용, 지능형 서비스, 디지털 라이브러리 등 분야에서의 획기적 성능 향상 효과를 통해 산업 경쟁력 확보
Abstract
▼
Purpose&contents
•Supporting the unprecedented semi-structured data integration across spatial and temporal scales.
•Facilitating the interdisciplinary research among researchers in different fields.
•Breaks the barriers between semi-structured data and other data types, such as the free-te
Purpose&contents
•Supporting the unprecedented semi-structured data integration across spatial and temporal scales.
•Facilitating the interdisciplinary research among researchers in different fields.
•Breaks the barriers between semi-structured data and other data types, such as the free-text documents or the strictly managed databases.
•Speed up the learning process with the powerful integration of the experimental, analytical and simulation results in the related areas by extracting, integrating, and searching semi-structured data semantically.
•Proposing a more flexible document summarization and content displaying way in mobile devices.
Result
• Document collection
-Collecting the distributed scientific documents across several areas that contain numerical semi-structured data.
• Semi-structured data extraction
-Extracting all the table data from the collected document repository.
• Semi-structured data annotation and indexing
-Representing each table with a newly-proposed table model by accurately understanding the table structure.
• Semi-structured data searching
-Given a search query, we will not only return the relevant tables based on the keyword matching, but also retrieve the semantically related tables, which are helpful for scientist to find broader related works.
• Semi-structured data mining
-Categorizing table into subgroups, according to the similarity analysis in different perspectives.
Expected Contribution
• Advanced Table Search Service
-Intelligent table service, which offers for intelligent digital libraries (for example, the Library of Congress, National Digital Library, National Library, the National Knowledge Portal, etc.) can be applied to the practical to the table specialized search services
• Table Search by Table classification
-Users can search the only tables according to user’s purpose. (e.g. survey, experimental setting)
• Table Search by Document(Table)
-Users can search tables by not only keywords, but documetns which contain table.
목차 Contents
- 일반연구자지원사업 최종보고서 양식 ... 1
- 목 차 ... 2
- Ⅰ. 연구 계획 요약문 ... 3
- 한글요약문 ... 3
- Ⅱ. 연구 결과 요약문 ... 4
- 한글요약문 ... 4
- SUMMARY ... 5
- Ⅲ. 연구내용 및 결과 ... 6
- 1. 연구개발과제의 개요 ... 6
- 2. 국내·외 기술개발 현황 ... 8
- 3. 연구수행 내용 및 결과 ... 10
- 4. 목표 달성도 및 관련 분야에의 기여도 ... 27
- 5. 연구결과의 활용계획 ... 27
- 6. 연구과정에서 수집한 해외과학기술정보 ... 28
- 7. 주관연구책임자 대표적 연구 실적 ... 28
- 8. 참고 문헌 ... 28
- 9. 연구 성과 ... 29
- 10. 기타사항 ... 30
※ AI-Helper는 부적절한 답변을 할 수 있습니다.