보고서 정보
주관연구기관 |
한국과학기술정보연구원 Korea Institute of Science and Technology Information |
연구책임자 |
이혜진
|
참여연구자 |
강무영
,
강주연
,
공혜수
,
김순영
,
김재수
,
김재훈
,
김정환
,
박재원
,
박정현
,
박지영
,
서동민
,
설재욱
,
신진섭
,
유슬기
,
윤영준
,
윤화묵
,
이강산다정
,
이경하
,
이정훈
,
이창무
,
이혜림
,
임석종
,
정민경
,
조금원
,
조민수
,
최광남
,
최원준
,
한미숙
,
현미환
,
황미녕
,
황혜경
,
남영준
|
보고서유형 | 연차보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2021-12 |
과제시작연도 |
2021 |
주관부처 |
과학기술정보통신부 Ministry of Science and ICT |
등록번호 |
TRKO202300002644 |
과제고유번호 |
1711149483 |
사업명 |
한국과학기술정보연구원연구운영비지원(R&D)(주요사업비) |
DB 구축일자 |
2023-07-20
|
키워드 |
과학기술정보.콘텐츠 큐레이션.디지털 전환.정보 융합.개체 식별.Science and Technology Information.Content Curation.Digital Transformation.Information Convergence.Entity Identification.
|
초록
▼
Ⅳ. 연구개발 결과
1. 지능형 과학기술정보 큐레이션 체제로 디지털 전환을 위한 계획 수립
1) 국가 과학기술 데이터 거버넌스 프레임워크 개발
❍ 국내외 국가적 차원의 데이터 관리체계 조사 및 분석
- 국내 데이터 3법, OECD, 미국, EU, 영국 등
- CUPD, PIMS, CSUD 모델 등
❍ 과학기술데이터와 데이터 관련 현황 분석
- 법제도적 기반 조성 필요, 운영 리더십 확보 필요, 미래 서비스를 위한 부가 데이터 구축 및 대응방안 도출 필요 등
❍ 과학기술 데이터 거버넌스 프레
Ⅳ. 연구개발 결과
1. 지능형 과학기술정보 큐레이션 체제로 디지털 전환을 위한 계획 수립
1) 국가 과학기술 데이터 거버넌스 프레임워크 개발
❍ 국내외 국가적 차원의 데이터 관리체계 조사 및 분석
- 국내 데이터 3법, OECD, 미국, EU, 영국 등
- CUPD, PIMS, CSUD 모델 등
❍ 과학기술데이터와 데이터 관련 현황 분석
- 법제도적 기반 조성 필요, 운영 리더십 확보 필요, 미래 서비스를 위한 부가 데이터 구축 및 대응방안 도출 필요 등
❍ 과학기술 데이터 거버넌스 프레임워크 개발
- 법제도, 조직체계, 표준화, 플랫폼, 메타데이터 마스터DB, 품질관리, 정보보호 정의
2) 과학기술정보 큐레이션 체제 디지털 전환을 위한 BPR 전략 수립
❍ 과학기술정보 큐레이션 체제의 환경변화 분석
- 해외 AI 추진 현황, AI 기반 과학기술정보 구축 및 가공 자동화 현황, 식별 데이터 기반 서비스 현황
❍ 디지털 전환을 위한 전략수립
- 실행계획 수립, 지능형 데이터셋 정의서 개발, DB 구축 효율화 및 자동화 전략
- 전문가 자문을 통한 BPR 우수성 및 실현가능성 검증
- 디지털 전환 성숙도 모델 개발을 위한 사전 기획
- 디지털 보존 정책 개발
❍ 효율적 디지털 큐레이션을 수행하기 위한 KISTI 디지털 큐레이션 이해관계자 매트릭스 개발
- 디지털 큐레이션의 기반이 되는 디지털 보존 정책 개발
❍ 큐레이션 기술 적용 로드맵 수립을 통한 디지털 전환 체계 준비
- 기계학습모델 개발을 위한 태스크 선정 및 프레임워크 설계
❍ BPR 전략 수립 및 데이터셋 정의서 적정성 우수 수준 달성
- AI 기반의 큐레이션 체계 디지털 전환 전략 수립 및 기술로드맵 개발, 지능형 과학기술 정보 큐레이션 데이터셋 정의서
2. 핵심 과학기술 콘텐츠 구축 및 운영
1) 큐레이션 체제 기반 과학기술 콘텐츠 구축
❍ 국내 과학기술분야 논문DB 구축
- 국내 논문 메타(초록포함) DB 구축 : 37,610건 (누계 1,803,244건)
- 국내 논문(학술지/학술대회/협회지) 디지털 원문 보정/보완/처리 : 31,609건
- 논문 DOI 기탁 : 19,130건 (누계 357,221건)
- 참고문헌 DB 구축 : 804,070건 (누계 17,633,024건)
- 국내 학술지 인용색인 DB 고도화 및 인용색인서비스 체제 구축
- 참고문헌 DOI 식별 및 인용지표 산출을 통한 KJCR 인용분석 보고서 발간
- 국내 논문DB 통합관리시스템(OCEAN) 고도화 및 서비스 시스템 개선
- 국내 논문DB 데이터 품질 관리
❍ 국가가용학술정보 e-Gate DB 구축 및 관리
- 국내외학술지 수록논문 메타데이터 9,723,749건 추가 구축 (누계 11,319만 건)
- Free/Open Access 정보 구축 (CP 9,868개, 사이트 44,604건)
- 전 세계 학술지 참고문헌정보 신규 구축
- DB 구축 시스템 고도화
- DB 품질관리
❍ 국가 R&D 연구보고서 DB 구축
- 보고서원문 19,644건 구축 (누계: 243,373건)
- 보고서원문 성과 등록기관과의 협력체계 강화를 통한 등록률 96.13% 달성
- 국가R&D 연구성과 보고서 수집관리 시스템 개선 : 책갈피 자동 구축 시범 개발, 표/그림 구축기능 고도화, 참고문헌 구축기능 고도화 등
- 국가R&D보고서 등록관리시스템 홈페이지에 콘텐츠 큐레이션 모델 적용
- 이미지 텍스트 개인정보 처리 기술 개발
❍ 저자명/기관명 식별데이터 구축
- 저자 식별률 99.97%, 기관 식별률 90.57% 달성
- 크라우드 소싱 기반 기관사전 233,502건 구축
- 국내외 저자 식별자 약 350 건, 기관 식별자 약 340만 건을 연계구축하여 이종데이터성과 관리 및 접근성 향상
- 저자/기관 식별데이터 활용 (ISNI, 발명진흥회, 특허정보원)
❍ 과학기술 기계학습데이터 구축
- 과학기술 분야 기계학습데이터 5종 총 1,432,105건 구축
- ScienceON, AI 분석활용 경진대회, 대용량 데이터 분석 플랫폼 연계등 활용
2) 국가 R&D 논문 검증 체계 구축
❍ 국가 R&D 연구성과(논문) 전자원문 확보 및 프로세스 개선
- 논문 성과의 OA식별을 통한 원문 확보 51.1% 달성(271,053건 확보)
- 국가R&D 연구성과(논문) 수집관리 시스템 개선
- ScienceON, NTIS 등을 통한 원문서비스로 국가R&D 논문 성과 활용 촉진
- 국가 R&D 연구성과 토픽 추출 및 연계 기술 개발
3) 원내 연구자 지원을 위한 정보자원 개발 및 서비스
❍ 원내 연구자 정보지원 : 단행본 953권, 학술지 494종 3,900권 입수, ISBN 42권 등록
❍ 원내이용 전자 정보자원 개발 및 서비스
3. 과학기술 콘텐츠 식별·연계 관리 체제 구축 및 운영
1) 국제표준식별체계(DOI) 등록관리 서비스 운영 및 고도화
❍ 국내 과학기술 콘텐츠 DOI 2,118,078건 등록 (누계 20,375,755건)
❍ DOI와 인물식별자(ISNI, ORCID) 연계
❍ DOI 등록 메타데이터 품질 고도화
❍ 논물표절방지(iThenticate) 서비스 제공
❍ DOI 협력 및 홍보 활동 수행
- 글로벌 DOI 등록기관과의 협력 활동(IDF, ORCID 등)
- SNS를 통한 한국 DOI 센터 인식 제고
❍ 국제표준식별체계(DOI) 등록관리 시스템 고도화
- 검색 기능 고도화, 자동생성랜딩페이지 기능 및 UI 개선 등
2) 국내 논문 영문 글로벌 서비스 KoreaScience 운영
❍ 과학기술분야 논문의 국제적 활용 확산 (2021년 162,576,275건 이용)
❍ KoreaScience 기능 고도화
- 학술지 상세검색 및 저널 랜딩페이지 활용을 위한 웹 페이지 개발
- 한국과학기술단체총연합회 및 한국연구재단의 학술지 평가 지원을 위한 도구 및 기술 고도화
- 이미지, 시소러스 등 검색 기능 고도화
4. AI기반 콘텐츠 구축 및 관련 기술 개발
1) 논문 메타데이터 추출 자동화 기술 개발
❍ 적용 대상 학술지 확대 (70종 → 503종)
❍ 논문 메타데이터 자동추출용 학습데이터 구축 확대 및 모델 평가 신뢰도를 위한 검증/평가셋 전수 검수
❍ BERT 기반 논문 메타데이터 자동추출용 신규 모델 개발 및 추출 성능 향상 (F1 점수 99.361% 달성)
❍ 논문 메타데이터 자동추출기 활용을 위한 API 개발 (메타데이터 12항목 대상)
2) 참고문헌 메타데이터 추출 자동화 기술 개발
❍ 적용 대상 학술지 확대 (718종 → 820종)
❍ 참고문헌 메타데이터 자동추출용 학습데이터 구축 및 자동 검수
❍ 모델 평가 신뢰도를 위한 참고문헌 메타데이터 추출용 검증/평가셋 전수 검수
❍ BERT 기반 참고문헌 메타데이터 자동추출용 신규 모델 개발 및 추출 성능 향상(F1점수 99.83% 달성)
❍ 참고문헌 메타데이터 자동추출기 활용을 위한 API 개발 (국내/해외 기존 API들 대비 우수성 증명)
3) 과학기술정보 기반 사전학습(Pre-trained) 모델 개발
❍ 과학기술 뉴스데이터 등 사전학습용 과학기술 텍스트 데이터 5종 311만건 수집
❍ 과학기술 정보 기반 사전학습 모델 및 한국어와 과학기술 텍스트 특화 토크나이저 개발
❍ 사전학습 모델의 연구과제 과학기술표준분류 자동 분류 최고 성능 달성
5. 과학기술정보 입수채널 구축 및 활용‧확산
1) 법제도적 거버넌스 및 학술커뮤니티 지원을 통한 정보 입수채널 구축
❍ 국내 학술정보 공동활용 협약 : 604개 수집채널 확보
❍ 국가 R&D 보고서원문 전담기관 역할 및 책임 재정립(R&R) 수립 추진
2) 디지털 큐레이션 홍보 활동
❍ 국내외 학술대회․세미나 공동 개최 및 대국민 홍보 활동
- 미래연구정보 포럼 개최, 한국콘텐츠학회, 한국도서관정보학회 공동개최, 전국도서관대회, 사이언스 패스티벌 참가 등
- 메타버스를 통한 국가 R&D 성과물 구축 온라인 홍보
❍ 서비스 및 경진대회 플랫폼에 활용
- ScienceON 서비스 고도화(AI논문요약, 논문질의응답, 표/그림 검색)
- KISTI 연구데이터-AI 분석활용 경진대회 기계학습데이터 5종 공개
❍ 과학기술 사전학습모델(KorSciBert) 자연어 기반 AI 경진대회 참가 8위 입상
(출처 : 요약 11p)
Abstract
▼
Ⅳ. Result of R&D
1. Planning digital transformation into an intelligent science and technology information curation system
1) Development of national science and technology data governance framework
❍ Investigation and analysis of domestic and international data management systems
- Dome
Ⅳ. Result of R&D
1. Planning digital transformation into an intelligent science and technology information curation system
1) Development of national science and technology data governance framework
❍ Investigation and analysis of domestic and international data management systems
- Domestic data law 3, OECD, US, EU, UK, etc.
- CUPD, PIMS, CSUD models, etc.
❍ Analysis of scientific and technological data and data-related status
- Necessary to create a legal and institutional foundation, to secure operational leadership, to establish additional data for future services and to derive countermeasures, etc.
❍ Development of science and technology data governance framework
- Legal system, organizational system, standardization, platform, metadata master DB, quality management, information protection definition
2) Establishment of BPR strategy for digital transformation of science and technology information curation system
❍ Environmental change analysis of science and technology information curation system
- Overseas AI promotion status, AI-based science and technology information construction and processing automation status, identification data-based service status
❍ Establishing a strategy for digital transformation
- Execution plan establishment, intelligent data set definition development, DB construction efficiency and automation strategy
- Verification of BPR excellence and feasibility through expert advice
- Planning for digital transformation maturity model development
- Development of digital preservation policy
❍ Implementation of the strategy proposed by DCC in the UK to advance KISTI’s curation
- Development of KISTI Digital Curation Stakeholder Matrix for Efficient Digital Curation
- Development of digital preservation policy that is the basis of digital curation
❍ Preparing a digital transformation system by establishing a curation technology application roadmap
- Task selection and framework design for machine learning model development
❍ Establishing a BPR strategy and achieving an excellent level of adequacy of the data set definition
- AI-based curation system digital transformation strategy establishment, technology roadmap development, and intelligent science and technology information curation dataset definition
2. Establishment and operation of core science and technology contents
1) Construction of science and technology contents based on curation system
❍ Establishment of domestic science and technology article DB
- Domestic article meta (including abstract) DB construction: 37,610 cases (total 1,803,244 cases)
- Domestic papers (academic/conference/association journal) digital original text correction/complementation/processing: 31,609 cases
- Article DOI deposit: 19,130 cases (total of 357,221 cases)
- Reference DB construction: 804,070 cases (total 17,633,024 cases)
- Advancement of citation index DB for domestic academic journals and establishment of citation index service system
- Publication of KJCR citation analysis report through identification of reference DOI and calculation of citation index
- Advancement of domestic thesis DB integrated management system (OCEAN) and improvement of service system
- Domestic article DB data quality management
❍ Establishment and management of nationally available academic information e-Gate DB
- Additional 9,723,749 cases of meta-data from domestic and foreign academic journal articles (total of 113.19 million cases)
- Free/Open Access information establishment (CP 9,868, sites 44,604)
- New establishment of reference information in academic journals around the world
- Advancement of DB construction system
- DB quality control
❍ Establishment of national R&D research report DB
- Established 19,644 cases of the original report (total: 243,373 cases)
- Achievement of 96.13% registration rate by strengthening cooperation system with registration agencies
- Improvement of national R&D research performance report collection management system: development of automatic bookmark construction pilot development, advancement of table/figure construction function, advancement of reference construction function, etc.
- Application of content curation model to the website of the national R&D report registration management system
- Image text personal information processing technology development
❍ Author name/institution name identification data establishment
- Achieved 99.97% author identification rate and 90.57% institutional identification rate
- Established 233,502 cases of crowdsourcing-based institutional dictionaries
- Improvement of heterogeneous data performance management and accessibility by linking about 350 domestic and international author identifiers and 3.4 million institutional identifiers
- Utilization of author/organization identification data (ISNI, Invention Promotion Association, Patent Information Service)
❍ Establishment of science and technology machine learning data
- Construction of a total of 1,432,105 cases of 5 types of machine learning data in science and technology fields
- ScienceON, AI analysis application contest, large data analysis platform connection, etc.
2) Establishment of national R&D article verification system
❍ National R&D research results (article) securing electronic text and process improvement
- Achieved 51.1% of securing original text through OA identification of article performance (271,053 cases secured)
- Improvement of national R&D research results (article) collection management system
- Promoting utilization of national R&D article results through original text services through ScienceON, NTIS, etc.
- National R&D research performance topic extraction and related technology development
3) Information resource development and service to support in-house researchers
❍ In-house researcher information support: 953 monographs, 3,900 books in 494 academic journals, and 42 ISBN registrations
❍ Development and service of electronic information resources for in-house use
3. Establishment and operation of core science and technology contents
1) Operation and advancement of International Standard Identification System(DOI) registration management service
❍ Registered domestic science and technology content DOI 2,118,078 cases (total 20,375,755 cases)
❍ Linking DOI and person identifiers (ISNI, ORCID)
❍ Improvement of DOI registration metadata quality
❍ Provision of paper plagiarism prevention (iThenticate) service
❍ DOI cooperation and public relations activities
- Cooperation activities with global DOI registrars (IDF, ORCID, etc.)
- Raising awareness of DOI center in Korea through SNS
❍ Advancement of the International Standard Identification System (DOI) registration management system
- Advancement of search function, auto-generated landing page function and UI improvement, etc.
2) Translation of Korean article into English in the global service of KoreaScience operation
❍ Expansion of international use of scientific and technological papers (162,576,275 used in 2021)
❍ Advancement of KoreaScience function
- Development of web pages for detailed journal search and use of journal landing pages
- Advancement of tools and technologies to support the evaluation of academic journals by the Korea Federation of Science and Technology Societies and the National Research Foundation of Korea
- Advanced search function such as image and thesaurus
4. AI-based content construction and related technology development
1) Development of article metadata extraction automation technology
❍ Expansion of applicable journals (70 items → 503 items)
❍ Expansion of learning data for automatic extraction of article metadata and complete inspection of verification/evaluation sets for model evaluation reliability
❍ Development of a new model for automatic extraction of BERT-based article metadata and improvement of extraction performance (F1 score of 99.361% achieved)
❍ Development of API for using automatic article metadata extractor (for 12 metadata items)
2) Development of reference metadata extraction automation technology
❍ Expansion of applicable journals (718 items → 820 items)
❍ Establishment of learning data for automatic extraction of reference metadata and automatic inspection
❍ Inspection of all verification/evaluation sets for extracting reference metadata for model evaluation reliability
❍ Development of a new model for automatic extraction of BERT-based reference metadata and improved extraction performance (F1 score of 99.83% achieved)
❍ Development of API to use automatic reference metadata extractor (proving superiority compared to existing domestic/overseas APIs)
3) Development of pre-trained model based on science and technology information
❍ Collect 3.11 million cases of 5 types of science and technology text data for prior learning including science and technology news data
❍ Development of science and technology information-based pre-learning model and tokenizer specializing in Korean and science and technology texts
❍ Achieving the best performance in automatic classification of scientific and technological standard classification of research tasks in the pre-learning model
5. Establishment, utilization and dissemination of channels for obtaining scientific and technological information
1) Establishment of information acquisition channels through legal and institutional governance and academic community support
❍ Domestic academic information joint use agreement: 604 collection channels secured
❍ Promote the establishment of the role and responsibility of the national R&D report text-exclusive organization (R&R)
2) Digital Curation Promotion Activities
❍ Domestic and foreign academic conferences and seminars jointly held and public relations activities
- Hosting of Future Research Information Forum, co-hosting of Korea Contents Association, Korea Library and Information Society, National Library Contest, Participation in Science Festival, etc.
- Online promotion of national R&D achievements through metaverse
❍ Use for service and competition platform
- Advancement of ScienceON service (AI article summary, article Q&A, table/figure search)
- Disclosure of 5 types of machine learning data for KISTI research data-AI analysis application contest
❍ Science and Technology Pre-Learning Model (KorSciBert) Natural Language-based AI Contest 8th Place
(source : Summary 20p)
목차 Contents
- 표지 ... 1
- 제 출 문 ... 3
- 연차보고서 초록 ... 5
- 요 약 문 ... 7
- 요약 ... 9
- SUMMARY ... 16
- CONTENTS ... 29
- 목차 ... 32
- 표목차 ... 34
- 그림목차 ... 36
- 제1장 연구개발과제의 개요 ... 41
- 제1절 목적 및 필요성 ... 41
- 제2절 목표 및 내용 ... 45
- 1. 연구개발과제의 목표 ... 45
- 2. 연구개발과제의 내용 ... 46
- 3. 추진전략 및 방법 ... 50
- 4. 기대효과 ... 52
- 제2장 국내외 기술개발 현황 ... 54
- 제1절 국내현황 ... 54
- 제2절 해외현황 ... 58
- 제3장 연구개발 수행 내용 및 결과 ... 64
- 제1절 지능형 과학기술정보 큐레이션 체제로 디지털 전환을 위한 계획수립 ... 64
- 1. 국가 과학기술 데이터 거버넌스 프레임워크 개발 ... 64
- 2. 과학기술정보 큐레이션 체제 디지털 전환을 위한 BPR 전략 수립 ... 72
- 제2절 핵심 과학기술 콘텐츠 구축 및 운영 ... 80
- 1. 큐레이션 체제 기반 과학기술 콘텐츠 구축 ... 80
- 2. 국가 R&D 논문 검증 체계 구축 ... 106
- 3. 원내 연구자 지원을 위한 정보자원 개발 및 서비스 ... 118
- 제3절 과학기술 콘텐츠 식별·연계 관리 체제 구축 및 운영 ... 131
- 1. 국제표준식별체계(DOI) 등록관리 서비스 운영 및 고도화 ... 131
- 2. 국내 논문 영문 글로벌 서비스 KoreaScience 운영 ... 139
- 제4절 AI기반 콘텐츠 구축 및 관련 기술 개발 ... 143
- 1. 논문 메타데이터 추출 자동화 기술 개발 ... 143
- 2. 참고문헌 메타데이터 추출 자동화 기술 개발 ... 144
- 3. 과학기술정보 기반 사전학습(Pre-trained) 모델 개발 ... 146
- 제5절 과학기술정보 입수채널 구축 및 활용확산 ... 148
- 1. 법제도적 거버넌스 및 학술커뮤니티 지원을 통한 정보 입수채널 구축 ... 148
- 2. 디지털 큐레이션 홍보 활동 ... 153
- 제4장 목표달성도 및 관련 분야에의 기여도 ... 157
- 제1절 연구개발 목표의 달성도 ... 157
- 제2절 관련 분야 기여도 ... 161
- 제5장 연구개발결과의 활용계획 ... 163
- 제6장 참고문헌 ... 165
- 부록 ... 166
- 부록1 21년 핵심콘텐츠 구축 및 연계 정량 성과 현황 ... 166
- 부록2 데이터 공동 활용 현황 (23,048,510건 이상) ... 170
- 부록3 국내 논문DB구축 대상 학술단체 현황 (454 기관) ... 171
- 부록4 한국DOI센터 회원기관 현황 (1,267 기관) ... 176
- 끝페이지 ... 188
※ AI-Helper는 부적절한 답변을 할 수 있습니다.