• 검색어에 아래의 연산자를 사용하시면 더 정확한 검색결과를 얻을 수 있습니다.
  • 검색연산자
검색연산자 기능 검색시 예
() 우선순위가 가장 높은 연산자 예1) (나노 (기계 | machine))
공백 두 개의 검색어(식)을 모두 포함하고 있는 문서 검색 예1) (나노 기계)
예2) 나노 장영실
| 두 개의 검색어(식) 중 하나 이상 포함하고 있는 문서 검색 예1) (줄기세포 | 면역)
예2) 줄기세포 | 장영실
! NOT 이후에 있는 검색어가 포함된 문서는 제외 예1) (황금 !백금)
예2) !image
* 검색어의 *란에 0개 이상의 임의의 문자가 포함된 문서 검색 예) semi*
"" 따옴표 내의 구문과 완전히 일치하는 문서만 검색 예) "Transform and Quantization"
쳇봇 이모티콘
안녕하세요!
ScienceON 챗봇입니다.
궁금한 것은 저에게 물어봐주세요.

기계학습데이터 활용맵BETA

과학기술 분야의 기계학습 데이터 셋과 AI 연구와 관련된 데이터기반 활용 사이트를 안내합니다.

SUMMARY

기계학습 데이터 활용 현황

KISTI는 과학기술 분야의 글로벌 경쟁력 강화를 위해 고품질의 학술논문 원문을 인공지능(AI) 개발에 필수적인 AI 데이터로 대규모 구축하였으며, 이를 활용하여 ScienceON 서비스에 적용하였습니다.

과학기술 기계학습 데이터 개요 및 활용

데이터셋 개요 ScienceON 활용 활용 건수
논문 본문(전문) 텍스트 국내 논문 PDF 대상으로 메타데이터, 표/그림, 참고문헌 등을 제외한 본문(전문) 텍스트 정보를 기계학습이 가능한 형태로 구축 검색에서 검색 키워드가 출현한 본문내용을 확인하거나, 논문요약과 질의응답에서 스니펫을 구성하는데 전문 텍스트를 활용함 494,553건
보고서 표/그림 국가 R&D 보고서 원문에서 추출한 표/그림을 대상으로 연구보고서 본문에 있는 설명데이터를 추출하여 데이터베이스로 구축 ScienceON 통합검색에서 표/그림 검색 적용함 3,547,117건
논문 QA 국내 논문 중에서 한글 논문에 대한 기계 독해 과제를 위한 데이터로, 질의와 응답이 한 쌍으로 이루어진 데이터 논문 검색 결과 목록과 논문 상세페이지에서 QA정보를 제공하고, 논문 QA 검색 베타서비스에 적용함 276,642건
논문 문장 의미태깅 국내 논문의 연구목적, 연구방법, 연구결과에 대한 9가지 의미에 따라 문장을 선별하여 태깅 눈문 검색 결과 목록과 논문 상세페이지에서 본문에 대한 요약정보를 제공하고 AI 논문 요약 베타서비스에 활용함 155,767건

과학기술 기계학습 데이터셋 서비스 정보

md_icon01
JSON

국내 논문 전문
텍스트 데이터셋

md_icon01
JSON

국내 논문 QA
데이터셋

md_icon01
JSON

국내 논문 문장
의미태깅 데이터셋

md_icon01
JSONJPG

보고서 표/그림
데이터셋

md_icon01
JSONJPG

기관식별
데이터

논문 본문(전문) 텍스트

국내 논문 PDF 대상으로 메타데이터, 표/그림, 참고문헌 등을 제외한 본문(전문) 텍스트 정보를 기계학습이 가능한 형태로 구축하였습니다.


< PDF 형태의 논문 >
{
	"doc_id": "논문ID",
	"title": { "ko": "국문 제목", "en": "영문 제목" },
	"authors": "저자",
	"journal": { "ko": "국문 학술지/학술대회 제목", "en": "영문 학술지/학술대회 제목" },
	"year": "발행연도",
	"abstract": { "ko": "국문 초록", "en": "영문 초록" },
	"body_text": [
					{
						"section": "장, 절, 단락",
						"text": [ "해당 section의 텍스트" ]
					}
				],
	"ref_entries": {
					"FIGURE[id]": {"text": "그림 캡션","type": "figure"},
					"TABLE[id]": {"text": "표 캡션","type": "table"}
					}
}
			
< 논문 본문(전문) 텍스트 데이터 >

보고서 표/그림

국가 R&D 보고서 원문에서 추출한 표/그림을 대상으로 연구보고서 본문에 있는 설명데이터를 추출하여 데이터베이스로 구축하였습니다.

구분 가공방법
표(table)
설명데이터
  • 표정보와 보고서원문의 본문을 확인함
  • 해당 표에 대한 설명 부분을 검색하여 확인함
    • * “표-1과 같이”의 캡션의 문구를 확인함
    • * 캡션의 핵심단어를 본문에서 검색하여 확인함
    • * 표에 대한 설명이 본문에 존재하지 않는 경우는 표정보 내용에 있는 제목, 핵심문장, 핵심단어를 입력함
그림(figure)
설명데이터
  • 그림정보와 보고서원문의 본문을 확인함
  • 해당 그림에 대한 설명 부분을 검색하여 확인함
    • * “그림-1과 같이”의 캡션의 문구를 확인
    • * 캡션의 핵심단어를 본문에서 검색하여 확인함
    • * 그림에 대한 설명이 본문에 존재하지 않는 경우는 그림 내용에 있는 제목, 핵심문장, 핵심단어를 입력함

논문 QA 데이터

국내 논문 본문 텍스트로부터 구축 지침에 따라 난이도 하, 중, 상으로 질의응답 쌍 구축하였습니다.

난이도 질의응답 데이터 구축 지침
  • 자유롭게 질의응답 작성 가능
  • 핵심어휘와 응답이 한 문장(같은 문장) 또는 다른 문장에 존재 가능
  • 특정 핵심 어휘가 포함된 문장 내에서 답변이 가능한 질문
  • 핵심어휘와 응답이 한 문장(같은 문장) 내에 존재 해야 함
  • 특정 핵심 어휘가 포함되지 않은 다른 문장에서 답변이 가능한 질문
  • 핵심어휘와 응답이 다른 문장에 존재 해야 함
  • 응답과 응답을 포함하는 문장에 핵심어휘가 존재하면 안됨

논문 문장 의미태깅

연구목적, 연구방법, 연구결과의 총 3개의 대분류로 분류하고, 각 대분류 아래 9가지 유형의 의미 태그를 정의한 후,
논문의 각 문장을 정의한 의미에 따라 태깅하였습니다.

대분류 의미 태그 태그 의미 설명
연구 목적 문제 정의
  • 문제 정의는 “~을 해결하고자 한다.”와 같이 해결 대상을 표현하는 문장임
  • 서론의 시작이나 끝 문단, 혹은 결론의 도입 문장 등에서 자주 출현함
가설 설정
  • 가설은 방법을 제안하기 위해 가정한 제약이나 현상 등을 표현한 문장임
  • 일반적으로 문제 정의에서 설정된 문제를 현재 연구에서 확인하려는 구체적 대상을 열거 형태로 나열함
  • 일부 연구를 사전에 전체적인 제한하는 내용이 포함될 수 있음
연구 방법 제안 방법
  • 서론 또는 연구 배경에서 다른 연구와 다른 특징적으로 제시한 문장임
  • 기존 연구를 변형하거나 다양한 연구들을 조합한 경우도 해당됨
  • 방법 설명에서 전체 개요설명, 혹은 결론에서 제안방법 소개하는 문장이 대상임
대상 데이터
  • 연구의 주된 대상이 되는 데이터나, 연구에서 제안한 모델이나 방법을 검증하는데 활용된 데이터를 대상으로 함
  • 데이터의 수집 방법이나 출처를 설명한 문장
데이터 처리
  • 대상 데이터에 대해 논문의 연구 방법을 적용한 결과를 통계적으로 해석하거나 분석하기 위한 처리 방법을 정의한 문장임
  • 수집한 대상데이터의 속성을 파악하기 위한 통계적 분석 등도 포함될 수 있음
이론/모형
  • 연구에서 설정한 주된 문제나 목표를 해결하기 위해 알려진 이론이나 다른 연구자의 결과를 활용하는 내용을 포괄하는 문장임
  • 부분적인 활용은 대상이 아니며, 주요한 문제를 해결하는데 기존의 방법을 그대로 활용하는 경우에 한정함
연구 결과 성능/효과
  • “연구결과 ~ 으로 나타났다.”로 설명하는 문장임
  • 실험 결과를 수치적으로 보여주는 내용이나, 그 결과를 해석한 결과가 포함될 수 있음
  • 실험결과이나 결론에 제시된 문장을 선택함
후속연구
  • 연구의 한계와 확장을 위한 설명문임
  • 연구결과 활용을 위한 제안, 제시하는 문장도 해당됨
dataon

DataOn(국가연구데이터플랫폼)

국내외 연구데이터 정보를 체계적으로 공유·관리하고 검색·분석·활용을 지원하는 플랫폼

KISTI 기계학습 데이터 공유 활용 서비스

KISTI 기계학습 데이터 공유·활용 서비스

KISTI에서 구축한 과학기술 분야의 기계학습 데이터 공유/활용 서비스 제공

AI Hub

AI Hub

AI 기술 및 제품·서비스 개발에 필요한 AI 인프라(AI 데이터, AI SW API, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI 통합 플랫폼

kaggle

kaggle

데이터 기반 문제 해결을 위한 경쟁 플랫폼