
국내 논문 전문
텍스트 데이터셋
검색연산자 | 기능 | 검색시 예 |
---|---|---|
() | 우선순위가 가장 높은 연산자 | 예1) (나노 (기계 | machine)) |
공백 | 두 개의 검색어(식)을 모두 포함하고 있는 문서 검색 | 예1) (나노 기계) 예2) 나노 장영실 |
| | 두 개의 검색어(식) 중 하나 이상 포함하고 있는 문서 검색 | 예1) (줄기세포 | 면역) 예2) 줄기세포 | 장영실 |
! | NOT 이후에 있는 검색어가 포함된 문서는 제외 | 예1) (황금 !백금) 예2) !image |
* | 검색어의 *란에 0개 이상의 임의의 문자가 포함된 문서 검색 | 예) semi* |
"" | 따옴표 내의 구문과 완전히 일치하는 문서만 검색 | 예) "Transform and Quantization" |
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기과학기술 분야의 기계학습 데이터 셋과 AI 연구와 관련된 데이터기반 활용 사이트를 안내합니다.
KISTI는 과학기술 분야의 글로벌 경쟁력 강화를 위해 고품질의 학술논문 원문을 인공지능(AI) 개발에 필수적인 AI 데이터로 대규모 구축하였으며, 이를 활용하여 ScienceON 서비스에 적용하였습니다.
데이터셋 | 개요 | ScienceON 활용 | 활용 건수 |
---|---|---|---|
논문 본문(전문) 텍스트 | 국내 논문 PDF 대상으로 메타데이터, 표/그림, 참고문헌 등을 제외한 본문(전문) 텍스트 정보를 기계학습이 가능한 형태로 구축 | 검색에서 검색 키워드가 출현한 본문내용을 확인하거나, 논문요약과 질의응답에서 스니펫을 구성하는데 전문 텍스트를 활용함 | 494,553건 |
보고서 표/그림 | 국가 R&D 보고서 원문에서 추출한 표/그림을 대상으로 연구보고서 본문에 있는 설명데이터를 추출하여 데이터베이스로 구축 | ScienceON 통합검색에서 표/그림 검색 적용함 | 3,547,117건 |
논문 QA | 국내 논문 중에서 한글 논문에 대한 기계 독해 과제를 위한 데이터로, 질의와 응답이 한 쌍으로 이루어진 데이터 | 논문 검색 결과 목록과 논문 상세페이지에서 QA정보를 제공하고, 논문 QA 검색 베타서비스에 적용함 | 276,642건 |
논문 문장 의미태깅 | 국내 논문의 연구목적, 연구방법, 연구결과에 대한 9가지 의미에 따라 문장을 선별하여 태깅 | 눈문 검색 결과 목록과 논문 상세페이지에서 본문에 대한 요약정보를 제공하고 AI 논문 요약 베타서비스에 활용함 | 155,767건 |
국내 논문 전문
텍스트 데이터셋
국내 논문 QA
데이터셋
국내 논문 문장
의미태깅 데이터셋
보고서 표/그림
데이터셋
기관식별
데이터
국내 논문 PDF 대상으로 메타데이터, 표/그림, 참고문헌 등을 제외한 본문(전문) 텍스트 정보를 기계학습이 가능한 형태로 구축하였습니다.
{ "doc_id": "논문ID", "title": { "ko": "국문 제목", "en": "영문 제목" }, "authors": "저자", "journal": { "ko": "국문 학술지/학술대회 제목", "en": "영문 학술지/학술대회 제목" }, "year": "발행연도", "abstract": { "ko": "국문 초록", "en": "영문 초록" }, "body_text": [ { "section": "장, 절, 단락", "text": [ "해당 section의 텍스트" ] } ], "ref_entries": { "FIGURE[id]": {"text": "그림 캡션","type": "figure"}, "TABLE[id]": {"text": "표 캡션","type": "table"} } }< 논문 본문(전문) 텍스트 데이터 >
국가 R&D 보고서 원문에서 추출한 표/그림을 대상으로 연구보고서 본문에 있는 설명데이터를 추출하여 데이터베이스로 구축하였습니다.
구분 | 가공방법 |
---|---|
표(table) 설명데이터 |
|
그림(figure) 설명데이터 |
|
국내 논문 본문 텍스트로부터 구축 지침에 따라 난이도 하, 중, 상으로 질의응답 쌍 구축하였습니다.
난이도 | 질의응답 데이터 구축 지침 |
---|---|
하 |
|
중 |
|
상 |
|
연구목적, 연구방법, 연구결과의 총 3개의 대분류로 분류하고, 각 대분류 아래 9가지 유형의 의미 태그를 정의한 후,
논문의 각 문장을 정의한 의미에 따라 태깅하였습니다.
대분류 | 의미 태그 | 태그 의미 설명 |
---|---|---|
연구 목적 | 문제 정의 |
|
가설 설정 |
|
|
연구 방법 | 제안 방법 |
|
대상 데이터 |
|
|
데이터 처리 |
|
|
이론/모형 |
|
|
연구 결과 | 성능/효과 |
|
후속연구 |
|