보고서 정보
주관연구기관 |
한국과학기술정보연구원 Korea Institute of Science and Technology Information |
연구책임자 |
김재수
|
참여연구자 |
강주연
,
공혜수
,
김도균
,
김민석
,
김병규
,
김재훈
,
노대경
,
문태경
,
박지영
,
서동민
,
설재욱
,
선충녕
,
송중석
,
신동구
,
신진섭
,
윤민섭
,
윤영준
,
윤화묵
,
이선희
,
이정훈
,
임석종
,
정찬웅
,
최광남
,
최재경
,
최현진
,
한만호
,
한문희
,
현미환
,
황미녕
,
황혜경
,
고성석
,
이선영
|
보고서유형 | 1단계보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2020-12 |
과제시작연도 |
2020 |
주관부처 |
과학기술정보통신부 Ministry of Science and ICT |
연구관리전문기관 |
한국과학기술정보연구원 Korea Institute of Science and Technology Information |
등록번호 |
TRKO202100005917 |
과제고유번호 |
1711121955 |
사업명 |
한국과학기술정보연구원연구운영비지원(R&D)(주요사업비) |
DB 구축일자 |
2021-07-03
|
키워드 |
기계학습.AI 학습데이터.라벨링.개체 식별.AI 교육.Machine Learning.AI Training Data.Labelling.Entity Identification.AI Education.
|
초록
▼
[주요내용]
○ 논문 본문 텍스트 구축
국내 학술논문 PDF를 기계학습이 가능한 텍스트 형태로 구축
○ 보고서 표/그림 텍스트 구축
본문에서 표/그림 설명 텍스트 구축
○ 기관 식별데이터 구축
논문, 보고서, 특허에서 저자의 소속기관명 식별데이터 구축
○ 질의응답 셋 구축
한글 논문에서 질의응답 쌍 구축
○ 논문 문장 태깅
국내 학술논문의 연구목적, 연구방법, 연구결과 등 문장 태깅 데이터 구축
[우수성과]
○ 최대 4백 25만여건의 과학기술 기계학습 데이터 구
[주요내용]
○ 논문 본문 텍스트 구축
국내 학술논문 PDF를 기계학습이 가능한 텍스트 형태로 구축
○ 보고서 표/그림 텍스트 구축
본문에서 표/그림 설명 텍스트 구축
○ 기관 식별데이터 구축
논문, 보고서, 특허에서 저자의 소속기관명 식별데이터 구축
○ 질의응답 셋 구축
한글 논문에서 질의응답 쌍 구축
○ 논문 문장 태깅
국내 학술논문의 연구목적, 연구방법, 연구결과 등 문장 태깅 데이터 구축
[우수성과]
○ 최대 4백 25만여건의 과학기술 기계학습 데이터 구축
○ 코로나 이후 경제 상황에 대비한 대규모 공공인프라 사업을 통한 비대면 일자리 창출(2,000명)
○ 기계학습 데이터 구축 과정에 크라우드소싱 방법을 적용
[기대효과]
○ (연구) 과학기술 분야 지식자원의 지능적 연계 및 융합 연구 지원
○ (정책) 국가 과학기술력 제고를 위한 국가 R&D 정책 수립 시 의사결정 지원
○ (산업) 4차 산업혁명을 선도하기 위한 과학기술 발전과 중소기업 기술 혁신을 위한 의사결정 및 기술 사업화 지원
(출처 : 초록 4p)
Abstract
▼
Ⅳ. Result of R&D
1. Construction of S&T Machine learning data & System Development
1) Construction of S&T Machine learning data
❍ Construction of Article full-text data:502,087(Construct)/236,701(Review)
❍ Construction of Report Table/Figure Explanation text data
:3,201,938(Construct
Ⅳ. Result of R&D
1. Construction of S&T Machine learning data & System Development
1) Construction of S&T Machine learning data
❍ Construction of Article full-text data:502,087(Construct)/236,701(Review)
❍ Construction of Report Table/Figure Explanation text data
:3,201,938(Construct)/2,356,183(Review)
❍ Construction of Institution Identification data:214,782(Construct)/208,218(Review)
❍ Construction of Question and Answering data:242,211(Construct)/239,182(Review)
❍ Construction of Sentence Semantic Tagging data
:563,249(Construct)/124,087(Review)
2) S&T Machine learning data construction and operation system development
❍ Developing a crowdsourcing-based machine learning data construction and operation system (5 types)
- Article full-text data construction and operation
- Report Table/Figure Explanation text data construction and operation
- Institution Identification data construction and operation
- Question and Answering data construction and operation
- Sentence Semantic Tagging data construction and operation
❍ Main functions of Machine learning data construction and operation system
- Constructor/Reviewer/Inspector function
• Crowdsourcing-based data construction/review/review function
• Data return/hold/recover function
• Daily report creation function (number of construction/number of review/work time/away check function)
- Manager function
• User management function (inquiry/register/edit/delete)
• Work distribution function for each constructor (work assignment/recovery)
• Constructor time and attendance management function (attendance, lateness, vacation, warning)
• Construction performance inquiry function (compared to target, period, by construction person)
• Data management function (inquiry/register/modify/delete)
• Function to query the status of the innocent builder
- Common function
• Notice inquiry/registration function
• FAQ inquiry/registration function
• Constructor/Inspector 1:1 consultation function
• Inspector/builder message function
3) Research on S&T Machine learning data Construction and Application
❍ Performance Indicators Development of S&T Machine Learning Learning Data Construction Project
- Performance indicators and frames were derived through previous studies, FGI, expert opinions and survey results.
- As for the final performance indicator, 11 indicators were derived from 5 items and 11 indicators consist of 15 detailed indicators.
❍ Impact Analysis and Utilization of Machine Learning Data
- Based on the data utilization process of key stakeholders, key performance indicators are derived, and quantitative indicators and calculation formulas that can quantitatively measure performance indicators are defined.
- the economic effects of the next five years (2025) were analyzed by selecting five indicators of benefit using quantitative indicators and three indicators of project benefit.
- A specialized utilization scenario for machine learning data established in this project was developed using form analysis methodologies. In this study, we developed utilization scenario including AI teachers in education, a platform for discovering new drug candidate materials and a platform for rehabilitation.
2. Creation of educational content and operation of educational programs
1) Creation and management of educational content
❍ Creation of educational video content for science and technology machine learning data construction business
❍ 11th (10 cases) production of data construction contents by 5 subdivisions and 5th (5 cases) production of demonstration video contents of construction system
❍ Produce imitative content for each subdivision in order to utilize the system built for the science and technology machine learning data construction project
2) Results of the operation of the science and technology machine learning data construction program
❍ Create a more familiar environment for participants to understand and participate in projects through various education programs divided into three categories: self-discipline production content, elementary education, and legal requirements
❍ 15,083 courses (33,946th), and 13,856 courses (110,848th) are provided for elementary education.
❍ The independently produced data construction education offers 15,534 classes (16,856). Combined, 44,473 courses (161,650th) will be offered, and the number of students will reach about 3,590.
3) Improvement of business efficiency by providing education notification through automated operation system and operating a dedicated call center to eliminate the inconvenience of online education
3. Creation of 2,000 jobs due to the growing number of young people
1) Achieved 153% of job creation targets through innovation in recruitment procedures such as AI selection
❍ Additional recruitment was made in comparison to the target, considering the high rate of applicants and the number of people who left the company. The number of applicants and qualifications were subdivided according to the field, andcustomized applicants were invited.
❍ Create 3,065 jobs, 153% of the original target, and execute about 24.5 billion won in total labor costs through additional recruitment after grasping the size of the vacancies every month
2) Employment service management and personnel management for 2,000 young people
❍ Strict attendance management is carried out to improve data quality and attendance management is carried out on a daily basis using the management system built for this purpose.
❍ 5 warnings cannot be re-signed the following month, 6 warnings cannot be cancelled immediately due to service management, etc.
❍ Intentional obstruction of work, neglect of work, cursing, etc. are subject to strong service management.
(출처 : SUMMARY 14p)
목차 Contents
- 표지 ... 1
- 제출문 ... 3
- 보고서 초록 ... 4
- 요약문 ... 5
- SUMMARY ... 11
- CONTENTS ... 19
- 목차 ... 21
- 표목차 ... 23
- 그림목차 ... 25
- 제1장 연구개발과제의 개요 ... 30
- 제1절 목적 및 필요성 ... 30
- 제2절 목표 및 내용 ... 33
- 1. 연구개발과제의 목표 ... 33
- 2. 연구개발과제의 내용 ... 34
- 3. 추진전략 및 방법 ... 37
- 4. 기대효과 ... 39
- 제2장 국내외 기술개발 현황 ... 41
- 제1절 국내현황 ... 41
- 제2절 해외현황 ... 42
- 제3장 연구개발 수행 내용 및 결과 ... 44
- 제1절 과학기술 기계학습 데이터 구축 및 시스템 개발 ... 44
- 1. 과학기술 기계학습 데이터 구축 ... 44
- 2. 과학기술 기계학습 데이터 구축 운영 시스템 개발 ... 80
- 3. 과학기술 기계학습 데이터 구축 및 활용 연구 ... 120
- 제2절 교육콘텐츠 제작 및 교육프로그램 운영 ... 134
- 1. 과학기술 기계학습 데이터 구축을 위한 교육 콘텐츠 관리 운영 ... 134
- 2. 과학기술 기계학습 데이터 구축을 위한 교육 콘텐츠 제작 ... 135
- 3. 과학기술 기계학습 데이터 구축을 위한 교육 콘텐츠 LMS운영 ... 139
- 제3절 청년층 비대면 일자리 창출(2,000개 이상) ... 141
- 1. 과학기술기계학습데이터 특성에 맞는 고유의 채용모델 수립 ... 141
- 2. 과학기술기계학습데이터 참여자를 위한 관리 모델 수립 및 시행 ... 143
- 제4장 목표달성도 및 관련 분야에의 기여도 ... 149
- 제1절 연구개발 목표의 달성도 ... 149
- 1. 과학기술 콘텐츠 구축 및 시스템 개발 ... 149
- 2. 교육 콘텐츠 제작 및 교육프로그램 운영 ... 151
- 3. 청년층 비대면 일자리 2,000개 창출 ... 152
- 제2절 관련 분야 기여도 ... 154
- 제5장 연구개발결과의 활용계획 ... 156
- 제6장 참고문헌 ... 159
- 부록1. 언론보도 현황 (108건) ... 160
- 끝페이지 ... 162
※ AI-Helper는 부적절한 답변을 할 수 있습니다.