[보고서]과학기술 텍스트 분석을 위한 지능 기술 연구

성원경

과학기술 텍스트 분석을 위한 지능 기술 연구
Research on Intelligent Technology for Scientific and Technical Text Analysis 원문보기

보고서 정보
주관연구기관	한국과학기술정보연구원 Korea Institute of Science and Technology Information
연구책임자	성원경
참여연구자	이민호 , 김은희 , 황명권 , 정유나 , 양동헌 , 조민수 , 조금원 , 이경하 , 박정현 , 유주연 , 이현아 , 신영호
보고서유형	연차보고서
발행국가	대한민국
언어	한국어
발행년월	2021-12
과제시작연도	2021
주관부처	과학기술정보통신부 Ministry of Science and ICT
등록번호	TRKO202300002666
과제고유번호	1711149544
사업명	한국과학기술정보연구원연구운영비지원(R&D)(주요사업비)
DB 구축일자	2023-07-20
키워드	언어모델.기계 독해.자연어 처리.딥러닝.정보 추출.Language model.Machine reading Comprehension.Natural Language Processing.Deep Learning.Information Extraction.

초록 ▼

III . 연구개발 결과
○ 과학기술 텍스트에 특화된 언어이해모델 개발
- 2021년 현재 SuperGLUE 3위의 성능으로 입증된 DeBERTa모델을 응용하여 과학기술 텍스트 이해에 특화된 언어모델을 개발함.
- 도메인 특정 언어모델에 적합하도록 과학기술 데이터 셋 중 CS(Computer Science) 요약문, CS(Computer Science)분야 전문, 과학기술 데이터셋 전체의 요약문들에 대해 각각 학습을 진행하여 개선사항을 확인함.

○ 자연어 처리 세부 테스크에서 SOTA 달성
- 2021년 12월 현재 paperswithcode의 리더보드에 공개된 SciERC 데이터 셋을 활용하고, NER, RE, Joint RE 세부 테스크 수행을 통한 성능 검증
- NER 테스크 결과 F1-Score 72.7% 성능으로 최신 SOTA 모델 spERT 대비 약 2.4% 포인트 우위를 보이며 1위 달성
- RE 테스크 결과 F1-Score 89.47% 성능으로 최신 SOTA 모델 SciBERT 대비 약 15% 포인트 우위를 보이며 1위 달성
- 개체명과 관계 동시에 추출하는 Joint RE(Joint Entity and Relation Extraction) 테스크에서 F1-Score 59.55%(RE 48.8%, NER 70.3%)로 4위 달성(SOTA 모델인 PL-Marker는 60.95%(RE 52.0%, NER 69.9%)

○ Word Sense Disambiguation Model 설계
- WSD 모델 설계를 위한 Neural Sequential Learning, 트랜스포머 언어모델 등 최신 딥러닝 기법에 대한 연구 수행
- WSD 테스크의 복잡도 해소를 위한 Sense Vocabulary Compression 기법, 분류 이진화화 기법 등 연구
- WSD 학습 성능 및 정확도 향상을 위한 Data Augmentation 기법, Negative Sampling 기법, 모델 일반화 능력 향상을 위한 모델 병렬화 기법 등 설계

○ 멀티홉 질의응답시스템 연구동향 조사
- 다중 문헌의 복합적인 이해와 추론이 가능한 Multi-Hop Q&A 연구 기획을 위한 최신 모델들과 벤치마킹 데이터셋 활용에 대한 연구 수행

(출처 : 요약 8p)

Abstract ▼

III. Research results
○ Language model for S&T textual data understanding
- Developed S&T text understanding language model. We used DeBERTa which is the third highest performance model in SuperGLUE, 2021.
- In order to fit the S&T-specific language model, we trained the model with the training data such as Computer Science documents (abstracts and full texts) and the summary of the entire S&T dataset.

○ SOTA achievement in NLP tasks
- We used the SciERC data set published on the leaderboard of paperswithcode as of December 2021, and verified the performance in the tasks such as NER, RE, and Joint RE.
- As a result of the NER task, we attained SOTA performance with F1-Score 72.7% which showed about 2.4% point higher than the latest SOTA model, spERT.
- As a result of the RE task, we attained SOTA performance with F1-Score 89.47%, which showed about 15% points higher than the latest SOTA model, SciBERT.
- As a result of Joint RE task, we attained the 4th place with F1-Score 59.55% (RE 48.8%, NER 70.3%) which showed about 1.4% point less than the current SOTA model, PL-Marker with 60.95% (RE 52.0%, NER 69.9%).

○ Word Sense Disambiguation Model design
- Conducting research on the latest deep learning techniques such as Neural Sequential Learning and transformer language model for WSD model design.
- Research on Sense Vocabulary Compression and classification binarization techniques for resolving the complexity of WSD tasks.
- Design new models by using data augmentation, negative sampling, model parallelization technique to improve learning performance, accuracy, generalization ability, etc.

○ Research on multi-hop Q&A system
- Research on the latest models and benchmarking datasets for multi-hop Q&A research that enables complex understanding and reasoning of multiple documents.

(source : Summary 13p)

목차 Contents

표지 ... 1
제 출 문 ... 2
연차보고서 초록 ... 3
요 약 문 ... 5
요 약 ... 7
Summary ... 11
Contents ... 16
목차 ... 17
표목차 ... 18
그림목차 ... 19
1장. 연구개발과제의 개요 ... 23
제1절. 연구 목적 및 필요성 ... 23
제2절. 연구내용 및 범위 ... 25
제3절. 추진 전략 ... 27
2장. 국내외 기술개발 현황 ... 28
제1절. 트랜스포머 기반 최신 언어모델 기법 분석 ... 28
제2절. 단어의미식별(Word Sense Disambiguation) 연구개요 및 동향 ... 76
제3절. 멀티홉 질의응답시스템의 연구동향 ... 80
3장. 연구개발과제 수행 과정 및 수행 내용 ... 83
제1절. 과학기술 이해 언어모델 개발과 자연어 처리 성능향상을 위한 연구 ... 83
제2절. Word Sense Disambiguation Model 설계 ... 134
제3절. 멀티홉 질의응답시스템 연구동향 조사 ... 146
4장. 연구개발과제의 수행 결과 및 목표 달성정도 ... 153
제1절. 정량 성과 ... 153
제2절. 정성 성과 ... 155
5장. 연구개발결과의 활용계획 ... 158
제1절. 주요 성과 ... 158
제2절. 활용 계획 ... 159
6장. 다음 연도 연구개발계획 ... 161
7장. 참고문헌 ... 162
끝페이지 ... 170

표/그림 (141)

표 과학기술 텍스트 이해 모델 개발 연구 개요도
표 n-gram 모델과 RNN 기반 모델의 비교
표 테스크 전용 모델(좌)과 범용 언어모델(우)
표 워드임베딩에서 문맥벡터로의 발전
표 워드임베딩(Word2Vec)과 범용언어모델(BERT)의 속성 비교
표 2021년 12월 현재 GLUE 벤치마크 리더보드
표 2021년 12월 현재 SuperGLUE 벤치마크 리더보드
표 언어모델들의 크기 비교 [Ilharco2020a]
표 분야별 모델 크기와 그 손실값 [Henighan2020a]
표 언어모델의 개괄적 분류 [Zhang2020a]
표 트랜스포머의 어텐션 구조의 효율화 연구 진행 [Ilharco2020a]
표 서로 다른 어텐션 구조 간의 성능 및 속도 비교 [Tay2021a]
표 가지치기 기법 개요 [Han2015]
표 복권 가설을 이용한 가지치기의 과정 [Frankle2019]
표 가지치기를 위한 마스크 M의 도입[Frankle2019]
표 인코더-디코더 모델 [Cho2014b]
표 Bahdanau 등의 어텐션 구조[Bahdanau2015a]
표 트랜스포머 인코더-디코더구조[Alammar2018a]
표 포지셔널 인코딩 예시
표 트랜스포머 모델의 기본 구조
표 student 토큰의 K, Q, V 벡터 연산 과정
표 스케일드 닷 프로덕트 어텐션 벡터 연산
표 스케일드 닷 프로덕트 어텐션 행렬 곱 연산
표 멀티헤드 어텐션[유원준2021]
표 룩 어헤드 마스킹의 예시 [유원준2021
표 GPT-3 모델들의 크기, architecture, learning hyper-parameter들
표 BERT Pre-training 모델의 입력/출력 구조
표 affix-와 빈도 기반 흔하지 않은 단어 (위) -word1, 샘플 단어 쌍(아래) - word2
표 “Hello World” 문장을 여러 subword sequence로 표현하는 예시
표 ALBERT의 계층별 L2 거리와 코사인 유사도 [Lan2020]
표 NSP와 SOP 테스크의 비교 [Lan2020]
표 SpanBERT에서의 사전학습 방법 예시 [Joshi2020]
표 StructBERT의 2개의 추가 학습 테스크 [Wang2020c]
표 GLUE 벤치마크 결과 [Wang2020c]
표 BERT ADAM 알고리즘
표 DeBERTa 모델 아키텍처 [He2021]
표 동일한 단어 조합이 문장 내 위치가 다른 경우의 입력 예제
표 Standard self-attention 연산과 DeBERTa self-attention 연산 입력 형태의 차이
표 DeBERTa self-attention operation의 query, key, value
표 Disentangled attention mechanism
표 Standard attention mechanism과 disentangled attention mechanism의 연산 과정 비교 예제
표 Disentangled attention mechanism에서 고려되는 4가지 attention 요소
표 토큰 간 relative distance 계산의 예제
표 희소 어텐션을 구성하는 대표적인 원소 패턴들의 행렬 [Lin2021]
표 어텐션 모듈을 개선한 트랜스포머 모델들의 성능 비교 [Tay2021a]
표 Long Range Arena 벤치마크 기준 트랜스포머 논문들의 성능 비교
표 완전 트랜스포머와 인수 분해된 어텐션 기반의 희소 트랜스포머 연산 비교 [Child2019]
표 Big Bird모델의 어텐션 결합 [Zaheer2020]
표 Linformer에서 저순위 근사화를 적용한 근거가 된 셀프 어텐션 행렬 분석 [Wang2020b]
표 Linformer의 셀프 어텐션 연산 구조 [Wang2020b]
표 일반 도메인과 도메인 특화 언어모델의 사전학습 및 파인 튜닝 과정
표 서로 다른 도메인 간 vocabulary overlap (%) [Gururangan2020]
표 일반 도메인과 목표 (테스크) 도메인 영역
표 적응형 사전학습 단계의 다단계 수행 구조
표 목표 도메인 내 테스크 도메인 간 분포 차이
표 벤치마킹 데이터셋에 따른 SOTA(State-Of-The-Art) WSD 모델 (2021.11.30. 기준)
표 Attention을 적용한 Bidirectional LSTM 모델 구조도
표 WordNet의 상하위 관계를 이용하여 mouse#1(설치류), mouse#4(전자기기)를 living_thing#1과 artifact#1로 압축하는 예제
표 트랜스포머 모델에 WordNet Gloss를 입력으로 Span Prediction을 수행하는 ESC 기법 구조도
표 HotpotQA의 질의응답 예제
표 각 모델별 사전학습용 코퍼스 비교
표 사전학습 언어모델의 biomedical 분야 테스크별 성능 비교 표 [Gu2020]
표 PubMedBERT의 학습 데이터 형태(abstract, abstract+full-text)에 따른 성능 비교 결과 [Gu2020]
표 BioBERT모델의 사전학습 코퍼스 및 step 수와 Biomedical 분야 NER 테스크 성능 측정 결과 [Lee2020]
표 논문 데이터 연구 분야 분포
표 PubMedBERT의 vocab과 사전학습 방법에 따른 성능 차이 비교 [Gu2020]
표 위키피디아 Rule-based machine translation 문서 예제
표 용어가 제거된 위키피디아 Rule-based machine translation 문서 예제
표 마인드맵 예제 (검정색 노드: 자연어처리 분야의 “기술”에 대한 개념, 녹색: “데이터"에 대한 개념)
표 용어의 의미적 분류와 그 예제
표 주석 의사결정을 위한 더 세분화된 예제
표 주석 예제 1
표 주석 예제 2
표 주석 예제 3
표 주석 예제 4
표 주석 예제 5
표 Compare 관계의 빈도수 분석
표 Feature-Of 관계의 빈도수 분석
표 Evaluate-For 관계의 빈도수 분석
표 Hyponym-of 관계의 빈도수 분석
표 Part-Of 관계의 빈도 수 통계 분석
표 USED-FOR 관계의 빈도수 분석
표 상호 참조 (Coref) 관계의 빈도수 분석
표 비전분야 딥뉴럴 네트워크의 표현 학습[LEE2009]
표 언어모델 분야 딥 뉴럴 네트워크의 표현 학습
표 재초기화를 통한 학습 손실로 확인되는 과적합 해소 효과
표 계층별 재초기화를 통한 NER 테스크 성능 변화
표 계층별 재초기화를 통한 RE 테스크 성능 변화
표 학습데이터에 따른 모델의 성능 변화
표 대소문자 구분에 따른 성능 변화
표 roberta base 모델과 large모델의 architecture 차이
표 SciERC 데이터셋 IE 테스크에 대한 모델 크기에 따른 성능 비교
표 학습 방법 및 데이터셋 크기 변화에 따른 성능 변화
표 Optimizer변화에 따른 정보추출 파인튜닝 테스크 성능 비교
표 딥러닝 모델 optimizer의 발전 과정
표 Momentum 기법(위)와 NAG(아래) 기법의 비교
표 Adam optimizer 알고리즘
표 AdamW optimizer 알고리즘
표 RAdam optimizer 알고리즘
표 AdamP optimizer 알고리즘
표 DYGIE++ framework
표 개체명 인식 F1 점수
표 관계추출 F1점수
표 Dygie++ 모델의 성능 개선 (타겟 : JRE )
표 Dygie++ 모델의 성능 개선 (타겟 : NER )
표 Standard span-based model의 entity model 구조[Zhong2021]
표 PURE relation model 입력 형태
표 PURE approximation model의 입력 형태
표 PL-Marker entity model의 입력 형태
표 PL-Marker relation moel의 입력 형태
표 CS분야 특화 언어모델 학습 과정
표 WSD 테스크를 위한 Bidirectional LSTM 기반의 Neural Sequence Learning Model 구조도
표 WSD 테스크를 위한 Attention 층을 추가한 Bidirectional LSTM 기반의 Neural Sequence Learning Model 구조도
표 WSD 테스크를 위한 Attention 층을 추가한 인코더-디코더 기반의 Neural Sequence Learning Model 구조도
표 WSD 테스크를 위한 Attention 층을 추가한 인코더-디코더 기반의 Neural Sequence Learning Model 구조도
표 Neural Sequence Learning Model을 이용한 WSD 테스크의 성능 비교
표 BERT 모델을 활용한 GlossBERT 구조도
표 GlossBERT에 입력되는 문장 형식 (상단은 문맥 문장과 정의 문장 페어를 입력, 하단은 타깃 단어를 하이라이팅하고, 정의 문장에 한번 더 입력하는 Weak Supervision 적용)
표 WSD 벤치마킹 데이터 셋을 활용한 성능 비교 결과
표 워드넷 센스를 신셋 번호로 압축하는 방법 개요도
표 워드넷의 상하위 개념 관계를 이용한 압축 방식
표 Sense Vocabulary Compression 방법을 통한 압축률
표 Sense Vocabulary Compression 방법의 성능 비교
표 Extractive Sense Comprehension 방법 개요도
표 Extractive Sense Comprehension 방법의 성능 비교
표 워드넷에 정의된 개념 관계망 예제 (motor vehicle#1을 중심으로)
표 개념 관계망에서 3-Distance를 이용한 확장 예제 (motor vehicle#1을 중심으로)
표 기존의 언어모델 활용을 위한 직렬 구조 (하나의 모델을 최종 테스크에 최적화 되도록 학습)
표 다수의 모델을 동시에 활용하기 위한 병렬 구조 예시
표 QAngaroo의 질문/답변 예시
표 QAngaroo 리더보드 (2021년 12월)
표 HotpotQA 리더보드 (2021년 12월)
표 BigBird의 어텐션 메카니즘
표 Blockifying과 복제 및 롤링을 사용하여 구현한 윈도우 어텐션 계산 과정
표 트랜스포머기반의 여러 모델들의 LRA 스코어
표 SAE 시스템 구조
표 SAE 문서 선택 모듈의 구조
표 SAE에서 사용한 그래프
표 HopRetriever의 질문에 대한 답변 추출 과정
표 RNN을 사용한 HopRetriever의 문서 선택 과정
표 질의 형태별 멘션임베딩과 문서임베딩의 가중치 비교

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

과학기술 텍스트 분석을 위한 지능 기술 연구
Research on Intelligent Technology for Scientific and Technical Text Analysis 원문보기