[논문]BERT 모델과 지식 그래프를 활용한 지능형 챗봇

유소엽; 정옥란

doi:10.7838/jsebs.2019.24.3.087

BERT 모델과 지식 그래프를 활용한 지능형 챗봇
An Intelligent Chatbot Utilizing BERT Model and Knowledge Graph 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.24 no.3, 2019년, pp.87 - 98

유소엽 (Department of Software, Gachon University) , 정옥란 (Department of Software, Gachon University)

초록
AI-Helper

인공지능이 활발하게 연구되면서 이미지, 영상, 자연어 처리와 같은 다양한 분야에 적용되고 있다. 특히 자연어 처리 분야는 사람이 말하고 쓰는 언어들을 컴퓨터가 이해할 수 있도록 하기 위한 연구들이 진행되고 있고 인공지능 기술에서 매우 중요한 영역 중 하나로 여겨진다. 자연어 처리에서 컴퓨터에게 사람의 상식을 이해할 수 있도록 학습시키고 사람의 상식을 기반으로 결과를 생성하도록 하는 것은 복잡하지만 중요한 기술이다. 단어들의 관계를 이용해 연결한 지식 그래프는 컴퓨터에게 쉽게 상식을 학습시킬 수 있다는 장점이 있다. 하지만 기존에 고안된 지식 그래프들은 특정 언어나 분야에만 집중해 구성되어 있거나 신조어 등에는 대응하지 못하는 한계점을 갖고 있다. 본 논문에서는 실시간으로 데이터를 수집 및 분석하여 자동으로 확장 가능한 지식 그래프를 구축하고, 이를 기반 데이터로 활용하는 챗봇 시스템을 제안하고자 한다. 특히 자동 확장 그래프에 BERT 기반의 관계 추출 모델을 적용시켜 성능을 향상시키고자 한다. 자동 확장 지식 그래프를 이용해 상식이 학습되어 있는 챗봇을 구축하여 지식 그래프의 활용 가능성과 성능을 검증한다.

Abstract ▼ AI-Helper

As artificial intelligence is actively studied, it is being applied to various fields such as image, video and natural language processing. The natural language processing, in particular, is being studied to enable computers to understand the languages spoken and spoken by people and is considered one of the most important areas in artificial intelligence technology. In natural language processing, it is a complex, but important to make computers learn to understand a person's common sense and generate results based on the person's common sense. Knowledge graphs, which are linked using the relationship of words, have the advantage of being able to learn common sense easily from computers. However, the existing knowledge graphs are organized only by focusing on specific languages and fields and have limitations that cannot respond to neologisms. In this paper, we propose an intelligent chatbotsystem that collects and analyzed data in real time to build an automatically scalable knowledge graph and utilizes it as the base data. In particular, the fine-tuned BERT-based for relation extraction is to be applied to auto-growing graph to improve performance. And, we have developed a chatbot that can learn human common sense using auto-growing knowledge graph, it verifies the availability and performance of the knowledge graph.

주제어

표/그림 (8)

그림 System Architecture
그림 Relation Extraction Using BERT
그림 Flow of Extracting New Relations and Expanding Knowledge Graph
표 Dataset
표 Comparison Results on Relation Extraction
그림 Conversation Example using Chatbot (Question: What is a car?)
그림 Conversation Example using Chatbot (Question: What car has?)
그림 Conversation Example using Chatbot (Question: What is selfie?)

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 실시간으로 데이터를 수집, 분석하여 새로운 관계들을 추출하고 기존 그래프에 연결함으로써 자동으로 확장 가능한 지식 그래프를 제안한다. 또한 제안하는 자동 확장 지식 그래프를 기반으로 챗봇 시스템을 설계 및 구현하여 지식 그래프의 활용 가능성을 검증하고자 한다.
하지만 기존의 지식 그래프들은 특정 언어나 분야에만 집중되어 있거나 신조어에 대응하지 못하는 한계점을 갖고 있다. 본 논문에서는 실시간으로 데이터를 수집, 분석하여 새로운 관계들을 추출하고 기존 그래프에 연결함으로써 자동으로 확장 가능한 지식 그래프를 제안한다. 또한 제안하는 자동 확장 지식 그래프를 기반으로 챗봇 시스템을 설계 및 구현하여 지식 그래프의 활용 가능성을 검증하고자 한다.
본 논문에서는 인간과 대화하는 챗봇에 인간의 상식을 이해하는데 도움을 줄 수 있는 지식 그래프를 적용하여 컴퓨터에게 일반적인 지식, 상식을 학습시키고자 한다. 기존 지식 그래프의 한계점을 개선하고 효율적으로 데이터를 처리하고 분석하기 위해 실시간 빅데이터 분석 및 예측 시스템인 Polaris[17]를 기반으로 한다.
본 논문에서는 자동으로 확장되는 BERT 기반의 지식 그래프를 구축하고 적용한 지능형 챗봇을 제안한다. 자동 확장 지식 그래프가 기존 지식 그래프와 달리 언어 종속성이 없고 신조어에도 대응 가능하며 다양한 활용성이 있다는 것을 실험과 구현을 통해 검증했다.

제안 방법

또한 지식 그래프에 활용하기 위해 TACRED 데이터셋을 이용해 모델을 학습시킨다. TACRED를 각각 약 65%, 20%, 15%로 학습(train), 검증(dev), 테스트 (test) 셋을 분리하여 실험한다.
[Figure 2]는 제안하는 관계 추출 모델의 입력과 출력을 보여준다. 관계 추출 모델의 학습을 위해서 BERT 모델에 입력값으로 문장을 입력할 때 TACRED에서 제공해 주는 주어와 목적어를 전체 문장 뒤에 연결한다. 하나의 문장으로 연결하여 BERT 모델에 인풋으로 하고, 최종적으로 나오는 아웃풋, 즉 라벨을 관계로 한다.
우리는 자동 확장 지식 그래프의 검증을 위해 12개의 계층으로 구성되어 있고, 768개의 히든 유닛, 그리고 12개의 헤드로 구성된 대소문자 구별이 가능하고 104개의 언어를 지원하는 ‘BERT-Base, Multilingual Cased’ 모델을 실험에 이용한다. 또한 지식 그래프에 활용하기 위해 TACRED 데이터셋을 이용해 모델을 학습시킨다. TACRED를 각각 약 65%, 20%, 15%로 학습(train), 검증(dev), 테스트 (test) 셋을 분리하여 실험한다.
자동 확장 지식 그래프는 기존 지식 그래프의 한계를 개선하기 위해 분석 대상이 되는 데이터 소스를 확장한다. 실시간으로 뉴스, 소셜 미디어 등의 데이터를 수집하고, 수집된 데이터를 분석해 단어와 단어 사이의 관계를 추출한다. 추출된 단어, 관계 쌍은 기존의 지식 그래프에 존재하는지 확인하여 없을 경우 추가함으로써 그래프를 자동으로 확장해 나간다.
실시간으로 수집되는 트위터와 뉴스 데이터에서 핵심 키워드들을 수집하고 키워드가 포함되어 있는 문장들을 추출해 관계를 추출한다. 관계 추출을 위해서 BERT를 기반으로 TACRED 데이터를 이용해 조정된 딥러닝 모델을 이용한다.
[Figure 3]은 BERT 모델을 이용해 새로운 관계를 추출하고 추출된 관계를 기존의 지식 그래프에 확장하는 방법을 보여준다. 실시간으로 수집한 트위터, 뉴스 데이터로부터 키워드를 추출하고 키워드가 포함된 문장을 관계 추출을 위해 TACRED 데이터셋을 기반으로 미세 조정된 BERT 모델에 입력한다. 모델은 입력된 문장에 대해 새로운 관계를 예측해서 보여주고, 이 결과를 기반으로 기존 지식 그래프와 매칭되는 노드를 찾아 연결한다.
제안하는 자동 확장 지식 그래프는 새로운 데이터로부터 새로운 관계를 찾아내 그래프로 만드는 것이 매우 중요하다. 우리는 사전 학습된 BERT 모델을 관계 추출에 적합하도록 TACRED 데이터셋을 이용해 학습시키고 관계 추출을 위한 딥러닝 모델을 구축한다. 모델 구축을 위해 Google colab의 TPU 환경을 이용한다.
특히 최근 자연어 처리 분야에서 높은 성능을 보여주는 Google의 BERT를 이용해 관계 추출 모델을 적용하여 보다 높은 성능의 지식 그래프를 구축하고자 한다. 이러한 PolarisX를 기반으로 관련된 지식에 대한 관계를 보여주는 챗봇인 PolarisX-bot을 설계 및 구현하였다.
[Table 2]는 제안하는 BERT 기반 관계 추출 모델과 기존 연구와의 비교 실험 결과를 보여준다. 전통적인 기법인 로지스틱 회귀 (Logistic Regression)를 모델과 딥러닝을 기반으로 하는 모델들과 비교 실험을 했다. 단어의 위치를 활용한 LSTM 모델인 PA-LSTM[19]과 그래프 합성곱 신경망을 적용한 Zhang et al.
제안하는 시스템의 실험을 위해서는 크게 2가지 분류의 데이터 종류를 활용한다. 첫 번째는 BERT 기반 자동 확장 지식 그래프가 계속해서 확장해 나가기 위해 실시간으로 수집하는 소셜 미디어와 뉴스 데이터이다.
소셜 미디어인 트위터와 뉴스 데이터를 실시간으로 수집하여 많이 언급되는 키워드를 추출한다. 추출된 키워드가 포함된 문장들을 트위터와 뉴스 데이터에서 확인하고 해당되는 문장을 제안하는 BERT 기반의 관계 추출 모델에 입력값으로 입력한다. 키워드와 다른 단어 사이의 관계까지 추출해 {키워드, 관계, 단어}와 같은 쌍을 만든다.
특히 최근 자연어 처리 분야에서 높은 성능을 보여주는 Google의 BERT를 이용해 관계 추출 모델을 적용하여 보다 높은 성능의 지식 그래프를 구축하고자 한다.

대상 데이터

소셜 미디어인 트위터와 뉴스 데이터를 실시간으로 수집하여 많이 언급되는 키워드를 추출한다. 추출된 키워드가 포함된 문장들을 트위터와 뉴스 데이터에서 확인하고 해당되는 문장을 제안하는 BERT 기반의 관계 추출 모델에 입력값으로 입력한다.
트위터와 뉴스 데이터는 지식 그래프의 데이터 소스 확장을 위해 사용된다. 실제로는 실시간으로 데이터를 수집해서 자동으로 확장이 가능하지만 실험에서는 2018 년 11월 한 달 간의 데이터를 활용했다. 트위터 데이터는 Apache AsterixDB의 FeedAdapter 기능을 이용해 실시간으로 트위터 스트리밍 데이터를 수집하고, 뉴스 데이터는 NewsAPI를 통해 수집했다.
우리는 자동 확장 지식 그래프의 검증을 위해 12개의 계층으로 구성되어 있고, 768개의 히든 유닛, 그리고 12개의 헤드로 구성된 대소문자 구별이 가능하고 104개의 언어를 지원하는 ‘BERT-Base, Multilingual Cased’ 모델을 실험에 이용한다.
실제로는 실시간으로 데이터를 수집해서 자동으로 확장이 가능하지만 실험에서는 2018 년 11월 한 달 간의 데이터를 활용했다. 트위터 데이터는 Apache AsterixDB의 FeedAdapter 기능을 이용해 실시간으로 트위터 스트리밍 데이터를 수집하고, 뉴스 데이터는 NewsAPI를 통해 수집했다.

이론/모형

BERT 모델이 자동 확장 지식 그래프에서 사용될 수 있도록 새로운 관계 추출 모델 구축을 위해 관계 기반 데이터인 TACRED[19]를 사용한다. TACRED 데이터는 뉴스나 웹 텍스트로 만들어진 관계 추출을 위한 데이터셋이다.
단어의 위치를 활용한 LSTM 모델인 PA-LSTM[19]과 그래프 합성곱 신경망을 적용한 Zhang et al. [19]의 모델을 이용했다. TACRED 데이터셋을 이용한 모델들 중 가장 높은 실험 결과를 보여준 모델과 비교했을 때, BERT를 기반으로 한 관계 추출 모델이 76.
실시간으로 수집되는 트위터와 뉴스 데이터에서 핵심 키워드들을 수집하고 키워드가 포함되어 있는 문장들을 추출해 관계를 추출한다. 관계 추출을 위해서 BERT를 기반으로 TACRED 데이터를 이용해 조정된 딥러닝 모델을 이용한다. 모델을 기반으로 키워드와 다른 단어 사이의 연결되어 있는 관계 지식을 추출해 새로운 관계 지식 쌍을 만든다.
본 논문에서는 인간과 대화하는 챗봇에 인간의 상식을 이해하는데 도움을 줄 수 있는 지식 그래프를 적용하여 컴퓨터에게 일반적인 지식, 상식을 학습시키고자 한다. 기존 지식 그래프의 한계점을 개선하고 효율적으로 데이터를 처리하고 분석하기 위해 실시간 빅데이터 분석 및 예측 시스템인 Polaris[17]를 기반으로 한다. Polaris는 실시간으로 데이터 수집, 이벤트 감지, 경로 분석, 감정 분석 및 예측이 가능한 시스템으로 기반 데이터로 자동 확장 지식 그래프인 PolarisX를 사용한다.
본 논문에서 제안하는 자동 확장 지식 그래프 기반 지능형 챗봇인 PolarisX-bot은 [Figure 1]과 같이 설계되었다.
실제로 챗봇 시스템을 처음부터 끝까지 구축하기 위해서는 수많은 모듈과 모델들이 필요하다. 본 논문에서는 쉽게 챗봇 시스템을 구현하기 위해 구글의 대화형 챗봇 서비스인 DialogFlow를 활용한다.
우리는 자동 확장 지식그래프의 구축에서 새로운 관계를 추출하기 위해 BERT[3] 모델을 사용한다. BERT는 구글에서 발표한 사전 학습된(pre-trained) 언어 모델로 NLP 분야의 11개 실험에서 State-of-the-art를 차지했다.

성능/효과

관계 추출은 관계를 추출하기 위해 그 대상이 되는 두 개의 개체를 선택하고 또 관계를 추출해야 하기 때문에 기존의 다른 NLP 과제들보다 상대적으로 복잡하다. BERT-Base 모델을 TACRED 데이터셋으로 실험했을 때 기존의 모델들보다 좋은 결과를 보여줬다. BERT base 모델보다 계층의 수, 히든 유닛의 수 등이 더 많이 존재하고 더 큰 데이터셋으로 학습된 BERT-Large 모델을 적용할 경우 보다 높은 성능을 보일 수 있을 것으로 기대된다.
[19]의 모델을 이용했다. TACRED 데이터셋을 이용한 모델들 중 가장 높은 실험 결과를 보여준 모델과 비교했을 때, BERT를 기반으로 한 관계 추출 모델이 76.7의 F1 점수로 좋은 성능 을 보여줬다.
본 논문에서는 자동으로 확장되는 BERT 기반의 지식 그래프를 구축하고 적용한 지능형 챗봇을 제안한다. 자동 확장 지식 그래프가 기존 지식 그래프와 달리 언어 종속성이 없고 신조어에도 대응 가능하며 다양한 활용성이 있다는 것을 실험과 구현을 통해 검증했다.
우리는 BERT 모델을 이용해 자동으로 확장하는 지식 그래프를 구축하고, 이를 기반으로 대화를 주고받을 수 있는 지능형 챗봇을 구현한다. 제안하는 시스템의 검증을 위해 BERT 기반 자동 확장 지식 그래프의 정확도를 측정하고, 지능형 챗봇의 구현 결과를 보여준다.

후속연구

BERT-Base 모델을 TACRED 데이터셋으로 실험했을 때 기존의 모델들보다 좋은 결과를 보여줬다. BERT base 모델보다 계층의 수, 히든 유닛의 수 등이 더 많이 존재하고 더 큰 데이터셋으로 학습된 BERT-Large 모델을 적용할 경우 보다 높은 성능을 보일 수 있을 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	WordNet이란 무엇인가?	WordNet[3]은 영어에 대한 단어 데이터베이스로, 단어의 의미를 기반으로 명사, 동사, 형용사 등으로 분류되어 있다. 동의어 집합(synset) 으로 분류하고 개념적인 의미와 관계로 서로 연결한다.
	관계 추출이 다른 NLP 과제들 보다 상대적으로 복잡한 이유는 무엇인가?	관계 추출은 관계를 추출하기 위해 그 대상이 되는 두 개의 개체를 선택하고 또 관계를 추출해야 하기 때문에 기존의 다른 NLP 과제 들보다 상대적으로 복잡하다. BERT-Base 모델을 TACRED 데이터셋으로 실험했을 때 기존의 모델들보다 좋은 결과를 보여줬다.
	인간의 상식이 반영된 단어의 관계를 통해 컴퓨터에게 인간의 상식을 쉽게 학습시킬 수 있는 이유는 무엇인가?	인공지능 기술이 활발하게 연구되고 활용되고 있는 지금, 컴퓨터에게 인간의 상식을 학습시키기 위한 기술은 매우 중요한 기술이다. 인간의 상식이 반영된 단어의 관계를 그래프로 표현하고 이를 기반 데이터로 활용하게 되면 컴퓨터에게 쉽게 인간의 상식을 학습시킬 수 있다.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증