[논문]KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구

유용상; 정민화; 이승민; 송민

doi:10.13088/jiis.2023.29.2.219

[국내논문] KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구
KOMUChat: Korean Online Community Dialogue Dataset for AI Learning 원문보기

지능정보연구 = Journal of intelligence and information systems, v.29 no.2, 2023년, pp.219 - 240

유용상 (연세대학교 일반대학원 디지털애널리틱스융합협동과정) , 정민화 (연세대학교 일반대학원 디지털애널리틱스융합협동과정) , 이승민 (연세대학교 일반대학원 인공지능학과) , 송민 (연세대학교 문헌정보학과)

초록
AI-Helper

사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본 연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.

Abstract ▼ AI-Helper

Conversational AI which allows users to interact with satisfaction is a long-standing research topic. To develop conversational AI, it is necessary to build training data that reflects real conversations between people, but current Korean datasets are not in question-answer format or use honorifics, making it difficult for users to feel closeness. In this paper, we propose a conversation dataset (KOMUChat) consisting of 30,767 question-answer sentence pairs collected from online communities. The question-answer pairs were collected from post titles and first comments of love and relationship counsel boards used by men and women. In addition, we removed abuse records through automatic and manual cleansing to build high quality dataset. To verify the validity of KOMUChat, we compared and analyzed the result of generative language model learning KOMUChat and benchmark dataset. The results showed that our dataset outperformed the benchmark dataset in terms of answer appropriateness, user satisfaction, and fulfillment of conversational AI goals. The dataset is the largest open-source single turn text data presented so far and it has the significance of building a more friendly Korean dataset by reflecting the text styles of the online community.

주제어

표/그림 (18)

그림 <그림 1> KOMUChat과 벤치마크 데이터셋을 학습시켜 구현한 대화형 인공지능 예시
표 <표 1> 데이터를 수집한 온라인 커뮤니티에 따른 구축량 분포
표 <표 2> 텍스트 데이터의 세부 하위 분류에 따른 구축량 분포
그림 <그림 2> 데이터 타입, 커뮤니티 별 길이 분포
표 <표 3>
표 <표 4> 데이터 타입 별 왜도
표 <표 5> 알고리즘별 데이터셋의 핵심 단어
그림 <그림 3> 데이터 수집 및 전처리 과정
표 <표 6> kcElectra모델을 활용하여 삭제한 혐오표현 예시
표 <표 7> 커뮤니티 이성 호출 질문의 예시
표 <표 8> 전처리 과정 별 원본 데이터 수
표 <표 9> 언어 모델별 질의 답변 결과
그림 <그림 4> KOMUChat, chatbot_data 모델학습 결과 예시
그림 <그림 5> 정성평가 결과 그래프
표 <표 10> 대화형 인공지능의 평가기준과 설문 문항
표 <표 11> 정성적 평가 결과에 대한 통계 검정 결과
표 <표 12> 커뮤니티별 상이한 대화형 인공지능 답변 예시 : 대화방식
표 <표 13> 커뮤니티별 상이한 대화형 인공지능 답변 예시 : 어투

참고문헌 (47)

강경필. (2022). 일상 대화 챗봇의 동향과 과제.？정보과학회지,40(12),39-45.
강소영. (2022). 성별 대화 진행 방식 - 말 끼어들기(말 끼어들기 이후)를 중심으로 -. 이화어문논집, 56, 115-150.
고윤석 등. (2021). 인공지능 학습용 데이터셋 구축？안내서. 서울: 한국지능정보사회진흥원
김일환 & 이도길. (2016). "신문 빅 데이터 기반의？단어 사용과 트렌드 분석: 신문의 명사 빈도사용 패턴을 중심으로." 언어정보, 22, 41-62.
김정우. (2009). 인터넷 커뮤니티에서 사용되는？말에 대한 연구 -자전거 관련 커뮤니티를？중심으로-. 사회언어학, 17(1), 109-133.
김태균. (2022). 크롤링을 통한 데이터 수집의 형사책임 - 대법원 2022. 5. 12. 선고 2021도？1533 판결을 중심으로 -. 서강법률논총, 11(3),？275-306.
김혜미, 이준웅. (2011). 인터넷 뉴스와 댓글의？뉴스 프레임 융합 효과 연구. 한국언론학보,？55(2), 32-55.
김효정, 조윤정. (2022, September 21) [2022 커뮤니티 보고서] 20대男 '에펨코리아', 진보 20대女 '더쿠'. 주간조선. http://weekly.chosun.com/news/articleView.html?idxno22062
민경서, 최보석, 한승진. (2022). KoBERT, KoGPT2를 이용한 이전 대화에서 추출한 문장 정보？기반 감성 문장 생성. 한국통신학회 학술대회논문집,(),1579-1581.
박규현, 권희연. (2022). KoGPT2를 이용한 쇼핑몰？리뷰 생성기. 한국컴퓨터정보학회 학술발표논문집 ,30(1),31-33.
박도형. (2014). 온라인 커뮤니티 특성, 커뮤니티？멤버 특성, 개인 특성이 잠복관찰 활동에？미치는 영향: 왜 사람들은 쓰지 않고 읽기만？하는가?. 인터넷정보학회논문지, 15(1), 73-88.
박일섭. (2019). 메신저 대화 자료 수집 및 말뭉치？구축. 서울: 국립국어원
박일섭.(2021). 2021년 온라인 대화 자료 수집 및？정제. 서울: 국립국어원
박혜성. (2017). 한국 뮤지컬 마니아 관객 활동의？문화 정치적 함의. 언론과 사회, 25(1), 37-96.
손건영, 김미숙. (2023). KoBERT 기반 일반상식？추출 및 반영한 KoBART 기반 대화생성모델.？한국HCI학회 학술대회, 841-847.
손건영, 김미숙. (2022). 일반상식을 적용한 KoBART？기반 대화 생성 모델. 한국정보과학회 학술발표논문집, 1837-1839.
손세모돌. (2003). 인터넷 게시판 글 제목의 욕설/비속어 사용과 익명성의 관계. 텍스트언어학,？15(0), 169-198.
손지영, 신용태. (2018). TextRank 알고리즘을 이용한 음악 가사 요약 기법. 멀티미디어학회논문지 21.1: 45-50.
송민채, 신경식. (2022). 한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구. 지능정보연구, 28(4), 309-328.
오종환, 장수연, 이준환. (2014). 한글 자음 및 모음？사용을 통해 드러나는 온라인에서의 정서표현에 대한 탐색적 연구. 멀티미디어학회논문지, 17(7), 866-878.
유소연, 임규건. (2021). "텍스트 마이닝과 의미？네트워크 분석을 활용한 뉴스 의제 분석:코로나 19 관련 감정을 중심으로." 지능정보연구, 27(1), 47-64.
이세진, 이정교. (2012). "온라인 여성 커뮤니티에서의 이용자 간 상호작용과 사회연결망에？관한 연구." 社會科學硏究 38.2: 47-71.
전영일. (2022). KOSTAT 통계플러스 2022 봄호.？대전광역시: 통계개발원
조우진, 이혁준. (2021). 사전학습 언어모델 기반의？한국어 질문-답변 데이터 증강 방법. 정보？과학회 컴퓨팅의 실제 논문지, 27(12), 563-573.
주현덕, 박세니. (2005). 그들은 어떻게 다른가?:？연애관계와 연애태도에서의 성차와 집단차이. 한국심리학회지:여성, 10(4), 573-601.
차재국. (2010). 기독교 영시에 나타난 명사(名詞)？어휘의 빈도수에 관한 연구. 영미언어와문화,？1(1), 81-102.
한주희, 유진이, 이영훈. (2022). 산업공학 인식에？대한 온라인 커뮤니티 데이터 분석. 대한산업공학회지, 48(3), 280-288.
Ban, B. (2022). A Survey on Awesome Korean？NLP Datasets. Proceedings of the 13th IEEE？International Conference on Information and？Communication Technology Convergence (ICTC？2022), 1615-1620.
Casas, J., Tricot, M. O., Abou Khaled, O., Mugellini,？E., & Cudre-Mauroux, P. (2020). Trends &？methods in chatbot evaluation. In Companion？Publication of the 2020 International Conference？on Multimodal Interaction, 280-286.
Cho, W, Kim, S, Cho, H, Kim, N. (2021). "Kosp2e:？Korean Speech to English Translation Corpus".？arXiv preprint, arXiv:2107.0287. https://arxiv.org/abs/2107.02875
Fleiss, J. L. (1971). Measuring nominal scale agreement？among many raters. Psychological bulletin,？76(5), 378.

상세보기
Grootendorst, M. (2020). KeyBERT: Minimal keyword？extraction with BERT. Version v0.3.0, doi:10.5281/zenodo.4461265.
Ha, J. W., Nam, K., Kang, J., Lee, S. W., Yang,？S., Jung, H., ... & Kim, S. (2020). ClovaCall:？Korean goal-oriented dialog speech corpus？for automatic speech recognition of contact？centers. arXiv preprint arXiv:2004.09367.
Hwang, S, Kim, J. (2021). Toward a Chatbot for？Financial Sustainability. Sustainability 13(6),？3173, doi: 10.3390/su13063173.

상세보기
Landis, J. R. and Koch, G. G. (1977). The measurement？of observer agreement for categorical data.？Biometrics, 33, 159-174.

상세보기
Lee.M. (2022). Kiwi, Korean Intelligent Word？Identifier. Github. from https://github.com/bab2min/Kiwi
Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M.,？Mohamed, A., Levy, O., ... & Zettlemoyer, L.？(2019). Bart: Denoising sequence-to-sequence？pre-training for natural language generation,？translation, and comprehension. arXiv？preprint arXiv:1910.13461.
Li, X., Zhong, H., Guo, Y., Ma, Y., Qian, H., Zhu,？Y., ... Wen, J. (2020). Pchatbot: A Large-Scale？Dataset for Personalized Chatbot. Proceedings？of the 44th International ACM SIGIR Conference？on Research and Development in Information？Retrieval, 2470-2477.
Maroengsit, W., Piyakulpinyo, T., Phonyiam, K.,？Pongnumkul, S., Chaovalit, P., & Theeramunkong,？T. (2019). A survey on evaluation methods？for chatbots. In Proceedings of the 2019 7th？International conference on information and？education technology, 111-119.
Mihalcea, R., & Tarau, P. (2004). Textrank: Bringing？order into text. In Proceedings of the 2004？conference on empirical methods in natural？language processing, 404-411.
Moon, J., Cho, W. I., & Lee, J. (2020). BEEP! Korean？corpus of online news comments for toxic speech？detection. arXiv preprint arXiv:2005.12503.
Park, C., Seo, J., Lee, S., Lee, C., Moon, H., Eo, S., &？Lim, H. S. (2021). BTS: Back TranScription for？speech-to-text post-processor using text-to-speechto-text. In Proceedings of the 8th Workshop？on Asian Translation (WAT2021), 106-116.
Park, H., Kim, C., Son, H., Seo, S., & Kim, J. H.？(2022). Hybrid CTC-attention network-based？end-to-end speech recognition system for Korean？language. Journal of Web Engineering, 265-284.
Radford, A., Wu, J., Child, R., Luan, D., Amodei,？D., & Sutskever, I. (2019). Language models？are unsupervised multitask learners. OpenAI？blog, 1(8), 9.
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang,？S., Matena, M., ... & Liu, P. J. (2020).？Exploring the limits of transfer learning with a？unified text-to-text transformer. The Journal of？Machine Learning Research, 21(1), 5485-5551.
Ram, A., Prasad, R., Khatri, C., Venkatesh, A.,？Gabriel, R., Liu, Q., ... & Pettigrue, A. (2018).？Conversational ai: The science behind the？alexa prize. arXiv preprint arXiv:1801.03604.
Youngsook Song. (2018). Chatbot_data_for_Korean？v1.0[Online]. Github. Retrieved June 29, 2022,？from https://github.com/songys/Chatbot_data

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증