$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구
KOMUChat: Korean Online Community Dialogue Dataset for AI Learning 원문보기

지능정보연구 = Journal of intelligence and information systems, v.29 no.2, 2023년, pp.219 - 240  

유용상 (연세대학교 일반대학원 디지털애널리틱스융합협동과정) ,  정민화 (연세대학교 일반대학원 디지털애널리틱스융합협동과정) ,  이승민 (연세대학교 일반대학원 인공지능학과) ,  송민 (연세대학교 문헌정보학과)

초록
AI-Helper 아이콘AI-Helper

사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본 연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.

Abstract AI-Helper 아이콘AI-Helper

Conversational AI which allows users to interact with satisfaction is a long-standing research topic. To develop conversational AI, it is necessary to build training data that reflects real conversations between people, but current Korean datasets are not in question-answer format or use honorifics,...

주제어

표/그림 (18)

참고문헌 (47)

  1. 강경필. (2022). 일상 대화 챗봇의 동향과 과제.?정보과학회지,40(12),39-45. 

  2. 강소영. (2022). 성별 대화 진행 방식 - 말 끼어들기(말 끼어들기 이후)를 중심으로 -. 이화어문논집, 56, 115-150. 

  3. 고윤석 등. (2021). 인공지능 학습용 데이터셋 구축?안내서. 서울: 한국지능정보사회진흥원 

  4. 김일환 & 이도길. (2016). "신문 빅 데이터 기반의?단어 사용과 트렌드 분석: 신문의 명사 빈도사용 패턴을 중심으로." 언어정보, 22, 41-62. 

  5. 김정우. (2009). 인터넷 커뮤니티에서 사용되는?말에 대한 연구 -자전거 관련 커뮤니티를?중심으로-. 사회언어학, 17(1), 109-133. 

  6. 김태균. (2022). 크롤링을 통한 데이터 수집의 형사책임 - 대법원 2022. 5. 12. 선고 2021도?1533 판결을 중심으로 -. 서강법률논총, 11(3),?275-306. 

  7. 김혜미, 이준웅. (2011). 인터넷 뉴스와 댓글의?뉴스 프레임 융합 효과 연구. 한국언론학보,?55(2), 32-55. 

  8. 김효정, 조윤정. (2022, September 21) [2022 커뮤니티 보고서] 20대男 '에펨코리아', 진보 20대女 '더쿠'. 주간조선. http://weekly.chosun.com/news/articleView.html?idxno22062 

  9. 민경서, 최보석, 한승진. (2022). KoBERT, KoGPT2를 이용한 이전 대화에서 추출한 문장 정보?기반 감성 문장 생성. 한국통신학회 학술대회논문집,(),1579-1581. 

  10. 박규현, 권희연. (2022). KoGPT2를 이용한 쇼핑몰?리뷰 생성기. 한국컴퓨터정보학회 학술발표논문집 ,30(1),31-33. 

  11. 박도형. (2014). 온라인 커뮤니티 특성, 커뮤니티?멤버 특성, 개인 특성이 잠복관찰 활동에?미치는 영향: 왜 사람들은 쓰지 않고 읽기만?하는가?. 인터넷정보학회논문지, 15(1), 73-88. 

  12. 박일섭. (2019). 메신저 대화 자료 수집 및 말뭉치?구축. 서울: 국립국어원 

  13. 박일섭.(2021). 2021년 온라인 대화 자료 수집 및?정제. 서울: 국립국어원 

  14. 박혜성. (2017). 한국 뮤지컬 마니아 관객 활동의?문화 정치적 함의. 언론과 사회, 25(1), 37-96. 

  15. 손건영, 김미숙. (2023). KoBERT 기반 일반상식?추출 및 반영한 KoBART 기반 대화생성모델.?한국HCI학회 학술대회, 841-847. 

  16. 손건영, 김미숙. (2022). 일반상식을 적용한 KoBART?기반 대화 생성 모델. 한국정보과학회 학술발표논문집, 1837-1839. 

  17. 손세모돌. (2003). 인터넷 게시판 글 제목의 욕설/비속어 사용과 익명성의 관계. 텍스트언어학,?15(0), 169-198. 

  18. 손지영, 신용태. (2018). TextRank 알고리즘을 이용한 음악 가사 요약 기법. 멀티미디어학회논문지 21.1: 45-50. 

  19. 송민채, 신경식. (2022). 한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구. 지능정보연구, 28(4), 309-328. 

  20. 오종환, 장수연, 이준환. (2014). 한글 자음 및 모음?사용을 통해 드러나는 온라인에서의 정서표현에 대한 탐색적 연구. 멀티미디어학회논문지, 17(7), 866-878. 

  21. 유소연, 임규건. (2021). "텍스트 마이닝과 의미?네트워크 분석을 활용한 뉴스 의제 분석:코로나 19 관련 감정을 중심으로." 지능정보연구, 27(1), 47-64. 

  22. 이세진, 이정교. (2012). "온라인 여성 커뮤니티에서의 이용자 간 상호작용과 사회연결망에?관한 연구." 社會科學硏究 38.2: 47-71. 

  23. 전영일. (2022). KOSTAT 통계플러스 2022 봄호.?대전광역시: 통계개발원 

  24. 조우진, 이혁준. (2021). 사전학습 언어모델 기반의?한국어 질문-답변 데이터 증강 방법. 정보?과학회 컴퓨팅의 실제 논문지, 27(12), 563-573. 

  25. 주현덕, 박세니. (2005). 그들은 어떻게 다른가?:?연애관계와 연애태도에서의 성차와 집단차이. 한국심리학회지:여성, 10(4), 573-601. 

  26. 차재국. (2010). 기독교 영시에 나타난 명사(名詞)?어휘의 빈도수에 관한 연구. 영미언어와문화,?1(1), 81-102. 

  27. 한주희, 유진이, 이영훈. (2022). 산업공학 인식에?대한 온라인 커뮤니티 데이터 분석. 대한산업공학회지, 48(3), 280-288. 

  28. Ban, B. (2022). A Survey on Awesome Korean?NLP Datasets. Proceedings of the 13th IEEE?International Conference on Information and?Communication Technology Convergence (ICTC?2022), 1615-1620. 

  29. Casas, J., Tricot, M. O., Abou Khaled, O., Mugellini,?E., & Cudre-Mauroux, P. (2020). Trends &?methods in chatbot evaluation. In Companion?Publication of the 2020 International Conference?on Multimodal Interaction, 280-286. 

  30. Cho, W, Kim, S, Cho, H, Kim, N. (2021). "Kosp2e:?Korean Speech to English Translation Corpus".?arXiv preprint, arXiv:2107.0287. https://arxiv.org/abs/2107.02875 

  31. Fleiss, J. L. (1971). Measuring nominal scale agreement?among many raters. Psychological bulletin,?76(5), 378. 

  32. Grootendorst, M. (2020). KeyBERT: Minimal keyword?extraction with BERT. Version v0.3.0, doi:10.5281/zenodo.4461265. 

  33. Ha, J. W., Nam, K., Kang, J., Lee, S. W., Yang,?S., Jung, H., ... & Kim, S. (2020). ClovaCall:?Korean goal-oriented dialog speech corpus?for automatic speech recognition of contact?centers. arXiv preprint arXiv:2004.09367. 

  34. Hwang, S, Kim, J. (2021). Toward a Chatbot for?Financial Sustainability. Sustainability 13(6),?3173, doi: 10.3390/su13063173. 

  35. Landis, J. R. and Koch, G. G. (1977). The measurement?of observer agreement for categorical data.?Biometrics, 33, 159-174. 

  36. Lee.M. (2022). Kiwi, Korean Intelligent Word?Identifier. Github. from https://github.com/bab2min/Kiwi 

  37. Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M.,?Mohamed, A., Levy, O., ... & Zettlemoyer, L.?(2019). Bart: Denoising sequence-to-sequence?pre-training for natural language generation,?translation, and comprehension. arXiv?preprint arXiv:1910.13461. 

  38. Li, X., Zhong, H., Guo, Y., Ma, Y., Qian, H., Zhu,?Y., ... Wen, J. (2020). Pchatbot: A Large-Scale?Dataset for Personalized Chatbot. Proceedings?of the 44th International ACM SIGIR Conference?on Research and Development in Information?Retrieval, 2470-2477. 

  39. Maroengsit, W., Piyakulpinyo, T., Phonyiam, K.,?Pongnumkul, S., Chaovalit, P., & Theeramunkong,?T. (2019). A survey on evaluation methods?for chatbots. In Proceedings of the 2019 7th?International conference on information and?education technology, 111-119. 

  40. Mihalcea, R., & Tarau, P. (2004). Textrank: Bringing?order into text. In Proceedings of the 2004?conference on empirical methods in natural?language processing, 404-411. 

  41. Moon, J., Cho, W. I., & Lee, J. (2020). BEEP! Korean?corpus of online news comments for toxic speech?detection. arXiv preprint arXiv:2005.12503. 

  42. Park, C., Seo, J., Lee, S., Lee, C., Moon, H., Eo, S., &?Lim, H. S. (2021). BTS: Back TranScription for?speech-to-text post-processor using text-to-speechto-text. In Proceedings of the 8th Workshop?on Asian Translation (WAT2021), 106-116. 

  43. Park, H., Kim, C., Son, H., Seo, S., & Kim, J. H.?(2022). Hybrid CTC-attention network-based?end-to-end speech recognition system for Korean?language. Journal of Web Engineering, 265-284. 

  44. Radford, A., Wu, J., Child, R., Luan, D., Amodei,?D., & Sutskever, I. (2019). Language models?are unsupervised multitask learners. OpenAI?blog, 1(8), 9. 

  45. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang,?S., Matena, M., ... & Liu, P. J. (2020).?Exploring the limits of transfer learning with a?unified text-to-text transformer. The Journal of?Machine Learning Research, 21(1), 5485-5551. 

  46. Ram, A., Prasad, R., Khatri, C., Venkatesh, A.,?Gabriel, R., Liu, Q., ... & Pettigrue, A. (2018).?Conversational ai: The science behind the?alexa prize. arXiv preprint arXiv:1801.03604. 

  47. Youngsook Song. (2018). Chatbot_data_for_Korean?v1.0[Online]. Github. Retrieved June 29, 2022,?from https://github.com/songys/Chatbot_data 

저자의 다른 논문 :

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로