소셜 미디어(social media)는 블로그, 소셜 네트워크, 위키 등과 같이 사용자의 참여로 만들어지는 정보 컨텐츠이다. 사용자가 작성한 질문에 다른 사용자들이 답변을하는 질문-답변 커뮤니티 서비스도 이러한 소셜 미디어의 한 가지로서 지난 몇 년간 많은 양의 정보를 축적해왔다. 하지만 축적된 질문-답변의 양이 많아질수록 이전의 질문을 정확히 검색하는 것은 점점 어려운 작업이 되고 있다. 본 논문에서는 질문-답변 커뮤니티의 효율적인 정보 검색을 위해 확장된 나이브 베이즈 분류기(Na$\ddot{i}$ve Bayes classifier)를 이용하여 질문을 그 목적에 따라 정보형, 제안형, 의견형으로 자동 분류하는 기법을 제안한다. 정확한 분류를 위해 분류기는 질문-답변 문서의 구조적인 특징을 활용한다. 실제 질문-답변 커뮤니티의 질문들에 대해 실험을 수행한 결과 71.2%의 분류 정확도를 보였다.
소셜 미디어(social media)는 블로그, 소셜 네트워크, 위키 등과 같이 사용자의 참여로 만들어지는 정보 컨텐츠이다. 사용자가 작성한 질문에 다른 사용자들이 답변을하는 질문-답변 커뮤니티 서비스도 이러한 소셜 미디어의 한 가지로서 지난 몇 년간 많은 양의 정보를 축적해왔다. 하지만 축적된 질문-답변의 양이 많아질수록 이전의 질문을 정확히 검색하는 것은 점점 어려운 작업이 되고 있다. 본 논문에서는 질문-답변 커뮤니티의 효율적인 정보 검색을 위해 확장된 나이브 베이즈 분류기(Na$\ddot{i}$ve Bayes classifier)를 이용하여 질문을 그 목적에 따라 정보형, 제안형, 의견형으로 자동 분류하는 기법을 제안한다. 정확한 분류를 위해 분류기는 질문-답변 문서의 구조적인 특징을 활용한다. 실제 질문-답변 커뮤니티의 질문들에 대해 실험을 수행한 결과 71.2%의 분류 정확도를 보였다.
Social media refers to the content, which are created by users, such as blogs, social networks, and wikis. Recently, question-answering (QA) communities, in which users share information by questions and answers, are regarded as a kind of social media. Thus, QA communities have become a huge source ...
Social media refers to the content, which are created by users, such as blogs, social networks, and wikis. Recently, question-answering (QA) communities, in which users share information by questions and answers, are regarded as a kind of social media. Thus, QA communities have become a huge source of information for the past decade. However, it is hard for users to search the exact question-answer that is exactly matched with their needs as the number of question-answers increases in QA communities. This paper proposes an approach for classifying a question into three categories (information, opinion, and suggestion) according to the purpose of the question for more accurate information retrieval. Specifically, our approach is based on modified Na$\ddot{i}$ve Bayes classifier which uses structural characteristics of QA documents to improve the classification accuracy. Through our experiments, we achieved about 71.2% in classification accuracy.
Social media refers to the content, which are created by users, such as blogs, social networks, and wikis. Recently, question-answering (QA) communities, in which users share information by questions and answers, are regarded as a kind of social media. Thus, QA communities have become a huge source of information for the past decade. However, it is hard for users to search the exact question-answer that is exactly matched with their needs as the number of question-answers increases in QA communities. This paper proposes an approach for classifying a question into three categories (information, opinion, and suggestion) according to the purpose of the question for more accurate information retrieval. Specifically, our approach is based on modified Na$\ddot{i}$ve Bayes classifier which uses structural characteristics of QA documents to improve the classification accuracy. Through our experiments, we achieved about 71.2% in classification accuracy.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 질문-답변 형식의 문서에서 나타나는구조적인 특성을 활용하여 질문을 그 목적에 따라 분류하는 방법을 제안한다. 분류는 확장된 나이브 베이즈 분류기(naive Bayes classifier)# 이용하며, 현재 가장 큰규모의 질문-답변 커뮤니티 서비스인 Y산ioo! Answers 의 문서를 이용하여 성능을 측정한다.
본 논문은 질문-답변 문서의 구조적인 특징을 이용하여 문서를 질문의 목적에 따라 자동으로 분류하는 방법에 대해 다루었다. 이를 위해 질문-답변 커뮤니티의 특징을 설명하고, 확장된 나이브베이즈 분류기에 문서의구조적인 특징을 반영하는 방법에 대해 설명하였다.
가설 설정
이러한 가정은 평이한 텍스트(plain text)에는 합당하나, 구조화 된 문서에 반드시 적용되지는 않는다. 가령 recommendation' 이라는 단어가 질문 제목과 본문에서 나을 때의 조건부확률 尸(0 = 니勺)은 다를 것이다.
이때, 각 속성은 같은 도메인의 단어들의 집합으로 이루어지고 그 분포가 같다고 가정한다. 이러한 가정은 평이한 텍스트(plain text)에는 합당하나, 구조화 된 문서에 반드시 적용되지는 않는다.
제안 방법
하지만, SVM의 경우 분류 대상이 두 가지 보다많을 경우 알고리즘을 직접 적용하기 어려운 점이 있다. 따라서 질문-답변 문서의 분류에는 나이브 베이즈 분류기를 적용하는 것이 적절하며, 실험에서 일반적인 나이브 베이즈 분류기와 확장된 나이브 베이즈 분류기의 정확도를 비교하였다.
실험은 임의 분류, 일반 나이브 베이즈 분류기, 확장된 속성 기반 분류, 정규화 반영 분류, 정규화 및 가중치 반영 분류에 대해 실시하였다.
Kim[8]은 사용자가 어떤 기준으로 가장 좋은 답변을 선택하는지에 대한통계적인 분포를 구하였다. 이때 질문을 정보형 (Information), 제안형 (Suggestion), 의견형 (Opinion) 질문과어느 분류에도 속하지 않는 기타(Others) 질문으로 나누었다.
대해 다루었다. 이를 위해 질문-답변 커뮤니티의 특징을 설명하고, 확장된 나이브베이즈 분류기에 문서의구조적인 특징을 반영하는 방법에 대해 설명하였다. 향후 질문-답변 커뮤니티에 대한 정보검색에 있어분류된 문서에 따라 다른 검색 방법을 적용하여 검색의성능을 높이는 연구를 지속할 예정이다.
대상 데이터
데이터는 'Family & Relationships', "Computers & Internet', 'Sports' 카테고리에서 2009년 3월 20일부터 22일 까지작성된 669개의 질문과 2176개의 답변을 포함하였다. 이를 수작업으로 질문 목적에 따라 분류 한 후 10-집단교차검증(10-fold cross validation)을 이용하여 검증하였다.
실험에 사용한 데이터는 Yahoo! Answers에서 답변작성이 완료된 질문들을 대상으로 수집하였다. 데이터는 'Family & Relationships', "Computers & Internet', 'Sports' 카테고리에서 2009년 3월 20일부터 22일 까지작성된 669개의 질문과 2176개의 답변을 포함하였다.
질문-답변 형태의 문서와 그 특성에 대한 연구는 형태적으로 유사한 유즈넷이나 온라인 게시판을 대상으로 이루어졌다. Wliittaker[l]는 유즈넷을 대상으로 사용자의수, 글의 길이 등의 통계학적인 패턴을 찾아내었으며, Zhongbao(2)는 온라인 게시판의 질문-답변 구조를 이용한 소셜 네트워크 분석을 수행하여 사용자들의 행동 패턴이 그들의 관심 공간에 따라 달라지는 것을 보였다.
데이터처리
데이터는 'Family & Relationships', "Computers & Internet', 'Sports' 카테고리에서 2009년 3월 20일부터 22일 까지작성된 669개의 질문과 2176개의 답변을 포함하였다. 이를 수작업으로 질문 목적에 따라 분류 한 후 10-집단교차검증(10-fold cross validation)을 이용하여 검증하였다.
이론/모형
Answers 의 문서를 이용하여 성능을 측정한다.
성능/효과
일반 나이브 베이즈 분류기의 경우 약 64%의 정확도를 보였으며, 확장된 속성기반 분류는 이와 비슷한 결과를 보였다. 여기에 정규화과정과 가중치 정보를 추가적으로 사용할 경우 분류 정확도는 각각 69%, 71%로 더 높아졌다. 이 실험에서 속성별 가중치는 '질문 제목', '질문 본문'에 1.
기준으로 나누는 것은 적절하지 않다. 질문의 목적은 카테고리의 주제 따라 특정 목적이 다수를 차지하기도 하지만 카테고리에 반드시 의존적이지는 않음을보였다. Yahoo! Answers의 가장 많은 수의 질문이 있는 카테고리들(2009년 4월 기준)은 표 1에서와 같이 Entertainment & Music', 'Family & Relationships', 'Society & Culture' 순으로.
후속연구
향후 질문-답변 커뮤니티에 대한 정보검색에 있어분류된 문서에 따라 다른 검색 방법을 적용하여 검색의성능을 높이는 연구를 지속할 예정이다. 또한, 문서 분류시 구조적 특징과 같은 텍스트 정보뿐만 아니라 사용자의 평판 등과 같은 비텍스트 정보를 활용하여 정확도를 높이는 것도 가치 있는 연구가 될 것이다.
이를 위해 질문-답변 커뮤니티의 특징을 설명하고, 확장된 나이브베이즈 분류기에 문서의구조적인 특징을 반영하는 방법에 대해 설명하였다. 향후 질문-답변 커뮤니티에 대한 정보검색에 있어분류된 문서에 따라 다른 검색 방법을 적용하여 검색의성능을 높이는 연구를 지속할 예정이다. 또한, 문서 분류시 구조적 특징과 같은 텍스트 정보뿐만 아니라 사용자의 평판 등과 같은 비텍스트 정보를 활용하여 정확도를 높이는 것도 가치 있는 연구가 될 것이다.
참고문헌 (11)
S. Whittaker, L. Terveen, W. Hill, L. Cherny, "The dynamics of mass interaction," Proc. of the 1998 ACM Conference on Computer Supported Cooperative Work, pp.257-264, 1998.
K. Zhongbao, Z. Changshui, "Reply networks on a bulletin board system," Physical Review E, http:// pre.aps.org/abstract/PRE/v67/i3/e036117
J. Jeon, W.B. Croft, J.H. Lee, "Finding similar questions in large question and answer archives," Proc. of the 14th ACM International Conference on Information and Knowledge Management, pp.84-90, 2005.
E. Agichtein, C. Castillo, D. Donato, A. Gionis, G. Mishne, "Finding high-quality content in social media," Proc. of the International Conference on Web Search and Web Data Mining, pp.183-194, 2008.
J. Lee, Y. Song, H. Rim, "Quality Prediction of Knowledge Search Documents Using Text-Confidence Features," Proc. of the 19th Annual Conference on Human and Cognitive Language Technology, pp.62-67, 2007. (in Korean)
S. Park, J. Lee, J. Jeon, "Evaluation of the documents from the Web-based Question and Answer Service," Journal of the Korean Society for Library and Information Science, vol.40, no.2, pp.299-314, 2006. (in Korean)
L. A. Adamic, J. Zhang, E. Bakshy, M. S. Ackerman, "Knowledge sharing and yahoo answers: everyone knows something," Proc. of the 17th International Conference on World Wide Web, pp.665-674, 2008.
S. Kim, J. S. Oh, S. Oh, "Best-answer selection criteria in a social Q&A site from the user-oriented relevance perspective," Proc. of the American Society for Information Science and Technology, vol.44, no.1, pp.1-15, 2007.
T. Mitchell, Machine Learning, McGraw-Hill, 1997.
Y. Kim, T. Lee, J. Chun, S. Lee, "Modified Naive Bayes Classifier for E-Catalog Classification," Lecture Notes in Computer Science, vol.4055, pp.246-257, 2006.
B. Pang, L. Lee, S. Vaithyanathan, "Thumbs up?: sentiment classification using machine learning techniques," Proc. of the ACL-02 Conference on Empirical Methods in Natural Language Processing, pp.79-86, 2002
※ AI-Helper는 부적절한 답변을 할 수 있습니다.