$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

텍스트 신뢰도 자질 기반 지식 질의응답 문서 품질 평가 모델
Text-Confidence Feature Based Quality Evaluation Model for Knowledge Q&A Documents 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.35 no.10, 2008년, pp.608 - 615  

이정태 (고려대학교 컴퓨터전파통신공학과) ,  송영인 (고려대학교 컴퓨터학과) ,  박소영 (상명대학교 디지털미디어학부) ,  임해창 (고려대학교 컴퓨터전파통신공학부)

초록
AI-Helper 아이콘AI-Helper

불특정 다수 사용자가 정보를 생성하는 지식 질의응답 서비스에서는 문서의 품질이 검색결과 만족도에 중요한 요소 중 하나이다. 지식 질의응답 문서의 품질 평가에 관한 기존 연구는 조회 수와 추천 수 등의 비텍스트 정보를 이용하여 문서의 품질을 평가하고, 이를 검색 모형에 반영하여 검색 성능을 높이는데 집중하였다. 이러한 비텍스트 정보는 그 유용성이 실험을 통해 증명되었다. 그러나 비텍스트 정보를 이용하여 새로 작성된 문서의 품질을 평가할 경우 심각한 자료 부족 문제가 발생할 수 있다는 단점이 있다. 본 논문에서는 이러한 비텍스트 정보의 자료 부족 문제를 완화할 수 있는 새로운 문서 품질 평가자질로서 문서 내용 자체에 대한 신뢰성을 반영하는 신뢰도 자질을 제안한다. 제안하는 자질은 문서의 내용으로부터 직접 추출되며, 따라서 추천 수나 조회 수 등 서비스 사용자의 참여를 간접적으로 필요로 하는 비텍스트 자질보다 자료 부족 문제에 견고하다는 장점이 있다. 또한 제안하는 신뢰도 자질은 문서 품질 평가에 유용하다고 알려진 비텍스트 자질과 유사하거나 향상된 성능을 실제 지식 질의응답 문서를 대상으로 한 실험에서 보였으며, 추후 효과적인 품질 평가 자질로서 지식 질의응답 서비스의 성능향상에 기여를 할 수 있을 것으로 기대된다.

Abstract AI-Helper 아이콘AI-Helper

In Knowledge Q&A services where information is created by unspecified users, document quality is an important factor of user satisfaction with search results. Previous work on quality prediction of Knowledge Q&A documents evaluate the quality of documents by using non-textual information, such as cl...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서 다루고 있는 문서의 품질 평가에 관한 연구는 학생들이 작성한 논술을 컴퓨터를 이용하여 자동으로 채점하는 논술 자동채점 (Automated Essay Grading)에 관한 연구와 관련이 있다. 논술 자동채점프로그램의 가장 대표적인 예로 Program Essay Grade(PEG)[2]를 들 수 있다.
  • 본 논문에서는 기존 연구와 다르게 지식문서의 품질을 내용의 신뢰도 측면에서 평가하는 방법을 제안한다. 이 방법은 고품질의 답변은 그 답변을 읽게 되는 사용자로 하여금 충분히 신뢰할 수 있을 정도로 최대한 성실하고 자세하게 작성되었고, 이에 비해 낮은 품질의 답변은 사용자가 신뢰할 수 없게끔 내용 면에서 불성실하고 불충분하게 작성되었을 것이라는 가정을 기반으로 한다.
  • 본 논문에서는 사용자의 참여에 의해 작성된 지식문 서의 품질을 평가하기 위한 자질로서 자료부족 문제에 견고한 신뢰도 자질을 제안하였다. 또한 네이버 지식 질 의응답 서비스에서 수집한 실제 문서들을 대상으로 하여 확률 기반의 문서 품질 평가 모델에 제안한 자질을 적용하였고, 실험결과를 통해 신뢰도 자질이 지식문서 의 품질 평가에 있어 유용함을 입증하였다.
  • 본 연구에서는 기존 연구들에서 이미 문서 품질 평가에 유용하다고 증명된 길이 자질을 기본적인 신뢰도 자질로 놓고, 길이 자질과 더불어 사용했을 때 성능 보완작용을 할 수 있는 여러 신뢰도 자질에 기반을 두는 지식문서 품질 평가 모델을 제안한다.
  • 본 연구에서는 문서 내용의 신뢰도를 측정하기 위한 새로운 텍스트 자질을 제안한다. 또한 제안하는 신뢰도자질의 유용성을 입증하기 위해 기존 비텍스트 정보를 다룬 연구[1]에서 진행한 방법과 동일하게 확률 기반의문서 품질 평가 모델에 제안하는 자질을 적용하고 네이버 지식 질의응답 서비스에 실제로 존재하는 답변 문서를 대상으로 하여 성능을 측정한다.
  • 본 연구에서는 비텍스트 정보를 다룬 기존 연구[1]에서 사용한 것과 동일한 분류 기반의 확률적 문서 품질평가 모델을 구현하고, 이에 신뢰도 자질을 적용하여 자질의 유용성을 보이고자 한다. 이 모델은 최대 엔트로피 (maximum entropy) 모델[9]에 기반을 둔다.
  • 하자. 본 품질 평가 모델의 목적은 조건부 확률 刀3 = 높음/ 즉, 주어진 문서가 높은 품질의 문서일 확률을 구하는것이다. 최대 엔트로피 모델을 이용하면 μ(血)는 최대 엔트로피 모델을 이용하여 다음과 같이 계산될 수 있다.

가설 설정

  • . 답변의 길이 : 답변이 무조건 길다고 하여 성실하다는 보장은 없지만, 본 연구에서는 주어진 답변의 길이가 길수록 질문에 대하여 성실하고 최대한 자세하게 기술한 답변이라고 가정한다.
  • 비율을 의미한다. 개인의견 단어가 빈번하게 사용될수록 문서가 객관적인 사실보다 주관적인 의견의 표현을 주로 담고 있을 가능성이 있기 때문에 신뢰도를 저하시킨다는 가정에 의해 자질로 선정되었다.
  • 광고성 단어의 출현 비율 : 광고 메일이나 문자메시지 등에 주로 쓰이는 단어가 주어진 답변에서 차지하는 비율을 의미한다. 광고성 어휘가 빈번하게 사용되면 질문에 관련된 답변이라 할지라도 불성실한 답변 또는 질문에 적합하지 않은 답변일 가능성이 크기에 신뢰도를 저하시킨다고 가정한다.
  • 가치판단어의 출현 비율 : 특정 객체에 대한 가치를 판단하기 위해 사용되는 가치판단어가 주어진 답변에서 차지하는 비율을 말한다. 성실하게 자신의 의견을 강조하거나, 어떤 주제에 대한 내용을 평가하고 근거를 제시하기 위해 자주 사용될 것이고, 따라서 신뢰도를 향상시킬 것이라는 가정 하에 자질로 사용하였다.
  • 제안한다. 이 방법은 고품질의 답변은 그 답변을 읽게 되는 사용자로 하여금 충분히 신뢰할 수 있을 정도로 최대한 성실하고 자세하게 작성되었고, 이에 비해 낮은 품질의 답변은 사용자가 신뢰할 수 없게끔 내용 면에서 불성실하고 불충분하게 작성되었을 것이라는 가정을 기반으로 한다.
  • 이모티콘의 출현 비율 : 주로 감정을 나타내는 이모티콘이 주어진 답변에서 차지하는 비율을 의미한다. 이모티콘이 빈번하게 나타난 답변일수록 가독성을 저하시키고, 이어 답변의 신뢰도를 저하시킬 것이라는 가정 하에 사용되었다.
  • 의미한다. 추정어가 많이 사용되었을 경우 뚜렷한 확신 없이 글을 작성하였을 가능성이 있다고 이는 곧 신뢰도를 저하시킨다는 가정 하에 자질로 사용되었다.
본문요약 정보가 도움이 되었나요?

참고문헌 (12)

  1. Jeon, J., Croft, W. B., Lee, J. H., and Park, S., "A framework to predict the quality of answers with non-textual features," In Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.228-235, 2006 

  2. Page, E. B., "Computer grading of student prose, using modern concepts and software," Journal of Experimental Education, Vol.62, No.2, pp.127-142, 1994 

  3. Brin, S. and Page, L., "The anatomy of a large-scale hypertextual Web search engine," In Proceedings of the 7th International Conference on World Wide Web 7, pp.107-117, 1998 

  4. Kleinberg, J. M., "Authoritative sources in a hyperlinked environment," J. ACM, Vol.46, No.5, pp.604-632, 1999 

  5. Zhu, X. and Gauch, S., "Incorporating quality metrics in centralized/distributed information retrieval on the World Wide Web," In Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.288-295, 2000 

  6. Zhou, Y. and Croft, W. B., "Document quality models for Web ad hoc retrieval," In Proceedings of the 14th ACM International Conference on Information and Knowledge Management, pp.331- 332, 2005 

  7. 박소연, 이준호, 전지운, "지식 검색 서비스 개선을 위한 문서의 적합도 및 신뢰도 분석," 한국문헌정보학회지, 제40권, 제2호, pp.299-314, 2006 

  8. Lee, J.-T., Song, Y.-I., and Rim, H.-C., "Predicting the quality of answers using surface linguistic features," In Proceedings of the 6th International Conference on Advanced Language Processing and Web Information Technology, pp. 111-116, 2007 

  9. Berger, A. L., Pietra, V. J. D., and Pietra, S. A. D., "A maximum entropy approach to natural language processing," Comput. Linguist. Vol.22, No.1, pp.39-71, 1996 

  10. Malouf, R., "A comparison of algorithms for maximum entropy parameter estimation," In Proceedings of the Conference on Computational Natural Language Learning, pp.49-55, 2002 

  11. Ponte, J. M. and Croft, W. B., "A language modeling approach to information retrieval," In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.275-281, 1998 

  12. Kekalainen, J. and Jarvelin, K., "Using graded relevance assessments in IR evaluation," Journal of the American Society for Information Science and Technology, Vol.53, No.13, pp.1120-1129, 2002 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로