$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

신뢰도 자질을 이용한 지식검색 문서의 품질 평가
Quality Prediction of Knowledge Search Documents Using Text-Confidence Features 원문보기

한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회, 2007 Oct. 12, 2007년, pp.62 - 67  

이정태 (고려대학교 컴퓨터학과) ,  송영인 (고려대학교 컴퓨터학과) ,  임해창 (고려대학교 컴퓨터학과)

초록

불특정 사용자의 참여에 의해 정보가 생성되는 지식검색 서비스에서는 문서의 품질이 검색 만족도에 중요한 요소 중 하나이다. 지식검색 문서의 품질 평가에 관한 기존 연구는 조회 수나 추천 수 등의 비텍스트 정보를 이용하여 문서의 품질을 평가하고, 이를 검색 모형에 반영하여 검색 성능을 높이는데 집중하였다. 이러한 비텍스트 정보는 그 유용성이 실험을 통해 증명되었지만, 새로 작성된 문서와 같은 경우 심각한 자료 부족 문제가 발생할 수 있다는 단점이 있다. 본 논문에서는 이러한 비텍스트 정보의 자료 부족 문제를 완화할 수 있는 새로운 문서 품질 평가 자질로서 문서 내용의 신뢰성을 반영하는 신뢰도 자질을 제안한다. 제안하는 자질은 문서의 내용으로부터 직접 추출되며, 따라서 추천 수나 조회 수 등 서비스 사용자의 참여나 이용을 필요로 하는 비텍스트 자질보다 자료 부족 문제에 견고하다는 장점이 있다. 또한 제안하는 신뢰도 자질은 문서 품질 평가에 유용하다고 알려진 비텍스트 자질과 유사하거나 향상된 성능을 실험에서 보였으며, 추후 자질 추출 방법을 개선한다면 효과적인 품질 평가 자질로서 기능을 할 수 있을 것으로 기대된다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서 다루고 있는 문서의 품질 평가에 관한 연구는 학생들이 작성한 논술을 컴퓨터를 이용하여 자동으로 채점하는 논술 자동채점(Automated Essay Grading)에 관한 연구와 관련이 있다. 논술 자동채점 프로그램의 가장 대표적인 예로 Program Essay Grade(PEG)[2]를 들 수 있다.
  • 본 논문에서는 기존 연구와 다르게 지식검색 문서의 품질을 내용의 신뢰도 측면에서 평가하는 방법을 제안한다. 이 방법은 높은 품질의 답변은 그 답변을 읽게 되는 사용자로 하여금 충분히 신뢰할 수 있을 정도로 최대한 성실하고 자세하게 작성되었고, 이에 비해 낮은 품질의 답변은 사용자가 신뢰할 수 없게끔 내용 면에서 불성실하고 불충분하게 작성되었을 것이라는 가정을 기반으로 한다.
  • 본 논문에서는 사용자의 참여에 의해 작성된 지식검색 문서의 품질을 평가하기 위한 자질로서 신뢰도 자질을 제안하였다. 또한 네이버 지식검색 서비스에서 수집한 실제 문서들을 대상으로 하여 확률 기반의 문서 품질 평가 모델에 제안한 자질을 적용하였고, 실험 결과를 통해 신뢰도 자질이 지식검색 문서의 품질 평가에 있어 유용함을 입증하였다.
  • 본 논문에서는 지식검색 문서의 품질 평가를 위해 신뢰도 자질이라고 정의한 새로운 자질을 제안한다.
  • 본 연구에서는 문서 내용의 신뢰도를 측정하기 위한 새로운 자질을 제안한다. 또한 제안하는 신뢰도 자질의 유용성을 입증하기 위해 기존 비텍스트 정보를 다룬 연구[1]에서 진행한 방법과 동일하게 확률 기반의 문서 품질 평가 모델에 제안하는 자질을 적용하고 네이버 지식 검색 서비스에 실제로 존재하는 답변 문서를 대상으로 성능을 측정한다.
  • 본 연구에서는 비텍스트 정보를 다룬 연구[1]에서 사용한 것과 동일한 분류 기반의 확률적 문서 품질 평가 모델을 구현하고, 이에 신뢰도 자질을 적용하여 자질의 유용성을 보이고자 한다. 이 모델은 최대 엔트로피 (maximum entropy) 모델[9]에 기반을 둔다.
  • 주어진 답변을 문서 x라고 하고 이 x라는 문서에 매길 수 있는 품질 등급을 y = {good,medium,bad}라고 하자. 본 품질 평가 모델의 목적은 조건부 확률 p(y = good|x) 즉, 주어진 문서가 높은 품질의 문서일 확률을 구하는 것이다. 최대 엔트로피 모델을 이용하면 p(y|x)는 최대 엔트로피 모델을 이용하여 다음과 같이 계산될 수 있다.

가설 설정

  • • 답변의 길이 : 답변이 무조건 길다고 하여 성실하다는 보장은 없지만, 본 연구에서는 주어진 답변의 길이가 길수록 질문에 대하여 성실하고 최대한 자세하게 기술한 답변이라고 가정한다.2
  • • 개인의견 단어의 출현 비율 : 개인적 의견이 강한 문장에서 주로 나타나는 단어가 주어진 답변에서 차지하는 비율을 의미한다. 개인의견 단어가 빈번하게 사용될수록 문서가 객관적인 사실보다 주관적인 의견의 표현을 주로 담고 있을 가능성이 있기 때문에 신뢰도를 저하시킨다는 가정에 의해 자질로 선정되었다.
  • • 광고성 단어의 출현 비율 : 광고 메일이나 문자메시지 등에 주로 쓰이는 단어가 주어진 답변에서 차지하는 비율을 의미한다. 광고성 어휘가 빈번하게 사용되면 질문에 관련된 답변이라 할지라도 불성실한 답변 또는 질문에 적합하지 않은 답변일 가능성이 크기에 신뢰도를 저하시킨다고 가정한다.
  • • 가치판단어의 출현 비율 : 특정 객체에 대한 가치를 판단하기 위해 사용되는 가치판단어가 주어진 답변에서 차지하는 비율을 말한다. 성실하게 자신의 의견을 강조하거나, 어떤 주제에 대한 내용을 평가하고 근거를 제시하기 위해 자주 사용될 것이고, 따라서 신뢰도를 향상시킬 것이라는 가정 하에 자질로 사용하였다. 이모티콘의 출현 비율 : 주로 감정을 나타내는 이모티콘이 주어진 답변에서 차지하는 비율을 의미한다.
  • 본 논문에서는 기존 연구와 다르게 지식검색 문서의 품질을 내용의 신뢰도 측면에서 평가하는 방법을 제안한다. 이 방법은 높은 품질의 답변은 그 답변을 읽게 되는 사용자로 하여금 충분히 신뢰할 수 있을 정도로 최대한 성실하고 자세하게 작성되었고, 이에 비해 낮은 품질의 답변은 사용자가 신뢰할 수 없게끔 내용 면에서 불성실하고 불충분하게 작성되었을 것이라는 가정을 기반으로 한다.
  • 이모티콘의 출현 비율 : 주로 감정을 나타내는 이모티콘이 주어진 답변에서 차지하는 비율을 의미한다. 이모티콘이 빈번하게 나타난 답변일수록 가독성을 저하시키고, 이어 답변의 신뢰도를 저하시킬 것이라는 가정 하에 사용되었다.
  • • 추정어의 출현 비율 : 추정의 느낌이 강한 문장에서 주로 사용되는 어휘가 주어진 답변에서 차지하는 비율을 의미한다. 추정어가 많이 사용되었을 경우 뚜렷한 확신 없이 글을 작성하였을 가능성이 있다고 이는 곧 신뢰도를 저하시킨다는 가정 하에 자질로 사용되었다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
지식검색 서비스란 무엇인가? 지식검색 서비스란 사용자가 자발적으로 참여하여 쌍방향으로 질문과 답변을 하는 커뮤니티 기반의 서비스이다. 일반 검색엔진으로 찾기 힘든 정보를 원할 때 이를 질문으로 작성하면 다른 불특정다수의 사용자들로부터 답변을 얻을 수 있다는 강점 때문에 실제로 오늘날 네이버, 야후, 엠파스 등 여러 포탈의 대표적인 서비스로 정착하였다.
논술자동채점 프로그램의 대표적 예인 PEG는 품질 평가에 있어서 어떤 부분에 초점을 두는가? 논술 자동채점 프로그램의 가장 대표적인 예로 Program Essay Grade(PEG)[2]를 들 수 있다. PEG는 사람이 논술을 채점할 때와 같이, 주어진 논술이 얼마나 잘 작성되었는지에 초점을 맞춘다. 이를 기반으로, 컴퓨터가 쉽게 측정할 수 있는 자질을 사용한다.
지식검색 서비스의 문서 품질에 관한 문제를 해결하는 것이 시급한 이유는 무엇인가? 일반 검색엔진으로 찾기 힘든 정보를 원할 때 이를 질문으로 작성하면 다른 불특정다수의 사용자들로부터 답변을 얻을 수 있다는 강점 때문에 실제로 오늘날 네이버, 야후, 엠파스 등 여러 포탈의 대표적인 서비스로 정착하였다. 그러나 수많은 사용자들이 참여하게 되면서 그 어느 사용자라도 웹 브라우저만 있으면 답변을 작성할 수 있기 때문에 지식검색 문서의 품질을 해결하는 것이 시급한 상황이다. 이를 해결하기 위하여 지식검색 문서의 품질 평가에 관한 연구가 이루어지고 있지만 아직 미흡한 편이다.
질의응답 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로