불특정 다수 사용자가 정보를 생성하는 지식 질의응답 서비스에서는 문서의 품질이 검색결과 만족도에 중요한 요소 중 하나이다. 지식 질의응답 문서의 품질 평가에 관한 기존 연구는 조회 수와 추천 수 등의 비텍스트 정보를 이용하여 문서의 품질을 평가하고, 이를 검색 모형에 반영하여 검색 성능을 높이는데 집중하였다. 이러한 비텍스트 정보는 그 유용성이 실험을 통해 증명되었다. 그러나 비텍스트 정보를 이용하여 새로 작성된 문서의 품질을 평가할 경우 심각한 자료 부족 문제가 발생할 수 있다는 단점이 있다. 본 논문에서는 이러한 비텍스트 정보의 자료 부족 문제를 완화할 수 있는 새로운 문서 품질 평가자질로서 문서 내용 자체에 대한 신뢰성을 반영하는 신뢰도 자질을 제안한다. 제안하는 자질은 문서의 내용으로부터 직접 추출되며, 따라서 추천 수나 조회 수 등 서비스 사용자의 참여를 간접적으로 필요로 하는 비텍스트 자질보다 자료 부족 문제에 견고하다는 장점이 있다. 또한 제안하는 신뢰도 자질은 문서 품질 평가에 유용하다고 알려진 비텍스트 자질과 유사하거나 향상된 성능을 실제 지식 질의응답 문서를 대상으로 한 실험에서 보였으며, 추후 효과적인 품질 평가 자질로서 지식 질의응답 서비스의 성능향상에 기여를 할 수 있을 것으로 기대된다.
불특정 다수 사용자가 정보를 생성하는 지식 질의응답 서비스에서는 문서의 품질이 검색결과 만족도에 중요한 요소 중 하나이다. 지식 질의응답 문서의 품질 평가에 관한 기존 연구는 조회 수와 추천 수 등의 비텍스트 정보를 이용하여 문서의 품질을 평가하고, 이를 검색 모형에 반영하여 검색 성능을 높이는데 집중하였다. 이러한 비텍스트 정보는 그 유용성이 실험을 통해 증명되었다. 그러나 비텍스트 정보를 이용하여 새로 작성된 문서의 품질을 평가할 경우 심각한 자료 부족 문제가 발생할 수 있다는 단점이 있다. 본 논문에서는 이러한 비텍스트 정보의 자료 부족 문제를 완화할 수 있는 새로운 문서 품질 평가자질로서 문서 내용 자체에 대한 신뢰성을 반영하는 신뢰도 자질을 제안한다. 제안하는 자질은 문서의 내용으로부터 직접 추출되며, 따라서 추천 수나 조회 수 등 서비스 사용자의 참여를 간접적으로 필요로 하는 비텍스트 자질보다 자료 부족 문제에 견고하다는 장점이 있다. 또한 제안하는 신뢰도 자질은 문서 품질 평가에 유용하다고 알려진 비텍스트 자질과 유사하거나 향상된 성능을 실제 지식 질의응답 문서를 대상으로 한 실험에서 보였으며, 추후 효과적인 품질 평가 자질로서 지식 질의응답 서비스의 성능향상에 기여를 할 수 있을 것으로 기대된다.
In Knowledge Q&A services where information is created by unspecified users, document quality is an important factor of user satisfaction with search results. Previous work on quality prediction of Knowledge Q&A documents evaluate the quality of documents by using non-textual information, such as cl...
In Knowledge Q&A services where information is created by unspecified users, document quality is an important factor of user satisfaction with search results. Previous work on quality prediction of Knowledge Q&A documents evaluate the quality of documents by using non-textual information, such as click counts and recommendation counts, and focus on enhancing retrieval performance by incorporating the quality measure into retrieval model. Although the non-textual information used in previous work was proven to be useful by experiments, data sparseness problem may occur when predicting the quality of newly created documents with such information. To solve data sparseness problem of non-textual features, this paper proposes new features for document quality prediction, namely text-confidence features, which indicate how trustworthy the content of a document is. The proposed features, extracted directly from the document content, are stable against data sparseness problem, compared to non-textual features that indirectly require participation of service users in order to be collected. Experiments conducted on real world Knowledge Q&A documents suggests that text-confidence features show performance comparable to the non-textual features. We believe the proposed features can be utilized as effective features for document quality prediction and improve the performance of Knowledge Q&A services in the future.
In Knowledge Q&A services where information is created by unspecified users, document quality is an important factor of user satisfaction with search results. Previous work on quality prediction of Knowledge Q&A documents evaluate the quality of documents by using non-textual information, such as click counts and recommendation counts, and focus on enhancing retrieval performance by incorporating the quality measure into retrieval model. Although the non-textual information used in previous work was proven to be useful by experiments, data sparseness problem may occur when predicting the quality of newly created documents with such information. To solve data sparseness problem of non-textual features, this paper proposes new features for document quality prediction, namely text-confidence features, which indicate how trustworthy the content of a document is. The proposed features, extracted directly from the document content, are stable against data sparseness problem, compared to non-textual features that indirectly require participation of service users in order to be collected. Experiments conducted on real world Knowledge Q&A documents suggests that text-confidence features show performance comparable to the non-textual features. We believe the proposed features can be utilized as effective features for document quality prediction and improve the performance of Knowledge Q&A services in the future.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서 다루고 있는 문서의 품질 평가에 관한 연구는 학생들이 작성한 논술을 컴퓨터를 이용하여 자동으로 채점하는 논술 자동채점 (Automated Essay Grading)에 관한 연구와 관련이 있다. 논술 자동채점프로그램의 가장 대표적인 예로 Program Essay Grade(PEG)[2]를 들 수 있다.
본 논문에서는 기존 연구와 다르게 지식문서의 품질을 내용의 신뢰도 측면에서 평가하는 방법을 제안한다. 이 방법은 고품질의 답변은 그 답변을 읽게 되는 사용자로 하여금 충분히 신뢰할 수 있을 정도로 최대한 성실하고 자세하게 작성되었고, 이에 비해 낮은 품질의 답변은 사용자가 신뢰할 수 없게끔 내용 면에서 불성실하고 불충분하게 작성되었을 것이라는 가정을 기반으로 한다.
본 논문에서는 사용자의 참여에 의해 작성된 지식문 서의 품질을 평가하기 위한 자질로서 자료부족 문제에 견고한 신뢰도 자질을 제안하였다. 또한 네이버 지식 질 의응답 서비스에서 수집한 실제 문서들을 대상으로 하여 확률 기반의 문서 품질 평가 모델에 제안한 자질을 적용하였고, 실험결과를 통해 신뢰도 자질이 지식문서 의 품질 평가에 있어 유용함을 입증하였다.
본 연구에서는 기존 연구들에서 이미 문서 품질 평가에 유용하다고 증명된 길이 자질을 기본적인 신뢰도 자질로 놓고, 길이 자질과 더불어 사용했을 때 성능 보완작용을 할 수 있는 여러 신뢰도 자질에 기반을 두는 지식문서 품질 평가 모델을 제안한다.
본 연구에서는 문서 내용의 신뢰도를 측정하기 위한 새로운 텍스트 자질을 제안한다. 또한 제안하는 신뢰도자질의 유용성을 입증하기 위해 기존 비텍스트 정보를 다룬 연구[1]에서 진행한 방법과 동일하게 확률 기반의문서 품질 평가 모델에 제안하는 자질을 적용하고 네이버 지식 질의응답 서비스에 실제로 존재하는 답변 문서를 대상으로 하여 성능을 측정한다.
본 연구에서는 비텍스트 정보를 다룬 기존 연구[1]에서 사용한 것과 동일한 분류 기반의 확률적 문서 품질평가 모델을 구현하고, 이에 신뢰도 자질을 적용하여 자질의 유용성을 보이고자 한다. 이 모델은 최대 엔트로피 (maximum entropy) 모델[9]에 기반을 둔다.
하자. 본 품질 평가 모델의 목적은 조건부 확률 刀3 = 높음/ 즉, 주어진 문서가 높은 품질의 문서일 확률을 구하는것이다. 최대 엔트로피 모델을 이용하면 μ(血)는 최대 엔트로피 모델을 이용하여 다음과 같이 계산될 수 있다.
가설 설정
. 답변의 길이 : 답변이 무조건 길다고 하여 성실하다는 보장은 없지만, 본 연구에서는 주어진 답변의 길이가 길수록 질문에 대하여 성실하고 최대한 자세하게 기술한 답변이라고 가정한다.
비율을 의미한다. 개인의견 단어가 빈번하게 사용될수록 문서가 객관적인 사실보다 주관적인 의견의 표현을 주로 담고 있을 가능성이 있기 때문에 신뢰도를 저하시킨다는 가정에 의해 자질로 선정되었다.
광고성 단어의 출현 비율 : 광고 메일이나 문자메시지 등에 주로 쓰이는 단어가 주어진 답변에서 차지하는 비율을 의미한다. 광고성 어휘가 빈번하게 사용되면 질문에 관련된 답변이라 할지라도 불성실한 답변 또는 질문에 적합하지 않은 답변일 가능성이 크기에 신뢰도를 저하시킨다고 가정한다.
가치판단어의 출현 비율 : 특정 객체에 대한 가치를 판단하기 위해 사용되는 가치판단어가 주어진 답변에서 차지하는 비율을 말한다. 성실하게 자신의 의견을 강조하거나, 어떤 주제에 대한 내용을 평가하고 근거를 제시하기 위해 자주 사용될 것이고, 따라서 신뢰도를 향상시킬 것이라는 가정 하에 자질로 사용하였다.
제안한다. 이 방법은 고품질의 답변은 그 답변을 읽게 되는 사용자로 하여금 충분히 신뢰할 수 있을 정도로 최대한 성실하고 자세하게 작성되었고, 이에 비해 낮은 품질의 답변은 사용자가 신뢰할 수 없게끔 내용 면에서 불성실하고 불충분하게 작성되었을 것이라는 가정을 기반으로 한다.
이모티콘의 출현 비율 : 주로 감정을 나타내는 이모티콘이 주어진 답변에서 차지하는 비율을 의미한다. 이모티콘이 빈번하게 나타난 답변일수록 가독성을 저하시키고, 이어 답변의 신뢰도를 저하시킬 것이라는 가정 하에 사용되었다.
의미한다. 추정어가 많이 사용되었을 경우 뚜렷한 확신 없이 글을 작성하였을 가능성이 있다고 이는 곧 신뢰도를 저하시킨다는 가정 하에 자질로 사용되었다.
제안 방법
국내 관련 연구 중에서는 지식문서의 평가 기준을 제시한 연구[기를 들 수 있다. 구체적으로 이 연구에서는 지식문서를 구성하는 질문과 답변의 적합도 평가 기준과 답변의 신뢰도 평가기준을 제시하고, 또한 이러한 평가 기준에 근거하여 지식문서의 실제 평가를 수행하였다.
사전에 기록될 단어를 뽑을 때에는 두 명의 동의하에서만 뽑았다. 그리고 이모티콘의 경우, 광고성 문자메시지에 주로 출연하는 어구 위주로 사전을 구축하였다. 각 사전기반 자질의 어휘사전에 등재된 단어의 예는 표 5에 나타나 있다.
텍스트 자질을 제안한다. 또한 제안하는 신뢰도자질의 유용성을 입증하기 위해 기존 비텍스트 정보를 다룬 연구[1]에서 진행한 방법과 동일하게 확률 기반의문서 품질 평가 모델에 제안하는 자질을 적용하고 네이버 지식 질의응답 서비스에 실제로 존재하는 답변 문서를 대상으로 하여 성능을 측정한다.
먼저 제안하는 각 신뢰도 자질의 상대적인 문서 품질평가 성능 기여도를 알아보기 위해 모든 신뢰도 자질조합에서 해당 자질만 제외한 상태의 품질 평가 모델의 성능을 AP 및 AgF로 측정하였다. 실험의 결과는 표 8 에 나타나있다.
본 연구에서는 [1]에서 한 방법과 동일하게 무작위로 선택된 질문에 대한 답변들을 학습 집합으로 사용하고, 질문이 질의에 적합하다고 판정된 답변의 집합을 평가집합으로 사용한다. 표 4는 학습용 집합과 평가용 집합 의 신뢰도 분포를 나타낸다.
본 연구에서는 품질 평가 모델이 출력하는 조건부 확률 즉, 주어진 답변의 신뢰도가 높을 확률로 순위가 매겨진 답변 목록을 대상으로 기존 정보검색 시스템 평가에 전통적으로 사용되는 평균 정확률(average precision) 및 일반화된 정확률과 재현율(generalized precision and recall)[12]로 모델의 성능을 측정한다. 다양한 평가 척도를 사용하는 이유는 평가의 신뢰성을 좀 더 높이기위함이다.
연결어나 추정어 등을 위한 사전은 두 명의 학생이 신뢰도가 높은 답변에서 주로 나오는 단어 목록과 신뢰도가 낮은 답변에서 가장 빈번하게 출현하는 단어 목록에서 직접 뽑아서 구축하였다. 사전에 기록될 단어를 뽑을 때에는 두 명의 동의하에서만 뽑았다.
방법을 제안한 연구[1]를 들 수 있다. 이 방법의 경우 추천 수 조회 수 및 답변 길이 등 지식문서의 답변과 관련된 총 13가지의 비텍스트 정보를 활용하여 기계학습 기반의 확률적 품질 평가 분류기를 만들어 품질지수를 측정하고, 이를 검색 모델에 반영하여 지식문서 검색 성능을 향상시켰다. 제안된 자질 중 가장 중요한 자질은 답변 길이였다.
웹사이트 주소의 출현 여부 : 참조한 웹사이트의 주소가 답변 내에 출현했는지의 여부를 의미한다. 주소가 있을 경우 객관적으로 정보의 출처를 밝히는 답변일 가능성이 높고, 따라서 신뢰도가 향상될 것이라는 가정에 기반을 두어 사용하였다.
대상 데이터
사용된 것과도 동일한 집합이다. 본 데이터 집합은 2004년 6월 29일 하루 동안 네이버 검색엔진에 입력된 125개의 질의로 네이버 지식 질의응답 서비스에서 검색된 9, 104개의 질문들 중에서 문헌정보학 전공자들에 의해 질의에 적합하다고 판정된 1, 700개의 질문과 전체 네이버 지식문서 컬렉션에서 무작위로 선정된 894개의 질문, 그리고 각 질문에 대한 답변들 중 질문자가 “Best Answer”로 선택한 답변으로 이루어져 있으며, 각 답변에 대하여 신뢰도가 3점 척도(높음, 보통, 낮음)를 기준으로 문헌정보학 전공자들에 의해 평가되어 있다[7].
이론/모형
이 모델은 최대 엔트로피 (maximum entropy) 모델[9]에 기반을 둔다. 본 연구에서는 Zhang Le의 최대 엔트로피 모델화 툴킷2)을 사용하여 품질 평가 모델을 구현하였다.
성능/효과
본 논문에서는 사용자의 참여에 의해 작성된 지식문 서의 품질을 평가하기 위한 자질로서 자료부족 문제에 견고한 신뢰도 자질을 제안하였다. 또한 네이버 지식 질 의응답 서비스에서 수집한 실제 문서들을 대상으로 하여 확률 기반의 문서 품질 평가 모델에 제안한 자질을 적용하였고, 실험결과를 통해 신뢰도 자질이 지식문서 의 품질 평가에 있어 유용함을 입증하였다. 제안하는 방법이 기존 방법에 비해 상대적으로 적은 양의 정보를 사용하였음에도 불구하고 대등한 성능을 보인 것을 고려할 때, 상당히 의미 있는 성능 향상으로 판단된다.
대표적이다. 본 실험 환경의 지식문서 데이터와 품질 평가 모델은 모두 [1]에서 사용된 것과 동일하기 때문에 비텍스트 자질과 제안하는 신뢰도 자질 간의 성능 비교가 가능하다.
, 4}에서 검색된 문서 집합(본 연구에서는 전체답변), 그리고 &은 검색된 문서 집합의 크기(본 연구에서는 전체 답변의 개수)이다. 본 연구에서 다루는 답변은 3점 척도로 신뢰도가 부여되었기 때문에 전통적인 재현율과 정확률보다는 일반화된 재현율과 정확률이 본실험 환경에 더 적합한 평가 척도라 할 수 있다. 일반화된 정확률을 이용하면 일반화된 평균 정확률 "도 다음과 같이 계산할 수 있다.
상관계수 측정 결과를 보게 되면 이모티콘 자질의 경우 기존에 이미 유용하다고 알려진 길이 자질보다 더높은 상관계수가 나온 것을 알 수 있다. 연결어와 광고성 단어의 경우 직관과 달리 실제 신뢰도 점수와의 관련성이 매우 낮음을 알 수 있다.
점수를 의미한다. 상관계수의 값이 양수이면 자질의 값이 커질수록 신뢰도 점수도 높아진다는 것을 나타내고, 음수이면 자질의 값이 작아질수록 신뢰도 점수가 높아진다는 것을 나타낸다. 상관계수가 0에 가까울수록 실제 신뢰도 점수와의 관련성이 낮음을 나타낸다.
위 실험 결과에서 지식문서 품질 평가에 있어서 본논문에서 제안하는 신뢰도 자질이 비텍스트 자질에 비해 성능을 약 1% 정도 개선하였음을 알 수 있다. 주목할점은 기존 방법[1]에서 답변 길이 외에도 조회 수, 추천수 등 서비스 사용자의 참여에 의해 구축된 정보를 추가적으로 사용한 반면에, 본 실험에서 사용한 신뢰도 자질은 주어진 하나의 품질 평가 대상 문서의 텍스트에서만 추출한 것이기 때문에 활용하는 정보의 양이 다르다는 점이다.
또한 네이버 지식 질 의응답 서비스에서 수집한 실제 문서들을 대상으로 하여 확률 기반의 문서 품질 평가 모델에 제안한 자질을 적용하였고, 실험결과를 통해 신뢰도 자질이 지식문서 의 품질 평가에 있어 유용함을 입증하였다. 제안하는 방법이 기존 방법에 비해 상대적으로 적은 양의 정보를 사용하였음에도 불구하고 대등한 성능을 보인 것을 고려할 때, 상당히 의미 있는 성능 향상으로 판단된다.
주목할점은 기존 방법[1]에서 답변 길이 외에도 조회 수, 추천수 등 서비스 사용자의 참여에 의해 구축된 정보를 추가적으로 사용한 반면에, 본 실험에서 사용한 신뢰도 자질은 주어진 하나의 품질 평가 대상 문서의 텍스트에서만 추출한 것이기 때문에 활용하는 정보의 양이 다르다는 점이다. 제안하는 방법이 비교적 적은 양의 정보만을 자질로 이용하였음에도 불구하고 기존 방법과 대등한 성능을 보였다는 것은 제안하는 신뢰도 자질의 효율성과 유용성을 입증하는 것이라 볼 수 있다. 추후 연구에서는 보다 더 효과적인 신뢰도 자질 추출 방법을 모색하여, 기존 방법 대비 성능의 개선 폭을 향상시키는 데에도 주력할 예정이다.
표 8의 결과로 각 자질을 분석해보면 길이 자질이 타자질들에 비해 가장 기여도가 높다는 것을 알 수 있다. 나머지 자질들은 길이 자질만큼의 영향력은 갖지 않으나 전체적인 성능을 보완해주는 역할을 한다는 것을 표 8의 결과에서 암시한다고 볼 수 있다.
후속연구
본 연구에서 제안한 신뢰도 자질은 지식 검색 분야 문서에 종속적인 특징에 기반을 둔 것이 아니기 때문에, 지식 질의응답 서비스에서의 문서 품질 평가뿐만 아니라 블로그, 제품 리뷰 등 다른 종류의 사용자 제작 문서 의 품질 평가에도 유용할 것이라고 생각한다. 향후 연구 로써, 신뢰도 자질 및 비텍스트 자질에 기반을 둔 품질 평가 모델의 성능을 개선하기 위한 방안 및 모델의 출 력결과를 실제 검색 모델에 반영하여 일반적인 사용자제작 문서의 검색 성능을 효과적으로 향상시킬 방안에 대해 연구하고자 한다.
길이 자질을 제외했을 때에는 신뢰도 자질이 비텍스트 자질에 비해 낮은 성능을 보이긴 하지만, 성능 변화폭이 크지는 않다. 추후 연구에서는 보다 더 정교한 신뢰도 자질 추출방법을 모색하여 성능을 개선시킬 계획이다.
제안하는 방법이 비교적 적은 양의 정보만을 자질로 이용하였음에도 불구하고 기존 방법과 대등한 성능을 보였다는 것은 제안하는 신뢰도 자질의 효율성과 유용성을 입증하는 것이라 볼 수 있다. 추후 연구에서는 보다 더 효과적인 신뢰도 자질 추출 방법을 모색하여, 기존 방법 대비 성능의 개선 폭을 향상시키는 데에도 주력할 예정이다.
이전에 보았던 표 7에서 길이 자질과 동일하거나 더 높은 학습데이터와의 상관계수를 보인 이모티콘 자질과 추정어 자질 등 학습데이터를 이용하여 구축된 사전에 기반하여 추출된 몇몇 자질들의 경우, 평가데이터에 대한 적용 범위(coverage) 가 제한적이어서 실제 문서 품질 평가에 대한 성능 기여도가 상관계수만큼 크지 않게 나온 것이라 판단된다. 추후 연구에서는 사전기반 자질 추출에 사용되는 사전들을 확장하여 적용 범위를 넓히는 방법을 모색하고자 한다.
본 연구에서 제안한 신뢰도 자질은 지식 검색 분야 문서에 종속적인 특징에 기반을 둔 것이 아니기 때문에, 지식 질의응답 서비스에서의 문서 품질 평가뿐만 아니라 블로그, 제품 리뷰 등 다른 종류의 사용자 제작 문서 의 품질 평가에도 유용할 것이라고 생각한다. 향후 연구 로써, 신뢰도 자질 및 비텍스트 자질에 기반을 둔 품질 평가 모델의 성능을 개선하기 위한 방안 및 모델의 출 력결과를 실제 검색 모델에 반영하여 일반적인 사용자제작 문서의 검색 성능을 효과적으로 향상시킬 방안에 대해 연구하고자 한다.
참고문헌 (12)
Jeon, J., Croft, W. B., Lee, J. H., and Park, S., "A framework to predict the quality of answers with non-textual features," In Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.228-235, 2006
Page, E. B., "Computer grading of student prose, using modern concepts and software," Journal of Experimental Education, Vol.62, No.2, pp.127-142, 1994
Brin, S. and Page, L., "The anatomy of a large-scale hypertextual Web search engine," In Proceedings of the 7th International Conference on World Wide Web 7, pp.107-117, 1998
Zhu, X. and Gauch, S., "Incorporating quality metrics in centralized/distributed information retrieval on the World Wide Web," In Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.288-295, 2000
Zhou, Y. and Croft, W. B., "Document quality models for Web ad hoc retrieval," In Proceedings of the 14th ACM International Conference on Information and Knowledge Management, pp.331- 332, 2005
박소연, 이준호, 전지운, "지식 검색 서비스 개선을 위한 문서의 적합도 및 신뢰도 분석," 한국문헌정보학회지, 제40권, 제2호, pp.299-314, 2006
Lee, J.-T., Song, Y.-I., and Rim, H.-C., "Predicting the quality of answers using surface linguistic features," In Proceedings of the 6th International Conference on Advanced Language Processing and Web Information Technology, pp. 111-116, 2007
Berger, A. L., Pietra, V. J. D., and Pietra, S. A. D., "A maximum entropy approach to natural language processing," Comput. Linguist. Vol.22, No.1, pp.39-71, 1996
Malouf, R., "A comparison of algorithms for maximum entropy parameter estimation," In Proceedings of the Conference on Computational Natural Language Learning, pp.49-55, 2002
Ponte, J. M. and Croft, W. B., "A language modeling approach to information retrieval," In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.275-281, 1998
Kekalainen, J. and Jarvelin, K., "Using graded relevance assessments in IR evaluation," Journal of the American Society for Information Science and Technology, Vol.53, No.13, pp.1120-1129, 2002
※ AI-Helper는 부적절한 답변을 할 수 있습니다.