선택한 단어 수는 입니다.
최소 단어 이상 선택하여야 합니다.
최소 단어 이상 선택하여야 합니다.
선택한 단어 수는 30입니다.
최대 10 단어까지만 선택 가능합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회, 2008 Oct. 10, 2008년, pp.29 - 34
한나래 (고려대학교)
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
저자 예측 시험의 성공 여부는 어떤 과정을 거쳐 확인되는가? | 1. 타겟 텍스트(x)의 실제 저자(A)를 포함한 저자 후보군(A, B, C, D)을 선정한다, 2. 저자 후보군 내의 각 저자에 대해 충분한 양의 저작물 집합(a, b, c, d)을 확보한다. 실제 저자(A)의 경우, 저자 판별 타겟인 텍스트(x)는 물론 저작물 집합(a)에서 제외한다. 3. 타겟 텍스트(x)를 표상(x')화 한다. 4. 각 후보의 저작물 집합(a, b, c, d)을 같은 방법으로 정량적 표상(a', b', c', d')화 한다. 5. 타겟 텍스트의 표상(x')과 각 후보 저작물의 정량적 표상(a', b', c', d') 사이의 유사도를 산출한다. 6. 가장 근접한 유사도를 보이는 후보 저자를 타겟 텍스트의 저자로 예측한다. 7. 예측된 저자가 실제 저자와 일치할 경우 저자 판별이 성공한 것. 이외의 경우는 실패. | |
저자 판별은 무엇인가? | 저자 판별(authorship attribution)이라 함은 작자가 무기명 (anonymous)으로 되어있거나 작자의 진위가 논쟁이 되고 있는 저작물에 대해 저자를 할당하는 작업이다. 텍스트에서 추출한 자질들을 통계적으로 분석하여 저자 예측에 사용하는 정량적 (quantitative) 방법은 이미 19세기서부터 쓰이기 시작하여 이제는 저자 판별의 중심적인 기법으로 자리 잡았다 ([1], [2]). | |
카이스퀘어 테스트는 무엇인가? | 두 빈도 벡터 사이의 유사도 측정은 카이스퀘어(chi-square) 테스트를 이용하였다 ([8], [14]). 카이스퀘어 테스트는 샘플에 대해 관측된 수치들이 기대치를 대변하는 특정한 분포에 얼마나 잘 부합하는지를 측정하는 통계 테스트로, 다음의 공식에 따른다. |
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.