[논문]빈도 정보를 이용한 저자 판별: 조선일보 4인 칼럼을 대상으로

한나래

빈도 정보를 이용한 저자 판별: 조선일보 4인 칼럼을 대상으로
Authorship Attribution in Korean Using Chosun Ilbo Column Texts 원문보기

한나래 (고려대학교)

본고에서는 빈도 정보를 이용한 저자 판별 (authorship attribution) 기법을 한국어에 적용한 연구를 소개한다. 그 대상으로는 정형화된 장르인 신문 칼럼을, 구체적으로는 조선일보에 연재 중인 4인 칼럼니스트들의 각 40개 칼럼, 총 160개 칼럼 텍스트를 선정하였다. 이들에 대하여 어절, 음절, 형태소, 각 단위 2연쇄 등의 다양한 언어 단위들의 빈도 정보들을 이용한 저자 판별을 시도한 결과, 형태소 빈도를 기반으로 하여 최고 93%를 넘는 높은 예측 정확도를 얻을 수 있었다. 또한, 저자 개인 문체간의 거리도 빈도 정보로써 계량적 표상이 가능함을 보일 수 있었다. 이로써 빈도 분석과 같은 통계적, 계량적 방법을 통하여 한국어 텍스트에 대한 성공적인 저자 판별과 개인 문체의 정량화가 가능하다는 결론을 내릴 수 있다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

(g-j)에 제시된 단위들은 일부 기본 단위들의 2연쇄(bigram)이다. 이들의 사용은 빈도 측정 단위를 좀 더 넓은 관찰 영역으로 확장함으로써 저자 판별에 도움이 되는지를 탐색해 보기 위한 것이다.
이러한 개별 문서의 저자 판별 작업에 있어서의 오류 양상은 두 저자의 문체 사이의 거리를 반영하는 것일 수 있다는 점에 착안, 이번에는 개인 문체간의 거리에 대한 계량화를 시도해 보았다. 이는 두 저자의 개인 문체를 빈도 벡터로 표상하여 그 사이의 거리를 카이 스퀘어 값으로써 계량한 것이 된다.

가설 설정

2. 저자 후보군 내의 각 저자에 대해 충분한 양의 저작물 집합(a, b, c, d)을 확보한다. 실제 저자(A)의 경우, 저자 판별 타겟인 텍스트(x)는 물론 저작물 집합(a)에서 제외한다.
7. 예측된 저자가 실제 저자와 일치할 경우 저자 판별이 성공한 것. 이외의 경우는 실패.

제안 방법

이는 두 저자의 개인 문체를 빈도 벡터로 표상하여 그 사이의 거리를 카이 스퀘어 값으로써 계량한 것이 된다. 단, 기대치와 관측치 사이에서 비대칭적인 카이스퀘어 테스트를 보완하기 위해, 두 저자를 번갈아 가며 관측치(O)와 기대치(E)로 둔 두 카이스퀘어 값의 평균가를 기준으로 한다. 이 실험에는 10개의 모든 자질을 다 시험하지 않고 형태소 빈도만을 사용하였다.
영미권에서는 카이스퀘어 테스트(chi-square test) 등을 이용한 정량적 저자 판별 연구가 활발히 이루어져 왔으며, 최근에는 자연언어 처리 테크닉과 기계학습 기법을 사용한 전산언어학 분야에서의 연구도 활성화 되고 있으나 ([10], [11], [12], [13],[14]), 한국어에 대해 이러한 방법론을 적용한 연구는 아직 시도된 바가 없다. 본고에 소개할 연구는 이러한 정량적 방법론을 한국어 텍스트의 저자 판별에 적용한 것이다.
앞서 잠시 언급했듯이, 판별에 사용할 빈도 자질로는 어절 외에도 다양한 언어적 단위를 사용할 수 있다. 어떠한 언어적 단위가 저자 판별에 가장 효과적인가를 탐색하기 위해, 본 연구에서는 다음 10개의 언어적 단위를 사용하였다.
단, 기대치와 관측치 사이에서 비대칭적인 카이스퀘어 테스트를 보완하기 위해, 두 저자를 번갈아 가며 관측치(O)와 기대치(E)로 둔 두 카이스퀘어 값의 평균가를 기준으로 한다. 이 실험에는 10개의 모든 자질을 다 시험하지 않고 형태소 빈도만을 사용하였다. 개인 문체를 표상하기 위해서는 40개 칼럼 각각의 빈도벡터의 평균값이 사용된다.
그러나 언어적 사용의 상대 빈도는 0일 수 있으므로 (예를 들어, 특정 어휘가 텍스트에서 전혀 나타나지 않았을 때) 테스트를 보완할 필요가 생긴다. 이를 위해서, 본 연구에서는 관측치와 기대치로 상대 빈도에 1을 더한 수치를 이용한다.
빈도 자질로는 단어, 단어 2, 3, 4그램, 문자와 같은 자질 외에도 상대적 위치를 고려하는 "문장내의 첫 6 단어와 마지막 6단어", 단어와 문장 길이의 빈도 등과 같은 보다 다양한 자질들이 고려되었다. 저자 후보군의 크기가 미치는 영향을 탐색하기 위해서는 7회에 걸쳐 40명, 20명, 10명, 5명, 4명, 3명, 2명의 각 다른 저자 그룹 크기에 대해 저자 판별의 성공률을 조사하였다.

대상 데이터

본 연구의 경우, 4명의 저자가 후보군이 되며, 저자 예측 시험은 저자당 40개, 모두 160개의 텍스트에 대해서 각각 시행하였다. 빈도 벡터 측정의 단위를 달리하여 여러 차례에 걸쳐 실험할 때마다 총 160개의 예측이 이루어졌다.
실험은 10개의 각 빈도 자질에 대해 160개 각각의 텍스트에 대해서 저자 판별을 시도하는 것으로 진행되었다. 먼저, 표 3은 단위 자질별 결과이다.
연구 대상으로 쓰인 텍스트는 현재 조선일보에 연재 중인 4인 칼럼니스트들을 지정, 그들 각각에 대하여 40개의 칼럼을 취합한 칼럼니스트 코퍼스이다. 신문 칼럼 장르는 이미 몇 다른 언어를 대상으로 한 연구에서 사용되어 ([8], [10]) 저자 판별 작업에 적합한 종류의 텍스트로 확인 받은 바 있다.
칼럼니스트 코퍼스는 김창균, 김대중, 류근일, 양상훈 4인 칼럼니스트들이 저술한 각 40개 칼럼, 총 160개 칼럼들로 구성되어있다. 출판 연대는 작가마다 조금씩의 차이는 있으나 2006년에서 2008년 사이이며, 각 파일은 조선일보 온라인 에디션 사이트에서 다운받은 것이다.

데이터처리

실례로, 아래의 표 1은 한 텍스트와 한 저자에 의한 텍스트군을 각각에서 추출한 어절 상대 빈도와 카이스퀘어 테스트를 사용하여 비교한 결과이다. 단일 텍스트가 관측치(O)가 되며, 비교 대상인 저자 텍스트군이 기대치 (E)가 된다.

이론/모형

두 빈도 벡터 사이의 유사도 측정은 카이스퀘어(chi-square) 테스트를 이용하였다 ([8], [14]). 카이스퀘어 테스트는 샘플에 대해 관측된 수치들이 기대치를 대변하는 특정한 분포에 얼마나 잘 부합하는지를 측정하는 통계 테스트로, 다음의 공식에 따른다.
(f) 어절은 띄어쓰기를 경계로 자른 단위이며, (a) 음절은 한글 음절 단위, 한자 글자 단위, 기호를 포함한다. 음절보다 큰 단위로 형태소가 사용되고 있는데, 형태소 분석 작업은 확률 기반 자동 태거인 KomaTagger([15])를 사용하였다. 형태소 (b) 단위로는 개개의 형태소와 해당 품사 태그를 함께 고려하였다.

성능/효과

전체를 통틀어 (b) 형태소, (c) 대표형 형태소, (d) 비주제특정 형태소의 세 형태소 기반 자질들이 93.1%과 93.7%의 정확도로 저자 판별에 가장 강력한 자질들임을 알 수 있다. 가장 약한 자질은 어절 빈도로, 160개 텍스트 중 132개를 정확히 예측하여 82%의 정확률을 구현하였다.
7%의 정확도로 저자 판별에 가장 강력한 자질들임을 알 수 있다. 가장 약한 자질은 어절 빈도로, 160개 텍스트 중 132개를 정확히 예측하여 82%의 정확률을 구현하였다. (g-j)의 2연쇄 자질들은 복합적 결과를 보여준다.
앞서 예측이 김대중에 몰려 있음을 보았는데, 김대중을 낀 세 저자쌍이 유사도에서 2, 3, 4위를 차지했다. 또한, 개별 텍스트 판별에 있어 가장 성공적이었던 류근일을 낀 김창균-류근일과 류근일-양상훈 쌍이 5위와 6위로 저자간 문체 거리가 가장 먼 것으로 나타났다. 이는 개별 텍스트의 저자 판별에 있어서의 오류 양상이 저자들의 개인 문체간의 거리를 반영하고 있음을 보여준다.
결과는 기대했듯이 개별 문서의 저자 판별에서 보인 혼동 양상과 부합하고 있다. 먼저, 앞서 상호간 혼동 정도가 크게 나타났던 김창균과 양상훈 사이의 문체 거리가 가장 작은 것으로 나타났다. 앞서 예측이 김대중에 몰려 있음을 보았는데, 김대중을 낀 세 저자쌍이 유사도에서 2, 3, 4위를 차지했다.
4명에서 3명, 또 2명으로 저자 후보군의 크기가 작을수록 저자 판별의 성공률은 향상된다. 본 연구에서와 같이 4명 후보군을 기준으로, 영어에서의 성능은 전반적으로 본 연구에서 보인 한국어에서의 저자 판별 성능보다 떨어짐을 볼 수 있다. 영어에서 가장 성공적이었던 자질은 단어와 문장부호 빈도 프로파일(word and punctuation profile)로서, 89%의 성공률을 보여 93.
(g-j)의 2연쇄 자질들은 복합적 결과를 보여준다. 음절 단위에 대해서는 2연쇄를 취하는 것이 성능의 향상을 가져오지만 (85% vs. 88.7%), 단일 단위로서 좋은 성능을 보여주었던 세 형태소 단위에 있어서는 2연쇄화는 오히려 성능을 저해하는 결과를 낳았다(93.1-93.7% vs. 84.4- 93.1). 그 원인을 다음과 같이 분석해 볼 수 있다.
이로써 빈도 정보와 카이스퀘어 테스트를 이용한 계량적 저자 판별 기법이 한국어의 저자 판별에 성공적으로 적용될 수 있음을 보였다. 한국어에서는 형태소가 저자 판별에 성공적으로 작용하는 언어적 단위이며, 이를 바탕으로 4인의 저자 후보군을 놓고 저자를 판별하는 데에 93%를 넘는 높은 정확률을 달성할 수 있었다.

후속연구

앞으로의 연구는 더욱 큰 저자 후보군을 대상으로 진행할 예정이며, 저자 후보군의 크기에 따른 판별 성공률도 탐색해 볼 계획이다. 또한, 형태소 연쇄나 비주제특정 형태소의 연쇄와 같은 자질들에 대한 실험을 여러 종류의 장르를 포함하는 또다른 저자 코퍼스에 대해 시행하는 것 역시 흥미로운 연구 방향이 될 것이다.
앞으로의 연구는 더욱 큰 저자 후보군을 대상으로 진행할 예정이며, 저자 후보군의 크기에 따른 판별 성공률도 탐색해 볼 계획이다. 또한, 형태소 연쇄나 비주제특정 형태소의 연쇄와 같은 자질들에 대한 실험을 여러 종류의 장르를 포함하는 또다른 저자 코퍼스에 대해 시행하는 것 역시 흥미로운 연구 방향이 될 것이다.

핵심어

질문

논문에서 추출한 답변

저자 예측 시험의 성공 여부는 어떤 과정을 거쳐 확인되는가?

1. 타겟 텍스트(x)의 실제 저자(A)를 포함한 저자 후보군(A, B, C, D)을 선정한다, 2. 저자 후보군 내의 각 저자에 대해 충분한 양의 저작물 집합(a, b, c, d)을 확보한다. 실제 저자(A)의 경우, 저자 판별 타겟인 텍스트(x)는 물론 저작물 집합(a)에서 제외한다. 3. 타겟 텍스트(x)를 표상(x')화 한다. 4. 각 후보의 저작물 집합(a, b, c, d)을 같은 방법으로 정량적 표상(a', b', c', d')화 한다. 5. 타겟 텍스트의 표상(x')과 각 후보 저작물의 정량적 표상(a', b', c', d') 사이의 유사도를 산출한다. 6. 가장 근접한 유사도를 보이는 후보 저자를 타겟 텍스트의 저자로 예측한다. 7. 예측된 저자가 실제 저자와 일치할 경우 저자 판별이 성공한 것. 이외의 경우는 실패.

저자 판별은 무엇인가?

저자 판별(authorship attribution)이라 함은 작자가 무기명 (anonymous)으로 되어있거나 작자의 진위가 논쟁이 되고 있는 저작물에 대해 저자를 할당하는 작업이다. 텍스트에서 추출한 자질들을 통계적으로 분석하여 저자 예측에 사용하는 정량적 (quantitative) 방법은 이미 19세기서부터 쓰이기 시작하여 이제는 저자 판별의 중심적인 기법으로 자리 잡았다 ([1], [2]).

카이스퀘어 테스트는 무엇인가?

두 빈도 벡터 사이의 유사도 측정은 카이스퀘어(chi-square) 테스트를 이용하였다 ([8], [14]). 카이스퀘어 테스트는 샘플에 대해 관측된 수치들이 기대치를 대변하는 특정한 분포에 얼마나 잘 부합하는지를 측정하는 통계 테스트로, 다음의 공식에 따른다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

빈도 정보를 이용한 저자 판별: 조선일보 4인 칼럼을 대상으로
Authorship Attribution in Korean Using Chosun Ilbo Column Texts 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

빈도 정보를 이용한 저자 판별: 조선일보 4인 칼럼을 대상으로 Authorship Attribution in Korean Using Chosun Ilbo Column Texts 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

빈도 정보를 이용한 저자 판별: 조선일보 4인 칼럼을 대상으로
Authorship Attribution in Korean Using Chosun Ilbo Column Texts 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper