저자식별은 학술문헌에 출현한 동명저자명들을 실세계의 서로 다른 사람들로 대응시키는 것이다. 이를 위해 임의의 동명저자명쌍의 유사도를 계산하고 이를 바탕으로 동명저자명 개체들을 군집화하는 단계를 거친다. 저자명의 군집화 기법으로 주로 계층적 군집법이 사용되었으나 다양한 계층적 군집법에 대한 비교 평가는 미흡했다. 이 연구는 다이스계수, 코사인유사도, 유클리디안 거리, 자카드계수, 피어슨 상관계수 등의 다양한 개체거리/유사도수식과 계층적 군집법들의 상관관계와 계층적 군집기법들의 한글 저자식별 성능에 대한 비교/분석을 다룬다.
저자식별은 학술문헌에 출현한 동명저자명들을 실세계의 서로 다른 사람들로 대응시키는 것이다. 이를 위해 임의의 동명저자명쌍의 유사도를 계산하고 이를 바탕으로 동명저자명 개체들을 군집화하는 단계를 거친다. 저자명의 군집화 기법으로 주로 계층적 군집법이 사용되었으나 다양한 계층적 군집법에 대한 비교 평가는 미흡했다. 이 연구는 다이스계수, 코사인유사도, 유클리디안 거리, 자카드계수, 피어슨 상관계수 등의 다양한 개체거리/유사도수식과 계층적 군집법들의 상관관계와 계층적 군집기법들의 한글 저자식별 성능에 대한 비교/분석을 다룬다.
Author resolution is to disambiguate same-name author occurrences into real individuals. For this, pair-wise author similarities are computed for author name entities, and then clustering is performed. So far, many studies have employed hierarchical clustering techniques for author disambiguation. H...
Author resolution is to disambiguate same-name author occurrences into real individuals. For this, pair-wise author similarities are computed for author name entities, and then clustering is performed. So far, many studies have employed hierarchical clustering techniques for author disambiguation. However, various hierarchical clustering methods have not been sufficiently investigated. This study covers an empirical evaluation and analysis of hierarchical clustering applied to Korean author resolution, using multiple distance functions such as Dice coefficient, Cosine similarity, Euclidean distance, Jaccard coefficient, Pearson correlation coefficient.
Author resolution is to disambiguate same-name author occurrences into real individuals. For this, pair-wise author similarities are computed for author name entities, and then clustering is performed. So far, many studies have employed hierarchical clustering techniques for author disambiguation. However, various hierarchical clustering methods have not been sufficiently investigated. This study covers an empirical evaluation and analysis of hierarchical clustering applied to Korean author resolution, using multiple distance functions such as Dice coefficient, Cosine similarity, Euclidean distance, Jaccard coefficient, Pearson correlation coefficient.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
또한 저자명 개체의 자질 표현을 결정하는 문제와 계층적 군집법을 사용할 경우 군집종료조건을 결정하는 문제도 해결되어야 할 것이다. 이 연구는 한글 저자식별 문제에서 다양한 계층적 군집법의 비교 평가를 통해 전술한 문제들을 해결하기 위한 실험적 자료를 제시하고자 한다.
이 연구는 학술문헌에 출현한 동명저자명을 실세계의 같은 사람에 해당하는 그룹으로 군집화하는 저자식별 문제에서 계층적 군집화 기법과 개체 거리수식의 상관관계에 대한 실험적 결과를 제시하였다.
가설 설정
2006), 그 범위가 제한적이었으며 저자명 군집화 문제에 대한 다양한 계층적 군집기법들에 대한 체계적 평가는 시도된 적이 없다. 자동 저자식별 시스템을 구축할 때 적절한 군집기법과 거리함수의 선택은 피할 수 없을 것이다. 또한 저자명 개체의 자질 표현을 결정하는 문제와 계층적 군집법을 사용할 경우 군집종료조건을 결정하는 문제도 해결되어야 할 것이다.
두 가정 모두 자질로 표현되는 용어의 구체성(specificity) 정도와 관련이 있다. 첫째 가정에서는 저자명 표현에 사용된 용어들이 상당한 구체성을 갖고 있어야 할 것이다. 왜냐하면 보편적이거나 불용어 성격의 용어들은 두 저자명 표현에서 공유된다 하더라도 이를 발생하기 힘든 사건으로 고려하기 어렵기 때문이다.
왜냐하면 보편적이거나 불용어 성격의 용어들은 두 저자명 표현에서 공유된다 하더라도 이를 발생하기 힘든 사건으로 고려하기 어렵기 때문이다. 둘째 가정은 현재의 실험 결과를 설명하는 한 수단이 될 수 있을지 모르나 일반적인 저자식별 문제에 적용하기에 적절치 않다. 현재 실험집합에서도 <표 2>에 보인 것처럼 공동저자명이나 논문 제목 용어에 비해 구체성이 낮다고 생각되는 게재지명과 게재연도 자질을 추가적으로 사용한 경우 성능이 저하되는 결과를 보였기 때문이다.
제안 방법
저자명 개체들에 대응하는 자질벡터들 사이의 거리/유사도 계산을 위해서는 다이스(Dice)계수, 코사인(Cosine) 유사도, 유클리디안(Euclidean)거리, 자카드(Jaccard)계수, 피어슨(Pearson) 상관계수 등의 다양한 거리 함수를 적용한다. 군집기법으로는 전술한 일곱 가지 계층적 군집법을 사용하며 거리함수와 군집기법의 결합 및 저자명 군집에 적합한 군집기법에 대한 비교 평가를 제시한다.
3장에 기술한 개체 거리함수와 계층적 군집법 적용의 용이함을 위해 저자명 개체에 대한 자질 벡터표현을 만들 필요가 있다. 이를 위해 평가셋의 각 저자명 개체에 대해 그 저자명 개체가 출현한 논문의 공동저자명(들), 논문 제목, 게재지명4), 게재연도에 출현하는 서로 다른 용어들을 서로 다른 벡터성분에 대응시키는 방식으로 자질 벡터표현을 만들었다. 가변 개수의 다중 용어를 갖는 텍스트형 필드인 논문 제목의 경우는 형태소분석, 품사태깅을 거쳐 보통명사, 고유명사, 미등록어 명사로 태깅된 용어들을 추출하여 서로 다른 벡터성분에 대응시켰다.
저자명 개체의 벡터표현에서 각 벡터성분을 저자명 개체의 자질로 볼 수 있으며 벡터성분의 자질값은 이진가중치나 tfidf 가중치의 형태로 부여하여 저자식별에 미치는 영향을 각각 살펴보았다. 이진가중치 부여란 자질의 출현 시 1의 가중치가 그렇지 않은 경우 0의 가중치가 부여되는 방식이다.
군집기법과 거리함수의 결합 실험을 수행하기에 앞서 저자명 개체의 자질 추출을 위해 사용할 서지항목들을 결정하는 실험을 진행했다. <표 2>는 그 결과를 보인 것으로 공동저자명(Coauthor: C), 논문 제목(Title: T), 게재지명(Publication: P), 게재연도(Year: Y) 의 네 가지 서지항목들의 단일 및 다중 사용에 따른 저자식별 성능(F1)을 서로 다른 거리함수에 대해 제시하고 있다.
유클리디언과 피어슨 거리함수를 제외한 나머지 거리함수들에서 대부분 동일한 성능을 보인 것은 최고 성능이 수렴된 데 기인한 것이며 수렴 이전의 군집병합 임계치의 변화에 따른 성능 추이는 상이하다(후술되는 단락 참조). <표 2>를 통해 저자명 개체의 자질 추출을 위해 사용할 기본 서지항목으로 공동 저자명과 논문제목 자질(C+T)을 결정하였고 이후 실험에서는 C+T, C+T+P, C+T+P+Y 각각을 자질로 사용한 경우의 저자식별 성능을 제시할 것이다.
대상 데이터
(강인수 2008b)을 사용하였다. 실험에 사용된 평가셋은 1999년부터 2006년까지의 국내 정보기술 관련 주요 학술대회발표논문 7,677편에 출현한 2만614개의 저자명 개체들에 대해 실세계의 8,307명의 저자에 대응하는 저자식별자를 수작업으로 부여한 것이다. 2만614개의 저자명 개체(토큰) 중 5,164개의 서로 다른 저자명(타입)이 존재하며 5,164개의 동명저자그룹의 크기는 2부터 58까지 분포하고 있다.
이론/모형
이 연구에서는 군집 대상이 되는 저자명 개체의 자질벡터 표현을 위해 저자명이 출현한 논문의 제목, 공동저자명(들), 게재지, 출판년도 등의 기본 서지항목들을 사용하며, 평가의 현실성을 고려하여 저자명이 출현한 논문의 원문에서 추출되어야 하는 전자메일주소, 소속, 초록 등의 정보는 활용하지 않는다. 저자명 개체들에 대응하는 자질벡터들 사이의 거리/유사도 계산을 위해서는 다이스(Dice)계수, 코사인(Cosine) 유사도, 유클리디안(Euclidean)거리, 자카드(Jaccard)계수, 피어슨(Pearson) 상관계수 등의 다양한 거리 함수를 적용한다. 군집기법으로는 전술한 일곱 가지 계층적 군집법을 사용하며 거리함수와 군집기법의 결합 및 저자명 군집에 적합한 군집기법에 대한 비교 평가를 제시한다.
Huang 등(2006)은 자질유사도들을 벡터성분으로 갖는 자질벡터를 SVM의 입력으로 받아 계산된 분류 신뢰도값을 개체 유사도로 사용하는 방식을 취했다. 여기서 자질유사도는 자질 타입에 따라 다른 유사도함수를 적용하여 얻어졌는데 전자메일과 URL은 편집거리를, 주소와 소속은 자카드 유사도를, 공동저자명 등의 이름에 대해서는 변이형 처리를 위해 Soft-TFIDF를 사용하였다. 강인수는 다이스유사도(강인수 2008b)와 이진거리 함수(강인수 et al.
여기서 자질유사도는 자질 타입에 따라 다른 유사도함수를 적용하여 얻어졌는데 전자메일과 URL은 편집거리를, 주소와 소속은 자카드 유사도를, 공동저자명 등의 이름에 대해서는 변이형 처리를 위해 Soft-TFIDF를 사용하였다. 강인수는 다이스유사도(강인수 2008b)와 이진거리 함수(강인수 et al. 2008; 강인수 2008a)를 한글 저자식별에 적용하였다. 강인수는 또한 Huang 등(2006)의 연구에 영감을 얻어 분류적 관점의 교사학습법을 통한 개체유사도 계산을 위해 SVM을 포함한 다양한 기계학습기법을 적용한 저자식별 연구를 수행하였다(강인수 2008b).
한글 저자명 저자식별의 성능 평가를 위해 한국과학기술정보연구원에서 구축한 저자식별 평가셋3)(강인수 2008b)을 사용하였다. 실험에 사용된 평가셋은 1999년부터 2006년까지의 국내 정보기술 관련 주요 학술대회발표논문 7,677편에 출현한 2만614개의 저자명 개체들에 대해 실세계의 8,307명의 저자에 대응하는 저자식별자를 수작업으로 부여한 것이다.
저자식별 문제의 군집화 성능 평가를 위해 기존 연구들(Kang et al. 2009; Song et al. 2007)에서 사용된 pairwise-F1 지표를 사용하였다.
<표 2>는 그 결과를 보인 것으로 공동저자명(Coauthor: C), 논문 제목(Title: T), 게재지명(Publication: P), 게재연도(Year: Y) 의 네 가지 서지항목들의 단일 및 다중 사용에 따른 저자식별 성능(F1)을 서로 다른 거리함수에 대해 제시하고 있다. 이 결과는 저자명 개체의 벡터표현에서 벡터성분값을 이진자질 값으로 표현한 것이고 단일링크군집법을 적용한 것이다. 서지항목 중 공동저자명과 논문 제목의 이중 결합이 가장 좋은 성능을 보였으며 그 이상의 추가 서지항목의 사용은 성능을 저하시켰다.
성능/효과
이 결과는 저자명 개체의 벡터표현에서 벡터성분값을 이진자질 값으로 표현한 것이고 단일링크군집법을 적용한 것이다. 서지항목 중 공동저자명과 논문 제목의 이중 결합이 가장 좋은 성능을 보였으며 그 이상의 추가 서지항목의 사용은 성능을 저하시켰다. 유클리디언과 피어슨 거리함수를 제외한 나머지 거리함수들에서 대부분 동일한 성능을 보인 것은 최고 성능이 수렴된 데 기인한 것이며 수렴 이전의 군집병합 임계치의 변화에 따른 성능 추이는 상이하다(후술되는 단락 참조).
99)에 따라 보인 것이다. 모든 군집기법들이 동일 군집기법 내에서 서로 다른 거리함수를 사용한 경우 군집병합 임계치의 변화에 따라 저자식별 성능에서 유의미한 차이를 보였다. 이는 저자식별 문제에서 거리함수 선택의 중요성을 보이는 실험 결과이다.
이는 저자식별 문제에서 거리함수 선택의 중요성을 보이는 실험 결과이다. 가장 좋은 성능을 보인 이진 거리함수는 군집병합 임계치의 변화에 거의 무관한 특성을 보였는데 이는 거리값을 0과 1 중 하나의 값으로만 계산하는 이진 거리 함수의 특성에 기인한 결과이다.
논문의 기본 서지항목들을 하나의 문서로 고려하는 현재의 실험집합의 경우 거의 모든 용어의 TF가 1에 해당하므로 이 실험의 tfidf 표현은 IDF 표현이라 해도 크게 틀림이 없다. 모든 군집기법에서 코사인과 피어슨 거리함수에서 tfidf 표현이 이진표현에 비해 군집병합 임계치의 변화에 강인한 결과를 보였으나 최고 성능에서는 이진표현이 우수하였다. 이에 대한 분석은 후행 단락들에서 다루어진다.
성능의 차이가 크지는 않으나 군집법 중 단일링크법이 가장 좋은 성능을 보였고 완전링크법이 워드기법을 제외하고 거의 모든 거리 함수에서 가장 낮은 성능을 보였으며 대표링크법들은 단일링크법과 완전링크법의 중간 성능을 나타냈다. 이는 현재 실험집합에서의 저자명 자질표현이 대표링크법이나 완전링크법의 집단적 특성을 발현하기에 충분하지 못한 이유에 기인한 결과이다.
전술한 비직관적 결과는 다음의 두 가지 가정에 근거하고 있다고 생각된다. 첫째는 두 저자명의 이진 자질값 표현들에서 공유되는 자질(예: 공동저자명이나 논문 제목의 용어)의 출현(자질값 1에 해당)은 굉장히 드문 사건이어서 이러한 사건의 발생은 두 저자명 표현들이 실세계의 동명이인일 것이라는 가설을 기각하고도 남을 만큼 충분히 놀랍다는 것이다. 둘째는 현재 실험집합에서 저자식별 중의성이 그리 크지 않아(즉 대부분의 동명저자명들이 실 세계의 한 사람에 대응함으로 인해), 실제로 무의미한 자질(예를 들어 논문 제목에 출현하는 ‘연구’, ‘향상’, ‘분석’ 등의 용어6))이라 하더라도 두 저자명 표현의 유사도를 0보다 크게 만들 수만 있으면 그러한 자질의 공유가 저 자식별에 도움이 된다는 것이다.
<그림 14>, <그림 15>에서 알 수 있듯이 게재지명, 게재연도 자질의 추가 사용은 C+T 자질만 사용한 경우의 저자식별 성능과 큰 차이를 보이지 않았으나 전체적으로 성능을 저하시켰다. 이 결과는 저자식별 자질의 추가가 저자식별에 부정적 영향을 미친다는 것을 의미하는 것은 아니며, 현재 실험집합에서 C+T 자질에 대해 제시한 연구 결과들이 추가 자질 들을 사용한 경우에도 유의미함을 보인 것이다. 저자식별 문제에 있어 자질의 종류와 수의 증가가 군집 성능에 미치는 영향에 대해서는네 개 자질이 사용된 현재의 실험집합으로 평가하기에는 어려움이 있으며 향후 논문 원문이나 저자의 홈페이지로부터 얻어지는 자질들을 포함하는 보다 큰 자질 집합에서 이에 대한 평가가 진행되어야 한다.
또한 이 연구를 통해 저자명 개체에 대해 이진자질값 벡터표현을 사용한 경우 군집 알고리즘의 종료 조건에 해당하는 군집병합임계치 범위 결정에서 어려움이 발생함을 알 수 있었으며, 자질의 희소성(rareness)을 고려하는 IDF 자질값 표현이 전술한 문제에 대한 해법이 될 수 있는 가능성을 보였다. 향후 저자명 개체의 자질값 표현과 관련하여 자질의 비보편성을 모델링하는 기법들에 대한 추가 연구가 요구된다.
후속연구
자동 저자식별 시스템을 구축할 때 적절한 군집기법과 거리함수의 선택은 피할 수 없을 것이다. 또한 저자명 개체의 자질 표현을 결정하는 문제와 계층적 군집법을 사용할 경우 군집종료조건을 결정하는 문제도 해결되어야 할 것이다. 이 연구는 한글 저자식별 문제에서 다양한 계층적 군집법의 비교 평가를 통해 전술한 문제들을 해결하기 위한 실험적 자료를 제시하고자 한다.
오히려 저자명 표현을 위해 선별된 자질들이 한 저자의 신원을 식별하기에 충분하고 각 자질값들을 누락 없이 획득하는 것이 보장된다면, 동일 저자에 해당하는 저자명 표현들은 개체 표현 공간 내에 응집되어 있을 확률이 클 것이므로 저자식별의 경우에도 완전링크법은 적절한 군집법으로 기능할 수 있을 것이다. 이와 관련하여 분류의 관점에서 커널 함수를 통해 개체의 연산이 발생하는 자질 공간을 변경하는 SVM기법을 완전링크법과 연계하는 것은 향후 흥미로운 연구 주제가 될 것이다.
그러나 최고 성능의 경우는 tfidf 표현보다 이진자질값 표현이 우수하였는데 이는 현재 실험 집합 내에서 얻어진 tfidf 값의 부정확함에 기인하는 것으로 추측된다. 향후 웹이나 대용량 문헌데이터베이스로부터 자질의 비보편성을 모델링하는 추가 연구가 필요할 것이다.
또한 이 연구를 통해 저자명 개체에 대해 이진자질값 벡터표현을 사용한 경우 군집 알고리즘의 종료 조건에 해당하는 군집병합임계치 범위 결정에서 어려움이 발생함을 알 수 있었으며, 자질의 희소성(rareness)을 고려하는 IDF 자질값 표현이 전술한 문제에 대한 해법이 될 수 있는 가능성을 보였다. 향후 저자명 개체의 자질값 표현과 관련하여 자질의 비보편성을 모델링하는 기법들에 대한 추가 연구가 요구된다.
질의응답
핵심어
질문
논문에서 추출한 답변
저자식별은 무엇인가?
저자식별은 학술문헌에 출현한 동명저자명들을 실세계의 서로 다른 사람들로 대응시키는 것이다. 이를 위해 임의의 동명저자명쌍의 유사도를 계산하고 이를 바탕으로 동명저자명 개체들을 군집화하는 단계를 거친다.
학술문헌의 검색에서 저자명 검색의 어려움은 무엇인가?
학술문헌의 검색에서 저자명 검색은 동명이인의 존재로 인해 검색 정확률이 저하되는 어려움이 있다. 이 문제의 해법으로 제시된 저자명 중의성 해소(author name disambiguation), 혹은 저자식별(author resolution)은 같은 이름의 저자명 개체를 실세계의 서로 다른 사람들에 해당하는 식별자에 대응시키는 방법이다.
저자식별을 위해 어떤 단계를 거치는가?
저자식별은 학술문헌에 출현한 동명저자명들을 실세계의 서로 다른 사람들로 대응시키는 것이다. 이를 위해 임의의 동명저자명쌍의 유사도를 계산하고 이를 바탕으로 동명저자명 개체들을 군집화하는 단계를 거친다. 저자명의 군집화 기법으로 주로 계층적 군집법이 사용되었으나 다양한 계층적 군집법에 대한 비교 평가는 미흡했다.
참고문헌 (16)
강인수, 이승우, 정한민, 김평, 구희관, 이미경, 성원경, 박동인. 2008. 저자식별을 위한 자질 비교. 한국콘텐츠학회논문지, 8(2): 41-47.
Alani, H., Dasmahapatra, S., O'Hara, K., & Shadbolt, N. 2003. "Identifying communities of practice through ontology network analysis." IEEE Intelligent Systems, 18(2): 18-25.
Bilenko, M., Mooney, R., Cohen, W., Ravikumar, P. and Fienberg, S. 2003. "Adaptive name matching in information integration." IEEE Intelligent Systems, 18(5): 16-23.
Elmagarmid, A. K., Ipeirotis, P. G., and Verykios, V. S. 2007. "Duplicate record detection: A survey." IEEE Transactions on Knowledge and Data Engineering, 19(1): 1-16.
Han, H., Giles, C. L., and Zha, H. 2003. "A model-based k-means algorithm for name disambiguation." Proceedings of semantic web technologies for searching and retrieving scientific data. October 20, Florida, USA.
Han, H., Giles, C. L., Zha, H., Li, C., and Tsioutsiouliklis, K. 2004. "Two supervised learning approaches for name disambiguation in author citations." Proceedings of the ACM/IEEE joint conference on digital libraries(JCDL), 2004: 296-305.
Huang, J., Ertekin, S., and Giles, C.L. 2006. "Efficient name disambiguation for large scale databases." Proceedings of PKDD-2006, 2006: 536-544.
Kang, I.S., Na, S.H., Lee, S.W., Jung, H.M., Kim, P., Sung, W.K., and Lee, J.H. 2009. "On co-authorship for author disambiguation." Information Processing and Management, 45(1): 84-97.
Manning, C. D., Raghavan, P. and Schutze, H. 2008. Introduction to information retrieval. Cambridge: Cambridge University Press.
Sneath P. A. and Sokal R. R. 1973. Numerical taxonomy: the principles and practice of numerical classification. San Francisco: W. H. Freeman and Company.
Song, Y., Huang, J., Councill, I., Li, J., and Giles, C. L. 2007. "Efficient topic-based unsupervised name disambiguation." Proceedings of the ACM/IEEE joint conference on digital libraries(JCDL), 2007: 342-351.
Tan, Y. F., Kan, M. Y., and Lee, D. W. 2006. "Search engine driven author disambiguation." Proceedings of the ACM/IEEE joint conference on digital libraries (JCDL), 2006: 314-315.
Ward, J. H. 1963. "Hierarchical grouping to optimize an objective function." Journal of the American Statistical Association, 58(301): 236-244.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.