[논문]용어 자동분류를 사용한 검색어 범주화의 분석적 고찰

이태석; 정도헌; 문영수; 박민수; 현미환

doi:10.3745/kipstd.2012.19d.2.133

용어 자동분류를 사용한 검색어 범주화의 분석적 고찰
An Analytic Study on the Categorization of Query through Automatic Term Classification 원문보기

정보처리학회논문지. The KIPS transactions. Part D. Part D, v.19D no.2, 2012년, pp.133 - 138

이태석 (한국과학기술정보연구원 NDSL서비스실) , 정도헌 (한국과학기술정보연구원 소프트웨어연구실) , 문영수 (한국과학기술정보연구원 NDSL서비스실) , 박민수 (한국과학기술정보연구원 NDSL서비스실) , 현미환 (한국과학기술정보연구원 NDSL서비스실)

초록
AI-Helper

검색 창을 통해 입력된 검색어는 정보이용자가 의미 있는 자료를 찾아내는 적극적인 활동의 산물이다. 따라서 검색로그는 정보이용자의 관심사항을 알 수 있는 중요한 분석 데이터이다. 본 연구의 목적은 입력한 검색어의 범주화 결과와 엑세스한 문서의 범주가 어느 정도 유사한 상관관계를 가지는지 분석적으로 고찰해보는 것이다. KISTI(한국과학기술정보연구원)의 NDSL(과학기술정보센터) 사이트의 2009년 검색로그의 검색세션을 식별하고 검색세션단위로 검색어와 이용 자료를 추출한 후, 검색어에 대해 어떤 주제 분류에 속하는 용어인지 자동분류기로 식별한 결과가 실제 이용한 자료의 주제 분야와 잘 맞는지 비교하였다. 그 결과 상위 100개 검색어 분류에 대한 유사도 평균이 58.8%로 파악되었다. 결국 전체적인 유사도는 58.8%이하이며, 관련 연구에서 수행한 자료의 자동분류 검색성능 전문가 평가 결과인 76.8%에 비해 낮다. 이것은 검색어로 쓰인 용어가 다른 연구 분야의 관심 용어로 새롭게 주목 받고 있기 때문이라는 사실을 알 수 있었다.

Abstract ▼ AI-Helper

Queries entered in a search box are the results of users' activities to actively seek information. Therefore, search logs are important data which represent users' information needs. The purpose of this study is to examine if there is a relationship between the results of queries automatically classified and the categories of documents accessed. Search sessions were identified in 2009 NDSL(National Discovery for Science Leaders) log dataset of KISTI (Korea Institute of Science and Technology Information). Queries and items used were extracted by session. The queries were processed using an automatic classifier. The identified queries were then compared with the subject categories of items used. As a result, it was found that the average similarity was 58.8% for the automatic classification of the top 100 queries. Interestingly, this result is a numerical value lower than 76.8%, the result of search evaluated by experts. The reason for this difference explains that the terms used as queries are newly emerging as those of concern in other fields of research.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문의 목적은 검색로그에 기록된 키워드 분석을 통하여 연구자들이 어떤 주제 분야에 대해 관심이 있는지 파악하고, 정보이용자가 선택하는 문서의 자동분류정보와 용어의 범주 사이의 유사도를 살펴보는 것이다. 즉, 논문을 기초로 한 용어 자동분류와 검색로그의 키워드 측면에서 바라본 분류체계에 대한 검증을 함으로써 검색결과에 대한 전문가의 평가결과와 비교하여 어느 정도 의미 있는지 검증해 보는 것이 필요하기 때문이다.
본 연구를 통해 과학기술에 대한 이용자의 트렌드를 읽을 수 있으며, 무엇보다도 용어 자동분류가 새로운 용어 또는 기존 용어가 새롭게 다른 분야에서 주목 받을 때 해당 범주에 대응할 수 있어야 한다는 것을 확인하고자 한다.

가설 설정

주제별 상대적 비율에 대한 유사성 확인은 빈도에 민감한 코사인 유사도 공식이 적합하다. 검색로그에 이러한 다양한 측면이 반영되어 있기 때문에 연구주제의 변화를 용어 자동분류와 검색어-이용 문서 주제 분류 차이를 통해 살펴보는 것은 의미가 있다고 가정하였다. 용어 자동분류 vs 검색어-이용 문서 주제분류 유사도 계산은 코사인 유사도 계수 (3) 수식을 이용하였다[13].
검색성공률은 검색세션에서 원문보기와 원문복사신청 유도된 경우를 검색 이용자가 찾는 자료를 획득한 경우 성공하였다고 가정하여 측정하였다. 성공률 계산 결과 <표 3>와 같이 100.

제안 방법

(그림 2)와 같은 방문세션 처리로직으로 자바 프로그램을 작성하여 검색로그 분석을 수행하였다.
검색 키워드 식별 및 처리방법은 검색세션에서 추출된 검색로그에서 불용어 사전에 있는 용어를 제거하고, FAST 검색엔진[3]에서 제공하는 형태소 분석기를 통해 확장된 검색식으로부터 유효 키워드를 추출하였다. 그 방법은 (1)과 같은 정규표현식을 사용하였다.
검색로그 분석에서 사용된 방법은 일반적인 로그 분석 방법과 동일하게 처리했다. 검색결과 목록 이동, 문서 상세 페이지 보기, 원문 다운로드, 원문복사 신청 등의 행위가 30분시간 내에 계속적으로 일어나는 것을 방문으로 보고 하나의 세션으로 처리하였다. 사이트 특성에 맞게 검색세션은 <표 2>의 형식으로 검색세션 데이터를 집계하였다.
검색로그, 검색세션, 검색에 이용된 검색어 집합, 이용한 (access) 문서 집합에 대한 (그림 1)과 같은 데이터 모델을 설계하여 분석이 용이하도록 DB로 구축하였다.
다음으로 검색세션에서 이용한 문서를 추출하였다. 검색세션과 문서키를 연결하고 DB 종류와 이용횟수, 주제 분류를 가지는 데이터를 만들었다.
검색세션에서 추출한 실제 이용 문서 집합의 주제 분야가 검색어-용어 매칭을 통해 식별된 주제 분야와 어느 정도 일치하는지 유사도 검증을 통해 살펴보았다. <표 5>은 이용문서수 비율 A 와 검색어 자동분류 비율 B에 대하여 유사도 분석을 통한 검증 결과 100개 중 상위 10개이다.
검색어 매칭은 2009년 동안 검색어 이용 순위 1만등까지 추출하여 자동분류 용어 DB와 비교하여 일치하는 용어와 검색어를 추출했다. 그리고 매칭된 키워드-용어에 대해 주제 분류별 상대적 가중치를 계산한 결과는 “LED/I/I::1.
앞 장에서 분석된 용어 자동분류를 사용한 검색어 범주분석결과와 클릭로그 분석을 하여 얻은 문서 범주가 상호유사한 상관관계가 있는지 검증하기 위한 모형을 만들었다. 검증 방식은 18개 범주별로 나타난 상대적인 비율을 유사도공식으로 측정하는 것이다. 즉, 검색세션에서 열어본 문서의 주제 분류를 추출하여 분류별 문서수를 세고 상대적인 문서비율을 계산하였다.
과학기술 주제 분류에 따라 논문등 문서 50만 건에서 추출/정제한 용어를 과학기술 주제 분류별 적합성에 따라 231,156개의 자동분류 용어 DB를 생성하였다. 용어-범주 유사도값 계산은 분류별 용어 출현 문서수를 기준으로 <표 4>와 같은 2x2 연관행렬을 작성한 다음 연관성 척도 공식으로 (2)오치아이 코사인 유사도 계수를 사용하였다.
사이트 특성에 맞게 검색세션은 의 형식으로 검색세션 데이터를 집계하였다.
검색로그 분석은 NDSL 사이트의 2009년 12개월 서비스로그 4천 7백만건중 검색로그 2천 3백만건을 대상으로 하였다. 실험의 처리 과정은 검색로그의 방문 세션처리, 검색어분리, 용어 자동분류, 용어-검색어 매칭, 검색어 주제 분류검증 과정으로 나누었다. 주제 분류는 KISTEP(한국과학기술기획평가원) 2005년 <표 1> 과학기술표준분류 18개 대분류를 사용하였다.
앞 장에서 분석된 용어 자동분류를 사용한 검색어 범주분석결과와 클릭로그 분석을 하여 얻은 문서 범주가 상호유사한 상관관계가 있는지 검증하기 위한 모형을 만들었다. 검증 방식은 18개 범주별로 나타난 상대적인 비율을 유사도공식으로 측정하는 것이다.
이용 문서수에 대한 분류 비율과 자동분류 용어와 검색어매칭결과 검색어 분류 비율을 유사도 계산 공식(3)으로 계산하여 검색어의 범주화가 어느 정도 일치하는지 분석하였다.
사이트 특성에 맞게 검색세션은 <표 2>의 형식으로 검색세션 데이터를 집계하였다. 이용자를 구분하는 방법은 IP를 사용할 수 있으나, IP 공유로 인한 식별성이 떨어지는 문제를 고려하여 PC 식별 쿠키를 사용하였다.
검증 방식은 18개 범주별로 나타난 상대적인 비율을 유사도공식으로 측정하는 것이다. 즉, 검색세션에서 열어본 문서의 주제 분류를 추출하여 분류별 문서수를 세고 상대적인 문서비율을 계산하였다.
검색로그 분석은 크게 두 가지 유형으로 구분할 수 있다. 첫 번째는 이용자가 검색을 위해 입력한 질의인 검색어만을 대상으로 분석하는 질의로그 분석 또는 검색어 로그 분석이다. 두 번째는 이용자가 입력한 검색어뿐만 아니라 검색 결과 중에서 이용자가 실제로 사용하기 위해 자료를 선택한 행위를 보여주는 클릭로그 데이터를 분석하는 클릭로그 분석 또는 트랜잭션 로그 분석이다[1].

대상 데이터

검색로그 분석은 NDSL 사이트의 2009년 12개월 서비스로그 4천 7백만건중 검색로그 2천 3백만건을 대상으로 하였다. 실험의 처리 과정은 검색로그의 방문 세션처리, 검색어분리, 용어 자동분류, 용어-검색어 매칭, 검색어 주제 분류검증 과정으로 나누었다.
검증용 데이터는 검색로그 분석 데이터 모델에서 검색세션에서 사용된 상위 100위 까지 검색어와 검색세션에서 단순 초록 열람이 아닌 원문 다운로드 또는 원문 복사 신청에 해당하는 문서와 과학기술표준 분류코드를 추출하였다. (그림 3)과 같이 상위 100위의 검색어 사용 횟수는 10위 이하에서 점진적으로 감소하는 모습을 보이고 100위 이하의 검색어의 사용횟수는 2,500회 이하이다.

데이터처리

용어 자동분류를 이용하여 검색어의 주제 분류를 식별한 결과가 클릭로그 분석으로 식별한 이용 문서의 주제 분류와 얼마나 일치하는 유사도 검증을 수행하였다. 검색에 많이 이용된 키워드 100개까지의 유사도 평균은 58.

이론/모형

STEAK 시스템은 크게 두 영역으로 구분되는데 첫 번째는 다국어 어휘 간의 관련 네트워크를 자동생성하고 동적으로 해석하여 제공하는 기능이며 두 번째는 구축된 자원으로부터 언어자원의 학습 환경을 구축하고 이를 이용해 학술정보를 자동분류하는 기능이다[2][4]. 검색어의 범주분석을 위해 STEAK 시스템의 용어의 범주를 동적으로 해석하는 기능을 활용하였다.
검색로그에 이러한 다양한 측면이 반영되어 있기 때문에 연구주제의 변화를 용어 자동분류와 검색어-이용 문서 주제 분류 차이를 통해 살펴보는 것은 의미가 있다고 가정하였다. 용어 자동분류 vs 검색어-이용 문서 주제분류 유사도 계산은 코사인 유사도 계수 (3) 수식을 이용하였다[13].
용어-범주 유사도값 계산은 분류별 용어 출현 문서수를 기준으로 와 같은 2x2 연관행렬을 작성한 다음 연관성 척도 공식으로 (2)오치아이 코사인 유사도 계수를 사용하였다.
주제 분류는 KISTEP(한국과학기술기획평가원) 2005년 과학기술표준분류 18개 대분류를 사용하였다.

성능/효과

용어 자동분류를 이용하여 검색어의 주제 분류를 식별한 결과가 클릭로그 분석으로 식별한 이용 문서의 주제 분류와 얼마나 일치하는 유사도 검증을 수행하였다. 검색에 많이 이용된 키워드 100개까지의 유사도 평균은 58.8%의 분류 비율의 유사성이 있는 것으로 나타났다. 이것은 검색결과 전문가평가 수준인 76.
본 연구를 통해 정보 이용자가 입력한 검색어 자동분류결과를 분석하고 클릭로그 분석을 통해 검증을 함으로써 유사성이 높은 검색어 그룹과 그렇지 않는 검색어 그룹을 구분할 수 있었다. 후속 연구로 유사성이 높지 않은 검색어그룹에 대해 검색로그에 기반을 두어 보정하고 성능을 높이는 방법에 대한 연구가 필요하다.
8% 조사되었다. 재현율과 정확도에 대한 편차가 커 불안정한 효율을 보였다. 또한 [2]에서 용어 자동분류기 STEAK를 사용한 검색결과 평가는 전문가에 의해 수행하였다.

후속연구

본 연구를 통해 정보 이용자가 입력한 검색어 자동분류결과를 분석하고 클릭로그 분석을 통해 검증을 함으로써 유사성이 높은 검색어 그룹과 그렇지 않는 검색어 그룹을 구분할 수 있었다. 후속 연구로 유사성이 높지 않은 검색어그룹에 대해 검색로그에 기반을 두어 보정하고 성능을 높이는 방법에 대한 연구가 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	로그 분석이란 무엇인가?	일반적인 로그 분석은 웹서버에 사용자가 들어오는 순간부터 하나의 데이터에 접속(hit), 실제 이용자가 하나의 완성된 페이지를 보는 행위(view), 특정 사용자가 일정시간 내에 계속적으로 웹서버를 검색(search)하는 등 웹서버의 방문(visit) 데이터를 기반으로 어떤 목적에 맞도록 분석을 수행하는 계량적 방법을 말한다. 이와 같은 다양한 방문 데이터들이 통계분석의 대상이 될 수 있으며, 이를 바탕으로 해당기관의 웹서버에 대하여 얼마나 많은 사람들이, 언제 방문하는지, 가장 오래 보는 자료와 가장 많이 보는 자료는 어떤 것인지 등 다양하고 의미 있는 정보들을 파악해 낼 수 있다[10].
	검색로그 분석의 유형 두 가지는 무엇인가?	검색로그 분석은 크게 두 가지 유형으로 구분할 수 있다. 첫 번째는 이용자가 검색을 위해 입력한 질의인 검색어만을 대상으로 분석하는 질의로그 분석 또는 검색어 로그 분석이다. 두 번째는 이용자가 입력한 검색어뿐만 아니라 검색 결과 중에서 이용자가 실제로 사용하기 위해 자료를 선택한 행위를 보여주는 클릭로그 데이터를 분석하는 클릭로그 분석 또는 트랜잭션 로그 분석이다[1].
	질의로그 분석이란 무엇인가?	질의로그 분석은 이용자가 검색을 위해 검색창에 입력한 검색어만을 대상으로 분석하는 방법이다. 주로 포털사이트를 대상으로 많은 연구가 이루어지고 있으며, 장기간에 걸친 방대한 자료를 바탕으로 이용자의 대략적인 검색 행태를 파악할 수 있다.

참고문헌 (13)

이수상, 위성광, "디지털 도서관 이용자의 검색행태 연구", 한국 도서관정보학회지, 제 40권 제 4호, pp.139-158, 2009.
정도헌, 유소영, 김환민, 김혜선, 김용광, 한희준, "웹 정보의 자동 의미연계를 통한 학술정보서비스의 확대 방안 연구", 정보관리 연구, 제 40권 제 1호, pp.133-156, 2009.

원문보기 상세보기
FAST, "FAST Enterprise Search Platform 5.3 Advanced Linguistics Guide", Document Number: ESP1036, Document Revision: A, 2009.
정도헌, 최희윤, "과학기술 전문용어의 다국어 의미망 생성과 분석", 정보관리연구, 제 37권 제 4호, pp.25-47, 2007.
박소연, 이준호, "웹 검색 분야에서의 로그 분석 방법론의 활용도", 한국문헌정보학회 학술발표논문집 제 21집, pp.81-94, 2006.
박소연, 이준호, 김지승, "클릭 로그에 근거한 네이버 검색 질의의 형태 및 주제 분석", 한국문헌정보학회지, 제 39권 제 1호, pp.265-278, 2005.

원문보기 상세보기
이재윤, "문서측 자질선정을 이용한 고속 문서분류기의 성능향상에 관한 연구", 정보관리연구, 제 36권 제 4호, pp.51-69, 2005.

원문보기 상세보기
남영준, 김규환, "유사어 사전을 이용한 웹기반 질의문의 자동 범주화에 관한 연구", 정보관리연구, 제 35권 제 4호, pp.81-105, 2004.

원문보기 상세보기
이재윤, "연관성 척도의 빈도수준 선호경향에 대한 연구", 정보 관리학회지, 제 21권 제 4호, pp.281-294, 2004.

원문보기 상세보기
서진완, "로그화일(Log file)을 이용한 공공기관의 홈페이지 분석과 정책적 함의", 한국행정학회 춘계학술대회발표논문집, pp.501-517, 2001.
Dunja Mladenic, Marko Grobelnik, "Feature Selection for Classification Based on Text Hierarchy, In Working notes of Learning from Text and the Web", Conference on Automated Learning and Discovery(CONALD'98), 1998.
서은경, "용어의 자동분류에 관한 연구", 석사학위논문, 연세대학교 대학원, 도서관학과, 1984.
Gerard Salton, Michael J. McGill, "Introduction to Modern Information Retrieval", New York: Mc Graw Hill, 1983.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증