[논문]TextRank를 이용한 키워드 정련 -TextRank를 이용한 집단 지성에서 생성된 콘텐츠의 키워드 정련-

이현우; 한요섭; 김래현; 차정원

TextRank를 이용한 키워드 정련 -TextRank를 이용한 집단 지성에서 생성된 콘텐츠의 키워드 정련-
Keywords Refinement using TextRank Algorithm 원문보기

한국HCI학회 2009년도 학술대회, 2009 Feb. 09, 2009년, pp.285 - 289

이현우 (창원대학교 컴퓨터공학과) , 한요섭 (한국과학기술연구원) , 김래현 (한국과학기술연구원) , 차정원 (창원대학교 컴퓨터공학과)

초록
AI-Helper

태그는 콘텐츠를 대표하는 신뢰도가 높은 키워드이다. 하지만 일부 기업과 사람들이 콘텐츠와 관련이 없는 키워드를 태그로 사용하여 본 논문에서는 무분별하게 사용된 키워드를 정련하는 알고리듬을 제안한다. 키워드 정련과 관련된 연구는 진행되지 않았지만, 본 논문에서는 단어와 단어사이에 가상의 링크를 생성, TextRank 알고리듬을 적용하여 콘텐츠에서 단어의 중요도를 계산하여 중요도가 낮은 단어의 일부를 콘텐츠의 제작자가 작성한 키워드에서 제거하여 키워드 정련을 하였다. 그 결과, 단순히 단어의 중요도가 낮은 하위 n%의 단어를 제거하는 방법보다는 신뢰도 구간을 만족할 때까지 제거하는 방법이 훨씬 좋은 키워드 정련 결과를 보였다.

Abstract ▼ AI-Helper

Tag is important to retrieve and classify contents. However, someone uses so many unrelated tags with contents for the high ranking In this work, we propose tag refinement algorithm using TextRank. We calculate the importance of keywords occurred a title, description, tag, and comments. We refine tags removing unrelated keywords from user generated tags. From the results of experiments, we can see that proposed method is useful for refining tags.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

어떤 문서에 특정 문서로 향하는 하이퍼링크(hyperlink)는 문서를 작성자의 판단이 인코딩 되어 있는데, 중요한 문서일수록 그 문서로 향하는 하이퍼링크 개수가 많아진다. 그래서 [4]는 권위 있는 문서를 특정 질의와 관련성 높은 문서들의 하이퍼링크의 구조를 분석하여 해결하고자 하였다.
키워드를 추천하는 연구는 다수 존재하나, 존재하는 키워드를 정련하는 분야의 연구는 아직 이루어지지 않았다. 그래서 정련에 대한 이전 연구 대신에 태그 추천 시스템과 관련된 연구와 문서의 중요도를 계산할 수 있는 연구로 대신하고자 한다.
본 논문에서는 콘텐츠를 대표하는 핵심어인 태그가 올바른 방향으로 사용될 수 있도록 TextRank 알고리듬[5]을 이용한 키워드 정련 알고리즘을 제안한다.

제안 방법

TextRank 알고리듬에서 단어의 중요도를 계산할 때, 단어와 단어사이에서 링크를 생성하는 방법에 따라 다양한 결과를 가져올 수 있으므로, 본 논문에서는 [표 2]의 세 가지 방법으로 단어와 단어사이의 링크를 생성하였다. 단, 모든 단어에 대해서 링크를 생성하지 않고 불용어(stopword) 목록에 존재하지 않는 단어만 링크를 생성하였다.
[2]와 [3]에서는 사용자가 미리 입력해둔 태그에 추가할 수 있는 태그를 추천하는 시스템이다. 사용자가 콘텐츠에 입력한 태그와 콘텐츠에서 동시출현(co-occurrence)한 단어를 추출하여 후보 태그를 생성하여, 후보 태그를 평가하여 가장 점수가 높은 태그 중의 일부를 사용자에게 추천한다.
이번 실험에서는 [실험 1]의 문제점을 해결하고자 신뢰도 구간을 설정하여 신뢰도 구간을 벗어나는 키워드만 제거하기로 하였으며, 실험 결과는 [표 4]와 같다.

대상 데이터

유투브(YouTube, http;//www.youtube.com/)에서 ‘ipod’와 관련성이 높은 콘텐츠의 제목, 본문, 키워드, 댓글 모두가 존재하는 콘텐츠 80개를 수집하였으며, 키워드 정련 실험을 위해서 해당 분야의 전문가가 콘텐츠를 직접 보며 키워드를 작성하였다.

성능/효과

본 논문에서는 콘텐츠의 제목, 본문, 키워드, 댓글에 출현한 단어와 단어에서 가상의 링크를 생성하여 TextRank 알고리듬을 적용한 결과, 콘텐츠에서 출현한 단어의 중요도를 계산할 수 있었다. 계산된 단어의 중요도를 이용하여 콘텐츠의 작성자가 작성한 키워드에서 불필요한 키워드를 제거하여 키워드를 정련할 수 있었다.
단어 중요도가 낮은 하위 n%를 제거한 실험에서는 n의 값이 감소할수록 P_k와 R_k가 증가함을 알 수 있다. 이는 아무런 조건 없이 콘텐츠 작성자가 작성한 키워드를 제거하였으므로 의미 있는 키워드도 같이 제거될 수 있기 때문이다.
본 논문에서는 콘텐츠의 제목, 본문, 키워드, 댓글에 출현한 단어와 단어에서 가상의 링크를 생성하여 TextRank 알고리듬을 적용한 결과, 콘텐츠에서 출현한 단어의 중요도를 계산할 수 있었다. 계산된 단어의 중요도를 이용하여 콘텐츠의 작성자가 작성한 키워드에서 불필요한 키워드를 제거하여 키워드를 정련할 수 있었다.
불용어에 포함되지 않는 단어들만 링크를 생성하였으며 아무런 조건 없이 단어 중요도가 낮은 하위 n%의 단어를 제거하는 방법보다 신뢰도 구간을 설정하여 신뢰도 구간 밖의 단어만 제거하는 방법에서 더 나은 성능을 보였다.

후속연구

다음 단계에서는 이렇게 정련된 키워드를 사용하여 실제 검색에서 정련 이전과 비교하여 우수한 결과를 나타내는 지에 대한 실험을 할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	태그란 무엇인가?	블로그(Blog), 위키위키(WikiWiki)와 같은 1인 미디어 시대를 대표하는 매체에서 자신이 작성한 콘텐츠를 대표하는 핵심어(키워드)를 태그(tags)라고 한다.
	태그는 어떤 구조로 되어 있는가?	태그는 시스템에서 자동으로 생성되지 않으며, 사용자가 직접 입력하는 구조로 되어 있다. 그래서 해당 콘텐츠를 대표하는 단어로 높은 신뢰도를 가지고 있다.
	TextRank 알고리듬을 사용한 방법은 어떤 특징을 가지는가?	[5]에서는 문서에서 하나의 문장을 하나의 문서로 가정하여 문장과 문장사이에 유사도가 임계값 이상일 때 문장과 문장 간에 링크를 생성하여 [1]의 PageRank 알고리듬을 변형한 TextRank 알고리듬으로 문장의 중요도를 계산하여 중요도가 가장 높은 문장을 문서를 요약한 문장으로 사용하였다. 문장과 문장의 링크 방향에 따라 다른 성능을 나타내었지만 언어처리 도구를 사용하지 않아 다양한 언어에 적용할 수 있다는 특징을 가지고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

TextRank를 이용한 키워드 정련 -TextRank를 이용한 집단 지성에서 생성된 콘텐츠의 키워드 정련-
Keywords Refinement using TextRank Algorithm 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

TextRank를 이용한 키워드 정련 -TextRank를 이용한 집단 지성에서 생성된 콘텐츠의 키워드 정련- Keywords Refinement using TextRank Algorithm 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

TextRank를 이용한 키워드 정련 -TextRank를 이용한 집단 지성에서 생성된 콘텐츠의 키워드 정련-
Keywords Refinement using TextRank Algorithm 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper