태그는 콘텐츠를 대표하는 신뢰도가 높은 키워드이다. 하지만 일부 기업과 사람들이 콘텐츠와 관련이 없는 키워드를 태그로 사용하여 본 논문에서는 무분별하게 사용된 키워드를 정련하는 알고리듬을 제안한다. 키워드 정련과 관련된 연구는 진행되지 않았지만, 본 논문에서는 단어와 단어사이에 가상의 링크를 생성, TextRank 알고리듬을 적용하여 콘텐츠에서 단어의 중요도를 계산하여 중요도가 낮은 단어의 일부를 콘텐츠의 제작자가 작성한 키워드에서 제거하여 키워드 정련을 하였다. 그 결과, 단순히 단어의 중요도가 낮은 하위 n%의 단어를 제거하는 방법보다는 신뢰도 구간을 만족할 때까지 제거하는 방법이 훨씬 좋은 키워드 정련 결과를 보였다.
태그는 콘텐츠를 대표하는 신뢰도가 높은 키워드이다. 하지만 일부 기업과 사람들이 콘텐츠와 관련이 없는 키워드를 태그로 사용하여 본 논문에서는 무분별하게 사용된 키워드를 정련하는 알고리듬을 제안한다. 키워드 정련과 관련된 연구는 진행되지 않았지만, 본 논문에서는 단어와 단어사이에 가상의 링크를 생성, TextRank 알고리듬을 적용하여 콘텐츠에서 단어의 중요도를 계산하여 중요도가 낮은 단어의 일부를 콘텐츠의 제작자가 작성한 키워드에서 제거하여 키워드 정련을 하였다. 그 결과, 단순히 단어의 중요도가 낮은 하위 n%의 단어를 제거하는 방법보다는 신뢰도 구간을 만족할 때까지 제거하는 방법이 훨씬 좋은 키워드 정련 결과를 보였다.
Tag is important to retrieve and classify contents. However, someone uses so many unrelated tags with contents for the high ranking In this work, we propose tag refinement algorithm using TextRank. We calculate the importance of keywords occurred a title, description, tag, and comments. We refine ta...
Tag is important to retrieve and classify contents. However, someone uses so many unrelated tags with contents for the high ranking In this work, we propose tag refinement algorithm using TextRank. We calculate the importance of keywords occurred a title, description, tag, and comments. We refine tags removing unrelated keywords from user generated tags. From the results of experiments, we can see that proposed method is useful for refining tags.
Tag is important to retrieve and classify contents. However, someone uses so many unrelated tags with contents for the high ranking In this work, we propose tag refinement algorithm using TextRank. We calculate the importance of keywords occurred a title, description, tag, and comments. We refine tags removing unrelated keywords from user generated tags. From the results of experiments, we can see that proposed method is useful for refining tags.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
어떤 문서에 특정 문서로 향하는 하이퍼링크(hyperlink)는 문서를 작성자의 판단이 인코딩 되어 있는데, 중요한 문서일수록 그 문서로 향하는 하이퍼링크 개수가 많아진다. 그래서 [4]는 권위 있는 문서를 특정 질의와 관련성 높은 문서들의 하이퍼링크의 구조를 분석하여 해결하고자 하였다.
키워드를 추천하는 연구는 다수 존재하나, 존재하는 키워드를 정련하는 분야의 연구는 아직 이루어지지 않았다. 그래서 정련에 대한 이전 연구 대신에 태그 추천 시스템과 관련된 연구와 문서의 중요도를 계산할 수 있는 연구로 대신하고자 한다.
본 논문에서는 콘텐츠를 대표하는 핵심어인 태그가 올바른 방향으로 사용될 수 있도록 TextRank 알고리듬[5]을 이용한 키워드 정련 알고리즘을 제안한다.
제안 방법
TextRank 알고리듬에서 단어의 중요도를 계산할 때, 단어와 단어사이에서 링크를 생성하는 방법에 따라 다양한 결과를 가져올 수 있으므로, 본 논문에서는 [표 2]의 세 가지 방법으로 단어와 단어사이의 링크를 생성하였다. 단, 모든 단어에 대해서 링크를 생성하지 않고 불용어(stopword) 목록에 존재하지 않는 단어만 링크를 생성하였다.
[2]와 [3]에서는 사용자가 미리 입력해둔 태그에 추가할 수 있는 태그를 추천하는 시스템이다. 사용자가 콘텐츠에 입력한 태그와 콘텐츠에서 동시출현(co-occurrence)한 단어를 추출하여 후보 태그를 생성하여, 후보 태그를 평가하여 가장 점수가 높은 태그 중의 일부를 사용자에게 추천한다.
이번 실험에서는 [실험 1]의 문제점을 해결하고자 신뢰도 구간을 설정하여 신뢰도 구간을 벗어나는 키워드만 제거하기로 하였으며, 실험 결과는 [표 4]와 같다.
대상 데이터
유투브(YouTube, http;//www.youtube.com/)에서 ‘ipod’와 관련성이 높은 콘텐츠의 제목, 본문, 키워드, 댓글 모두가 존재하는 콘텐츠 80개를 수집하였으며, 키워드 정련 실험을 위해서 해당 분야의 전문가가 콘텐츠를 직접 보며 키워드를 작성하였다.
성능/효과
본 논문에서는 콘텐츠의 제목, 본문, 키워드, 댓글에 출현한 단어와 단어에서 가상의 링크를 생성하여 TextRank 알고리듬을 적용한 결과, 콘텐츠에서 출현한 단어의 중요도를 계산할 수 있었다. 계산된 단어의 중요도를 이용하여 콘텐츠의 작성자가 작성한 키워드에서 불필요한 키워드를 제거하여 키워드를 정련할 수 있었다.
단어 중요도가 낮은 하위 n%를 제거한 실험에서는 n의 값이 감소할수록 Pk와 Rk가 증가함을 알 수 있다. 이는 아무런 조건 없이 콘텐츠 작성자가 작성한 키워드를 제거하였으므로 의미 있는 키워드도 같이 제거될 수 있기 때문이다.
본 논문에서는 콘텐츠의 제목, 본문, 키워드, 댓글에 출현한 단어와 단어에서 가상의 링크를 생성하여 TextRank 알고리듬을 적용한 결과, 콘텐츠에서 출현한 단어의 중요도를 계산할 수 있었다. 계산된 단어의 중요도를 이용하여 콘텐츠의 작성자가 작성한 키워드에서 불필요한 키워드를 제거하여 키워드를 정련할 수 있었다.
불용어에 포함되지 않는 단어들만 링크를 생성하였으며 아무런 조건 없이 단어 중요도가 낮은 하위 n%의 단어를 제거하는 방법보다 신뢰도 구간을 설정하여 신뢰도 구간 밖의 단어만 제거하는 방법에서 더 나은 성능을 보였다.
후속연구
다음 단계에서는 이렇게 정련된 키워드를 사용하여 실제 검색에서 정련 이전과 비교하여 우수한 결과를 나타내는 지에 대한 실험을 할 예정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
태그란 무엇인가?
블로그(Blog), 위키위키(WikiWiki)와 같은 1인 미디어 시대를 대표하는 매체에서 자신이 작성한 콘텐츠를 대표하는 핵심어(키워드)를 태그(tags)라고 한다.
태그는 어떤 구조로 되어 있는가?
태그는 시스템에서 자동으로 생성되지 않으며, 사용자가 직접 입력하는 구조로 되어 있다. 그래서 해당 콘텐츠를 대표하는 단어로 높은 신뢰도를 가지고 있다.
TextRank 알고리듬을 사용한 방법은 어떤 특징을 가지는가?
[5]에서는 문서에서 하나의 문장을 하나의 문서로 가정하여 문장과 문장사이에 유사도가 임계값 이상일 때 문장과 문장 간에 링크를 생성하여 [1]의 PageRank 알고리듬을 변형한 TextRank 알고리듬으로 문장의 중요도를 계산하여 중요도가 가장 높은 문장을 문서를 요약한 문장으로 사용하였다. 문장과 문장의 링크 방향에 따라 다른 성능을 나타내었지만 언어처리 도구를 사용하지 않아 다양한 언어에 적용할 수 있다는 특징을 가지고 있다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.