[논문]트위터 사용자 정보 기반의 유사성 순위 시스템

양새동; 김재윤; 사잔 쿠말; 김창수; 정회경

트위터 사용자 정보 기반의 유사성 순위 시스템
Twitter User Information based Users Similarity Ranking System 원문보기

한국정보통신학회 2015년도 추계학술대회, 2015 Oct. 26, 2015년, pp.1051 - 1053

양새동 (배재대학교 컴퓨터공학과) , 김재윤 (배재대학교 컴퓨터공학과) , 사잔 쿠말 (배재대학교 컴퓨터공학과) , 김창수 (배재대학교 컴퓨터공학과) , 정회경 (배재대학교 컴퓨터공학과)

초록
AI-Helper

트위터는 140자를 한 번에 올릴 수 있는 트윗을 사용하여 전 세계적으로 다양한 사람들과 소통할 수 있다. 또한, 트위터는 팔로우 기능을 제공하여 메신저와 같은 신속성도 제공한다. 이로 인해 트위터를 사용하는 사용자의 수가 급증하였고, 스마트 폰의 대중화로 인해 생활의 일부분이 되었다. 하지만 트위터의 많은 데이터로 인해 사용자의 정보와 유사한 사용자나 정보가 추천되지 않는 단점을 가지고 있다. 이러한 문제점을 보완하기 위하여 본 논문에서는 사용자의 정보 기반으로 유사성을 필터링하여 순위를 정하고 사용자에게 유사한 사용자나 정보를 추천하는 시스템을 제안한다. 본 논문에서 제안하는 시스템은 사용자의 트위터 계정을 사용하여 데이터를 수집하는 모듈과 수집된 데이터를 필터링 및 추천하는 모듈로 구성되어 있다. 이러한 모듈들은 Open API와 Mahout을 사용하여 설계 및 구현하였다.

Abstract ▼ AI-Helper

Twitter is using Tweets to post 140 characters at a time to interact with different people around the world. In addition, Twitter will also provide speed, such as instant messaging by providing the follow feature. This was used for increasing the number of users because of the tweeter, a portion of the life was due to the popularity of smart phones. However, because of the large amount of data of the tweeter has a disadvantage similar to the user information or user information is not recommended. In this paper, in order to compensate for this problem to establish a ranking filter the similarity information based on a user's system, we propose that the user or the like similar to the user information. The system proposed in this paper consists of the collected data and modules to collect data using a user account in the filtering and the like to the tweeter module. These modules use the Open API and Mahout designed and implemented.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 트워터를 사용하는 사용자들의 계정을 기반으로 트위터의 키워드를 수집하여 사용자 성향과 유사한 사용자나 그룹, 정보를 추천하는 시스템 구현을 제안한다. 제안하는 시스템은 빅데이터가 요구하는 기능을 충족할 수 있고, 간편하게 구현이 가능하다.
본 논문에서는 트위터 사용자의 계정을 사용하여 유사한 사용자나 정보를 추천하는 유사성 순위 시스템을 제안했다. 제안하는 시스템은 트위터에서 제공하는 OpenAPI나 Twitter4j를 사용하여 데이터를 수집하고 MongoDB로 저장한 뒤 Hadoop과 Mahout을 사용하여 필터링을 진행한다.

제안 방법

Mahout은 Hadoop 기반으로 분산처리가 가능하고 확장성을 제공하는 기계학습용 라이브러리이다[5]. 그리고 다양한 수학 라이브러리와 효과적인 패키지들을 제공하며 데이터를 분류하고 군집, 패턴 마이닝, 벡터유사도 등 다양한 알고리즘을 제공한다.
Mongo-Hadoop 커넥터는 NoSQL인 MongoDB와 분산 처리 기반에 사용되는 Hadoop을 연결하여 사용한다[4]. 그리고 오픈 소스 기반의 라이브러리이며 MongoDB에서 Hadoop의 MapReduce를 사용하여 데이터를 입출력할 수 있도록 제공한다. 또한, 다양한 Hadoop의 에코시스템에도 적용하여 사용할 수 있다.
그리고 사용자에게 웹브라우저를 통해 정보를 제공한다. 실험에 사용된 시스템은 가상 분산 환경기반으로 데이터 수집과 필터링을 진행하였다. 실험 결과 처리 데이터 크기가 증가할 수 록 처리 속도는 감소하는 것을 확인하여 효과적인 실험을 위해 물리적인 분산 환경 구축이 필요한 것을 알 수 있었다.
실험에는 유사한 사용자와 정보를 추천하는 방식으로 진행하였다. 첫 번째로 본 시스템을 이용하여 트위터 사용자의 트윗 내용을 필터링하고 사용자의 친구 목록을 얻다.
본 논문에서는 트위터 사용자의 계정을 사용하여 유사한 사용자나 정보를 추천하는 유사성 순위 시스템을 제안했다. 제안하는 시스템은 트위터에서 제공하는 OpenAPI나 Twitter4j를 사용하여 데이터를 수집하고 MongoDB로 저장한 뒤 Hadoop과 Mahout을 사용하여 필터링을 진행한다. 그리고 사용자에게 웹브라우저를 통해 정보를 제공한다.
실험에는 유사한 사용자와 정보를 추천하는 방식으로 진행하였다. 첫 번째로 본 시스템을 이용하여 트위터 사용자의 트윗 내용을 필터링하고 사용자의 친구 목록을 얻다. 두 번째는 이런 정보의 상관성을 계산하고 유사한 사용자 순위를 사용자에게 추천한다.

대상 데이터

첫 번째는 트위터에서 제공하는 Open API를 사용하여 사용자의 데이터를 수집한다. 두 번째로는 Twitter4j를 사용하여 사용자의 데이터를 수집한다. 그리고 수집한 데이터는 MongoDB에 저장하며 구조는 그림 2와 같다.

이론/모형

트위터 사용자 올린 트윗의 키워드 분석에는 Mongo-Hadoop 커넥터와 Mahout이 제공하는 피어슨 상관관계(Pearson Correlation Similarity)와 유클리드 거리(Euclidean Distance Similarity) 알고리즘을 사용하여 처리한다. 본 시스템에서 키워드 분석의 처리 순서는 그림 3과 같다.

성능/효과

실험에 사용된 시스템은 가상 분산 환경기반으로 데이터 수집과 필터링을 진행하였다. 실험 결과 처리 데이터 크기가 증가할 수 록 처리 속도는 감소하는 것을 확인하여 효과적인 실험을 위해 물리적인 분산 환경 구축이 필요한 것을 알 수 있었다. 본 시스템은 모듈별로 구성하고 투명성을 제공하여 사용 목적에 맞게 변경하여 사용할 수 있어 다양한 분야에서 응용하여 사용 할 수 있을 것으로 예상된다.
본 논문에서는 트워터를 사용하는 사용자들의 계정을 기반으로 트위터의 키워드를 수집하여 사용자 성향과 유사한 사용자나 그룹, 정보를 추천하는 시스템 구현을 제안한다. 제안하는 시스템은 빅데이터가 요구하는 기능을 충족할 수 있고, 간편하게 구현이 가능하다. 또한, 모듈별로 투명성을 제공하여 다양한 시스템으로 변경하여 사용할 수 있다.

후속연구

실험 결과 처리 데이터 크기가 증가할 수 록 처리 속도는 감소하는 것을 확인하여 효과적인 실험을 위해 물리적인 분산 환경 구축이 필요한 것을 알 수 있었다. 본 시스템은 모듈별로 구성하고 투명성을 제공하여 사용 목적에 맞게 변경하여 사용할 수 있어 다양한 분야에서 응용하여 사용 할 수 있을 것으로 예상된다.
향후 연구로는 본 시스템에서 다른 SNS 서비스도 추가하여 사용 범위를 확장할 계획이며 지속적인 연구가 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

트위터 사용자 정보 기반의 유사성 순위 시스템
Twitter User Information based Users Similarity Ranking System 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

트위터 사용자 정보 기반의 유사성 순위 시스템 Twitter User Information based Users Similarity Ranking System 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

트위터 사용자 정보 기반의 유사성 순위 시스템
Twitter User Information based Users Similarity Ranking System 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper