최근 정보통신기술의 발달로 인한 각종 모바일 기기와 스마트 기기를 통해 소셜 네트워크 서비스가 많이 대중화 되고 있다. SNS는 오프라인에 존재하는 사회적 관계망이 온라인으로 이동한 친목기반 인맥 형성 서비스이다. SNS는 온라인 커뮤니티와 혼동되어 사용되기도 하지만 차이점이 있다. 이러한 기기들로부터 수집된 정보를 모델링하는 알고리즘으로는 연관성, 군집화, 신경망, 결정 나무 등의 다양한 기법이 제안되고 있다. 이러한 기법들을 활용하여 여러 가지 방대한 자료를 효과적으로 사용 하는데 연구할 필요가 있다. 따라서 본 논문에서는 특히 군집화에서 좋은 성능으로 평가받는 EM 알고리즘에 대해서 페이스북 인사이트 데이터를 이용하여 군집화를 수행한 결과를 기반으로 알고리즘의 성능을 평가하였다. 이를 통하여 EM알고리즘에 따른 성능의 변화와 남호주 주립도서관 의 실험데이터의 적용결과를 기반으로 분석하였다.
최근 정보통신기술의 발달로 인한 각종 모바일 기기와 스마트 기기를 통해 소셜 네트워크 서비스가 많이 대중화 되고 있다. SNS는 오프라인에 존재하는 사회적 관계망이 온라인으로 이동한 친목기반 인맥 형성 서비스이다. SNS는 온라인 커뮤니티와 혼동되어 사용되기도 하지만 차이점이 있다. 이러한 기기들로부터 수집된 정보를 모델링하는 알고리즘으로는 연관성, 군집화, 신경망, 결정 나무 등의 다양한 기법이 제안되고 있다. 이러한 기법들을 활용하여 여러 가지 방대한 자료를 효과적으로 사용 하는데 연구할 필요가 있다. 따라서 본 논문에서는 특히 군집화에서 좋은 성능으로 평가받는 EM 알고리즘에 대해서 페이스북 인사이트 데이터를 이용하여 군집화를 수행한 결과를 기반으로 알고리즘의 성능을 평가하였다. 이를 통하여 EM알고리즘에 따른 성능의 변화와 남호주 주립도서관 의 실험데이터의 적용결과를 기반으로 분석하였다.
As information technologies are rapidly developed recently, social networking services through a variety of mobile devices and smart screen is becoming popular. SNS is a social networking based services which is online forms from existed offline. SNS can also be used differently which is confused wi...
As information technologies are rapidly developed recently, social networking services through a variety of mobile devices and smart screen is becoming popular. SNS is a social networking based services which is online forms from existed offline. SNS can also be used differently which is confused with the online community. A modelling algorithm is a variety of techniques, which are assocoation, clustering, neural networks, and decision trees, etc. By utilizing this technique, it is necessary to study to effectively using the large number of materials. In this paper, we evaluate in particular the performance of the algorithm based on the results of the clustering using Facebook Insights data for the EM algorithm to be evaluated as a good performance in clustering. Through this analysis it was based on the results of the application of the experimental data of the change and the South Australian state library according to the performance of the EM algorithm.
As information technologies are rapidly developed recently, social networking services through a variety of mobile devices and smart screen is becoming popular. SNS is a social networking based services which is online forms from existed offline. SNS can also be used differently which is confused with the online community. A modelling algorithm is a variety of techniques, which are assocoation, clustering, neural networks, and decision trees, etc. By utilizing this technique, it is necessary to study to effectively using the large number of materials. In this paper, we evaluate in particular the performance of the algorithm based on the results of the clustering using Facebook Insights data for the EM algorithm to be evaluated as a good performance in clustering. Through this analysis it was based on the results of the application of the experimental data of the change and the South Australian state library according to the performance of the EM algorithm.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이러한 표현 형태는 불확실성과 모호함이 존재하는 공간에서 그 한계점을 지닌다. 따라서 본 논문 에서는 EM 알고리즘을 사용하는 군집화 기법을 제안 한다.
이러한 기법들을 활용하여 여러 가지 방대한 자료를 효과적으로 사용 하는데 연구할 필요가 있다. 따라서 본 논문에서는 데이터마이닝 기법 중의 하나인 군집화에서 우수한 성능을 자랑하는 EM 알고리즘을 성능을 데이터에 대하여 실험하고 분석하였다.
본 논문에서는 일반 데이터의 시각화가 아닌 실험데이터를 군집화한 결과를 시각화하기 위하여 아래 그림과 같은 방법으로 출력 값을 표현하였다. 아래 그림은 Weka tool 내에서 EM 군집화를 실행 후 왼쪽 하단 EM 네임명을 오른쪽 마우스로 클릭하면 시각화를 할 수 있도록 하였다.
본 연구에서는 군집화 중에서 특히 최단거리를 기반으로 한 K-means 군집화를 사용하지 않고 확률을 기반으로는 군집화 기법인 EM 알고리즘 군집화 (EM-algorithm cluster)를 통하여 호주 남부 지역 주립도서관의 페이스북 인사이트 데이터를 분석하고 실험하였다.
제안 방법
Huang은 표준 k-means 알고리즘을 확장하여 새로운 유사도 척도와 빈도수에 기반을 둔 k-modes 알고리즘을 제안하였다. 또한 k-modes 알고리즘을 Bezdek의 fuzzy c-means 알고리즘의 형태로 일반화한 fuzzy k-modes 알고리즘도 제안하였는데, 실제 데이터 집합에 응용함으로써 그 우월성을 제시하였다. 하지만 대부분의 퍼지 군집화 알고리즘에서, 군집의 중심값은 하나의 스칼라 값으로 표현된다.
링크 주소를 안내하는 두 번째 변수 또한 제거하였다. 원하는 특정별 군집 형성을 쉽게 구분하기 위해 Type 속성은 제거 하지 않았으며 또 표1 에 나와있는 Attribute 에 해당하지 않는 모든 속성들을 제거 하고 변수의 고유 이름도 표1 과 같아 질 수 있도록 변경을 하는 중간단계를 거쳐 전반적으로 실험에 사용되어 질 데이터를 수정을 하는 전처리 과정을 실시하였다. 전처리 후 실험데이터는 다음 그림 3과 같이 표현되어진다.
대상 데이터
본 논문에서 사용되어진 남호주 주립 도서관의 페이스북 인사이트 데이터(Facebook Insights Data Export - State Library of South Australia)는 CSV파일로 제공되어 지고 있으며. 남호주 주립 도서관의 페이스북 페이지의 포스팅 된 여러 가지 댓글과 공유 게시글 수, 링크 주소들, 사진 및 비디오등 여러 가지 정보를 가진 데이터이다. 이 실험데이터는 호주주립 도서관의 속성변수로써 Shares, Userview, Totalview, Likes 등의 7가지 numeric 속성들과 실질적인 리스크를 {Link Photo Video Share} 중의 하나의 값으로 표기하는 nominal 속성인 Type으로 구성되어 있다.
본 논문에서 사용되어진 남호주 주립 도서관의 페이스북 인사이트 데이터(Facebook Insights Data Export - State Library of South Australia)는 CSV파일로 제공되어 지고 있으며. 남호주 주립 도서관의 페이스북 페이지의 포스팅 된 여러 가지 댓글과 공유 게시글 수, 링크 주소들, 사진 및 비디오등 여러 가지 정보를 가진 데이터이다.
남호주 주립 도서관의 페이스북 페이지의 포스팅 된 여러 가지 댓글과 공유 게시글 수, 링크 주소들, 사진 및 비디오등 여러 가지 정보를 가진 데이터이다. 이 실험데이터는 호주주립 도서관의 속성변수로써 Shares, Userview, Totalview, Likes 등의 7가지 numeric 속성들과 실질적인 리스크를 {Link Photo Video Share} 중의 하나의 값으로 표기하는 nominal 속성인 Type으로 구성되어 있다. 각각의 속성에 대한 세부적인 사항은 아래 표와 같다.
후속연구
예를 들어 조회 수는 없지만, 사람들이 많이 추천한 데이터나, 사람들이 추천하지는 않았지만 수많은 조회 수를 자랑하는 특성을 가진 데이터를 군집끼리 분류하여 원하는 데이터에 특성을 파악하여 효과적으로 데이터를 활용할 수 있게 되어 진다. 추후에 실험데이터를 더 많이 수집하고, 이를 기반으로 각 알고리즘을 다양한 관점에서 적용할 필요가 있다.
향후에는 더 활용가능성이 있는 실험을 위하여 실제 데이터를 활용한 사례를 기반으로 성능을 평가하며, 단순한 성능비교뿐만 아니라 bagging, boosting, stacking 등의 앙상블 방법을 통하여 다수의 모델에 복합적으로 적용하는 방향도 연구할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
소셜 네트워크는 온라인 커뮤니티와 어떻게 다른가?
SNS는 온라인 커뮤니티와 혼동되어 사용되기도 하지만 차이점이 있다. 온라인 커뮤니티는 관심사가 비슷한 사람들이 한 장소에 모여 활동하는 그룹 중심의 커뮤니티 서비스인 반면 소셜 네트워크 사이트는 개인이 중심이 되어 관심 있는 다른 개인과 관계를 맺고 더 큰 네트워크를 형성하는 서비스이다. 웹 2.
EM 알고리즘은 어떻게 모델을 생성하는가?
EM 알고리즘은 K-means 알고리즘과 마찬가지로 초기 모델을 생성한 후 반복 정제과정을 통하여 모델을 최적화된 모델로 만들어간다. EM 알고리즘은 반복 정제 과정을 통하여 각 객체들이 혼합 모델(Mixtur e Model)에 속할 가능성(Probability)을 조정하여 최적의 모델을 생성해 간다. K-means 알고리즘이 유클 리디언(Euclidean) 거리 함수를 사용해서 모델을 생성해 나가는 것과는 다르게 EM 알고리즘은 log-likeliho od 함수를 사용하여 모델의 적합성을 평가한다.
대부분의 퍼지 군집화 알고리즘에서 사용하는 군집 중심값 표현방법은 어떤 한계를 가졌는가?
하지만 대부분의 퍼지 군집화 알고리즘에서, 군집의 중심값은 하나의 스칼라 값으로 표현된다. 이러한 표현 형태는 불확실성과 모호함이 존재하는 공간에서 그 한계점을 지닌다. 따라서 본 논문 에서는 EM 알고리즘을 사용하는 군집화 기법을 제안 한다.
참고문헌 (8)
S. H. Lee. "A study on college classes satisfaction utilizing SNS: Edmodo around the use cases." (2013): 153-169. 이시화. "SNS 를 활용한 대학 수업 만족도에 관한 연구: Edmodo 활용 사례를 중심으로." (2013): 153-169.
H. S. Han and C. I. Kim. "Web accessibility assessment of the social network site." Science of Emotion 12.4 (2009): 481-488. 한혁수, and 김초이. "소셜 네트워크 사이트의 웹 접근성 평가." 감성과학 12.4 (2009): 481-488.
E. S. Lee and Y. S. Lim. "The message structure analysis with exploratory study refers to marketing communications networks in the domestic company to take advantage of Facebook." Korea Advertising Gazette 14.3 (2012): 124-155. 이은선, and 임연수. "페이스북을 활용한 국내 기업의 마케팅 커뮤니케이션에 대한 탐색적 연구 의미연결망을 통한 메시지 구조 분석." 한국광고홍보학보 14.3 (2012): 124-155.
J. H. Du and J. H. Kim. "Effects of the Facebook ad types." Korea Advertising Gazette 14.2 (2012): 300-330. 두진희, and 김정현. "페이스북 광고 유형에 따른 효과 연구." 한국광고홍보학보 14.2 (2012): 300-330.
S. S. Lee "A Preliminary Study on the library's Facebook page actual conditions." South Korea 43.4 Library and Information Science (2012): 347-372. 이수상. "도서관 페이스북 페이지의 운영 실태에 관한 기초연구." 한국도서관.정보학회지 43.4 (2012): 347-372.
J. A. Seol. "Study on the use of Facebook and privacy." Media and law 11.1 (2012): 63-92. 설진아. "페이스북 이용과 프라이버시 침해에 관한 연구." 언론과법 11.1 (2012): 63-92.
D. W. Kim and K. H. Lee. "A Fuzzy Clustering Algorithm for Clustering Categorical Data." Journal of Korean Institute of Intelligent Systems 13.6 (2003): 661-666.
J. W. Kim "Improved Artificial Intelligence class with WEKA tool." Proceedings of KIIS Fall Conference. Vol. 22. No. 2.2012. 김종완. "WEKA 도구를 이용한 인공지능 수업 개선." Proceedings of KIIS Fall Conference. Vol. 22. No. 2. 2012.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.