[논문]MCMC 결측치 대체와 주성분 산점도 기반의 SOM을 이용한 희소한 웹 데이터 분석

전성해; 오경환

doi:10.3745/kipstd.2003.10d.2.277

문제 정의

따라서 기존의 MCMC 결측치 대체 기법을 그대로 사용하게 되면 모형의 예측력이 크게 떨어질 뿐만 아니라 학습 시간도 매우 많이 소요된다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위하여 MCMC 대체 기법에 사전 확률 분포 선택 단계를 새롭게 추가하여 대규모의 희소 웹 데이터의 분석을 가능케 하였다.
본 논문에서는 이러한 웹 로그 데이터의 희소성(sparseness)에 대한 문제 해결방안에 대하여 연구하였다. 또한 웹 사용자들을 서로 유사한 행위 패턴을 보이는 사용자들 끼리 군집화 하는 방법에 대한 연구도 동시에 수행하였다. 마코프 연쇄 몬테 칼로(markov chain monte carlo : MCMC) 방법의 베이지안 추론을 적용한 결측치 대체 기법 (missing value imputation)을 이용하여 웹 데이터의 희소성을 제거하였고 이 결과로서 얻게 된 완전한 클릭 스트림 데이터에 대한 주성분 분석을 통하여 보유 주성분에 대한 산점도를 시각적으로 관찰하여 형상 지도feature maps)의 차원을 결정한 자기 조직화 지도를 이용하였다.
클릭 스트림 데이터 테이블의 각 셀에 결측치가 많아 웹 로그데어터의 희소성이 발생하는 이유는 웹 사이트의 전체 페이지 중에서 각 사용자가 한 번의 접속으로 보게되는 웹 페이지의 수가 상대적으로 매우 작기 때문이다. 본 논문에서는 이러한 웹 로그 데이터의 희소성(sparseness)에 대한 문제 해결방안에 대하여 연구하였다. 또한 웹 사용자들을 서로 유사한 행위 패턴을 보이는 사용자들 끼리 군집화 하는 방법에 대한 연구도 동시에 수행하였다.
하지만 이러한 방법들은 차원의 축소에 의해 원래 데이터에 대한 정보의 손실이 발생하여 모형에 대한 설명력의 저하를 감수해야 한다. 본 논문에서는 차원의 축소를 하지 않고 원래 데이터의 정보를 그대로 유지하면서 결측치 대체 전략을 취하여 웹 데이터의 희소성 문제를 해결한다.
본 논문에서는 현재 웹 로그 데이터가 가지고 있는 가장 큰 어려움 중의 하나인 희소성 문제를 해결하기 위하여 통계 물리학에서 사용되는 MCMC 기법을 변형한 Hybrid MCMC 방법을 제안하였다. KDD Cup 데이터에 의한 실험을 통하여 기존의 웹 마이닝에서 결측치 대체 기법으로 사용되고 있는 회귀모형이나 Support Vector Machine 그리고 기존의 MCMC 방법 등과 비교한 결과 이들보다 정확한 예측력을 보이고 있음을 알 수 있었다.

제안 방법

마코프 연쇄는 과거의 모든 시점은 아무 관계가 없이 바로 앞 시간의 상태에만 의존하는 조건부 확률을 나타내는 사건들을 가리킨다. MCMC의 정상 분포(stationary distributionX 구하여 반복된 연쇄의 모의 실험을 통하여 결측치 대체에 사용할 분포를 구한다. 이 때 사용되는 베이지안 추론에서 미지의 모수에 대한 정보는 사후(posterior) 확률 분포의 형태로 표현된다.
반복의 최종 목표는 데이터들이 정상 분포로 수렴되어 서로 독립적으로 결측치의 대체 값을 생성할 수 있게 되어야 한다. PS-step에서 공액 사전 분포를 사용함으로써 깁스 샘플링(Gibbs sampling) 이나 메트로폴리스(Metropolis)의 과정을 거치지 않게 됨으로써 MCMC의 학습 시간올 단축하는 효과를 보았다. (그림 1)은 3개의 단계를 갖는 변형된 MCMC 결측치 대체 알고리즘을 나타내고 있다.
평균값이다. 결론적으로 (그림 7)에서와 같이 희소한 웹 로그 데이터로부터 MCMC 결측치 대체 기법을 이용하여 희소성을 제거하고, 사전 군집수에 대한 정확한 정보를 주성분 분석에 의해 얻고 빠른 군집화 도구인 SOM을 이용하여 사용자를 군집화하였다.
모든 변수에 대해서 모든 레코드의 값이 완벽하게 채워진 경우(complete cases)에 비해 결측값을 많이 포함하고 있는 경우(incomplete cases) 에는 모형에 대한 정보의 손실이 필연적으로 나타나게 된다. 따라서 본 논문에서는 이러한 문제점을 햬결하기 위한 전략으로서 다중 결측치 대체 방법을 사용하였다. 이러한 방안으로 특히 통계 물리학(statistical phisics) 분야에서 입자 데이터의 모형화에 사용되고 있는 MCMC 방법을 웹 로그 데이터의 결측치 대체에 새롭게 적용하였다.
또한 본 논문에서는 MCMC를 포함한 베이지안 추론과 주성분 분석의 학습 시간을 단축하기 위하여 전체 데이터를 사용하지 않고 Bootstrapping에 의한 재 표본(resampling) 방법을 이용하여 모형의 모수를 추정한 후 전체 데이터에 대한 학습을 수행하였다.
또한 웹 사용자들을 서로 유사한 행위 패턴을 보이는 사용자들 끼리 군집화 하는 방법에 대한 연구도 동시에 수행하였다. 마코프 연쇄 몬테 칼로(markov chain monte carlo : MCMC) 방법의 베이지안 추론을 적용한 결측치 대체 기법 (missing value imputation)을 이용하여 웹 데이터의 희소성을 제거하였고 이 결과로서 얻게 된 완전한 클릭 스트림 데이터에 대한 주성분 분석을 통하여 보유 주성분에 대한 산점도를 시각적으로 관찰하여 형상 지도feature maps)의 차원을 결정한 자기 조직화 지도를 이용하였다. 2 장에서는 희소한 웹 데이터 분석을 위한 기존의 방법과 문제점에 대해서 살펴보고, 3장에서는 본 논문에서 제안하는 결측치 대체 기법과 다변량 통계 분석 기법 중 하나인 주성 분산 점도에 기반한 자기 조직화 지도의 군집화 전략을 설명하였다.
이 결과를 이용하여 SOM의 차원을 결정하게 된다. 본 논문에서는 (주성분의 개수X주성분의 개수)를 형상 지도의 차원으로 사용하였다. 여러 가능한 방법 중에서 이것이 군집의 결과가 가장 좋게 나왔다.
좋은 전략이 될 수 있다. 본 논문에서는 각 결측치에 대해서 한 개의 값을 추정하여 채워넣는 기존의 회귀모형과는 달리 결측치의 참값(right value)에 대한 불확실성을 고려하여 가능한 값들의 집합으로서 각 결측치를 대체하는 다중 결측 데이터 대체 방법(multiple missing data imputation) 을 수행한다[11]. 이러한 방법의 하나로서 본 논문에서는 변형된 MCMC 방법을 제안하였다.
결측치 대체를 위한 마코프 연쇄몬테 칼로(Markov Chain Monte Carlo : MCMC) 기법은 원래 물리학에서 상호 작용하는 분자들의 평형 분포(equilib rium distribution)-!- 구하는 도구(tool)로서 사용되었다[9]. 본 논문에서는 마코프 연쇄를 통해 다차원 확률 분포(multi dimensional probability distribution)로부터 의사난수(pseu dorandom) 를 생성하여 결측치를 대체하는데 사용한다. 마코프 연쇄는 과거의 모든 시점은 아무 관계가 없이 바로 앞 시간의 상태에만 의존하는 조건부 확률을 나타내는 사건들을 가리킨다.
본 논문에서는 각 결측치에 대해서 한 개의 값을 추정하여 채워넣는 기존의 회귀모형과는 달리 결측치의 참값(right value)에 대한 불확실성을 고려하여 가능한 값들의 집합으로서 각 결측치를 대체하는 다중 결측 데이터 대체 방법(multiple missing data imputation) 을 수행한다[11]. 이러한 방법의 하나로서 본 논문에서는 변형된 MCMC 방법을 제안하였다.
MCMC는 베이지안 추론에서 사후 확률 분포를 구하는 방법으로써 사용된다. 즉 MCMC를 통하여 미지의 모수들에 대한 결합 사후 확률 분포를 구하고 이중 추정해야 할 모수를 사후 확률 분포를 이용한 모의 실험을 통해 구하게 된다[12]. 데이터의 분포가 다변량 정규 분포라고 가정하고 베이지안 추론에 의한 결측치 대체를 위한 데이터의 확장(aug mentation) 은 다음과 같은 2단계의 과정을 거친다.
또한 MCMC 기반의 베이지안 추론에서의 문제점인 모형에 대한 수렴을 위한 반복 학습 시간을 단축하기 위하여 Bootstrapping 기법을 적용하였다. 회소성을 제거한 웹 로그 데이터로부터 추천 시스템, 사용자 모델링 등에 적용할 사용자 군집화를 위하여 주성분 산점도 기반의 SOM을 적용하였다. 이 방법은 기존의 SOM의 시행착오적인 형상 지도의 차원 결정 문제에 대한 해결 방안의 하나로써 주성분 분석을 사용한 것이다.

대상 데이터

본 논문의 실험을 위한 웹 로그 데이터는 KDD-Cup 2000 에서 문제로 주어졌던 로그 데이터로써 인터넷 쇼핑몰(Gazelle, com)의 2개월 간의 클릭스트림 만을 모아놓은 L2GB의 텍스트 데이터이다[16]. 해당 쇼핑몰은 의료용 장비인 Leg-care 혹은 Leg-wear 제품을 전문적으로 판매하는 업체로서 데이터는 이러한 인터넷 쇼핑몰의 로그라는 특성으로 인하여 매우 방대한 양의 데이터를 가지고 있지만 (그림 3)에서 보는 것처럼 매우 희소한(sparse) 구조를 갖고 있다.
해당 쇼핑몰은 의료용 장비인 Leg-care 혹은 Leg-wear 제품을 전문적으로 판매하는 업체로서 데이터는 이러한 인터넷 쇼핑몰의 로그라는 특성으로 인하여 매우 방대한 양의 데이터를 가지고 있지만 (그림 3)에서 보는 것처럼 매우 희소한(sparse) 구조를 갖고 있다. 즉, 사용자 1 (User 1)은 269개의 전체 웹 페이지 중에서 8개의 페이지만 접속하였다. 또한 학습 데이터의 마지막 사용자인 13109번째 사용자(User 13109)는 단지 5개의 웹 페이지 만을 접속하였다.

데이터처리

제안 방법과 다른 결측치 대체 기법과의 성능 평가를 위하여 본 논문에서 는 평 균제곱오차(mean squared error : MSE)를 사용한다. 이 식은 다음과 같이 표현된다[8].

이론/모형

KDD Cup 데이터에 의한 실험을 통하여 기존의 웹 마이닝에서 결측치 대체 기법으로 사용되고 있는 회귀모형이나 Support Vector Machine 그리고 기존의 MCMC 방법 등과 비교한 결과 이들보다 정확한 예측력을 보이고 있음을 알 수 있었다. 또한 MCMC 기반의 베이지안 추론에서의 문제점인 모형에 대한 수렴을 위한 반복 학습 시간을 단축하기 위하여 Bootstrapping 기법을 적용하였다. 회소성을 제거한 웹 로그 데이터로부터 추천 시스템, 사용자 모델링 등에 적용할 사용자 군집화를 위하여 주성분 산점도 기반의 SOM을 적용하였다.
대부분의 SOM의 사용에서는 이 문제를 시행 착오(trials an errors)를 거치면서 휴리스틱하게 결정학고 있다. 본 논문에서는 이 문제를 해결하기 위하여 다변량 통계 기법 중의 하나인 주성분 분석을 이용한다.<표 3> 는 정제된 KDD Cup 데이터에 대하여 주성분 분석을 수행한 결과이다.
본 논문에서는 이러한 결측치 대체 모형으로서 변형된 MCMC 방법의 베이지안 사후 확률 모형을 사용한다. 예를 들어 (그림 3)과 같이 웹 페이지 데이터 구조에서 1번째 페이지에 대한 접속 가능 시간에 대한 예측 모형은 다음과 같다.

성능/효과

제안하였다. KDD Cup 데이터에 의한 실험을 통하여 기존의 웹 마이닝에서 결측치 대체 기법으로 사용되고 있는 회귀모형이나 Support Vector Machine 그리고 기존의 MCMC 방법 등과 비교한 결과 이들보다 정확한 예측력을 보이고 있음을 알 수 있었다. 또한 MCMC 기반의 베이지안 추론에서의 문제점인 모형에 대한 수렴을 위한 반복 학습 시간을 단축하기 위하여 Bootstrapping 기법을 적용하였다.
예측 능력을 가지고 있는 것을 알 수 있다. 또한 기존의 MCMC 대체 기법을 그대로 사용하면 예측의 정확도가 본 논문에서 제안하는 변형된 MCMC에 비해서 좋지 않음을 알수 있다.
또한 기존의 MCMC 방법은 제안하는 변형된 MCMC 방법에 비해 데이터의 학습 시간이 매우 많이 소요됨을 알 수 있다. SOM을 이용한 사용자 군집화를 수행할 때 우선 고려해야 하는 문제는 군집화가 수행되어지는 형상 지도의 차원 올 결정하는 것이다.
<표 3>의 결과에 의하면 3개의 주성분만을 이용해도 데이터의 93.55%가 설명되어짐을 알 수 있다. 따라서 각 사용자의 웹 페이지에 대한 데이터를 주성분으로 선형 변환하고 3개의 주성분에 의한 3차원 그래프를 그려보면 (그림 6) 에서보여지는 것처럼 전체적으로 3개의 군집이 형성됨을 시각적으로 관찰할 수 있다.

후속연구

여러 가능한 방법 중에서 이것이 군집의 결과가 가장 좋게 나왔다. 따라서 앞으로 수행될 다른 데이터의 군집화에도 이 방법을 사용하면 군집내의 동질성이 높은 군집 결과를 얻을 수 있을 것으로 기대된다.<표 4>는 제안하는 통계적 자율 신경망을 통하여 얻어진 군집화 결과이다.
이러한 군집 결과를 이용하여 서로 유사한 집단별로 차별화된 웝 서비스를 수행하는 추천 시스템이나 사용자 모델랑등에 본 논문에서 제안하는 방법을 적용할수 있을 것이다. 또한 본 논문에서는 MCMC를 포함한 베이지안 추론과 주성분 분석의 학습 시간을 단축하기 위하여 전체 데이터를 사용하지 않고 Bootstrapping에 의한 재 표본(resampling) 방법을 이용하여 모형의 모수를 추정한 후 전체 데이터에 대한 학습을 수행하였다.
이 방법은 기존의 SOM의 시행착오적인 형상 지도의 차원 결정 문제에 대한 해결 방안의 하나로써 주성분 분석을 사용한 것이다. 향후에 MCMC의 베이지안 추론에 있어서 좀더 빠른 수렴 알고리즘을 개발 적용하여, 정확한 예측력을 유지하면서도 현재의 Support Vector Machine 등의 방법 보다도 빠른 학습 시간을 갖는 모형에 대한 연구가 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

MCMC 결측치 대체와 주성분 산점도 기반의 SOM을 이용한 희소한 웹 데이터 분석
Sparse Web Data Analysis Using MCMC Missing Value Imputation and PCA Plot-based SOM 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

MCMC 결측치 대체와 주성분 산점도 기반의 SOM을 이용한 희소한 웹 데이터 분석 Sparse Web Data Analysis Using MCMC Missing Value Imputation and PCA Plot-based SOM 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

전성해 (35) 오경환 (20)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

MCMC 결측치 대체와 주성분 산점도 기반의 SOM을 이용한 희소한 웹 데이터 분석
Sparse Web Data Analysis Using MCMC Missing Value Imputation and PCA Plot-based SOM 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper