[논문]유전자 알고리즘에 기반한 K-medoid 클러스터링 알고리즘에서의 최적의 k-탐색과 적용

안선영; 윤혜성; 이상호

문제 정의

본 논문에서는 奸medoid 클 러스터링 수행 시 클러스터의 수를 매번 변경하여 반복 실험을 해 야 하는 단점을 보완하여 데이터를 가장 이상적으로 클러스터링 할 수 있는 클러스터 수 左를 찾는 방법을 제안하고자 한다. 또한 제안된 방법을 통해 찾은 左를 가지고 유전자 알고리즘에 기반한 jemedoid 클러스터링을[1] 수행하여 데이터의 크기가 커질수록 증가하는 시간 비용을 효율적으로 감소시키고 정확하고 생물학적 으로 의미 있는 클러스터링 결과를 찾고자 한다.
하지만 클러스터의 수률 고정시키고 실험을 해야 하기 때문에 데이터에 대한 사전 지식이 없으면 올바른 분석 의 어려움이 있고, 클러스터의 수률 변경하면서 여러 번 반복 실험을 해야 하기 때문에 데이터의 크기가클수록 분석을 위한시간 비용이 증가하는 등의 단점이 있다. 본 논문에서는 奸medoid 클 러스터링 수행 시 클러스터의 수를 매번 변경하여 반복 실험을 해 야 하는 단점을 보완하여 데이터를 가장 이상적으로 클러스터링 할 수 있는 클러스터 수 左를 찾는 방법을 제안하고자 한다. 또한 제안된 방법을 통해 찾은 左를 가지고 유전자 알고리즘에 기반한 jemedoid 클러스터링을[1] 수행하여 데이터의 크기가 커질수록 증가하는 시간 비용을 효율적으로 감소시키고 정확하고 생물학적 으로 의미 있는 클러스터링 결과를 찾고자 한다.
본 논문에서는 클러스터링 알고리즘을 수행하는데 있어서 가장 어려운 문제였던 클러스터 수 결정하는 데 기존의 반복적인 실험과 사용자의 경험 위주로 했던 방법들의 효율성을 높이고자 사회 네트워크의 매개 중심값을 적용하였다, 유전자를 개개의 노드로 보고 이들 사이의 연결 정도를 파악하여 유전자와 유전자를 연결하는 데 있어 가장 많은 연결 정도를 보이는 노드가 하나의 클러스터에서 또한 중심이 될 수 있다는 가정을 하였고 본 논문에서는 이 가정이 맞다는 것을 증명하였다. 또한 제안하는 방법을 통해 얻은 左값을 가지고 실제 클러스터링을 한 결과 유전자 알고리즘의 연산자와 연산 확률을 적절히 조절함으로써 기존 방법들보다 더 좋은 클러스터링 결과를 얻었고, 계산비용도 기존 방법에 비해 줄어든 것을 확인할 수가 있었다.
사이즈가 큰 데이터 셋에서의 A-medoid 클러스터링 문제는 NP-hard 문 제이다. 이런 NP-hard 문제의 최적화를 다루기 위해 유전자 알고리즘을 함께 사용하는 방법이 제안되었고, 이때 고려되야 할 계 산 비용을 감소시키기 위해서 본 논문에서는 유전자 알고리즘의 여러 연산자를 적용하여 효율적이고 정확한 클러스터링 결과를 보인다.

가설 설정

3. 종료 조건을 만족할 때까지 다음의 과정 반복한다.
따라서 본 논문에서는 이러한 관점으로 마이크로어레이 데이터를 분석을 위해 사회 네트워크 방법을[3] 적용하였다. 노드들 하나 하나를 분석하고자 하는 유전자로 보고 그들 사이의 에지를 유 전자들 사이의 관계나 사건으로 보는 것으로 가장 활동적인 유 전자는 많은 다른 유전자들과도 연결 관계를 갖는다는 것을 의 미한다고 가정한다. 또한 그 중에서도 매개 중심 (betweenness centrality) 방법올 적용하였는데 이는 다른 노드들과의 사이에서 'bridge' 역할인 노드를 찾는 방법으로 전체 데이터 네트워 크가 이 노드에 의해서 밀접하게 연관되어 있다는 것을 말한다.

제안 방법

(1) 우선 임계값을 기준으로 비교 대상으로 추출된 유전자에 대하여 사회 네트워크의 매개 중심 방법을 적용한다, 실험에서 는 유전자마다 매개 중심 값을 계산하여 가장 높은 값을 가지는 유전자를 찾고 이 유전자를 추출한다.
연산자의 선택엔 크게 달라 진 점이 없지만 HKA와 본 논문에서 제안하는 GA-KMC는 虹medoid 클러스터링 수행 시 해가 지역적 최적화에 빠지는 것을 방지하기 위해 인접 이웃(nearest neighbor)의 개념을 함께 사용하였다. 논문에서 제안하는 GA-KMC방법은 기존 방법 에서 연산자와 연산 확률만올 변화시켜 실험을 하였다[9].
다음으로 우리는 기존에 제안된 유전자 알고리즘 기반의 A-medoid 알고리즘들과의 성능을 비교하였다. 먼저 표 2는 세 개의 유전자 알고리즘 기반 A-medoid 클러스터링 알고리즘인 Genetic Clustering Algorithm(GCA) [7 ], Random Assorting Recombination Clustering Algorithm(RARw-CA) [8], Hybrid K-medoid Algorithm(HKAj과 논문에서 사용한 유전자 알고리 즘 연산자에 대해 설명한 것이다.
실험에 사용된 데이터 셋은 Serum 데이터 [5]와 Subyeast 데이터 [6]이다. 먼저 클러스터 링 수가 명확하게 알려진 앞의 두 개의 데이터와 본 논문에서 제안하는 방법을 같은 데이터 셋에 적용하여 얼마나 정확하게 클러스터 수 次를 찾아내는지에 대하여 비교 하였다. 아래 표 1에서 보는 것처럼 매개 중심 값이 급격히 떨어지는 시점에서 예측된 클러스터 수 左가 기존의 논문에서 알려진 左와 정확하게 10개와 30개로 일치하는 것을 발견 할 수 있었다.
본 논문에서는 매개 중심 값 계산을 위해 UINISET 6.0 프 로그램올 이용하였으며, 유전자 알고리즘 기반의 奸medoid 클 러스터링 구현은 java 1.5 SDK를 사용하여 windows server 2003 환경에서 실행하였다. 실험에 사용된 데이터 셋은 Serum 데이터 [5]와 Subyeast 데이터 [6]이다.
먼저 표 2는 세 개의 유전자 알고리즘 기반 A-medoid 클러스터링 알고리즘인 Genetic Clustering Algorithm(GCA) [7 ], Random Assorting Recombination Clustering Algorithm(RARw-CA) [8], Hybrid K-medoid Algorithm(HKAj과 논문에서 사용한 유전자 알고리 즘 연산자에 대해 설명한 것이다. 연산자의 선택엔 크게 달라 진 점이 없지만 HKA와 본 논문에서 제안하는 GA-KMC는 虹medoid 클러스터링 수행 시 해가 지역적 최적화에 빠지는 것을 방지하기 위해 인접 이웃(nearest neighbor)의 개념을 함께 사용하였다. 논문에서 제안하는 GA-KMC방법은 기존 방법 에서 연산자와 연산 확률만올 변화시켜 실험을 하였다[9].
바이오데이터는 데이터들의 상호 작용이 의존적인 경우가 많기 때문에 어떤 상호 작용의 매개가 되는 유전자 하나를 제거하게 되면 처음과 다른 결과를 보일 수 있다. 이런 바이오 데이터의 특징을 이용하여 임계값을 가지고 추출된 유전자들에 대해 사 회 네트워크 분석법 가운데 매개 중심 방법을 적용한다.

대상 데이터

5 SDK를 사용하여 windows server 2003 환경에서 실행하였다. 실험에 사용된 데이터 셋은 Serum 데이터 [5]와 Subyeast 데이터 [6]이다. 먼저 클러스터 링 수가 명확하게 알려진 앞의 두 개의 데이터와 본 논문에서 제안하는 방법을 같은 데이터 셋에 적용하여 얼마나 정확하게 클러스터 수 次를 찾아내는지에 대하여 비교 하였다.

데이터처리

따라서 유전자들이 같은 클러스터 에 속하는지 다른 클러스터에 속하는지를 예측하기 위해 판단 의 기준이 될 임계값을 정의한다. 하나의 유전자와 다른 유전 자들 간의 유사성을 계산하기 위해 유클리디안 거리 공식을 이용하여 유전자들 간의 유사성을 계산하고 거리 값의 평균을 구 한다. 계산된 평균값을 이용하여 임계값을 정의하게 되는데, 이때 너무 작은 평균값과 너무 큰 평균값에 의해 임계값이 한쪽 으로 치우치는 것을 막기 위해 중간 값들의 평균을 임계값으로 한다.

이론/모형

이는 노이즈에 특히 민감한 바이오 데이터에 적용 할 때에 잘못된 클러스터링 결과를 가져올 수 있다. 따라서 본 논문에서는 ^-means 보다는 상대적으로 이런 극단적안 값에 강하고 비교적 좋은 클러스터링 결과률 제공하는 虹medoid 방법올 적용하였다.
즉, 수많은 유전자들과 다른 물질들 사이의 복잡한 상호작용 에 의한 유전자들의 기능을 개개의 유전자의 활동으로 보는 것이 아니라 하나하나의 유전자의 활동이 다른 유전자에게 영향을 미치는 것으로 보는 전반적인 유전체 관점에서의 분석이 필요하다. 따라서 본 논문에서는 이러한 관점으로 마이크로어레이 데이터를 분석을 위해 사회 네트워크 방법을[3] 적용하였다. 노드들 하나 하나를 분석하고자 하는 유전자로 보고 그들 사이의 에지를 유 전자들 사이의 관계나 사건으로 보는 것으로 가장 활동적인 유 전자는 많은 다른 유전자들과도 연결 관계를 갖는다는 것을 의 미한다고 가정한다.

성능/효과

본 논문에서는 클러스터링 알고리즘을 수행하는데 있어서 가장 어려운 문제였던 클러스터 수 결정하는 데 기존의 반복적인 실험과 사용자의 경험 위주로 했던 방법들의 효율성을 높이고자 사회 네트워크의 매개 중심값을 적용하였다, 유전자를 개개의 노드로 보고 이들 사이의 연결 정도를 파악하여 유전자와 유전자를 연결하는 데 있어 가장 많은 연결 정도를 보이는 노드가 하나의 클러스터에서 또한 중심이 될 수 있다는 가정을 하였고 본 논문에서는 이 가정이 맞다는 것을 증명하였다. 또한 제안하는 방법을 통해 얻은 左값을 가지고 실제 클러스터링을 한 결과 유전자 알고리즘의 연산자와 연산 확률을 적절히 조절함으로써 기존 방법들보다 더 좋은 클러스터링 결과를 얻었고, 계산비용도 기존 방법에 비해 줄어든 것을 확인할 수가 있었다. 그러나 계속적으로 데이터의 크기와 양이 커지고 있는 요즘 데이터의 크기가 커질수록 이런 방법은 매번 매개 중심값을 계산해줘야 하기 때문에 계산비용적인 면에서 효율적이지 못할 수도 있다는 문제를 가지고 있다.
사회 네트워크의 매개중심방법을 이용한 클러스터 수의 예측은 이미 알려진 클러스터 수와 비교적 정확하게 일치하는 것을 관 찰 할 수 있었고, 유전자 알고리즘 기반의 er-medoid 클러스터 링 역시 유전자 알고리즘 연산자와 연산이 일어난 확률을 변화 시킴으로써 좀 더 나은 클러스터링 결과 값과 시간 비응이 줄 어드는 걸 확인할 수가 있었다.
표 3은 클러스터링 알고리즘 적용 후 각 알고리즘의 클러스터 링 성능과 결과를 비교, 분석한 표이다. 클러스터링 결과에 대한 비교는 클러스터링 후의 유클리디안 거리 값의 합이 얼마나 작은가에 따라 비교하였고, 수행시간은 본 논문에서는 미리 左 값을 계산하고 클러스터링을 하기 때문에 모든 기존 알고리즘 또한 k값을 미리 알고 수행되었다는 가정 하에 계산되었다, 표 에서 나타나는 것처럼 GA-KMC를 사용하면 기존 알고리즘에 비해 슈행시간이 많이 향상되고 유전자들 간의 거리 값의 합 역시 줄어들어 기존 방법에 비해 조밀한 클러스터링 결과를 보 인다는 것을 알 수 있었다.

후속연구

그러나 계속적으로 데이터의 크기와 양이 커지고 있는 요즘 데이터의 크기가 커질수록 이런 방법은 매번 매개 중심값을 계산해줘야 하기 때문에 계산비용적인 면에서 효율적이지 못할 수도 있다는 문제를 가지고 있다. 따라서 향후 계획은 대용량 데이터에 적용할 때에 이런 계산비용을 줄일 수 있는 방법을 연구하고 여러 데이터에 적용해 봄으로써 좀 더 정확한 클러스터링 결과를 얻을 수 있는 연구를 계속 진행하고자 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

유전자 알고리즘에 기반한 K-medoid 클러스터링 알고리즘에서의 최적의 k-탐색과 적용
Optimal k-search and Its Application in k-medoid Clustering Algorithm based on Genetic Algorithm 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

유전자 알고리즘에 기반한 K-medoid 클러스터링 알고리즘에서의 최적의 k-탐색과 적용 Optimal k-search and Its Application in k-medoid Clustering Algorithm based on Genetic Algorithm 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

유전자 알고리즘에 기반한 K-medoid 클러스터링 알고리즘에서의 최적의 k-탐색과 적용
Optimal k-search and Its Application in k-medoid Clustering Algorithm based on Genetic Algorithm 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper