계층적 군집 분석은 분석 결과를 덴드로그램으로 쉽게 표시할 수 있어서 방대한 양의 마이크로어레이 자료를 탐색하기에 유용하며, 군집된 결과를 이용하여 생물학적 현상을 이해하는데 도움을 준다. 하지만, 계층적 군집방법은 두 군집간의 절대값 거리만을 고려하여 병합하기 때문에 군집 간의 상대적 비유사성은 설명하지 못하는 단점이 있다. 본 연구에서는 상대적 계층적 군집 방법을 소개하고, 마이크로어레이 자료와 같이 다양한 군집의 모양을 가진 모의실험 자료들과 실제 마이크로어레이 자료를 사용하여 상대적 계층적 군집방법과 기존의 계층적 군집 방법을 비교하였다. 두 계층적 군집 방법의 질적 평가는 오분류율, 동질성, 이질성 지표를 이용하여 수행하였다.
계층적 군집 분석은 분석 결과를 덴드로그램으로 쉽게 표시할 수 있어서 방대한 양의 마이크로어레이 자료를 탐색하기에 유용하며, 군집된 결과를 이용하여 생물학적 현상을 이해하는데 도움을 준다. 하지만, 계층적 군집방법은 두 군집간의 절대값 거리만을 고려하여 병합하기 때문에 군집 간의 상대적 비유사성은 설명하지 못하는 단점이 있다. 본 연구에서는 상대적 계층적 군집 방법을 소개하고, 마이크로어레이 자료와 같이 다양한 군집의 모양을 가진 모의실험 자료들과 실제 마이크로어레이 자료를 사용하여 상대적 계층적 군집방법과 기존의 계층적 군집 방법을 비교하였다. 두 계층적 군집 방법의 질적 평가는 오분류율, 동질성, 이질성 지표를 이용하여 수행하였다.
Hierarchical clustering analysis helps easily exploring massive microarray data and understanding biological phenomena with dendrogram. But, because hierarchical clustering algorithms only consider the absolute similarity, it is difficult to illustrate a relative dissimilarity, which consider not on...
Hierarchical clustering analysis helps easily exploring massive microarray data and understanding biological phenomena with dendrogram. But, because hierarchical clustering algorithms only consider the absolute similarity, it is difficult to illustrate a relative dissimilarity, which consider not only the distance between a pair of clusters, but also how distant are they from the rest of the clusters. In this study, we introduced the relative hierarchical clustering method proposed by Mollineda and Vidal (2000) and compared hierarchical clustering method and relative hierarchical method using the simulated data and the real data in the various situations. The evaluation of the quality of two hierarchical methods was performed using percentage of incorrectly grouped points (PIGP), homogeneity and separation.
Hierarchical clustering analysis helps easily exploring massive microarray data and understanding biological phenomena with dendrogram. But, because hierarchical clustering algorithms only consider the absolute similarity, it is difficult to illustrate a relative dissimilarity, which consider not only the distance between a pair of clusters, but also how distant are they from the rest of the clusters. In this study, we introduced the relative hierarchical clustering method proposed by Mollineda and Vidal (2000) and compared hierarchical clustering method and relative hierarchical method using the simulated data and the real data in the various situations. The evaluation of the quality of two hierarchical methods was performed using percentage of incorrectly grouped points (PIGP), homogeneity and separation.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 마이크로어레이 자료의 다양한 분포 양상을 가정한 모의실험 자료와 실제 백혈병 유발 유전자의 마이크로어레이 자료에 Mollineda와 Vidal (2000)이 제시한 상대적 계층적 군집 (relative hierarchical clustering) 방법을 적용한 후 기존의 계층적 군집화 방법과 비교하여 그 유용성을 살펴보고자 하였다. 논문의 구성은 2절에서 상대적 계층적 군집화 방법을 소개하고 3절에서는 군집분석 평가 척도를 살펴본 후, 4절에서 모의실험 자료를 활용하여 상대적 계층적 군집 방법과 기존의 계층적 군집방법을 비교하였다.
는 i번째 샘플의 j번째 유전자 정보를 갖는다. 이때 샘플에 대하여 수행하는 군집 분석은 같은 군집 내에 속한 샘플 간의 유사성은 높고 서로 다른 군집에 속하는 샘플 간에는 유사성을 작게 하는 것을 목표로 한다. 유사한 특성을 보이는 샘플들을 함께 묶어 군집분석을 수행한 후, 군집 분석의 결과에 대한 타당성 평가는 오분류율(PIGP; percentage of incorrectly grouped points), 동질성 (homogeneity) 그리고 이질성 (separation)을 이용하여 평가 할 수 있다.
가설 설정
마이크로어레이 자료와 같이 다양한 군집 패턴들을 가정하여 생성된 모의실험 자료를 가지고 상대적 계층적 군집방법을 기존의 계층적 군집방법과 비교하여 평가하였다. 모의실험에 사용된 자료들은 정규분포를 따르게 하였고, 각 군집마다 유전자 발현 정도값 x, y를 갖는 200개의 mRNA 샘플로 가정하였다. 각 군집에 속하는 임의의 두 샘플간의 거리는 유전자 발현정도 값을 가지고 유클리디안 거리 공식을 이용하여 계산하였고, 최대거리 방법을 적용하였다.
2는 상대적 계층적 군집화가 기존의 계층적 군집화와 어떻게 다른지 이해를 돕기 위한 예제로 제시하였다. 일차원 공간에 6개의 개체가 4.5, 4, 4.5, 4, 4.5 간격으로 놓여 있다고 가정하고 유사한 특성을 가진 군집끼리는 같은 색깔로 표시해 놓았다. 가장 왼쪽에 놓여 있는 두 네모가 서로 유사한 특성을 가지고 있는 군이고, 왼쪽에 있는 세 번째 원부터 여섯 번째 원까지가 비슷한 특성을 가지고 있는 군이다.
제안 방법
3%였다. 긴 형태의 분포를 보이는 자료에서는 상대적 계층적 군집 방법을 이용할 경우에 기존의 계층적 군집 방법을 이용할 때 보다 더 바람직한 군집화가 된 것으로 평가하였다.
두 번째 자료는 군집들이 가로로 긴 형태 (longish-shaped distribution)를 보이도록 하였고, 세 번째 자료는 첫 번째 자료와 같이 세 군집의 모습이 둥근 형태를 갖지만, 각 군집의 중심을 연결하면 일직선이 되는 자료 형태가 되도록 하였다. 네 번째 자료는 각 군집의 중심을 연결하면 일직선이 되지만, 가운데에 위치한 군집은 가로로 긴 형태의 분포를 보이며 양쪽에 있는 다른 두 군집은 둥근 형태를 보이도록 하였다. 두 계층적 군집 방법의 질적 평가는 오분류율 척도로 비교하였다.
본 연구에서는 마이크로어레이 자료의 다양한 분포 양상을 가정한 모의실험 자료와 실제 백혈병 유발 유전자의 마이크로어레이 자료에 Mollineda와 Vidal (2000)이 제시한 상대적 계층적 군집 (relative hierarchical clustering) 방법을 적용한 후 기존의 계층적 군집화 방법과 비교하여 그 유용성을 살펴보고자 하였다. 논문의 구성은 2절에서 상대적 계층적 군집화 방법을 소개하고 3절에서는 군집분석 평가 척도를 살펴본 후, 4절에서 모의실험 자료를 활용하여 상대적 계층적 군집 방법과 기존의 계층적 군집방법을 비교하였다. 5절에서는 실제 자료 분석을 통하여 상대적 계층적 군집 방법의 수행 능력에 대해 살펴보았다.
첫 번째 자료는 세 군집의 모양이 둥근 형태의 분포 (round-shaped distribution)를 이루도록 생성한 것이며, 군집들의 중심을 연결하면 삼각형 모양을 띠는 자료이다. 두 번째 자료는 군집들이 가로로 긴 형태 (longish-shaped distribution)를 보이도록 하였고, 세 번째 자료는 첫 번째 자료와 같이 세 군집의 모습이 둥근 형태를 갖지만, 각 군집의 중심을 연결하면 일직선이 되는 자료 형태가 되도록 하였다. 네 번째 자료는 각 군집의 중심을 연결하면 일직선이 되지만, 가운데에 위치한 군집은 가로로 긴 형태의 분포를 보이며 양쪽에 있는 다른 두 군집은 둥근 형태를 보이도록 하였다.
마이크로어레이 자료와 같이 다양한 군집 패턴들을 가정하여 생성된 모의실험 자료를 가지고 상대적 계층적 군집방법을 기존의 계층적 군집방법과 비교하여 평가하였다. 모의실험에 사용된 자료들은 정규분포를 따르게 하였고, 각 군집마다 유전자 발현 정도값 x, y를 갖는 200개의 mRNA 샘플로 가정하였다.
본 연구에서는 다양한 군집의 모양을 가진 모의생성 자료들과 백혈병 유발 유전자에 대한 마이크로어레이 자료를 실제 분석 자료로 활용하여 상대적 계층적 군집방법과 기존의 계층적 군집방법을 통한 결과를 비교 분석하였다. 이를 위해 다양한 분포 형태를 가정한 모의자료를 통해 어떤 조건에서 상대적 계층적 군집 방법이 기존의 계층적 군집 방법보다 수행 능력이 좋을지 오분류율, 동질성, 이질성 등의 질적 평가 지표를 사용하여 평가하였다.
결측치에 대한 처리는 가장 가까운 k개의 이웃을 택한 후, 이들 k개의 관찰치들을 사용하여 결측치를 추정하는 방법인 k-최근접이웃 (k-nearest neighbor) 알고리즘 (k=5)을 사용하였다. 상대적 계층적 군집 방법과 기존의 계층적 군집 방법을 적용한 결과를 오분류율, 동질성, 이질성 지표로 비교하였다. 군집 간 거리는 유클리디안 공식을 사용하였고, 최대 연결방법을 적용하였다.
본 연구에서는 다양한 군집의 모양을 가진 모의생성 자료들과 백혈병 유발 유전자에 대한 마이크로어레이 자료를 실제 분석 자료로 활용하여 상대적 계층적 군집방법과 기존의 계층적 군집방법을 통한 결과를 비교 분석하였다. 이를 위해 다양한 분포 형태를 가정한 모의자료를 통해 어떤 조건에서 상대적 계층적 군집 방법이 기존의 계층적 군집 방법보다 수행 능력이 좋을지 오분류율, 동질성, 이질성 등의 질적 평가 지표를 사용하여 평가하였다. 그 결과 군집의 형태가 둥근 분포를 보이는 경우에는 두 군집화 방법 모두 만족할 만한 결과를 보여 주었으나, 자료의 분포 형태에서 길쭉한 모양의 분포를 갖는 군집이 포함 되어 있을 경우에는 상대적 계층적 군집 방법이 기존의 계층적 군집 방법보다 오분류율과 동질성 측면에서 만족스러운 결과를 보였다.
대상 데이터
본 연구에서 사용한 실제자료는 백혈병 (leukemia)을 유발하는 유전자의 실제 마이크로어레이 자료를 이용하였다. 38개의 B세포 급성 림프구성 백혈병 (B-cell ALL; B-cell acute lymphoblastic leukemia) 샘플, 9개의 T세포 급성 림프구성 백혈병 (T-cell ALL) 샘플, 25개의 급성 골수성 백혈병 (AML; acute myeloid leukemia) 샘플자료로 이루어진 3571개의 유전자 발현자료 (gene expression data; http://www.genome.wi.mit.edu/MPR)를 활용하였고, 각 유전자 들의 측정 척도가 동일하기 때문에 분산이 1이 되기 위해 표준화할 필요는 없었다. 결측치에 대한 처리는 가장 가까운 k개의 이웃을 택한 후, 이들 k개의 관찰치들을 사용하여 결측치를 추정하는 방법인 k-최근접이웃 (k-nearest neighbor) 알고리즘 (k=5)을 사용하였다.
마이크로어레이 자료는 집단의 수 혹은 집단 구조에 대한 가정이 없으며, 오직 개체들 사이의 유사성에 의해 군집을 형성하기 때문에 마이크로어레이 자료의 올바른 통계학적인 분석을 위해서는 형성된 군집의 특성을 파악하여 군집들 사이의 관계를 파악할 수 있는 군집 분석이 유용하다 (Ben-Dor 등, 1999; Chen 등, 2002; Eisen 등, 1998; Speed, 2003). 본 연구에서 사용한 실제자료는 백혈병 (leukemia)을 유발하는 유전자의 실제 마이크로어레이 자료를 이용하였다. 38개의 B세포 급성 림프구성 백혈병 (B-cell ALL; B-cell acute lymphoblastic leukemia) 샘플, 9개의 T세포 급성 림프구성 백혈병 (T-cell ALL) 샘플, 25개의 급성 골수성 백혈병 (AML; acute myeloid leukemia) 샘플자료로 이루어진 3571개의 유전자 발현자료 (gene expression data; http://www.
각 군집에 속하는 임의의 두 샘플간의 거리는 유전자 발현정도 값을 가지고 유클리디안 거리 공식을 이용하여 계산하였고, 최대거리 방법을 적용하였다. 첫 번째 자료는 세 군집의 모양이 둥근 형태의 분포 (round-shaped distribution)를 이루도록 생성한 것이며, 군집들의 중심을 연결하면 삼각형 모양을 띠는 자료이다. 두 번째 자료는 군집들이 가로로 긴 형태 (longish-shaped distribution)를 보이도록 하였고, 세 번째 자료는 첫 번째 자료와 같이 세 군집의 모습이 둥근 형태를 갖지만, 각 군집의 중심을 연결하면 일직선이 되는 자료 형태가 되도록 하였다.
데이터처리
각 군집의 중심을 연결하면 일직선이지만 가운데에 위치한 군집은 가로로 길쭉한 형태를 띠며 양쪽에 있는 다른 두 군집은 둥근 모양을 한 자료를 생성하기 위해서 각 군집 별로 Table 4.7과 같은 평균과 표준편차를 사용하였다. 각 군집의 샘플들은 이차원 공간 내에서 정규분포를 통하여 무작위로 생성되었고, 각 군집들 간에는 통계적으로 독립적이었다.
네 번째 자료는 각 군집의 중심을 연결하면 일직선이 되지만, 가운데에 위치한 군집은 가로로 긴 형태의 분포를 보이며 양쪽에 있는 다른 두 군집은 둥근 형태를 보이도록 하였다. 두 계층적 군집 방법의 질적 평가는 오분류율 척도로 비교하였다.
두 군집의 모양이 가로로 긴 모양의 분포를 보이는 자료를 생성하기 위해서 각 군집 별로 Table 4.3과 같은 평균과 표준편차를 사용하였다. 각 군집의 샘플들은 이차원 공간 내에서 정규분포를 통해 무작위로 생성하였고, 각 군집들은 통계적으로 독립적이다.
상대적 계층적 군집 방법과 기존의 계층적 군집 방법을 적용한 각각의 결과들은 군집 오류 매트릭스(GCM; grouping confusion matrix)를 가지고 오분류율을 계산하여 평가하였다. 오분류율은 마이크로어레이 자료 분석에서 군집 i에 있어야 하는 샘플이 군집 j로 얼마나 많이 병합 되었는지를 나타내는 지표로 식은 다음과 같다 (Mollineda, 2000).
세 군집의 모양이 모두 공 모양으로 둥글고, 군집의 중심을 연결하면 삼각형 모양을 띠는 자료를 생성하기 위해, 각 군집별로 Table 4.1과 같은 평균과 표준편차를 사용하였다. 각 군집의 샘플들은 이차원 공간 내에서 정규분포로부터 무작위로 생성되었고, 각 군집들은 통계적으로 서로 독립적이다.
이때 샘플에 대하여 수행하는 군집 분석은 같은 군집 내에 속한 샘플 간의 유사성은 높고 서로 다른 군집에 속하는 샘플 간에는 유사성을 작게 하는 것을 목표로 한다. 유사한 특성을 보이는 샘플들을 함께 묶어 군집분석을 수행한 후, 군집 분석의 결과에 대한 타당성 평가는 오분류율(PIGP; percentage of incorrectly grouped points), 동질성 (homogeneity) 그리고 이질성 (separation)을 이용하여 평가 할 수 있다.
이론/모형
모의실험에 사용된 자료들은 정규분포를 따르게 하였고, 각 군집마다 유전자 발현 정도값 x, y를 갖는 200개의 mRNA 샘플로 가정하였다. 각 군집에 속하는 임의의 두 샘플간의 거리는 유전자 발현정도 값을 가지고 유클리디안 거리 공식을 이용하여 계산하였고, 최대거리 방법을 적용하였다. 첫 번째 자료는 세 군집의 모양이 둥근 형태의 분포 (round-shaped distribution)를 이루도록 생성한 것이며, 군집들의 중심을 연결하면 삼각형 모양을 띠는 자료이다.
edu/MPR)를 활용하였고, 각 유전자 들의 측정 척도가 동일하기 때문에 분산이 1이 되기 위해 표준화할 필요는 없었다. 결측치에 대한 처리는 가장 가까운 k개의 이웃을 택한 후, 이들 k개의 관찰치들을 사용하여 결측치를 추정하는 방법인 k-최근접이웃 (k-nearest neighbor) 알고리즘 (k=5)을 사용하였다. 상대적 계층적 군집 방법과 기존의 계층적 군집 방법을 적용한 결과를 오분류율, 동질성, 이질성 지표로 비교하였다.
상대적 계층적 군집 방법과 기존의 계층적 군집 방법을 적용한 결과를 오분류율, 동질성, 이질성 지표로 비교하였다. 군집 간 거리는 유클리디안 공식을 사용하였고, 최대 연결방법을 적용하였다.
2에서 덴드로그램으로 제시 하였다. 두 군집간 거리 d(i, j)는 유클리디안 거리 (Euclidean distance) 공식으로 계산하였고, 최대 거리 방법을 이용하였다.
성능/효과
Table 4.6에서 제시한 바와 같이 상대적 계층적 군집방법을 이용한 경우 오분류율이 0.2%였고, 기존의 계층적 군집방법을 이용한 경우에는 0.5%의 오분류율을 보여, 세 군집의 모양이 모두 둥글고 군집의 중심이 일렬로 위치한 자료에서는 두 계층적 방법 모두에서 오분류율의 크기도 작았다.
이질성 평가에서는 상대적 계층적 군집방법에서 기존의 계층적 군집방법의 경우 보다 약간 큰 값을 보이나 차이가 크지 않았다. Table 5.2는 두 군집 방법에 대한 오분류율을 비교한 결과로 상대적 계층 적 군집방법에서는 오분류율이 23.6%, 기존의 계층적 군집방법에서는 36%의 오분류율을 보여 상대적 계층적 군집 방법을 적용했을 경우에 계층적 군집방법보다 오분류율이 낮은 것을 확인할 수 있었다. 특히, 길쭉한 모양의 분포를 보이는 급성골수성백혈병 (AML)의 경우에 모의실험 자료 분석에서와 마찬가지로 상대적 계층적 군집방법이 기존의 계층적 군집방법 보다 군집이 잘 이루어졌다.
2에서 보면 두 군집방법을 적용한 경우에 오분류율이 모두 0%였다. 군집 모양이 둥글고, 이상치도 보이지 않은 경우에서는 상대적 계층적 군집화와 기존의 계층적 군집화 방법 모두 만족할 만한 결과를 보이는 것을 알 수 있다.
이를 위해 다양한 분포 형태를 가정한 모의자료를 통해 어떤 조건에서 상대적 계층적 군집 방법이 기존의 계층적 군집 방법보다 수행 능력이 좋을지 오분류율, 동질성, 이질성 등의 질적 평가 지표를 사용하여 평가하였다. 그 결과 군집의 형태가 둥근 분포를 보이는 경우에는 두 군집화 방법 모두 만족할 만한 결과를 보여 주었으나, 자료의 분포 형태에서 길쭉한 모양의 분포를 갖는 군집이 포함 되어 있을 경우에는 상대적 계층적 군집 방법이 기존의 계층적 군집 방법보다 오분류율과 동질성 측면에서 만족스러운 결과를 보였다.
이와 같이 모의실험을 위해 생성한 자료를 분석한 결과에서 세 군집의 모양이 모두 둥근 모습을 갖고, 이상치도 없으며, 군집의 중심을 연결하면 삼각형 모양을 띠는 분포를 보이는 자료에서는 두 군집 방법 모두 오분류율이 0%로 좋은 결과를 보여주었다. 하지만, 군집 모양이 긴 모양의 분포를 보이는 경우에는 상대적 계층적 군집화 방법이 기존의 계층적 군집방법 보다 본래의 군집 모습으로 잘 병합하고 있음을 알 수 있었다.
이와 같이 모의실험을 위해 생성한 자료를 분석한 결과에서 세 군집의 모양이 모두 둥근 모습을 갖고, 이상치도 없으며, 군집의 중심을 연결하면 삼각형 모양을 띠는 분포를 보이는 자료에서는 두 군집 방법 모두 오분류율이 0%로 좋은 결과를 보여주었다. 하지만, 군집 모양이 긴 모양의 분포를 보이는 경우에는 상대적 계층적 군집화 방법이 기존의 계층적 군집방법 보다 본래의 군집 모습으로 잘 병합하고 있음을 알 수 있었다. 결과를 제시하지 않았으나 평균 거리 연결법을 이용하여도 유사한 결과를 보여주었다.
후속연구
상대적 계층적 군집 방법의 상대적 비유사성이 유사성과 상반되게 측정되는 경우는 없는지에 대한 고찰이 추후 필요하며, 복잡한 형태의 다양한 자료에서 두 군집화 방법을 비교하는 연구를 계속 진행해야 한다. 또한, 군집간의 거리를 유클리디언 거리가 아닌 마할라노비스 거리, 민코프스키 거리 등을 가지고 최대 연결 방법 외에 최소 거리 방법, 평균 거리 방법을 적용하여, 군집들이 어떤 형태일 때 어떤 거리 방법과 연결 방법을 이용하여 군집 방법을 적용하면 보다 효율적인 결과를 이끌어 내는지 살펴보는 후속 연구가 필요하다. 이와 같은 추후 연구를 통해서 자료의 형태에 따라 가장 적절한 군집 방법을 선택하는 가이드라인을 제시할 수 있다면 마이크로어레이 자료와 같이 복잡한 연구 자료를 올바르게 탐색함에 있어 유용한 정보를 제공할 것이다.
군집 간의 이질성은 군집 간의 상대적 비유사성을 설명하는 척도이다. 만일, 군집 내 유사성과 군집 간의 비유사성을 고려하는 방법들을 결합하여 자료를 군집화 하는데 이용한다면, 기존의 계층적 군집화 방법보다 더 효율적으로 자료를 병합할 수 있을 것이다.
실제 연구에서 다루게 되는 자료의 군집 분포 형태는 본 모의실험 및 실제 자료에서 살펴본 군집 형태보다 훨씬 다양하다. 상대적 계층적 군집 방법의 상대적 비유사성이 유사성과 상반되게 측정되는 경우는 없는지에 대한 고찰이 추후 필요하며, 복잡한 형태의 다양한 자료에서 두 군집화 방법을 비교하는 연구를 계속 진행해야 한다. 또한, 군집간의 거리를 유클리디언 거리가 아닌 마할라노비스 거리, 민코프스키 거리 등을 가지고 최대 연결 방법 외에 최소 거리 방법, 평균 거리 방법을 적용하여, 군집들이 어떤 형태일 때 어떤 거리 방법과 연결 방법을 이용하여 군집 방법을 적용하면 보다 효율적인 결과를 이끌어 내는지 살펴보는 후속 연구가 필요하다.
또한, 군집간의 거리를 유클리디언 거리가 아닌 마할라노비스 거리, 민코프스키 거리 등을 가지고 최대 연결 방법 외에 최소 거리 방법, 평균 거리 방법을 적용하여, 군집들이 어떤 형태일 때 어떤 거리 방법과 연결 방법을 이용하여 군집 방법을 적용하면 보다 효율적인 결과를 이끌어 내는지 살펴보는 후속 연구가 필요하다. 이와 같은 추후 연구를 통해서 자료의 형태에 따라 가장 적절한 군집 방법을 선택하는 가이드라인을 제시할 수 있다면 마이크로어레이 자료와 같이 복잡한 연구 자료를 올바르게 탐색함에 있어 유용한 정보를 제공할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
계층적 군집 분석은 군집을 어떻게 묶는 방법인가?
거리 중심의 접근 방법으로는 계층적 군집화 (hierarchical clustering) 또는 K-평균 군집화 (K-means clustering) 등이 있으며, 차원 축소 중심의 방법으로는 주성분 분석 (principal component analysis) 등이 있다. 이들 방법 중에 계층적 군집 분석은 가까운 거리를 차례로 묶는 군집 방법이다.
군집 분석 방법 중 거리 중심의 접근 방법에는 어떤 것이 있는가?
군집 분석의 여러 가지 방법 중에는 거리 중심의 접근 방법과 차원 축소 중심의 방법 등의 알고리즘이 있다. 거리 중심의 접근 방법으로는 계층적 군집화 (hierarchical clustering) 또는 K-평균 군집화 (K-means clustering) 등이 있으며, 차원 축소 중심의 방법으로는 주성분 분석 (principal component analysis) 등이 있다. 이들 방법 중에 계층적 군집 분석은 가까운 거리를 차례로 묶는 군집 방법이다.
마이크로어레이 기술은 무엇을 가능하게 해 주었는가?
분자 생물학에서 유전자 분석을 위한 획기적인 발전을 이끈 마이크로어레이 (microarray) 기술은 대량의 유전자의 발현 상황을 총체적으로 탐색할 수 있게 하였고, 생명체의 유전적 특징을 한 두 서열의 독립된 유전자에 의해서가 아닌 여러 유전자들 간의 유기적인 관계 하에서 이해할 수 있게 하였다 (Lee 등, 2012). 이런 과정에서 마이크로어레이를 통해 얻어지는 대용량의 자료들을 올바르게 분석하기 위한 방법이 필요하게 되었는데, 군집 분석을 통해서 어느 정도 가능하게 되었다 (Eisen 등, 1998; Ben-Dor 등, 1999; Chen 등, 2002; Speed, 2003; Yeo, 2011; Lim 등, 2012).
참고문헌 (12)
Ben-Dor, A., Shamir, R. and Yakhini, Z. (1999). Clustering gene expression patterns. Journal of Computational Biology, 6, 281-297.
Chen, G., Jaradat S. A., Banerjee, N., Tanaka T. S., Ko M. S. H. and Zhang, M. Q. (2002) Evaluation and comparison of clustering algorithms in analyzing ES cell gene expression data. Statistica Sinica, 12, 241-262.
Datta, S. and Datta, S. (2003). Comparisons and validation of statistical clustering techniques for microarray gene expression data. Bioinformatics, 19, 459-466.
Eisen, M. B., Spellman, P. T., Brown, P. O. and Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proceedings of the National Academy of Sciences, 95, 14863-14868.
Lee, S. H. and Lee, K. H. (2012). Detecting survival related gene sets in microarray analysis. Journal of the Korean Data & Information Science Society, 23, 1-11.
Lim, J. S. and Lim, D. H. (2012). Comparison of clustering methods of microarray gene expression data. Journal of the Korean Data & Information Science Society, 23, 39-51.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.