DNA칩의 유전자 발현 데이터의 통합적 분석을 위하여 매트랩을 기반으로 한 통합분석 프로그램을 구축하였다. 이 프로그램은 유전자 발현 분석을 위해 일반적으로 많이 쓰는 방법인 Hierarchical clustering(HC), K-means, Self-organizing map(SOM), Principal component analysis(PCA)를 지원하며, 이외에 Fuzzy c-means방법과 최근에 발표된 Singular value decomposition(SVD) 분석 방법도 지원하고 있다. 통합분석프로그램의 성능을 알아보기 위하여 효모의 포자형성(sporulation)과 정의 유전자발현 데이터를 사용하였으며, 각 분석 방법에 따른 분석 결과를 제시하였으며, 이 프로그램이 유전자 발현데이타의 통합적인 분석을 위해 효과적으로 사용될 수 있음을 제시하였다.
DNA칩의 유전자 발현 데이터의 통합적 분석을 위하여 매트랩을 기반으로 한 통합분석 프로그램을 구축하였다. 이 프로그램은 유전자 발현 분석을 위해 일반적으로 많이 쓰는 방법인 Hierarchical clustering(HC), K-means, Self-organizing map(SOM), Principal component analysis(PCA)를 지원하며, 이외에 Fuzzy c-means방법과 최근에 발표된 Singular value decomposition(SVD) 분석 방법도 지원하고 있다. 통합분석프로그램의 성능을 알아보기 위하여 효모의 포자형성(sporulation)과 정의 유전자발현 데이터를 사용하였으며, 각 분석 방법에 따른 분석 결과를 제시하였으며, 이 프로그램이 유전자 발현데이타의 통합적인 분석을 위해 효과적으로 사용될 수 있음을 제시하였다.
A program for integrated gene expression profile analysis such as hierarchical clustering, K-means, fuzzy c-means, self-organizing map(SOM), principal component analysis(PCA), and singular value decomposition(SVD) was made for DNA chip data anlysis by using Matlab. It also contained the normalizatio...
A program for integrated gene expression profile analysis such as hierarchical clustering, K-means, fuzzy c-means, self-organizing map(SOM), principal component analysis(PCA), and singular value decomposition(SVD) was made for DNA chip data anlysis by using Matlab. It also contained the normalization method of gene expression input data. The integrated data anlysis program could be effectively used in DNA chip data analysis and help researchers to get more comprehensive analysis view on gene expression data of their own.
A program for integrated gene expression profile analysis such as hierarchical clustering, K-means, fuzzy c-means, self-organizing map(SOM), principal component analysis(PCA), and singular value decomposition(SVD) was made for DNA chip data anlysis by using Matlab. It also contained the normalization method of gene expression input data. The integrated data anlysis program could be effectively used in DNA chip data analysis and help researchers to get more comprehensive analysis view on gene expression data of their own.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 매트랩(Matlab)(18)을 기반으로 인터넷에서 사용할 수 있는 자원들을 모아 주어진 DNA 칩 데이터의 HC, K-means, Fuzzy c-means, SOM, PCA, SVD 등의 통합적인 유전자발현 분석 프로고■램을 개발한 과정과, 기존의 논문에 보고된 효모의 sporulation 데이터를 가지고 통합분석 프 로그램를 수행한 결과를 제시하고, 결론적으로 이 프로그램 이 실제적인 DNA 칩의 데이터 분석에 효율적으로 응용될 수 있음을 보이고자 한다.
Figure 4(b), Figure 6(b), Figure 7(b)와 같이 K-means, SOM , Fuzzy c-means 방법에 의해 클러스터링을 할 경우 최종적으로 각 유전자별 입력 발현 데이터와 그 유전자가 속한 클러스터링 번호가 한 행으로 저장될 수 있도록 하였다. 따라서, 클러스터링 번호별로 그룹지어진 유전자들을 쉽게 확인할 수 있도록 하였다.
본 논문에서는 많은 기능 유전자들이 환경적인 변화에 따라 발현되는 양상을 통합적으로 볼 수 있는 DNA 칩의 데이터 분석 시스템의 개발에 대해 다루고자 한다. DNA 칩은 DNA 염기의 상보적인 결합원리를 이용하여 수 많은 oligo nucleotide나 cDNA와 같은 유전자 탐침(probe)을 고체 표면 (예, glass) 위에 심은 것으로 실험 대상이 되는 세포나 조직 내에서 발현되는 mRNA의 발현양상을 볼 수 있게 한다.
제안 방법
DNA 칩 통합분석 프로그램은 기존에 많이 사용되고 있는 HC, K-means, SOM, PCA와 이외에 Fuzzy c-means 방법, 최근에 발표된 SVD방법이 포함되도록 하였으며, 매트랩에서 그래픽 유저 인터페이스(GUI) 형태의 프로그램으로 개발하였다.
통합 분석 프로그램은 하나의 데이터 파일을 다양하게 분석할 수 있도록 하였으며, 기존에 발표된 각종 분석 방법들의 결과들을 쉽게 볼 수 있도록 개발하였다. 클러스터링 (clustering)을 위해 입력 데이터의 정규화가 필요할 경우 열 기준과 행/열 기준 두 가지가 가능하도록 하였다.
통합 분석 프로그램은 하나의 데이터 파일을 다양하게 분석할 수 있도록 하였으며, 기존에 발표된 각종 분석 방법들의 결과들을 쉽게 볼 수 있도록 개발하였다. 클러스터링 (clustering)을 위해 입력 데이터의 정규화가 필요할 경우 열 기준과 행/열 기준 두 가지가 가능하도록 하였다. 특히, HC 의 경우 유전자(Gene)와 실험에 대해 둘다 가능하도록 하였으며, 실험의 HCe PCA의 Principal Gene Analysis(PGA)의 결과를 가지고도 할 수 있도록 디자인하였다.
클러스터링 (clustering)을 위해 입력 데이터의 정규화가 필요할 경우 열 기준과 행/열 기준 두 가지가 가능하도록 하였다. 특히, HC 의 경우 유전자(Gene)와 실험에 대해 둘다 가능하도록 하였으며, 실험의 HCe PCA의 Principal Gene Analysis(PGA)의 결과를 가지고도 할 수 있도록 디자인하였다. PCA도 Principal Gene Analysis(PGA) 와 Principal Experiment Analysis(PEA)가 둘 다 가능하도록 하였으며, SOM의 경우 기존의 상업적인 소프트웨어 및 freeware 소프트웨어들이 지원하지 않는 feature map, Best Matching Unit(BMU), Hit Diagram 등도 지원하도록 하였다.
특히, HC 의 경우 유전자(Gene)와 실험에 대해 둘다 가능하도록 하였으며, 실험의 HCe PCA의 Principal Gene Analysis(PGA)의 결과를 가지고도 할 수 있도록 디자인하였다. PCA도 Principal Gene Analysis(PGA) 와 Principal Experiment Analysis(PEA)가 둘 다 가능하도록 하였으며, SOM의 경우 기존의 상업적인 소프트웨어 및 freeware 소프트웨어들이 지원하지 않는 feature map, Best Matching Unit(BMU), Hit Diagram 등도 지원하도록 하였다. 그리고, K-means, Fuzzy c-means(19), SOM에 의한 클러스터링의 경우 각 클러스터내 유전자들의 평균 발현 패턴의 HC이 가능하도록 하였으며, 이것은 클러스터간의 유 연관계에 대한 정보를 제공하게 된다.
Fuzzy c-means 클러스터링의 경우에는 각 유전자가 어떤 클러스터내에 속하는 정도를 나타내는 소속 정도(membership grade)를 볼 수 있도록 하였으며, 이것은 하나의 유전자가 어떤 클러스터와 어느 정도 연관되어있는 지에 대한 정보를 줄 수 있다. 유전자 발현 통합 분석 프로그램의 최종 결과들은 그래프 형태로 볼 수 있도록 하였으며, 각 유전자별 해당 클러스터에 대한 최종 결과는 텍스트 파일로 저장하여 사용할 수 있도록 하였다. 통합 분석 시스템의 분석능을 알아보기 위해 스탠포드 대학 의 Pat Brown 랩에서 1998년 사이언스지에 발표한 효모의 포자형성 관련 DNA 칩 발현 데 이 터 (http://cmgm.
Figure 12(a), 12(b)를 보면 2/3이 그리고 4/5, 6/7이 서로 유연관계가 큰 것으로 나타나는데, Figure 12(c)에서 이 관계를 확인할 수 있다. 그리고, Fuzzy c-means 클러스터링 방법을 이용하여 각 유전자가 각 클러스터에 어느 정도 속하는지에 대한 정보를 얻도록 하였으며, K-means, SOM, Fuzzy c-means 분석 결과로 얻어지는 각 클러스터의 평균 유전자 발현패턴의 HC을 통하여 클러스터간의 유연관계도 볼 수 있도록 구성하였다.
대상 데이터
유전자 발현 통합 분석 프로그램의 최종 결과들은 그래프 형태로 볼 수 있도록 하였으며, 각 유전자별 해당 클러스터에 대한 최종 결과는 텍스트 파일로 저장하여 사용할 수 있도록 하였다. 통합 분석 시스템의 분석능을 알아보기 위해 스탠포드 대학 의 Pat Brown 랩에서 1998년 사이언스지에 발표한 효모의 포자형성 관련 DNA 칩 발현 데 이 터 (http://cmgm.stanford.edu/ pbrown/sporulation/) 를 사용하였다. DNA 칩 데이터는 6118 개의 효모 유전자에 대해 질소원 제한후 포자가 형성되어가는 과정을 7개의 시간(0/0.
효모의 포자형성 DNA 칩 데이터 파일을 입력한 후 행과 열의 개수를 입력하게 되면, Normalization/HC/ K-means/Fuzzy c-means/SOM/PCA/SVD/Quit 등의 메뉴화면이 뜨게 되고, 여기서 필요한 분석 방법은 선택하면 주어진 데이터에 대한 분석이 가능하다. K-means, SOM, Fuzzy c-means, PCA, SVD 등은 6118개 전체 유전자에 대한 데이터를 가지고 분석하였으며, HC의 경우 clustering dendrogram을 전체 유전자에 대해 보기가 어렵기 때문에 효모 포자형성 데이터의 일부분인 116개의 유전자 데이터를 가지고 실행하였다. 전체 데이터에 대한 K-means((2)의 실행결과를 Figure 4에 나타내었다.
데이터처리
유전자 발현 통합 분석 프로그램 개발을 위해 매트랩 (Matlab ver. 6.0, MathWorks)을 사용하였으며, 프로그램 개발을 위하여 인터넷을 통하여 다운로드받아 참고 및 응용이 된 매트랩 M파일들은 Table 1과 같다. 매트랩은 행렬(Matrix) 연산을 기본으로 다양한 분석 도구 상자(toolbox)을 제공하고 있어, 수치해석, 제어시스템의 설계 등 공학분야에서 많이 활용되고 있으며, 행렬 형태의 유전자 발현 데이터의 해석에 효과적으로 활용될 수 있다.
성능/효과
이 방법은 클러스터링 방법에 퍼지이론을 도 입한 것으로 최종 결과는 각 유전사들이 각 클러스터에 속해 있는 정도를 나타내는 소속 정도(membership grade)에 대한 정보와 이것을 토대로 한 클러스터링 결과이다. 본 알고리즘에서는 해당 유전자의 소속 정도가 가장 큰 클러스터를 그 유전자가 속하는 클러스터로 결정하지만, 소속 정도에 대한 정보는 클러스터간의 유사성 및 한 유전자가 여러 클러스터 에 속할 수 있는 여지를 제공함으로써 한 유전자가 가지는 다양한 생물학적 기능에 대한 정보를 얻을 수도 있게 된다.
Neal 등(14)은 이 방법을 이용하여 효 모의 세포주기(cell cycle) 및 포자형성(sporulation) 관련 클러 스터간의 관계를 파악하였으며, 유전자발현 양상이 복잡하고 다양하지만 환경에 대한 세포의 반응으로 나타나는 유전자발 현 양상은 크게 단순한 2-3개의 특성 모드 (characteristic mode)에 의해 결정되어지며, 이러한 특성모드 몇 개에 의해 전체 유전자 발현 양상을 모사할 수 있음을 밝혔다. 그리고, 주요 특성 모드의 계수(coefficient)를 그래프로 나타내면 클러 스터의 특성에 따라 타원형의 형태, 계수의 분산형태가 달라 지는 것을 관찰하였다. 이러한 특성 때문에 SVD방법이 다양 하게 응용될 수 있다.
이상과 같이 하나의 입력 데이터를 매트랩 기반 유전자 발 현 통합분석 시스템내의 기능을 사용하여 다양하게 분석할 수 있으며, 각 분석 방법을 통하여 원하는 정보들을 얻을 수 있었다. 특기할 사항은 기존의 HC방법외에 SOM의 feature map을 통하여서도 실험방법들의 유사성을 볼 수 있으며, PGA 를 통한 principal component들에 대한 데이터 플롯을 할 경우 유사성의 관계를 시각화시킬 수 있다는 것이다(Figure 12(c))
후속연구
각 생물의 유전체 연구를 통해 궁극적으로 알고자 하는 것은 유전체의 서열정보뿐만 아니라 가 유전자가 갖는 생물학적 기능, 그리고 각 유전자간의 상호작용 및 유전자와 환경과의 상호작용에 의해 나타나는 다양한 생명현상을 이해 하고, 이것을 이용하는데 있을 것이다<4-6). 현재까지 각 단계별로 다양한 연구가 진행되고 있으며, 이러한 연구들은 생물을 좀 더 근본적으로 이해하고 활용하는데 도움을 줄 것으로 생각된다.
이 논문을 인용한 문헌
저자의 다른 논문 :
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.