치주질환은 상당수의 성인들이 가지고 있는 질환이지만 아직 분자적인 수준에서의 발생 기작과 치료 방법에 대해서는 많은 것이 밝혀져 있지 않다. 본 연구에서는 치주질환 조직과 정상 조직에서 얻어진 유전자 발현 데이터를 이용하여 치주질환 조직과 정상 조직 사이에 분자적 차이가 있는지를 확인한다. 특히 기계학습 알고리즘을 이용하여 유전자 발현양 기반 치주질환 조직과 정상 조직의 분류가 가능한지를 확인하고, 각 조직에서 발현양 차이가 나는 유전자들이 주로 어떤 기능을 하는 것인지 살펴본다. t-SNE를 이용한 분석 결과 정상 조직과 치주질환 조직 샘플이 명확히 구분되어 군집화 될 수 있음이 확인되었다. 또한, 결정 트리, 랜덤 포레스트, 서포트 벡터 머신을 이용한 분류 알고리즘을 적용한 결과 불균형 데이터임에도 높은 정확도와 민감도, 특이도를 보였으며, 염증 반응 및 면역 반응 관련 유전자들이 주로 두 집단 간에 차이를 보임이 확인되었다.
치주질환은 상당수의 성인들이 가지고 있는 질환이지만 아직 분자적인 수준에서의 발생 기작과 치료 방법에 대해서는 많은 것이 밝혀져 있지 않다. 본 연구에서는 치주질환 조직과 정상 조직에서 얻어진 유전자 발현 데이터를 이용하여 치주질환 조직과 정상 조직 사이에 분자적 차이가 있는지를 확인한다. 특히 기계학습 알고리즘을 이용하여 유전자 발현양 기반 치주질환 조직과 정상 조직의 분류가 가능한지를 확인하고, 각 조직에서 발현양 차이가 나는 유전자들이 주로 어떤 기능을 하는 것인지 살펴본다. t-SNE를 이용한 분석 결과 정상 조직과 치주질환 조직 샘플이 명확히 구분되어 군집화 될 수 있음이 확인되었다. 또한, 결정 트리, 랜덤 포레스트, 서포트 벡터 머신을 이용한 분류 알고리즘을 적용한 결과 불균형 데이터임에도 높은 정확도와 민감도, 특이도를 보였으며, 염증 반응 및 면역 반응 관련 유전자들이 주로 두 집단 간에 차이를 보임이 확인되었다.
Periodontal disease is observed in many adult persons. However we has not clear know the molecular mechanism and how to treat the disease at the molecular levels. Here, we investigated the molecular differences between periodontal disease and normal controls using gene expression data. In particular...
Periodontal disease is observed in many adult persons. However we has not clear know the molecular mechanism and how to treat the disease at the molecular levels. Here, we investigated the molecular differences between periodontal disease and normal controls using gene expression data. In particular, we checked whether the periodontal disease and normal tissues would be classified by machine learning algorithms using gene expression data. Moreover, we revealed the differentially expression genes and their function. As a result, we revealed that the periodontal disease and normal control samples were clearly clustered. In addition, by applying several classification algorithms, such as decision trees, random forests, support vector machines, the two samples were classified well with high accuracy, sensitivity and specificity, even though the dataset was imbalanced. Finally, we found that the genes which were related to inflammation and immune response, were usually have distinct patterns between the two classes.
Periodontal disease is observed in many adult persons. However we has not clear know the molecular mechanism and how to treat the disease at the molecular levels. Here, we investigated the molecular differences between periodontal disease and normal controls using gene expression data. In particular, we checked whether the periodontal disease and normal tissues would be classified by machine learning algorithms using gene expression data. Moreover, we revealed the differentially expression genes and their function. As a result, we revealed that the periodontal disease and normal control samples were clearly clustered. In addition, by applying several classification algorithms, such as decision trees, random forests, support vector machines, the two samples were classified well with high accuracy, sensitivity and specificity, even though the dataset was imbalanced. Finally, we found that the genes which were related to inflammation and immune response, were usually have distinct patterns between the two classes.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 분자 수준의 연구를 통해 치주질환 관련 보다 근본적인 생체 내 인자를 찾고 이 정보를 활용하여 분류가 가능한지를 확인해보았다. 다양한 지도 학습 기반 기계학습 모델을 적용하여 유전자 발현양을 이용하여 치주질환을 예측하고, 실제 임상적으로 응용 가능성을 논한다.
본 분석에서는 KEGG 패스웨이 정보와 Reactome 패스웨이 정보를 이용하여 두 그룹 간에 차이나는 유전자들이 주로 어떤 패스웨이 상에 많이 존재하는지를 확인하여 보았다. 표 4는 치주질환 조직에서 유전자 발현양이 상대적으로 높은 유전자들이 주로 어떤 패스웨이와 연관되어 있는지를 보여준다.
t-SNE는 Hinton 그룹에서 개발한 비지도학습 방법 중 하나로 최근 유전자 발현 데이터 분석 뿐 아니라 다양한 형태의 데이터에 적용되어 그 유용성이 입증되었다. 본 분석에서도 우선적으로 tSNE를 이용하여 유전자 발현양 데이터를 이용하여 치주질환 샘플과 정상 샘플이 구분될 가능성이 있는지 확인해보았다. 그림 2는 tSNE 결과를 보인다.
최근 딥러닝에 기반한 CNN(Convolutional neural network)을 이용하여 치주질환을 예측하는 연구가 출간되었으나, 이 연구는 영상 데이터를 이용하여 예측 및 진단만을 목적으로 한 것 이었다[4]. 본 연구에서는 분자 수준의 연구를 통해 치주질환 관련 보다 근본적인 생체 내 인자를 찾고 이 정보를 활용하여 분류가 가능한지를 확인해보았다. 다양한 지도 학습 기반 기계학습 모델을 적용하여 유전자 발현양을 이용하여 치주질환을 예측하고, 실제 임상적으로 응용 가능성을 논한다.
본 연구에서는 일반인들의 건강과 직접적으로 관련되어 있는 치주질환의 유전자 발현양 데이터를 이용하여 치주질환을 예측하는 것이 가능한지 확인한다. 최근 딥러닝에 기반한 CNN(Convolutional neural network)을 이용하여 치주질환을 예측하는 연구가 출간되었으나, 이 연구는 영상 데이터를 이용하여 예측 및 진단만을 목적으로 한 것 이었다[4].
본 연구에서는 치주질환과 정상 샘플 간에 차이가 나는 인자들이 어떤 것이 있는지 fold-change 값을 이용하여 일차적으로 탐색해보았다. 표 1은 치주질환에서 상대적으로 높은 발현양을 보이는 것 상위 5개에 대해 보여주며, 표 2는 치주질환에서 정상 샘플에 비해 상대적으로 낮은 값을 보이는 것들 상위 5개를 보여준다.
본 연구에서는 일반인들의 건강과 직접적으로 관련되어 있는 치주질환의 유전자 발현양 데이터를 이용하여 치주질환을 예측하는 것이 가능한지 확인한다. 최근 딥러닝에 기반한 CNN(Convolutional neural network)을 이용하여 치주질환을 예측하는 연구가 출간되었으나, 이 연구는 영상 데이터를 이용하여 예측 및 진단만을 목적으로 한 것 이었다[4]. 본 연구에서는 분자 수준의 연구를 통해 치주질환 관련 보다 근본적인 생체 내 인자를 찾고 이 정보를 활용하여 분류가 가능한지를 확인해보았다.
제안 방법
t-SNE는 R 소프트웨어의 Rtsne 패키지[8]를 이용하여 수행하였으며, 파라미터들은 다양한 값에 대한 반복 실험을 통해 결정되었다.
t-SNE를 수행한 후 각각의 샘플이 어느 위치에 위치하는 지를 확인하여 치주질환 샘플은 파란색 점으로, 정상 조직은 붉은색으로 표시하여 보았다. 그림에서 보이는 것과 같이 두 그룹의 샘플들이 완벽하게 구분되어 위치해있지는 않지만, 붉은색 점의 정상 조직은 대체로 한 쪽에 많이 몰려있는 것을 확인할 수 있다.
본 연구에서는 치주질환 조직과 정상 조직의 유전자 발현 정보를 이용하여 기계학습 기법들이 두 집단을 잘 분류해낼 수 있음을 확인하였다. 또한 어떤 패스웨이에 있는 유전자들이 주로 두 조직에서 차이를 보이는지 확인하였다.
본 분석에서 사용된 분류 알고리즘은 결정 나무, 랜덤 포레스트, 서포트 벡터 머신이다. 랜덤 포레스트와 서포트 벡터머신은 일반적으로 높은 분류 정확도를 가지는 기계학습 알고리즘으로 알려져 있으며, 결정 나무는 경우에 따라서는 분류 성능은 상대적으로 조금 떨어질 수 있으나, 어떤 인자가 분류에 중요한 역할을 수행하고 있는지, 또한 어떤 인자들의 조합에 의해 분류가 결정될 수 있는지 나무 모양으로 쉽게 알 수 있다는 장점이 있기에 이들 세 가지 분류 알고리즘을 선정하여 실험을 수행하였다.
본 연구에서는 t-SNE 방법을 이용하여 치주질환과 정상 샘플 간의 유전자 발현양에 차이가 있는지를 확인하였다[7]. t-SNE는 R 소프트웨어의 Rtsne 패키지[8]를 이용하여 수행하였으며, 파라미터들은 다양한 값에 대한 반복 실험을 통해 결정되었다.
이 후, 다양한 지도학습 기반 분류 방법을 이용하여 유전자 발현양 데이터를 이용하여 치주질환 예측이 가능한지를 확인해보았다. 결정 나무 (Decision Tree)[9], 랜덤 포레스트(Random Forest)[10], 서포트 벡터 머신(Support Vector Machine)[11]의 세 알고리즘을 이용하여 분류 정확도를 확인하였다.
또한 일반적인 기계학습 문제에서와는 달리 인자의 수가 샘플 수에 비해 너무 많고, 유전자 발현양이 샘플 간에 큰 차이가 없는 경우에는 치주질환과는 관련이 없는 유전자이기에 이러한 변이가 적은 유전자들은 제거하였다. 즉, 각 인자 별로 MAD(median absolute deviation) 값을 계산하여 MAD 값을 기준으로 상위 5,000개의 인자만을 이용하여 본 연구의 분석에 사용하였다[6].
현재 데이터는 1:3.5 정도로 두 그룹 간의 불균형을 가지는 데이터이기에, 전체적인 정확도(accuracy) 뿐 아니라, 민감도(sensitivity)와 특이도(specificity)[12]도 함께 조사하여 불균형 데이터에서 양 쪽 그룹 모두 분류가 잘 될 수 있는지를 함께 확인하였다. 표 3은 10-fold cross validation에 의해 얻어진 분류 정확도와 민감도, 특이도를 함께 보여주며, 그림 3-5는 각각에 대한 ROC 곡선을 보여준다.
대상 데이터
0 Array를 이용하여 생산되었다. 본 데이터는 미국 콜롬비아 대학의 Papapanou 등에 의해 생산된 것으로 GEO(Gene Expression Omnibus) 데이터베이스(accession number: GSE16134)에서 다운로드 받아서 사용했다[5].
본 데이터는 총 54,676개의 인자로 이루어져 있다. 하지만, 이들 인자 중에는 실제 각 샘플의 유전자 발현양을 나타내는 것이 아닌 실험을 위한 기준값으로 사용되기 위해서 포함되어 있는 인자들이 있기에 일차적으로 이들 인자들은 데이터에서 제거하였다.
본 연구에서는 69개의 정상 조직과 241개의 치주질환 조직의 총 310개로 샘플의 유전자 발현양 데이터를 이용하였다. 이 데이터는 Affymetrix Human GenomeU133 Plus 2.
본 연구에서는 69개의 정상 조직과 241개의 치주질환 조직의 총 310개로 샘플의 유전자 발현양 데이터를 이용하였다. 이 데이터는 Affymetrix Human GenomeU133 Plus 2.0 Array를 이용하여 생산되었다. 본 데이터는 미국 콜롬비아 대학의 Papapanou 등에 의해 생산된 것으로 GEO(Gene Expression Omnibus) 데이터베이스(accession number: GSE16134)에서 다운로드 받아서 사용했다[5].
데이터처리
유전자 발현양 데이터를 이용하여 치주질환을 예측하는 것이 가능한지를 확인하기 위하여 기계학습 기반 분류 알고리즘을 이용하여 분류 성능을 확인하였다. 본 분석에서 사용된 분류 알고리즘은 결정 나무, 랜덤 포레스트, 서포트 벡터 머신이다.
이론/모형
이 후, 다양한 지도학습 기반 분류 방법을 이용하여 유전자 발현양 데이터를 이용하여 치주질환 예측이 가능한지를 확인해보았다. 결정 나무 (Decision Tree)[9], 랜덤 포레스트(Random Forest)[10], 서포트 벡터 머신(Support Vector Machine)[11]의 세 알고리즘을 이용하여 분류 정확도를 확인하였다. 전체적인 분석 과정은 그림 1에 보인다.
유전자 발현양 데이터를 이용하여 치주질환을 예측하는 것이 가능한지를 확인하기 위하여 기계학습 기반 분류 알고리즘을 이용하여 분류 성능을 확인하였다. 본 분석에서 사용된 분류 알고리즘은 결정 나무, 랜덤 포레스트, 서포트 벡터 머신이다. 랜덤 포레스트와 서포트 벡터머신은 일반적으로 높은 분류 정확도를 가지는 기계학습 알고리즘으로 알려져 있으며, 결정 나무는 경우에 따라서는 분류 성능은 상대적으로 조금 떨어질 수 있으나, 어떤 인자가 분류에 중요한 역할을 수행하고 있는지, 또한 어떤 인자들의 조합에 의해 분류가 결정될 수 있는지 나무 모양으로 쉽게 알 수 있다는 장점이 있기에 이들 세 가지 분류 알고리즘을 선정하여 실험을 수행하였다.
각 그룹 간에 차이가 나는 유전자 정보를 확인하면 생물학적으로 치주질환과 정상 조직 간에 어떤 차이가 있는지를 확인하는 것이 가능하다. 이를 위해 본 연구에서는 GSEA 방법을 활용하였다[15].
성능/효과
각 그룹 간에 차이가 나는 유전자 정보를 확인하면 생물학적으로 치주질환과 정상 조직 간에 어떤 차이가 있는지를 확인하는 것이 가능하다. 이를 위해 본 연구에서는 GSEA 방법을 활용하였다[15].
9191이었다. 기대했던 것과 같이 서포트 벡터 머신과 랜덤 포레스트의 경우 높은 분류 정확도를 보여주고 있었으며, 민감도와 특이도도 충분히 높은 결과를 보여주었다.
Glycoprotein은치주질환 혹은 구강질환과 관련있음이 이미 보고 되어있기에 [14]. 본 분석에서 결정 나무 기반 방법에 의해 발견된 정보가 유의미함을 알 수 있었다. 특히 galectin과 glycoprotien은 생체 내에서 서로 결합하여 면역 반응이나 염증 반응 등과 관련됨도 알려져 있다.
Toll receptor 유전자들은 치주질환과의 관련성이 이미 부분적으로 알려져 있다[17]. 본 분석을 통해 Toll receptor 유전자 뿐 아니라 Toll Receptor Cascade에 속하는 다른 유전자들도 치주질환과 관련될 수 있음이 확인되었다. GPCR의 경우 치주질환과의 관련성은 아직 명확히 알려져 있지 않지만, GPCR과 염증 반응의 관련성은 여러차례 보고 되어 있다[18,19].
본 연구에서는 치주질환 조직과 정상 조직의 유전자 발현 정보를 이용하여 기계학습 기법들이 두 집단을 잘 분류해낼 수 있음을 확인하였다. 또한 어떤 패스웨이에 있는 유전자들이 주로 두 조직에서 차이를 보이는지 확인하였다.
그림 6은 결정 나무 알고리즘에 의해 구축된 나무 구조를 보여준다. 이 구조에서 알 수 있는 것과 같이 LGALSL(226188_at)로 이 유전자는 최상위 노드에 존재하여 분류에 가장 중요한 역할을 하고 있음을 확인할 수 있었다. LGALSL 유전자는 galectin 관련 유전자로 galectin과 치주질환이 연관되어 있다는 보고가 이미 여러 차례 있었다[13].
이 외에도 자식 노드들과 각 가지들을 살펴봄으로써 치주질환과 정상을 구분하는 데 중요한 규칙을 확인할 수 있었다. 일례로 LGALSL 유전자의 발현양이 낮고, CD300 유전자의 발현양이 높으며, SMIM14(244692_at)유전자의 발현양이 낮은 경우에는 거의 치주질환 샘플로 분류되었다. 이를 통해 이들 유전자 발현양의 변화를 정상조직과 유사하게 변화시킬 수 있다면 치주질환을 완화시킬 가능성도 있음을 생각해볼 수 있다.
특히 galectin과 glycoprotien은 생체 내에서 서로 결합하여 면역 반응이나 염증 반응 등과 관련됨도 알려져 있다. 치주질환 역시 염증 반응이 동반되는 질환이기에 본 분석에서 발견된 결과가 더욱 유의미하다는 것을 알 수 있다. 이 외에도 자식 노드들과 각 가지들을 살펴봄으로써 치주질환과 정상을 구분하는 데 중요한 규칙을 확인할 수 있었다.
후속연구
GPCR의 경우 치주질환과의 관련성은 아직 명확히 알려져 있지 않지만, GPCR과 염증 반응의 관련성은 여러차례 보고 되어 있다[18,19]. 또한 GPCR과 알츠하이머 등과의 연관성도 부분적으로 연구가 되어있으며, 치주질환이 알츠하이머 등 뇌 질환이나 전신 질환과 관련될 수 있다는 보고가 있다는 점을 상기해볼 때, GPCR 등이 매개가 될 가능성에 대해서도 향후 검증이 필요하다.
유전자 발현 정보를 이용한 생물정보학적 분석은 다양한 질병에서 많은 연구가 진행되었으나 치주질환에서는 아직 연구가 부족하다. 또한 기계학습 방법 등 전산학적 방법을 활용한 연구도 거의 없기에 본 연구를 통해 향후 치의학 분야에서도 전산학 방법이 질환을 진단하거나 예후 예측 등에 활용될 수 있음을 보여주었다. 또한 본 연구 내용을 기반으로 하여 새로운 타겟 발굴 등을 통한 질환 치료에 활용할 수 있는 방안 등도 향후 더 연구가 필요할 것이다.
또한 본 연구 내용을 기반으로 하여 새로운 타겟 발굴 등을 통한 질환 치료에 활용할 수 있는 방안 등도 향후 더 연구가 필요할 것이다. 또한 딥러닝 등 새로운 모델에 의해 분류 성능이 향상될 수 있는지 역시 추가로 확인이 필요하다.
또한 기계학습 방법 등 전산학적 방법을 활용한 연구도 거의 없기에 본 연구를 통해 향후 치의학 분야에서도 전산학 방법이 질환을 진단하거나 예후 예측 등에 활용될 수 있음을 보여주었다. 또한 본 연구 내용을 기반으로 하여 새로운 타겟 발굴 등을 통한 질환 치료에 활용할 수 있는 방안 등도 향후 더 연구가 필요할 것이다. 또한 딥러닝 등 새로운 모델에 의해 분류 성능이 향상될 수 있는지 역시 추가로 확인이 필요하다.
이를 통해 이들 유전자 발현양의 변화를 정상조직과 유사하게 변화시킬 수 있다면 치주질환을 완화시킬 가능성도 있음을 생각해볼 수 있다. 또한 이러한 유전자들만을 이용하여 치주질환 진단 및 예측을 위한 마커로 이용하는 것도 가능할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
치주질환은 그 증상이 심각하여 잇몸과 잇몸뼈 주변까지 진행될 경우 무엇이라 부르는가?
치주질환은 치아 조직 주변의 염증으로 인하여 발행하는 것으로, 그 증상이 심각하여 잇몸과 잇몸 뼈 주변까지 진행될 경우, 치주염이라 부른다. 중장년층의 80% 이상이 치주질환을 가지고 있다고 여겨지고 알려져 있으며, 치주질환이 원인이 되어 발치로 이어지는 경우도 많이 발생한다[1].
치주질환이란?
치주질환은 치아 조직 주변의 염증으로 인하여 발행하는 것으로, 그 증상이 심각하여 잇몸과 잇몸 뼈 주변까지 진행될 경우, 치주염이라 부른다. 중장년층의 80% 이상이 치주질환을 가지고 있다고 여겨지고 알려져 있으며, 치주질환이 원인이 되어 발치로 이어지는 경우도 많이 발생한다[1].
마이크로어레이는 어떠한 목적으로 활용되고 있는가?
기초 연구 및 임상 적용을 위한 다양한 형태의 대규모 데이터 생산 방법이 개발되었으며, 사람의 모든 유전자의 발현양을 한번에 측정할 수 있는 기술인 마이크로어레이(microarray)가 대표적인 예이다. 이러한 기술은 암, 당뇨 등 다양한 분야의 연구에 활발히 활용되어 질병 진단이나 예후 예측, 질병 관련 주요 인자 발굴 등 다양한 목적으로 활용되고 있다. 이러한 연구 동향은 치의학 분야도 예외는 아니나, 아직까지는 다른 질병에 비해 대규모 데이터를 이용한 연구는 많이 부족한 상황이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.