$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

단백질 서열과 텍스트 정보 기반 오토마타 종 분류기
Automata Species Classifier based on Protein Sequences and Text Information 원문보기

한국정보과학회 07 종합학술대회논문집(B), 2007 June 25, 2007년, pp.9 - 14  

박준형 (다이퀘스트 연구소) ,  이현정 (서강대학교 컴퓨터학과) ,  양지훈 (서강대학교 컴퓨터학과) ,  김선호 (서강대학교 컴퓨터학과)

초록
AI-Helper 아이콘AI-Helper

단백질 분류는 현대 생물학의 큰 도전과제이다. 현재 여러 단체에 의해 잘 관리되는 상세한 주석이 달린 많은 양의 단백질 정보들이 존재한다. 이러한 데이터베이스의 덕분으로 다양한 물리 화학적 특성과 주석들에 기반하고 있는 분류 기법들이 연구되고 있다. 특히 아미노산들로 이루어진 단백질 서열이 해당 단백질의 분류에 중요한 역할을 하는 진화적 기록들의 단서가 되기 때문에 단백질 서열들에 대한 연구가 활성화되고 있다. 비록 단백질 서열이 단백질 분류 문제의 중요한 특징이 된다고 해도 단순한 단백질 서열만으론 해당 단백질에 대한 충분한 정보를 얻을 수 없으며, 타 종 간에도 기능상 유사성 때문에 서로 비슷하게 판별될 수 있다. 이러한 문제점에 착안해서 우리는 오토마타 종 분류기라고 부르는 새로운 시스템적인 종 분류 접근 방법을 제안한다. 이 시스템의 클러스터링과 종 분류 판별 성능에 대한 평가 실험을 수행해본 결과 상대적으로 좋은 성능을 얻을 수 있었다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 위 예 제에서 사용된 근거는 Taylor에 의해 제안된 Venn diagram[2]에 기초한다. 본 논문에서는 Kristine Yu 가 제안한 방법[3]에 착안하여 치환 가능한 아미노산의 그룹을 좀 더 확장해 보기로 하였다. 이 방법은 가령 아미노산 F와 W가 단백질 서열 정렬 시 같은 위치에 놓이게 되고 치환 가능한 그룹에 F, W, Y가 존재한다면, 그 위치에서의 오토마타 전이는 [FWY] 가 되어 그 아 미노산이 Y일 때도 F나 W일 때와 마찬가지로 동등한 전이를 허용하는 방식이다.
  • 본 논문에서는 SwissProt의 단백질 데이터 중 felis, silurarna, equus, gorilla의 4개 종에 대한 단백질 서열 데이터에 대해 실험하였다. SwissProt의 단백질 데이터 는 태그를 가진 필드들로 구성되어 있으며 그 중 실험에 쓰인 필드는 ID, SQ, DE, CC, KW이다.
  • 단, 이러한 방식을 사용하면 오토마 타 테스트 과정에서 앞부분에 많은 에러를 가지고 있는 단백질 서열이 고르게 에러가 분포한 서열과 같은 에러 수를 가지고 있다고 해도 테스트에서 배제되어버리는 단점이 있다. 본 논문에서는 연속된 일치가 발견될 경우 연속된 불일치 발견 카운터 숫자를 줄여주는 보상을 통해 이러한 문제를 줄이고 있다.
  • 따라서 단백질 서열을 비교해보면 해당 단백질들이 어떤 관계를 가지는가 를 추측해 볼 수 있다. 본 논문에서는 텍스트 마이닝 기법을 이용해서 한 종의 단백질 서열들을 클러스터링해 보고 성능을 평가하였다. 그리고 클러스터링 된 단백질 서열들에 대해서 각각 MSA기법을 이용해서 일치하는 부분들을 찾은 후, 일반화시켜 오토마타를 사용한 모델을 제작, 종 단위의 분류를 시도하였다.
  • 즉, 주어진 silurana, gorilla, felis 그리고 equus의 단백질들을 각각 5분할로 나누어서 각각의 분할을 모은 5개의 집합을 만든다. 이 집합들을 MUSCLE이 서열 기반으로 어느 정도로 분류를 할 수 있는지 알아본다.
  • 텍스트를 이용한 클러스터링 실험에서는 4개의 종들 을 분류하되, 사용하는 단어 벡터의 종류를 다르게 해서 실험하였다. 이것은 단백질에 대해서 서술하는 텍스트 데이터가 많아질 때 클러스터링의 성능이 어떻게 영향을 받는지에 대해 알아보기 위한 실험이다. 실험 결과는 다음과 같다.
  • 텍스트 기반 클러스터링은 일반적인 텍스트마 이닝 기법을 통해 이루어진다. 즉, 워드 벡터를 만들어 서 그것을 기반으로 각 단백질들의 유사도를 측정하는 것이다. 이를 위해서는 각 단백질을 대표하는 단어들이 필요하다.
본문요약 정보가 도움이 되었나요?

관련 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로