BLAST(Basic Local Alignment Search Tool)는 서열 데이터베이스 탐색을 위하여 가장 많이 사용되는 프로그램이다. 전체 서열간의 최적 글로벌 정렬을 수행하는 대신에 지역적 유사성이 있는 부분을 찾아 서열 짝짓기를 수행하는 특징을 갖는다. 일반적인 연구자들은 서열 상동성 검색을 위해 NCBI에 접속하여 웹 브라우저를 통해 온라인으로 BLAST를 수행하게 되는데, 이 경우 사용자 각각의 네트워크 환경이나 입력할 데이터양에 따른 검색속도의 지연 및 제한 등과 같은 여러 문제에 부딪히게 되고, 또한 보안유지가 필요한 서열 데이터의 유출 가능성이 존재한다. 그러므로 대량의 서열 데이터에 대하여 빠르고 안전하게 BLAST 상동성 검색이 가능한 Local BLAST 검색 시스템의 필요성이 증대되고 있다. 본 연구에서는 NCBI의 Genbank에서 공개된 동물의 발현 유전자 단편들(ESTs)에 대한 데이터를 이용하여 소, 돼지, 닭, 등의 경제형질과 연관된 유용 유전자만을 추출하여 이들만으로 구성된 새로운 데이터베이스를 구축하였고, 또한 이들을 사용할 수 있는 새로운 검색시스템을 개발하였다 자체 제작한 Perl script를 사용하여 필요한 데이터를 축종별로 추출 하여 새로운 DB를 구축하였으며 이 속에는 소의 경우 650,046개, 돼지의 경우 368,120개, 닭의 경우 693,005개의 발현 유전자 단편들(ESTs)이 포함된다. 또한 이들 DB 분석이 가능한 Local Animal BLAST Web 검색시스템(http://bioinfo.kohost.net)을 고성능 병렬 PC Cluster 시스템과 연동하도록 자체 구축함으로써 본 시스템이 보다 효율적인 생물정보학 연구수행이 기여할 것으로 기대된다.
BLAST(Basic Local Alignment Search Tool)는 서열 데이터베이스 탐색을 위하여 가장 많이 사용되는 프로그램이다. 전체 서열간의 최적 글로벌 정렬을 수행하는 대신에 지역적 유사성이 있는 부분을 찾아 서열 짝짓기를 수행하는 특징을 갖는다. 일반적인 연구자들은 서열 상동성 검색을 위해 NCBI에 접속하여 웹 브라우저를 통해 온라인으로 BLAST를 수행하게 되는데, 이 경우 사용자 각각의 네트워크 환경이나 입력할 데이터양에 따른 검색속도의 지연 및 제한 등과 같은 여러 문제에 부딪히게 되고, 또한 보안유지가 필요한 서열 데이터의 유출 가능성이 존재한다. 그러므로 대량의 서열 데이터에 대하여 빠르고 안전하게 BLAST 상동성 검색이 가능한 Local BLAST 검색 시스템의 필요성이 증대되고 있다. 본 연구에서는 NCBI의 Genbank에서 공개된 동물의 발현 유전자 단편들(ESTs)에 대한 데이터를 이용하여 소, 돼지, 닭, 등의 경제형질과 연관된 유용 유전자만을 추출하여 이들만으로 구성된 새로운 데이터베이스를 구축하였고, 또한 이들을 사용할 수 있는 새로운 검색시스템을 개발하였다 자체 제작한 Perl script를 사용하여 필요한 데이터를 축종별로 추출 하여 새로운 DB를 구축하였으며 이 속에는 소의 경우 650,046개, 돼지의 경우 368,120개, 닭의 경우 693,005개의 발현 유전자 단편들(ESTs)이 포함된다. 또한 이들 DB 분석이 가능한 Local Animal BLAST Web 검색시스템(http://bioinfo.kohost.net)을 고성능 병렬 PC Cluster 시스템과 연동하도록 자체 구축함으로써 본 시스템이 보다 효율적인 생물정보학 연구수행이 기여할 것으로 기대된다.
The Basic Local Alignment Search Tool (BLAST) is one of the most established software in bioinformatics research and it compares a query sequence against the libraries of known sequences in order to investigate sequence similarity. Expressed Sequence Tags (ESTs) are single-pass sequence reads from m...
The Basic Local Alignment Search Tool (BLAST) is one of the most established software in bioinformatics research and it compares a query sequence against the libraries of known sequences in order to investigate sequence similarity. Expressed Sequence Tags (ESTs) are single-pass sequence reads from mRNA (or cDNA) and represent the expression for a given cDNA library and the snapshot of genes expressed in a given tissue and/or at a given developmental stage. Therefore, ESTs can be very valuable information for functional genomics and bioinformatics researches. Although major bio database (DB) websites including NCBI are providing BLAST services and EST data, local DB and search system is demanding for better performance and security issue. Here we present animal EST DBs and local BLAST search system. The animal ESTs DB in NCBI Genbank were divided by animal species using the Perl script we developed. and we also built the new extended DB search systems fur the new data (Local Animal BLAST Search System: http://bioinfo.kohost.net), which was constructed on the high-capacity PC Cluster system fur the best performance. The new local DB contains 650,046 sequences for Bos taurus(cattle), 368,120 sequences for Sus scrofa (pig), 693,005 sequences for Gallus gallus (fowl), respectively.
The Basic Local Alignment Search Tool (BLAST) is one of the most established software in bioinformatics research and it compares a query sequence against the libraries of known sequences in order to investigate sequence similarity. Expressed Sequence Tags (ESTs) are single-pass sequence reads from mRNA (or cDNA) and represent the expression for a given cDNA library and the snapshot of genes expressed in a given tissue and/or at a given developmental stage. Therefore, ESTs can be very valuable information for functional genomics and bioinformatics researches. Although major bio database (DB) websites including NCBI are providing BLAST services and EST data, local DB and search system is demanding for better performance and security issue. Here we present animal EST DBs and local BLAST search system. The animal ESTs DB in NCBI Genbank were divided by animal species using the Perl script we developed. and we also built the new extended DB search systems fur the new data (Local Animal BLAST Search System: http://bioinfo.kohost.net), which was constructed on the high-capacity PC Cluster system fur the best performance. The new local DB contains 650,046 sequences for Bos taurus(cattle), 368,120 sequences for Sus scrofa (pig), 693,005 sequences for Gallus gallus (fowl), respectively.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 동물분야의 생물정보학 연구의 기초연구단계로 동물관련 유전자를 한곳에 모아 유용유전자 탐색 연구의 효율성을 증대시키기 위하여 자체적인 local 검색 시스템을 구축하였다. NCBI의 Genbank에서 공개된 동물의 발현 유전자 단편(ESTs)들에 대한 데이터를 이용하여 소, 돼지, 닭의 경제형질과 연관된 유전자만을 모아 자체 제작한 Perl script(Tisdall, 2001)를 사용하여 동물분야 연구에 적합하도록 축종별로 새롭게 database를 재구성 하였으며, 대용량 자료 분석이 가능한 Local Animal BLAST Web 검색시스템을 구축하였다.
제안 방법
표 1에서는 소와 관련된 DB 자료에 대한 요약이 정리되어 있다. Bos taurus (cattle)이 하나라도 포함된 자료만을 분류 cattle_est DB를 만든 후 formatdb 명령을 사용하여 blast search에 적합하도록 Database파일을 컴파일 하였다. NCBI의 nt DB에도 소와 연관된 ESTs가 있으므로 위와 같은 방법으로 소와 관련 있는 자료를 추출하여 cattle_nt를 만들었으며, 소와 연관된 모든 자료를 한곳에 모으기 위하여 cattle_est와 cattle_nt DB를 합하여 cattlejll DB를 만들었다.
구축하였다. NCBI의 Genbank에서 공개된 동물의 발현 유전자 단편(ESTs)들에 대한 데이터를 이용하여 소, 돼지, 닭의 경제형질과 연관된 유전자만을 모아 자체 제작한 Perl script(Tisdall, 2001)를 사용하여 동물분야 연구에 적합하도록 축종별로 새롭게 database를 재구성 하였으며, 대용량 자료 분석이 가능한 Local Animal BLAST Web 검색시스템을 구축하였다. 동물분야에서 유용유전자의 발굴 및 탐색을 위해서는 수많은 반복 작업, 많은 시간과 인력이 필요한 방대한 연구이므로 본 시스템이 효율적인 동물분야 생물 정보학 연구의 기반을 조성하는데 도움이 되었으면 한다.
Bos taurus (cattle)이 하나라도 포함된 자료만을 분류 cattle_est DB를 만든 후 formatdb 명령을 사용하여 blast search에 적합하도록 Database파일을 컴파일 하였다. NCBI의 nt DB에도 소와 연관된 ESTs가 있으므로 위와 같은 방법으로 소와 관련 있는 자료를 추출하여 cattle_nt를 만들었으며, 소와 연관된 모든 자료를 한곳에 모으기 위하여 cattle_est와 cattle_nt DB를 합하여 cattlejll DB를 만들었다. 소와 관련된 자료는 모두 951, 007개(cattle_all)였다.
14 GB)와 nt.Z(3.05 GB) 파일을다운로드 받아 본 연구진이 제작한 Perl script를 이용하여 소 돼지, 닭으로 추출 및 분류하여 자체 DB화 하였다.
scrofa (pig), Gallus gallus (chicken, fowl)。] 하나라도 포함된 자료만을 분류 DB화하여 Web 검색 시스템을 자체구축 하였다. 또한, 대용량 자료분석이 가능하도록 메인서버와 PC Cluster(Red Hat Linux 8.
요약 정리하였다. 소의 경우와 유사하게 NCBI 의 est_others DB를 이용하여 Sus scrofa (pig) 이나 Gallus gallus (chicken, fowl)이 하나라도 포함된 자료만을 뽑아 같은 방식으로 분류 정리하였다. 돼지와 관련된 자료는 모두 381, 969개(pig_all)였으며 닭과 관련된 자료는 모두 746, 096개(fowl_all)였다.
이들 자료는 앞으로 계속하여 Update 할 예정이다. 자료의 분석 효율성을 높이기 위하여 다양한 DB를 확대구축 하였으며 또한, 대용량 자료 분석이 가능하도록 메인서버와 PC Cluster 시스템을 구축하여 자료의 전산처리속도를 향상시켰다.
이론/모형
웹 상에서 가장 대중화되고 이용자에게 친숙한 서열 유사성 검색 도구인 BLAST는 SWISS-PORT나 PDB 등과 같은 모든 주요 서열 DB를 검색할 수 있는 도구로 Karlin과 Altschul이 개발한 통계이론을 이용하고 있다 (Karlin 등, 1990, 1993). BLAST 의 서열정렬 알고리즘은 Smith and Waterman방법(1981)을 기반으로 하며 전체 서열 간의 최적 글로벌 정렬을 수행하는 대신에 지역적 유사성 (local similarity)있는 부분을 찾아 서열 짝짓기를 수행하는 특징을 갖는다
후속연구
대용량의 유전자의 구조 및 기능을 분석하기 위해서는 고성능 대형 서버가 필요한 실정이다. 그러나 PC Cluster 시스템은 대용량 자료를 분산처리한 후 메인컴퓨터가 계산값을 취합하는 장점과 전산실 등 자주 사용하지 않은 PC를 효율적으로 활용할 수 있어 자료분석 시간 단축과 비용 절감 효과 등 동물 분야 생물 정보학(Bioinformatics) 연구에 도움이 될 것으로 기대된다
NCBI의 Genbank에서 공개된 동물의 발현 유전자 단편(ESTs)들에 대한 데이터를 이용하여 소, 돼지, 닭의 경제형질과 연관된 유전자만을 모아 자체 제작한 Perl script(Tisdall, 2001)를 사용하여 동물분야 연구에 적합하도록 축종별로 새롭게 database를 재구성 하였으며, 대용량 자료 분석이 가능한 Local Animal BLAST Web 검색시스템을 구축하였다. 동물분야에서 유용유전자의 발굴 및 탐색을 위해서는 수많은 반복 작업, 많은 시간과 인력이 필요한 방대한 연구이므로 본 시스템이 효율적인 동물분야 생물 정보학 연구의 기반을 조성하는데 도움이 되었으면 한다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.