검색연산자 | 기능 | 검색시 예 |
---|---|---|
() | 우선순위가 가장 높은 연산자 | 예1) (나노 (기계 | machine)) |
공백 | 두 개의 검색어(식)을 모두 포함하고 있는 문서 검색 | 예1) (나노 기계) 예2) 나노 장영실 |
| | 두 개의 검색어(식) 중 하나 이상 포함하고 있는 문서 검색 | 예1) (줄기세포 | 면역) 예2) 줄기세포 | 장영실 |
! | NOT 이후에 있는 검색어가 포함된 문서는 제외 | 예1) (황금 !백금) 예2) !image |
* | 검색어의 *란에 0개 이상의 임의의 문자가 포함된 문서 검색 | 예) semi* |
"" | 따옴표 내의 구문과 완전히 일치하는 문서만 검색 | 예) "Transform and Quantization" |
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기2016-04-24
지난 10년간 컴퓨팅 파워의 발달로 생물학, 유전학 분야에서의 데이터 증가는 거의 기학급수적으로 늘고있다. NSF, NIH, DOE 등 미국 정부기관에서 주도하는 BigData 프로젝트들도 그 수가 점차 증가하고있는 실정이다. 특히 생물학, 유전학 분야에서의 데이터 증가는 다른 분야에 비해 수십 배 이상 빠른 속도의 증가율을 보이고 있는데, 현재 NCBI (National Center for Biotechnology Information) 에는 일백만개가 넘는 염기쌍 (base-pair) 정보가 저장되어 있는 것으로 알려져 있다.
유전학 분야에서 이 엄청난 양의 데이터를 제대로 수집, 관리, 보관하는 것은 앞으로의 연구를 위해서 무척 중요한 일이며, 이에 INSDC (International Nucleotide Sequence Database Collaboration) 이라는 컨소시움이 형성되어 이 사업을 주도하고 있다. 현재 INSDC에는 천만개가 넘는 염기쌍 정보가 저장 되어있다. 이 유전자 정보들의 저장, 관리, 그리고 연구자들이 이를 효율적으로 이용하기 위한 플랫폼들은 보통 다음과 같이 4가지로 나뉜다:
1.Sequence Data Repositories: 유전자 염기서열 데이터를 저장하는 곳. INDSC 가 대표적이며, NCBI 의 GenBank, 유럽의 EMBL, 일본의 DDBJ 등이 있다. 수집된 데이터는 RefSeq 이라는 데이터베이스를 통해 data curation 과정을 거친 후 연구자들에게 공개된다.
2. General Genome Browser: 유전자 검색툴. UC Santa Cruz 의 Genome Browser, 유럽 EBI의 Ensembl, 그리고 NCBI 의 MapViewer 등이 잘 알려진 검색툴 들이며, 이 검색툴들을 통해 연구자들은 위에서 언급된 저장소에 있는 데이터들 중 필요한 부분들을 쉽게 찾아볼 수 있다.
3. Species- and Taxa-Specific Databases: 좀 더 깊이 있는 정보를 공유하기 위해 각 종별, 생물 분류군별 로 특화된 데이터베이스들이 해당 연구분야의 개발자들에 의해 개발되어 왔으며 수백 개의 데이터베이스들이 이미 활발히 이용되고 있다. (기사 링크에 포함된 표 참조)
4. Standardized Genome Database Tools (GMOD): 위에서 언급된 각종 데이터베이스에 있는 유전자 정보들이 호환 가능한 형태로 저장되어 있지 않기 때문에, 이 문제점을 해결하기 위해 데이터관리의 표준화를 위한 도구 개발도 많이 진행되고 있다. GMOD (Generic Model Organism Database) 는 이런 도구들을 모두 일관적으로 통합, 이용이 용의하게 하기 위한 작업이며, 이미 수백 가지의 툴들이 포함되어 있다.
생물학, 유전학 분야에서 연구자들이 발빠르게 데이터 증가에 대응하고 있는 것은 고무적 이지만, 또 한편으론 데이터와 함께 같이 증가하는 너무나 다양하고 많은 수의 관련 툴들에 연구자들은 또다시 질려 하는 모습도 볼 수 있다. 여러 표준화, 통합 관리의 노력들이 이제껏 많은 결실을 보아왔지만, 점점 더 빠르게 증가하는 이 분야의 데이터를 더욱 효율적으로 관리하기 위한 노력들이 더욱 절실한 상황이다.
관련연구자 | Warren C. Lathe III, Jennifer M. Williams, Mary E. Mangan, Donna Karolchik |
---|---|
관련기관 | OpenHelix, University of California Santa Cruz |
과학기술분류 | 생명과학 |
본문키워드(한글) | 유전학, 데이터베이스, 빅 데이타 |
본문키워드(영문) | Genome Sequencing, Database, BigData, Sequence Repository, |
원문언어 | English |
국가 | 미국 |
원문출판일 | 2014-12-31 |
출처 | http://www.nature.com/scitable/topicpage/genomic-data-resources-challenges-and-promises-743721 |