[논문]효율적인 유전자 서열 비고를 위한 데이타베이스 검색 모델

김민준; 임성화; 김재훈; 이원태; 정진원

문제 정의

나타낼 수 있다. 그런데 하나의 요청도 발생하지 않는 경우를 고려해서 하나의 사용자 요청을 처리하는데 드는 시스템 비용을 구해보자.
단백질 데이타의 폭발적인 증가는 컴퓨터의 발전 속도를 능가할 정도이며 또한 이를 분석하기 위해서도 데이타베이스의 빈번한 검색은 생물정보학 관련 문제들을 처리함 예 있어 과부하로 작용할 것이다. 본 논문에서는 생물 정보학의 데이타베이스를 효율적으로 사용할 수 있는 서열 검색 프로그램 모델을 제시하였다. 그룹핑 방식은 각 주기 마다 사용자 요청을 처리 하는 방식이다.
특징이 있다. 이런 특징에 맞춰 생물정보 데이타를 이용하는 프로그램들의 성능을 증가시키기 위한 프로그램 모델올 제안한다. 우선 사용자 요청올 모아서 한 번에 처리하는 사용자 요청 그룹핑 기법은 일정 주기 동안 사용자 요청을 모아서 데이타베이스를 한번만 검색하고 여러 번의 처리를 하게 된다.

가설 설정

요청들은 발생한 순서로 큐에 등록되고 등록된 순서로 순차적으로 서비스 된다. 모든 요청의 서비스 비용이 같다는 가정하며 M/G/1 큐잉 모델이 된다.
본 논문에서 제안하는 그룹핑 모델과 카플 모델은 데이타베이스를 모두 검색하여 검색된 모든 데이타와 사용자의 서열들 간의 비교를 하는 경우만을 가정한다. 앞에서 예로 제시한 Blast와 같이 데이타베이스의 모든 서열을 검색하지 않고 일부 데이타만을 선별하여 비교하는 프로그램에서는 본 프로그램 모델을 그대로 사용할 수 없다.
사용자 요청은 발생률 기의 포아송과정(Poisson process)이라 가정하였다. 서버가 다른 요청을 처리하고 있을 때, 다른 요청이 발생하면 새로운 요청은 큐에 등록된다.
때 나타나는 결과이다. 사용자 요청은 포아송 분포로 이루어진다고 가정하였다. 기존방식은 각 요청률(人) 에 따라 500개의 사용자 요청을 처리하는 평균 시간을 측정하였으며 그룹핑 방식은 그룹핑 주기D)를 50, 70, 100으로 하여 각 요청률( 人 )마다 2000개의 사용자 요청을 처리하는데 걸리는 응답시간의 평균올 구한 것이다.
물론 데이타베이스 사용과 CPU사용올 동시에 할 수 있는 기법올 이용하면 서버의 사용을 올 1보다 높일 수 있다. 서열비교를 순차적으로수행하는 방식을 가정하였다. 각 방식에서 임계값을 구해보자.

제안 방법

이 방식의 VOD서버는 AT&T에서 현재 구현되어 있다[8]. PDP는 활동 그룹이라는 사용자 요청의 집합을 만들고 각 사용자 요청에 대해서 이미 플레이 된 영역올 캐시하고 다음 읽을 영역을 일정 시간 동안 저장하게 된다[8丄 VOD에서 사용한 방식을 사용하여 데이타베이스의 검색 횟수를 줄이는 방법을 제안한다,
이는 일반 데이타베이스 검색과 같이 사용자마다 서로 다른 특정 부분의 데이타를 검색하는 응용과는 다르다. 그래서 그룹핑을 수행하지 않고 데이타베이스의한 블록을 검색할 때마다 도착된 요청올 즉시 수용하여 검색된 데이타를 즉시 사용할 수 있는 방법을 제안한다.
또한, 이전 주기에서의 사용자 요청이 많올 경우 처리시간이 이번 주기(D)보다 커질 경우 이번 주기(D)를 증가시켜야 한다. 그러나 본 논문에서는 주기(D)동안 저장되는 사용자 요청을 처리하는 전체 시간이 주기(D) 내에 이루어 질수 있도록 주기(D)를 충분히 길게 설정한다. 또한 주기(D)는 하나의 사용자 요청을 처리하는 시간보다는 길어야 한다.
가되었다. 그륩핑을 위한 주기를 증가 시키고 각 방식의 임계 값의 변화를 살펴 보았다.。가 증가할수록 그룹핑의 사용자 요청률 임계값이 증가하여 카플 방식의 임계 값으로 수렴하는 것을 볼 수 있다.
이런 연구는 막대한 양의 디지털 정보를 낳았다. 유전자 정보를 A, T, G, C라는 네 개의문자로 표현하여 30억개 이상의 정보를 축적하게 되었으몌 1] 이렇게 저장된 정보는 데이타베이스로 구축되어 웹을 통해 공개되었다. 이런 예로, Swiss-Prot[5], GenBank[6], EMBL[7] 등이 있다.

대상 데이터

이 되었다. 데이타베이스로는 Genbank (Release 72.02)를 사용하였다.
GenBank는1981년 미 국립보건원으로부터 지원올 받아 로스 알라모스 연구소가 이를 관리하다가 1992년 미국립보건원의 국립 의학 도서관 산하 미국립생물공학정보센터(NCBI)로 이천되서 관리되는 서열정보 데이타베이스이다. 본 논문에서 사용한 GENBANK는 전체 283, 177개의 서열올 가지고 있으며 전체가 96, 101, 346라인으로 이루어져 있는 텍스트 형 데이타베이스를 사용하였다. 사용자가 요청하는 서열은 인간(human)단백질 중 세포의 산화 환원에 작용하는 색소 단백질(cytochrome)올 사용하였다.
본 논문에서 사용한 GENBANK는 전체 283, 177개의 서열올 가지고 있으며 전체가 96, 101, 346라인으로 이루어져 있는 텍스트 형 데이타베이스를 사용하였다. 사용자가 요청하는 서열은 인간(human)단백질 중 세포의 산화 환원에 작용하는 색소 단백질(cytochrome)올 사용하였다. 그 결과 Cdb는 3.

이론/모형

(18)으로부터 나온 결과이다. 각 파라미터는 생물 정보학의 서열 정렬 프로그램에서 실제적으로 사용되고 있는 데이타베이스 Genbank(Protein Sequence Database of Rip International Release 72.02) 를 사용하여 측정한 결과를 이용하였다. GenBank는1981년 미 국립보건원으로부터 지원올 받아 로스 알라모스 연구소가 이를 관리하다가 1992년 미국립보건원의 국립 의학 도서관 산하 미국립생물공학정보센터(NCBI)로 이천되서 관리되는 서열정보 데이타베이스이다.
디스크 접근이 많은 VOD시스템에서 많은 사용자 요청을 효율적으로 처리하기 위한 방법으로 PDP 알고리즘을 사용한다. 이 방식의 VOD서버는 AT&T에서 현재 구현되어 있다[8].

성능/효과

그륩핑을 위한 주기를 증가 시키고 각 방식의 임계 값의 변화를 살펴 보았다.。가 증가할수록 그룹핑의 사용자 요청률 임계값이 증가하여 카플 방식의 임계 값으로 수렴하는 것을 볼 수 있다. 같은 성능의 하드웨어에서 가장 많은 사용자를 받을 수 있는 방식은 카플 방식임 올 알 수 있다.
그림 7에서 X축은 사용자 요청를 人이고 y축은 사용자당 시스템 비용올 나타낸다. 기존의 방식을 제외한그룹핑 방식과 카푤 방식은 人값이 증가할수록 시스템 비용이 줄어드는 것을 볼 수 있다. 또한 그룹핑 방식은 D에 따라 시스템 비용을 많이 감소 시킬 수 있는 것을 볼 수 있다.
우선 사용자 요청올 모아서 한 번에 처리하는 사용자 요청 그룹핑 기법은 일정 주기 동안 사용자 요청을 모아서 데이타베이스를 한번만 검색하고 여러 번의 처리를 하게 된다. 따라서 데이타베이스의 검색 횟수를 줄여 응답시간과 시스템 비용을 줄일 수 있었다. 또한 카플방식은 그룹핑 방식에서 사용자 요청을그룹핑 하기 위해서 지연되는 시간없이 사용자가 요청 올 하면 이전에 처리하던 작업올 끝날 때까지 기다리지 않고 같이 처리 함으로써 데이타베이스를 한번만 검색하게 된다.
기존의 방식은 많은 응답시간이 사용자 요청률이 증가할수록 급격히 증가하는 것을 알 수 있다. 또한 그룹핑 방식은 요청률(人)이 증가하여도 가장 안정적인 웅답시간을 보였다. 또한, 그룹핑 방식은 사용자 요청을 그룹핑하는 시간이 응답시간에 큰 영향을 미치는 것을 볼 수았다.
또한 그룹핑 방식은 요청률(人)이 증가하여도 가장 안정적인 웅답시간을 보였다. 또한, 그룹핑 방식은 사용자 요청을 그룹핑하는 시간이 응답시간에 큰 영향을 미치는 것을 볼 수았다. 하지만 그룹핑 방식은 람다값이 증가함에 따라 해당 주기에 처리하지 못하는 사용자 요청이 많아졌다.
앞에서 예로 제시한 Blast와 같이 데이타베이스의 모든 서열을 검색하지 않고 일부 데이타만을 선별하여 비교하는 프로그램에서는 본 프로그램 모델을 그대로 사용할 수 없다. 본 논문에서 제얀하는 데이타베이스 검색모델은 정확한 결과를 얻기 위해서 모든 데이타베이스의 데이타를 검색하는 서열 정렬 프로그램의 응답시간과 평균 시스템 비용을 줄일 수 있다.
이럴 경우 해당 사용자 요청에 대한 웅답시간이 길어지게 되는 단점이 있지만 가장 안정적인 서비스를 제공할 수 있다. 카플방식은 사용자 요청률이 작을 때는 응답시간이 짧아지고 사용자 요청이 많을 때는 데이타베이스의데이타를 사용자 요청이 공유하여 사용할 수 있어서 기존 방식보다 좋은 응답시간올 가졌다. 또한 그룹핑 방식에서는 늘어나는 사용자 요청에 의해서 응답시간이 한주기를 넘는 사용자 요청이 생기게 되어 사용자 요청에 대한 응답시간이 고루지 않을 수 있지만 카플방식은 사용자 요청에 대한 응답시간이 고루게 분포하여 공평한 서비스를 제공할 수 있다.
웅용프로그램에서 사용될 수 있다. 특히, 검색의 결과가 데이타베이스의 검색 시작위치와 관련 없는 독립적인 데이타를 검색하는 저작권 검색, 특허권 검색, 논문 검색, 웹 데이타베이스 검색, 둥 많은 응용에서 그룹핑 방식과 카플 방식을 사용하여 서버의 부하를 줄이고, 빠른 응답시간으로 서비스 할 수 있다. 생물 정보학에서 사용되는 데이타베이스와 비슷한 특징올 갖는 많은 웅용에서 그룹핑 방식과 카플 방식을 사용함으로써 가능한 많은 사용자에게 빠른 응답시간을 갖는 서비스를 제공할 수 있을 것이라 기대된다.

후속연구

또한 사용자 요청을 지연시킬 필요가 없으므로 더 좋은 응답시간을 갖게 될 것이다.
특히, 검색의 결과가 데이타베이스의 검색 시작위치와 관련 없는 독립적인 데이타를 검색하는 저작권 검색, 특허권 검색, 논문 검색, 웹 데이타베이스 검색, 둥 많은 응용에서 그룹핑 방식과 카플 방식을 사용하여 서버의 부하를 줄이고, 빠른 응답시간으로 서비스 할 수 있다. 생물 정보학에서 사용되는 데이타베이스와 비슷한 특징올 갖는 많은 웅용에서 그룹핑 방식과 카플 방식을 사용함으로써 가능한 많은 사용자에게 빠른 응답시간을 갖는 서비스를 제공할 수 있을 것이라 기대된다.
이와 같은 서열 분석 프로그램올 이용해서 단백질 서열과 염기서열의 비교 뿐 아니라 구조예측올 통한 연구가 활발히 잔행되고 있다. 앞으로의 생물학 연구는 직접적인 실험보다는 생물 정보학의 소프트웨어 활용에 더 의존하게 될것이다. 이는 단순한 데이타베이스로부터 데이타를 제공하는 것 이외에 유전자 자체에 대한 완벽한 이해를 목적으로 함을 의미한다.
이러한 인간유전체 지도의 완성으로 전개되는 유전자 이후 시대(post Genom)에는 인간의 모든 유전자와 유전자의 발현으로 생성되는 단백질들의 구조와 기능에 관한 연구가 활발히 수행될 것이다. 이런 연구는 막대한 양의 디지털 정보를 낳았다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

효율적인 유전자 서열 비고를 위한 데이타베이스 검색 모델
A Database Retrieval Model for Efficient Gene Sequence Alignment 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

효율적인 유전자 서열 비고를 위한 데이타베이스 검색 모델 A Database Retrieval Model for Efficient Gene Sequence Alignment 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

김재훈 (33) 이원태 (35) 정진원 (7)

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

효율적인 유전자 서열 비고를 위한 데이타베이스 검색 모델
A Database Retrieval Model for Efficient Gene Sequence Alignment 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper