[논문]빅데이터 및 고성능컴퓨팅 프레임워크를 활용한 유전체 데이터 전처리 과정의 병렬화

변은규; 곽재혁; 문지협

doi:10.3745/ktccs.2019.8.10.231

빅데이터 및 고성능컴퓨팅 프레임워크를 활용한 유전체 데이터 전처리 과정의 병렬화
Parallelization of Genome Sequence Data Pre-Processing on Big Data and HPC Framework 원문보기

정보처리학회논문지. KIPS transactions on computer and communication systems 컴퓨터 및 통신 시스템, v.8 no.10, 2019년, pp.231 - 238

변은규 (한국과학기술정보연구원) , 곽재혁 (한국과학기술정보연구원) , 문지협 (한국과학기술정보연구원)

초록
AI-Helper

차세대 염기 서열 분석법이 생성한 유전체 원시 데이터를 기존의 방식대로 하나의 서버에서 분석하기 위해서는 데이터 크기에 따라 수십 시간이 필요할 수 있다. 그러나 응급 환자의 진단처럼 수 시간 내에 결과를 알아야 하는 상황이 존재하기 때문에 단일 유전체 분석의 성능을 향상시킬 필요가 있다. 본 연구에서는 빅데이터 기술의 병렬화 기법과 고속의 네트워크로 연결되고 병렬파일시스템을 공유하는 고성능컴퓨팅 클러스터를 적극적으로 활용하여 분석 시간을 크게 단축시킬 수 있는 유전체 데이터 분석의 전처리 프로세스의 병렬화 방법을 제안한다. 분석 데이터의 신뢰성을 위해 기존의 검증된 분석 도구 및 알고리즘을 새로운 환경에 맞게 병렬화 하는 전략을 선택하였다. 프로세스의 병렬화, 데이터의 분배 및 병렬 병합 기법을 개발하였고 실험을 통해 성능 향상을 확인하였다.

Abstract ▼ AI-Helper

Analyzing next-generation genome sequencing data in a conventional way using single server may take several tens of hours depending on the data size. However, in order to cope with emergency situations where the results need to be known within a few hours, it is required to improve the performance of a single genome analysis. In this paper, we propose a parallelized method for pre-processing genome sequence data which can reduce the analysis time by utilizing the big data technology and the highperformance computing cluster which is connected to the high-speed network and shares the parallel file system. For the reliability of analytical data, we have chosen a strategy to parallelize the existing analytical tools and algorithms to the new environment. Parallelized processing, data distribution, and parallel merging techniques have been developed and performance improvements have been confirmed through experiments.

주제어

표/그림 (6)

그림 Fig. 1. Architecture and Execution Steps of KBigBWA
그림 Fig. 2. Performance Improvement of KBigBWA with Hadoop on Lustre and Parallel I/O Functionality
그림 Fig. 3. An Example of SAM File
그림 Fig. 4. Whole Process of NGS Data Preprocessing
그림 Fig. 5. Breakdown of Execution Time of Preprocessing 208GB NGS Data with Parallel Mechanism
그림 Fig. 6. Breakdown of Execution Time of Preprocessing 105GB NGS Data with Parallel Mechanism

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구의 목적은 복수의 노드로 이루어진 클러스터를 활용하여 수행시간을 단축시키는 방법을 제안하는 것이다. 따라서 실험을 통해 더 많은 노드로 사용하면 수행시간을 더 많이 단축시킬 수 있음을 확인하고자 하였다. 3장에서 설명한 전처리 프로세스를 실행 가능한 프로그램으로 구현하고 이를 병렬 클러스터 위에서 실제 유전체 원시 데이터를 이용하여 전처리를 수행하는 과정의 전체 및 각 단계의 시간을 측정하였다.
따라서 더 많은 전산 자원을 활용하더라도 단일 분석의 시간을 단축 할 수 있는 기술이 필요하다. 본 논문에서는 많은 유전체 데이터 분석에서 공통적으로 쓰이는 데이터 전처리 프로세스를 병렬화하는 방법을 제안한다. 병렬화된 분석 프로세스는 고속의 네트워크로 연결되고 병렬 파일 시스템을 공유 하는 복수의 서버들 위에서 동작하여 실행시간을 크게 단축시킬 수 있다.
본 연구에서는 이러한 문제들을 해결하기 위해 분석에서 공통으로 쓰이는 NGS데이터의 전처리 과정 전체를 고성능 클러스터와 병렬파일시스템을 활용하여 병렬화하였다.
본 연구의 목적은 복수의 노드로 이루어진 클러스터를 활용하여 수행시간을 단축시키는 방법을 제안하는 것이다. 따라서 실험을 통해 더 많은 노드로 사용하면 수행시간을 더 많이 단축시킬 수 있음을 확인하고자 하였다.
2장에서 관련연구를 간단히 소개하고, 3장에서 유전체 데이터 전처리 과정 병렬화 기법을 각 단계별로 상세히 소개한다. 추가로 전체 병렬 프로세스관리와 데이터 재분배 방식과 관련하여 실제 실험에 사용한 구현 방식과 대안들의 장단점에 대한 의견을 제시한다. 4장에서 테스트베드에서 수행한 성능 평가 결과를 제공한다.

제안 방법

따라서 실험을 통해 더 많은 노드로 사용하면 수행시간을 더 많이 단축시킬 수 있음을 확인하고자 하였다. 3장에서 설명한 전처리 프로세스를 실행 가능한 프로그램으로 구현하고 이를 병렬 클러스터 위에서 실제 유전체 원시 데이터를 이용하여 전처리를 수행하는 과정의 전체 및 각 단계의 시간을 측정하였다. 클러스터는 FDR Infiniband로 연결된 여덟 대의 계산 노드와 2대의 스토리지 노드로 구성된 Lustre파일시스템으로 구성하였다.
실험을 위해 10개의 계산 노드로 이루어진 Hadoop 클러스터와 24개의 HDD로 구성된 Lustre 시스템을 구축하고 이를 Infiniband FDR과 연결하였다. 각 계산 노드에는 Seagate의 Hadoop on Lustre 어댑터와 연동한 Hadoop 2.8을 설치하였고 HDFS를 구성하는 로컬 디스크로는 SATA SSD를 사용하였다. Fig.
BWA는 KBigBWA를 통해 Hadoop on Lustre를 통해 병렬로 수행되며 samblaster와 samtools는 GNU parallel 을 이용하여 각각의 노드에서 작업을 나누어 처리한다. 각 단계 사이에서의 데이터 재배치 및 전송은 IPoIB 소켓 통신을 통해 이루어지고, 파일을 병합하는 과정은 MPI-IO를 이용해 병렬화하였다. 각 단계에서 노드 당 5개의 작업 프로세스가 병렬로 데이터 처리 작업을 처리한다.
데이터의 신뢰도를 높이기 위해 프로세스의 병렬화, 데이터의 분배 및 병합 기법은 추가로 개발한 반면 각 단위 프로세스에서의 데이터 처리는 기존의 검증된 도구들이 수행하도록 하였다.
간단히 Hadoop, Spark, GNU parallel을 사용하여 BWA의 병렬 수행의 시간을 비교해 본 결과 GNU parallel을 사용하는 것이 5% 이상 수행시간이 빠르다는 것을 확인하였다. 따라서 본 논문의 범위에서는 samblaster와 samtools를 이용하는 단계에서는 GNU parallel을 이용한 병렬 프로세스 수행 방식으로 구현을 하고 성능 분석을 진행하였다. 그러나 앞서 언급한 것처럼 빅데이터 자원 및 프로세스 관리 프레임워크의 장점들을 활용하는 것이 전체 소프트웨어의 안정성에 도움이 되기 때문에 전체 병렬화된 전처리 과정을 Spark으로 구현하는 작업을 함께 진행 중이다.
Samblaster알고리즘은 Read Group의 primary line의 전역 좌표 값을 비교하여 중복을 판단한다. 따라서 중복 검출의 누락을 방지하기 위해 이 조건을 고려하여 병렬화를 위해 데이터를 재분배 기법을 설계하였다. 각각의 노드에서 병렬로 실행된 BWA는 SAM형식으로 결과를 출력하는데 Read Group이 연속되어 기록된다.
이를 위해서 두 Mapper 단계에서 사용되는 병렬 프로세스의 개수는 동일해야 한다. 또한 분할된 데이터를 로컬 디스크의 Hadoop temp디렉토리 대신 모든 노드가 공유하는 Lustre에서 마운트 된 shared_tmp 디렉토리에 저장하도록 하였다. 따라서 BWA 프로세스 모두가 shared_tmp에 있는 필요한 범위의 데이터 조각을 읽어서 처리할 수 있다.
본 연구를 통해 Lustre, MPIIO 등 HPC 기술을 적극적으로 적용하여 병렬 자원을 활용하여 유전체 시퀀스 데이터의 전처리 과정을 소요 시간을 크게 감소시킬 수 있는 병렬화하는 기법을 제안하고 구현 및 실험을 통해 입증하였다. 이 기법을 이용하여 응급 환자의 진단 등 시급성이 요구되는 상황에서 고성능의 병렬 자원을 이용하여 유전 변이 검출 프로세스의 효율성을 크게 증가시킬 수 있다.
또한 BWA에서 생성 된 파일은 분석 파이프라인의 다음 단계에서 활용하기 위해 POSIX 호환 파일 시스템으로 다시 복사해야 한다. 본 연구에서는 Lustre on Hadoop을 도입하여 문제를 해결 하였다[13]. Hadoop 응용 프로그램은 HDFS에서 파일을 복사하거나 복사하지 않고 Lustre의 파일에 자유롭게 액세스 할 수있다.
이를 확인하기 위해 먼저 BigBWA를 변경하지 않고 단순히 HDFS를 Lustre로 교체 한 후에 성능 개선을 측정해 보았다. 실험을 위해 10개의 계산 노드로 이루어진 Hadoop 클러스터와 24개의 HDD로 구성된 Lustre 시스템을 구축하고 이를 Infiniband FDR과 연결하였다. 각 계산 노드에는 Seagate의 Hadoop on Lustre 어댑터와 연동한 Hadoop 2.
Hadoop 프레임워크에서는 이 과정을 shuffle이라고 하고 기본 기능으로 포함되어 있다. 위에서 언급한 바와 같이 본 논문에서 구현한 방식에서는 GNU parallel을 사용하였기 때문에 데이터 전송 및 수집을 위한 가벼운 도구를 몇 가지 방식으로 개발하였다.
시퀀서에서 생성한 원시 데이터가 fastq파일의 쌍으로 주어지면 KBigBWA가 Hadoop on Lustre를 이용해 지역 정렬 데이터를 각각의 노드에 생성한다. 이 데이터는 Read Group별로 primary line의 광역 좌표를 기준으로 재분배되고 각각의 노드에서 samblaster를 이용해 중복 리드를 검출한다. 이후 각 리드의 광역 좌표를 기준으로 위치 조정을 다시 수행한 후 각각의 노드에서 samtools sort를 이용해 정렬 압축된 BAM파일을 생성한다.
그래프의 맨 왼쪽 부분은 기존의 방법으로 하나의 노드에서 BWA, samblaster, samtools를 연속으로 실행할 때의 소요 시간을 나타낸다. 이 때, 멀티스레드 옵션을 활성화하여 20개의 코어를 최대한 활용하도록 하였다. 오른쪽의 두 결과는 본 논문에서 제시한 병렬화 기법을 이용하여 각각 4대, 8대의 노드에서 병렬로 수행하였을 때의 결과를 나타낸다.
본 연구에서는 가장 널리 쓰이는 유전체 원시 데이터인 ILLUMINA사의 시퀀서에서 생성하는 paired-end 리드 데이터를 대상으로 삼았다[3]. 이 원시 데이터를 지역 정렬, 중복 검출, 색인하는 전처리 과정 각각을 병렬화 하고 그에 필요한 데이터 전달 기법을 개발하였다. 데이터의 신뢰도를 높이기 위해 프로세스의 병렬화, 데이터의 분배 및 병합 기법은 추가로 개발한 반면 각 단위 프로세스에서의 데이터 처리는 기존의 검증된 도구들이 수행하도록 하였다.
binary encoding을 수행한 후 gzip알고리즘의 호환인 BGZF 포맷으로 압축을 진행한다. 이때 데이터 전체를 한 번에 압축하지 않고 64KB보다 작은 크기의 블록으로 데이터를 나눈 후 각각을 압축하고 메타데이터에 블록의 크기, 전역 위치 정보들을 포함하여 향후 인덱싱에 활용한다. gzip의 특성 상 독립적으로 압축된 파일인 각각의 블록을 단순히 연결해도 gzip파일이 되고 압축 해제 시 연결한 순서대로 복원되는 점을 이용하였다.
이렇게 각각의 samtools프로세스에서 생성된 BAM파일을 하나의 전체 BAM 파일로 병렬로 연결하는 기법을 개발하였다. 앞서 언급한 gzip 파일의 특성에 따라 각 파일 내에서 광역 좌표를 기준으로 정렬되어 저장된 BAM파일들을 순서에 맞게 단순히 연결하는 것만으로 전체 정렬된 파일을 얻을 수 있다.
전처리 과정의 첫 단계로 각 리드들이 실제로 유전자중 어느 위치에 해당하는지를 알아야 한다. 이를 위해 참고 유전체(reference genome)의 염기서열에 리드들의 데이터를 비교하여 높은 확률로 일치하는 위치를 찾는 과정을 거친다. 이 과정을 지역 정렬(alignment)이라 하며 많은 계산 시간과 메모리를 필요로 하지만 전처리 중 필수적인 단계이다.
이를 확인하기 위해 먼저 BigBWA를 변경하지 않고 단순히 HDFS를 Lustre로 교체 한 후에 성능 개선을 측정해 보았다. 실험을 위해 10개의 계산 노드로 이루어진 Hadoop 클러스터와 24개의 HDD로 구성된 Lustre 시스템을 구축하고 이를 Infiniband FDR과 연결하였다.
지역 정렬 단계를 효율적으로 병렬화하기 위해 Hadoop을 이용하여 BWA를 병렬화한 기존의 BigBWA의 성능상의 문제점을 Hadoop on Lustre와 병렬 I/O 기술을 도입하여 개선한 KBigBWA를 개발하였다.
기존의 BigBWA에서 가장 많은 시간을 소비하는 부분은 한쌍의 fastq 파일을 Hadoop 호환 입력 파일로 병합하는 과정으로 단일 노드에서 수행되는 Python 스크립트로 구현되어 있다. 한 세트의 입력만 받아들일 수 있는 Hadoop Mapper들이 이병합된 입력 파일을 여러 노드에서 분할하여 읽은 후 각 로컬 디스크의 임시 디렉토리에 저장하고 BWA를 호출하여 입력 데이터로 전달하여 지역 정렬을 수행한다.

대상 데이터

본 연구에서는 가장 널리 쓰이는 유전체 원시 데이터인 ILLUMINA사의 시퀀서에서 생성하는 paired-end 리드 데이터를 대상으로 삼았다[3]. 이 원시 데이터를 지역 정렬, 중복 검출, 색인하는 전처리 과정 각각을 병렬화 하고 그에 필요한 데이터 전달 기법을 개발하였다.
3장에서 설명한 전처리 프로세스를 실행 가능한 프로그램으로 구현하고 이를 병렬 클러스터 위에서 실제 유전체 원시 데이터를 이용하여 전처리를 수행하는 과정의 전체 및 각 단계의 시간을 측정하였다. 클러스터는 FDR Infiniband로 연결된 여덟 대의 계산 노드와 2대의 스토리지 노드로 구성된 Lustre파일시스템으로 구성하였다. 각 계산 노드에는 듀얼 소켓 10 core Xeon E5-2650 CPU와 80GB 메모리가 설치되어 있으며, 각각의 스토리지 노드에는 40개의 하드디스크가 4개의 RAID6 스토리지 타겟으로 구성되어 있다.

이론/모형

또 하나의 NGS 데이터 분석의 병렬화 사례로는 유전체 분석 중 하나인 variant calling의 파이프라인 단계 전체를 병렬화한 Halvade가 있다[11]. GATK Best Practice에서 제안한 알고리즘 세트를 빅데이터 프로그래밍 모델인 MapReduce를 이용하여 구현하였다. 이러한 여러 노드를 이용한 병렬화를 통해 싱글 노드만을 활용한 multi-thread 방식을 뛰어넘는 성능 향상도 이루었다.
각각의 단계를 실제로 수행하기 위해서는 병렬 프로세스를 생성하고 데이터를 전달하는 관리자가 필요하다. KBigBWA에서는 Hadoop의 병렬 자원 및 프로세스 관리 기능을 사용하였다. Hadoop을 사용하면 자동으로 클러스터에 프로세스를 생성하고 병렬로 데이터 분석 작업을 시작 할 수 있다.
BWA (Burrow-Wheeler Aligner)[4], samblaster[5], samtools[6]가 각각의 단계에서 사용되었다. 작업 및 데이터 병렬 처리의 실제 구현에는 서버 간의 소켓 통신, 병렬 파일시스템인 LustreFS를 이용한 MPI-IO 및 Hadoop on Luster 기술 등을 활용하였다.

성능/효과

2에서 가장 왼쪽의 두 개의 막대는 HDFS와 Lustre를 사용하는 BigBWA를 각각 사용하여 30GB의 유전체 원시 데이터를 지역 정렬하는데 소요되는 시간을 보여준다. HDFS로의 복사에 소요되는 시간이 없어지기 때문에 Lustre에서 Hadoop을 사용하면 HDFS보다 30%가량 빠른 것을 확인할 수 있다.
GNU parallel은 SSH로 연결된 클러스터에 병렬 작업을 손쉽게 실행할 수 있도록 해 준다. 간단히 Hadoop, Spark, GNU parallel을 사용하여 BWA의 병렬 수행의 시간을 비교해 본 결과 GNU parallel을 사용하는 것이 5% 이상 수행시간이 빠르다는 것을 확인하였다. 따라서 본 논문의 범위에서는 samblaster와 samtools를 이용하는 단계에서는 GNU parallel을 이용한 병렬 프로세스 수행 방식으로 구현을 하고 성능 분석을 진행하였다.
입력 데이터 분할 및 출력 데이터 병합의 병렬화를 통해 실행 시간이 1/3 이하로 단축하였고 이는 HDFS를 사용하는 BigBWA과 비교해서는 1/5에 불과하다. 또한 단일 노드에서 수행한 BWA과 비교해도 시간을 크게 단축시켰음을 확인하였다.
데이터 재배치 과정에서 추가되는 시간은 병렬화를 통해 얻는 이득에 비해 크지 않다고 판단된다. 또한 두 방식으로 생성된 결과물을 비교하였을 때 데이터 처리 순서의 변경으로 인해 발생하고 최종 분석에 영양을 미치지 않는 오차를 제외하고는 동일한 결과물을 생성하는 것을 확인하였다. 분석의 종류에 따라서 실험에서 사용한 데이터 보다 수 배 이상 큰 데이터를 실제로 사용하는 경우도 존재하기 때문에 병렬 자원을 투입하여 소요시간을 단축시키는 것의 이점이 더 부각 될 수 있을 것이다.
Samblaster 수행 후 이러한 리드들에 대해 다시 한 번 광역 좌표를 기준으로 맞는 위치의 파티션에 전송하고, 현재 파티션과 일치하는 리드들은 로컬 노드 내에서 다음 단계의 입력으로 직접 전달될 수 있다. 몇 가지 데이터 셋을 통해 측정해 본 결과 이렇게 재분배 되는 비율은 1% 전후로 적은 양이어서 소요시간이 매우 짧았다. 설령 대부분이 데이터가 재분배되는 경우에도 samblaster병렬화를 위해 수행했던 재분배 프로세스에서 소요되는 시간과 동일한 시간 복잡도를 가지므로 전체 수행 시간에 큰 영향을 주지 않을 것으로 예상된다.
세 가지 방식을 8대 규모의 클러스터에서 100GB 크기의 데이터를 이용하여 테스트해 본 결과 파이프와 소켓을 사용하는 방식이 가장 시간이 적게 걸리는 것으로 나타났다. 다만, 이는 클러스터의 크기가 크지 않았기 때문에 단점이 드러나지 않았기 때문일 가능성이 있다.
실험을 통해 모든 전처리 단계를 병렬화 함으로써 더 많은 자원을 투입하면 전처리 속도를 유의미하게 향상 시킬 수 있음을 확인하였다. 데이터 재배치 과정에서 추가되는 시간은 병렬화를 통해 얻는 이득에 비해 크지 않다고 판단된다.
GATK Best Practice에서 제안한 알고리즘 세트를 빅데이터 프로그래밍 모델인 MapReduce를 이용하여 구현하였다. 이러한 여러 노드를 이용한 병렬화를 통해 싱글 노드만을 활용한 multi-thread 방식을 뛰어넘는 성능 향상도 이루었다. 그 외에도 HDFS 대신 Amazon S3와 Lustre를 HDFS 대신 활용하는 것도 가능하다.

후속연구

이들을 병렬 병합 기능을 이용해 하나의 BAM파일로 합치고 index파일까지 생성하면 NGA데이터의 전처리 과정이 완료된다. 결과물로 지역 정렬데이터 SAM파일 하나 지역 정렬, 중복 검출, 정렬 및 압축이 모두 완료된 BAM파일 하나와 그 index 파일 하나가 생성되고 이는 향후의 유전체 분석에 활용될 수 있다.
유전 정보를 의료진단 및 치료에 활용하고자 하는 요구사항 및 시장의 크기는 점점 더 커질 것으로 예상된다. 본 연구에서 제안한 병렬화를 기법을 통한 유전체 분석 시간의 단축이 대형 병원 등 의료 업계에서 유전체 분석 정보를 활용하는 서비스의 폭을 넓힐 수 있을 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	NGS기법의 유전자 분석은 어떻게 이루어지는가?	NGS기법을 통한 유전자 분석 과정은 여러 단계의 데이터 처리 프로세스로 구성된 파이프라인으로 이루어진다. 먼저 세포로부터 염기서열을 읽어야 한다.
	차세대 염기서열 유전체 분석법을 통해 획득한 유전체 데이터는 어떻게 활용될 수 있는가?	차세대 염기서열 유전체 분석법(NGS, Next Generation Sequencing)의 발전으로 인해 유전체 정보를 보다 저렴한 가격과 적은 시간을 들여 읽어 낼 수 있게 되었다[1]. 이렇게 얻은 유전체 데이터를 분석하여 질병의 진단, 예방 등에 활용할수 있다. 이러한 분석 과정은 유전체 정보를 기계를 통해 읽어내는 작업 뿐 아니라 수백 기가바이트에 달하는 데이터를 분석하는 과정이 필요한데, 이러한 분석 기존의 단일 서버를 사용하는 방식으로 수행하면 수십 시간이 소요되는 경우도 일반적이다.
	병렬화된 분석 프로세스의 장점은?	본 논문에서는 많은 유전체 데이터 분석에서 공통적으로 쓰이는 데이터 전처리 프로세스를 병렬화하는 방법을 제안한다. 병렬화된 분석 프로세스는 고속의 네트워크로 연결되고 병렬 파일 시스템을 공유 하는 복수의 서버들 위에서 동작하여 실행시간을 크게 단축시킬 수 있다.

참고문헌 (13)

S. Goodwin, J. D. McPherson, and W. R. McCombie, "Coming of age: ten years of next-generation sequencing technologies," Nature Review Genetics, Vol.17, No.6, pp.333-351, May 2016.
"Sequence Alignment/Map Format Specification", The SAM/BAM Format Specification Working Group [Internet], https://samtools.github.io/hts-specs/SAMv1.pdf
An introduction to Next-Generation Sequencing Technology, Illumina, Inc., [Internet], https://www.illumina.com/documents/products/illumina_sequencing_introduction.pdf
H. Li and R. Durbin, "Fast and accurate long-read alignment with Burrows-Wheeler transform," Bioinformatics, Vol.26, No.5, pp.589-595, 2010.

상세보기
Faust, Gregory G., and Ira M. Hall, "SAMBLASTER: Fast Duplicate Marking and Structural Variant Read Extraction," Bioinformatics, Vol.30, No.17, pp.2503-2505, 2014.

상세보기
H. Li, B. Handsaker, A. Wysoker, T. Fennell, J. Ruan, N. Homer, G. Marth, G. Abecasis, R. Durbin, and 1000 Genome Project Data Processing Subgroup, "The Sequence Alignment/Map format and SAMtools," Bioinformatics, Vol.25, No.16, pp.2078-2079, 2009.

상세보기
L. Pireddu, S. Leo, and G. Zanetti, "SEAL: a distributed short read mapping and duplicate removal tool," Bioinformatics, Vol. 27, No.15, pp.2159-2160, Aug. 2011.

상세보기
T. Nguyen, W. Shi, and D. Ruden, "CloudAligner: A fast and full-featured MapReduce based tool for sequence mapping," BMC Res Notes, Vol.4, No.1, pp.171, Jun. 2011.

상세보기
M. C. Schatz, "CloudBurst: highly sensitive read mapping with MapReduce," Bioinformatics, Vol.25, No.11, pp.1363-1369, Jun. 2009.

상세보기
J. M. Abuin, J. C. Pichel, T. F. Pena, and J. Amigo, "BigBWA: approaching the Burrows-Wheeler aligner to Big Data technologies," Bioinformatics, Vol.31, No.24, pp.4003-4005, 2015.

상세보기
D. Decap, J. Reumers, C. Herzeel, P. Costanza, and J. Fostier, "Halvade: Scalable Sequence Analysis with MapReduce," Bioinformatics, Vol.31, No.15, pp.2482-2488, 2015.

상세보기
E.-K. Byun, J. Lee, S. J. Yu, J.-H. Kwak, and S. Hwang, "Accelerating Genome Sequence Alignment on Hadoop on Lustre Environment," 2017 IEEE 13th International Conference on E-Science, pp.436-437, 2017.
Lustre Hadoop Plugin, Seagate [Internet], https://github.com/Seagate/lustrefs

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증