유전자 서열정보는 그 양이 방대하고 다양하기에 DB 구축 및 분석을 위하여 고성능 컴퓨터 및 정보기술 기법이 필요하다. 그래서 컴퓨터를 활용하여 생물학적 데이터를 수집, 관리, 저장, 평가, 분석하는 연구분야인 생명정보학이라는 학문이 지속적으로 발전하고 있다. 이런 생명정보학 발전에 발맞추어 한국과학기술정보연구원(KISTI)에서는 정보기술 기반 생명정보인프라를 구축하여 생명과학 연구자들에게 제공하고 있다. 본 논문에서는 생명정보 DB 중에서 전세계 연구자들이 가장 많이 이용하는 유전자 DB인 Genbank의 reference 필드를 분석하여 한국과학기술정보연구원(KISTI)의 과학기술정보 통합서비스인 NDSL (http://NDSL.kr)과의 연계 방안을 제안하고자 한다. 이를 위하여 NCBI FTP 사이트에서 Genbank 데이터를 수집하여 Genbank 텍스트 파일을 유전자 기본정보와 참고정보로 나누어 DB로 재구축하였으며 Genbank reference 필드에서 논문 및 특허 정보 추출을 통한 새로운 테이블을 생성하였고, KISTI의 논문 DB (http://scholar.ndsl.kr), 특허 DB (http://patent.ndsl.kr)와의 연계 방안을 제시하였다.
유전자 서열정보는 그 양이 방대하고 다양하기에 DB 구축 및 분석을 위하여 고성능 컴퓨터 및 정보기술 기법이 필요하다. 그래서 컴퓨터를 활용하여 생물학적 데이터를 수집, 관리, 저장, 평가, 분석하는 연구분야인 생명정보학이라는 학문이 지속적으로 발전하고 있다. 이런 생명정보학 발전에 발맞추어 한국과학기술정보연구원(KISTI)에서는 정보기술 기반 생명정보 인프라를 구축하여 생명과학 연구자들에게 제공하고 있다. 본 논문에서는 생명정보 DB 중에서 전세계 연구자들이 가장 많이 이용하는 유전자 DB인 Genbank의 reference 필드를 분석하여 한국과학기술정보연구원(KISTI)의 과학기술정보 통합서비스인 NDSL (http://NDSL.kr)과의 연계 방안을 제안하고자 한다. 이를 위하여 NCBI FTP 사이트에서 Genbank 데이터를 수집하여 Genbank 텍스트 파일을 유전자 기본정보와 참고정보로 나누어 DB로 재구축하였으며 Genbank reference 필드에서 논문 및 특허 정보 추출을 통한 새로운 테이블을 생성하였고, KISTI의 논문 DB (http://scholar.ndsl.kr), 특허 DB (http://patent.ndsl.kr)와의 연계 방안을 제시하였다.
As information on gene sequences is not only diverse but also extremely huge in volume, high-performance computer and information technology techniques are required to build and analyze gene sequence databases. This has given rise to the discipline of bioinformatics, a field of research where comput...
As information on gene sequences is not only diverse but also extremely huge in volume, high-performance computer and information technology techniques are required to build and analyze gene sequence databases. This has given rise to the discipline of bioinformatics, a field of research where computers are utilized to collect, to manage, to save, to evaluate, and to analyze biological data. In line with such continued development in bioinformatics, the Korea Institute of Science and Technology Information (KISTI) has built an infrastructure for the biological information, based on the information technology, and provided the information for researchers of bioscience. This paper analyzes the reference fields of Genbank, the most frequently used gene database by the global researchers among the life information databases, and proposes the interface method to NDSL which is the science and technology information integrated service provided by KISTI. For these, after collecting Genbank data from NCBI FTP site, we rebuilt the database by separating Genbank text files into the basic gene data and the reference data. So new tables are generated through extracting the paper and patent information from Genbank reference fields. Then we suggest the method of connection with the paper DB and the patent DB operated by KISTI.
As information on gene sequences is not only diverse but also extremely huge in volume, high-performance computer and information technology techniques are required to build and analyze gene sequence databases. This has given rise to the discipline of bioinformatics, a field of research where computers are utilized to collect, to manage, to save, to evaluate, and to analyze biological data. In line with such continued development in bioinformatics, the Korea Institute of Science and Technology Information (KISTI) has built an infrastructure for the biological information, based on the information technology, and provided the information for researchers of bioscience. This paper analyzes the reference fields of Genbank, the most frequently used gene database by the global researchers among the life information databases, and proposes the interface method to NDSL which is the science and technology information integrated service provided by KISTI. For these, after collecting Genbank data from NCBI FTP site, we rebuilt the database by separating Genbank text files into the basic gene data and the reference data. So new tables are generated through extracting the paper and patent information from Genbank reference fields. Then we suggest the method of connection with the paper DB and the patent DB operated by KISTI.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
생명정보학을 간단하게 설명하자면 생물학 실험실을 컴퓨터로 옮겨 놓은 것이라 말할 수 있다[1]. 본 논문에서는 생명정보 데이터베이스 중에서 전 세계적으로 연구자들이 가장 많이 이용하는 유전자 데이터베이스인 Genbank를 대상으로 Genbank의 reference 필드에서 논문정보(논문제목, 저자, 수록처), 특허정보(특허명칭, 특허번호)를 분석 및 추출하여 KISTI에서 구축하여 운영하는 과학기술정보통합서비스인 NDSL(http://NDSL.kr)과의 연계 방안을 제안하고자 한다.
전체 논문 82,555,724건 중 Pubmed id 보유 33,430,903 건을 제외한 pubmed id 미 보유 논문에 대해 NDSL 논문과의 연계를 시도하려고 한다. 이를 위한 Pubmed id 미 보유 논문의 중복 제거 작업을 수행하면 서버의 메모리(4GB)를 초과하게 된다.
제안 방법
Genbank reference의 journal 필드가 patent로 시작되는 데이터를 추출하고 가공하여 locus id, 특허명칭, 출원국가, 특허번호 등의 정보를 분리하고 저장하여 특허 테이블을 생성하였다. [표 3]은 국가별 특허건수 현황이다.
지금까지 Genbank 데이터베이스를 활용하여 각 필드를 분석하여 그 결과를 산출해 보았으며, 산출된 결과를 기본으로 Genbank와 NDSL 논문, NDSL 특허 연계를 위한 맵핑 테이블을 설계하고 연계 메타 데이터베이스를 구축하였다. Genbank와 NDSL 논문간의 연계를 위해 Pubmed id와 제목, 발행연도를 이용한 데이터 맵핑을 시도하였고, Genbank와 NDSL 특허간의 연계를 위하여 Genbank의 필드를 가공하여 특허번호를 추출하였다.
그래서 locus의 처음 2자리를 잘라서 영역을 나누고 200∼400만 건 단위로 중복을 제거한 후 tb_genbank_journal_distinct에 로딩 하였으며, tb_genbank_journal_distinct의 데이터를 다시 중복 제거하여 tb_genbank_journal_distinct1에 입력하는 절차를 수행하였다.
논문 제목을 통한 연계시의 문제점은 제목이 동일한 다른 논문이 존재할 가능성이 있다는 것인데 이를 해결하기 위하여 논문 제목 이외에 저널 제목 및 발행연도를 추가로 비교하여 분석하였다. NDSL 저널 발행연도와 Genbank 저널 정보의 발행연도를 비교하여 검증한 결과 전체 19,370건의 중복제거 논문 중 16,921건의 데이터가 발행연도가 일치한다는 결과를 얻었다.
논문 제목의 가공을 통한 NDSL ID(문헌번호)의 연계를 위하여 NDSL과 Genbank 논문의 제목에서 특수 문자와 공백을 제거하고, 제목을 소문자로 변환한 후, NDSL논문 전체와 Genbank Pubmed id 미 보유 논문에 대해서 동일 제목을 가진 NDSL ID를 추출한 결과 아래와 같은 결과를 얻었다.
지금까지 Genbank 데이터베이스를 활용하여 각 필드를 분석하여 그 결과를 산출해 보았으며, 산출된 결과를 기본으로 Genbank와 NDSL 논문, NDSL 특허 연계를 위한 맵핑 테이블을 설계하고 연계 메타 데이터베이스를 구축하였다. Genbank와 NDSL 논문간의 연계를 위해 Pubmed id와 제목, 발행연도를 이용한 데이터 맵핑을 시도하였고, Genbank와 NDSL 특허간의 연계를 위하여 Genbank의 필드를 가공하여 특허번호를 추출하였다.
Genbank DB는 FTP 사이트를 통하여 다수의 압축 텍스트 파일로 제공된다. 콘텐츠 연계를 위하여 텍스트 파일의 압축을 풀어 유전자 기본정보와 reference 정보를 추출하여 MySQL 데이터베이스로 변환하였다. 변환작업 결과 유전자정보 건수는 84,112,248건, reference 건수는 104,167,000건으로 나타났으며 reference 유형별 데이터 분포는 [그림 1]과 같다.
;Be verly,MA;USA;). 특허 데이터의 국가코드, 특허번호, 공개일(등록일), 공개연도(등록연도)를 분리하여 별도의 컬럼에 저장한 후 NDSL 특허와 연계되도록 하였다. 특허번호의 길이에 따른 데이터 샘플을 10개 이상 분포된 데이터에 대해 KISTI의 NDSL 특허 데이터베이스와 비교한 결과 Genbank 참고문헌 데이터의 가공을 통해 데이터 맵핑이 가능하다는 것을 알 수 있었다.
대상 데이터
NCBI, EMBL, DDBJ에서는 Genbank를 무상으로 다운로드 할 수 있도록 FTP 사이트를 운영하고 있다. 본 논문에서는 2007년 12월 현재 Genbank release 163 기준 약 8천 4백만 건의 데이터를 다운로드 받아 분석하여 필요한 필드를 추출하였다. 참고로 Genbank 원본파일의 개수는 1,380개이며 압축 해제 시 파일당 약 250MB, 약 400만 라인 정도였다.
성능/효과
Genbank 데이터의 reference 필드를 추출하여 유형을 분석한 결과 [표 2]와 같이 정상적으로 필드가 기술된 경우, Unpublished인 경우, Direct submission인 경우, Patent인 경우 등 4가지 유형으로 나타났다.
논문 제목을 통한 연계시의 문제점은 제목이 동일한 다른 논문이 존재할 가능성이 있다는 것인데 이를 해결하기 위하여 논문 제목 이외에 저널 제목 및 발행연도를 추가로 비교하여 분석하였다. NDSL 저널 발행연도와 Genbank 저널 정보의 발행연도를 비교하여 검증한 결과 전체 19,370건의 중복제거 논문 중 16,921건의 데이터가 발행연도가 일치한다는 결과를 얻었다. 분석 결과를 보면 논문제목을 통한 데이터의 연계는 제목간의 맵핑 성공률은 약 28.
[그림 3]의 국가별 특허 현황에서 정상적으로 맵핑이 가능한 데이터를 추출하기 위하여 중복을 제거한 후 각국별로 특허건수를 산정한 결과는 [그림 4]와 같다. 두개의 결과에서 볼 수 있듯이 국제특허의 건수가 가장 많았지만 중복을 제거한 후에 비교해 본 결과 미국이 가장 많은 특허를 보유하고 있으며, 국제, 일본, 유럽이 그 뒤를 따르고 있었고, 대한민국 특허는 4건이 등록되어 있었다.
NDSL 저널 발행연도와 Genbank 저널 정보의 발행연도를 비교하여 검증한 결과 전체 19,370건의 중복제거 논문 중 16,921건의 데이터가 발행연도가 일치한다는 결과를 얻었다. 분석 결과를 보면 논문제목을 통한 데이터의 연계는 제목간의 맵핑 성공률은 약 28.27%(19,370/68,515*100)였다.
36%(16,921/19,370*100)로 나타났다. 위의 작업을 통한 검토 결과 논문 제목을 통한 데이터의 연계는 상당히 높은 정확도(약 87%)를 가지며 데이터의 연계 시에 효과적인 사용이 가능할 것으로 사료된다.
중복을 제거한 논문은 68,515건이었고, 중복 제거 논문 중 NDSL 제목과 일치하는 것은 19,370건이었다. 이로써 16,921건이 NDSL 저널 발행연도와 Genbank 저널 정보의 발행연도를 일치한다는 결과를 얻었다. 위에서 기술한 바와 같이 논문제목을 통한 데이터의 연계 맵핑 성공률은 약 28.
저널 발행연도를 추가로 비교하여 검토한 결과 전체중복제거 논문건수를 기준으로 약 24.70%의 맵핑 성공률(16,921/68,515*100)을 기록했으며, 정확도는 약 87.36%(16,921/19,370*100)로 나타났다. 위의 작업을 통한 검토 결과 논문 제목을 통한 데이터의 연계는 상당히 높은 정확도(약 87%)를 가지며 데이터의 연계 시에 효과적인 사용이 가능할 것으로 사료된다.
전체 데이터의 reference 필드를 분석해 본 결과 약 8천 4백만 건의 유전자정보, 1억건 정도의 reference 건수를 확인할 수 있었다. 이 결과로 유전자정보 1건당 1.
Genbank reference 필드에서 특허의 연계를 위해 데이터베이스를 분석한 결과는 논문보다 훨씬 높게 나타났다. 총 4,504,108건의 특허 데이터 중에서 4,500,217건이 맵핑에 성공하여 99.9%의 맵핑되었음을 검증하였다.
특허 데이터의 국가코드, 특허번호, 공개일(등록일), 공개연도(등록연도)를 분리하여 별도의 컬럼에 저장한 후 NDSL 특허와 연계되도록 하였다. 특허번호의 길이에 따른 데이터 샘플을 10개 이상 분포된 데이터에 대해 KISTI의 NDSL 특허 데이터베이스와 비교한 결과 Genbank 참고문헌 데이터의 가공을 통해 데이터 맵핑이 가능하다는 것을 알 수 있었다.
후속연구
본 논문에서 분석한 결과를 바탕으로 시스템을 개발하여 서비스한다면 기존 Genbank에서 제공되지 않는 pubmed id 미 보유 논문 중 상당수의 논문이 NDSL 연계로 제공 가능할 것이다. 또한 미국 특허 위주로 서비스되고 있는 Genbank 특허 필드와 KISTI에서 보유하고 있는 유럽 및 일본 특허 정보와의 연계가 가능할 것이다. 이런 콘텐츠간 연계 서비스가 이루어진다면 생명과학 분야 연구자들에게 더욱 유용한 고부가가치 정보를 제공할 수 있을 것으로 기대된다.
본 논문에서 분석한 결과를 바탕으로 시스템을 개발하여 서비스한다면 기존 Genbank에서 제공되지 않는 pubmed id 미 보유 논문 중 상당수의 논문이 NDSL 연계로 제공 가능할 것이다. 또한 미국 특허 위주로 서비스되고 있는 Genbank 특허 필드와 KISTI에서 보유하고 있는 유럽 및 일본 특허 정보와의 연계가 가능할 것이다.
또한 미국 특허 위주로 서비스되고 있는 Genbank 특허 필드와 KISTI에서 보유하고 있는 유럽 및 일본 특허 정보와의 연계가 가능할 것이다. 이런 콘텐츠간 연계 서비스가 이루어진다면 생명과학 분야 연구자들에게 더욱 유용한 고부가가치 정보를 제공할 수 있을 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
유전자 데이터베이스 중 전세계적으로 가장 많이 사용되는 것은 무엇인가?
이렇게 규명된 유전자 염기서열을 데이터베이스로 구축하여 인간의 질병연구 및 치료에 활용하고 있다. 이와 같은 유전자 데이터베이스 중에서 전세계적으로 가장 많이 사용되는 것은 미국 국립보건원(NIH, National Institutes of Health)의 국립생물공학정보센터(NCBI, National Center for Biotechnology Information)에서 운영하는 Genbank이다. Genbank는 염기서열 데이터베이스로 세계 각지에서 연구자들이 등록한 서열 데이터를 다양한 각도의 분석 결과와 함께 제공한다[3].
유전자 서열정보와 관련하여 컴퓨터를 활용한 분석 및 이를 활용 가능한 정보기술이 필요한 이유는 무엇인가?
유전체(genome)란 유전자(gene)와 염색체(chromosome)의 합성어이다. 유전자 서열정보는 그 양이 방대하고 다양하기에 컴퓨터를 활용한 분석 및 이를 활용 가능한 정보기술이 필요하다. 그래서 컴퓨터를 활용하여 생물학적 데이터를 수집, 관리, 저장, 평가, 분석하는 연구분야인 생명정보학(Bioinformatics, 바이오인포매틱스)이 지속적으로 발전하고 있다.
Genbank를 이용할 때 불편한 점은 무엇인가?
또한 NCBI는 생물, 의학분야 최대 문헌정보서비스인 Pubmed를 운영하고 있기에 Genbank reference 필드에 Pubmed id를 링크하는 서비스를 제공하고 있다. 그러나 Pubmed에 등재되지 않은 논문은 링크되어 있지 않아 Pubmed 이외의 논문을 필요로 하는 이용자에게 불편함을 주고 있다.
참고문헌 (6)
안부영, 한정민, 한건, 이상호, “생명정보 연계검색 인터페이스 설계에 관한 연구”, 제29회 한국정보처리학회 춘계학술발표대회 논문집, 제15권, 제1호, pp.407-409, 2008.
이상기, 최희윤, 이태석, 한희준, 현미환, 예용희, 김선태, “이종 학술콘텐트 간 연계 및 융합 사례 연구 : KISTI CLICK 중심”, 한국비블리아학회 제19권, 제1호, 2008.
안부영, 오충식, 생명정보 콘텐츠 업데이트가이드 v. 2.0, 한국과학기술정보연구원, 2008.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.