생명 공학 분야의 연구는 대용량의 데이터 처리를 요구한다. 과거 실험을 통해 접근하던 방식에서 벗어나 최근 IT 기술의 결합을 통해 다양한 실험 데이터를 공유하고, 연계함으로써 연구를 가속화하고 있다. 질병에 대한 연구는 생명 공학의 큰 테마 중 하나이다. 질병 데이터를 분류하고, 웹을 통해 데이터를 제공하는 다양한 서비스가 존재한다. 하지만, 기존 서비스들은 각기 다른 분류 방법을 가지고 있으며, 고차원 처리를 요구하는 신규 서비스와 연계하기 위한 인프라의 부재는 생명 공학 연구의 발전을 저해하는 요소로 작용하기도 한다. 본 논문에서는 이종의 질병 데이터베이스를 통합하기 위한 데이터 구조를 제안하고, 신규 서비스와 연계하기 위한 인프라로서 질병 디렉토리 시스템을 설계하고 구현한다.
생명 공학 분야의 연구는 대용량의 데이터 처리를 요구한다. 과거 실험을 통해 접근하던 방식에서 벗어나 최근 IT 기술의 결합을 통해 다양한 실험 데이터를 공유하고, 연계함으로써 연구를 가속화하고 있다. 질병에 대한 연구는 생명 공학의 큰 테마 중 하나이다. 질병 데이터를 분류하고, 웹을 통해 데이터를 제공하는 다양한 서비스가 존재한다. 하지만, 기존 서비스들은 각기 다른 분류 방법을 가지고 있으며, 고차원 처리를 요구하는 신규 서비스와 연계하기 위한 인프라의 부재는 생명 공학 연구의 발전을 저해하는 요소로 작용하기도 한다. 본 논문에서는 이종의 질병 데이터베이스를 통합하기 위한 데이터 구조를 제안하고, 신규 서비스와 연계하기 위한 인프라로서 질병 디렉토리 시스템을 설계하고 구현한다.
Recently, biological researches are required to deal with a large scale of data. While scientists used classical experimental approaches for researches in the past, it is possible to get more sophisticated observations easily with convergence of information technologies and biology. The study on dis...
Recently, biological researches are required to deal with a large scale of data. While scientists used classical experimental approaches for researches in the past, it is possible to get more sophisticated observations easily with convergence of information technologies and biology. The study on diseases is one of the most important issues of the life science. Conventional services and databases provide users with information such as classification of diseases, symptoms, and medical treatments through web. However, it is hard to connect or develop them for other new services because they have independent and different criterions. It may be a factor that interferes the development of biology. In this paper, we propose an integrated data structure for the disease database, and design and implement a novel directory system for diseases as an infrastructure for developing other new services.
Recently, biological researches are required to deal with a large scale of data. While scientists used classical experimental approaches for researches in the past, it is possible to get more sophisticated observations easily with convergence of information technologies and biology. The study on diseases is one of the most important issues of the life science. Conventional services and databases provide users with information such as classification of diseases, symptoms, and medical treatments through web. However, it is hard to connect or develop them for other new services because they have independent and different criterions. It may be a factor that interferes the development of biology. In this paper, we propose an integrated data structure for the disease database, and design and implement a novel directory system for diseases as an infrastructure for developing other new services.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이 때문에 특정 질병에 대한 정보를 얻기 위해서는 여러 데이터베이스들을 검색해야하는 오버헤드가 발생한다. 따라서 본 논문에서는 이들 질병 관련 데이터들을 하나로 통합하고, 필요한 정보들을 정형화된 형태로 제공할 수있는 검색 시스템을 제안하고자 한다.
하지만 이러한 서비스들은 각기 다른 방법을 통해 데이터를 분류하고 있으며, 고차원 처리를 요구하는 신규 서비스와의 연계를 위한 방법이 존재하지 않는다. 본 논문에서는 기존 질병 데이터들을 통합한 아래 그림 1과 같은 새로운 시스템을 제안하여 기존 서비스의 단점을 해결하고자 한다.
본 논문에서는 이종의 질병 데이터베이스를 통합하기 위한 데이터 구조를 제안하고, 신규 서비스와 연계하기 위한 인프라를 제공하는 질병 디렉토리 시스템을 설계하고, 구현하였다. 이를 위해, 기존 데이터베이스를 분석하여, 다양한 속성을 XML 데이터 구조로 정리하고, 웹파서와 텍스트 마이닝 도구를 이용하여 통합 데이터베이스를 구축하였다.
본 논문에서는 이종의 질병 데이터베이스를 통합하기 위한 데이터 구조를 제안한다. 또한 신규 서비스와 연계하기 위한 인터페이스를 제공하는 질병 디렉토리 시스템을 설계하고 구현한다.
본 논문에서는 인간 질병 검색 서비스를 위해 필요한웹 서비스 시스템을 제안한다. 제안하는 웹 서비스 시스템은 크게 질병 검색을 위한 웹 서비스, 질병 추가를 위한 웹 서비스, 질병 갱신을 위한 웹 서비스, 질병 삭제를 위한 웹 서비스로 나누어진다.
본 절에서는 제안하는 질병 검색 서비스를 이용한 예제 페이지를 구현하여 제안하는 서비스의 유용성을 기술한다. 제안하는 서비스의 서비스 제공 페이지는 사전에 구축 된 통합 데이터베이스와 연동 및 XML 엘리먼트를 효율적으로 처리하여 결과를 제공하기 위해 AJAX (Asynchronous Javascript and XML) 와 PHP를 이용 하여 구현하였다.
제안 방법
그림 2는 통합 데이터의 XML DTD를 나타낸다. 각 웹서비스별로 얻어진 데이터의 속성을 분류하여 관리함으로써 데이터의 관리를 용이하게 하였다. 또한, 특정 질병 정보에 대해 다수 개로 존재할 수 있는 속성에 대해 데이터베이스의 키값을 이용하여 테이블별로 나누어 관리하기 때문에 불필요한 데이터 공간의 낭비를 줄였다.
통합 관리를 하기 위해서 각 서비스로부터 해당 데이터를 추출해야하며, 추출을 위하여 각 서비스에 적합한 웹파서와 텍스터 마이너를 구현하였다. 그 다음, 통합 관리자를 통하여 질병의 식별자를 생성하고 식별자를 기준으로 통합 데이터베이스를 구성한다. 통합 데이터는 OpenAPI를 통하여 XML 문서로 사용자에게 제공된다.
이를 위해, 기존 데이터베이스를 분석하여, 다양한 속성을 XML 데이터 구조로 정리하고, 웹파서와 텍스트 마이닝 도구를 이용하여 통합 데이터베이스를 구축하였다. 그리고, SOAP/HTTP 통신을 이용한 웹서비스를 통해 이용할 수 있도록 하였으며, 질병 검색 서비스 프로토타입 예제를 함께 구현하였다. 향후에는 수집된 질병 데이터의 연관성을 바탕으로 질병을 보다 체계적으로 분류하고, 질병에 작용하는 기전, 단백질, 상호작용 등의 다양한 정보들을 수집하고 제공 하여 질병단위의 분자 네트워크 연구나 질병 사이의 연계성 분석 등에 활용할 예정이다.
본 논문에서는 이종의 질병 데이터베이스를 통합하기 위한 데이터 구조를 제안한다. 또한 신규 서비스와 연계하기 위한 인터페이스를 제공하는 질병 디렉토리 시스템을 설계하고 구현한다.
0을 사용하였다. 또한, 디렉토리 시스템의 활용을 보이기 위해서 Ajax와 PHP를 이용하여 질병 검색 서비스를 구현하였다.
웹 서비스의 각 데이터는 웹파서와 텍스트 마이너를 통해 시스템에서 필요로 하는 자료의 형태로 수집하였다. 웹파서와 텍스트마이너를 통해 수집된 데이터는 통합관리자를 통해 통합 데이터베이스의 스키마에 따라 저장하였다. 통합된 데이터는 어플리케이션 서버 Glass Fish V2를 통해 데이터의 검색, 추가, 수정, 삭제 등의 서비스가 Open API 를 제공한다.
3DinSight에서는 키워드나 단백질 이름, 유전자 이름 혹은 질병 이름을 사용해 정보를 검색해 볼수 있다. 이 사이트는 생물분자들의 기능, 특징, 구조, 돌연변이, 질병 등의 정보에 대한 통합 데이터베이스로서 특정 질병과 관련된 분자 들에 대한 정보를 제공한다. OMIM-Morbid Map은 OMIM에 있는 질병과 관련된 유전자들의 정보와 그 유전자들의 세포유전학적 위치 (cytogenetic map location) 정보를 제공한다.
본 논문에서는 이종의 질병 데이터베이스를 통합하기 위한 데이터 구조를 제안하고, 신규 서비스와 연계하기 위한 인프라를 제공하는 질병 디렉토리 시스템을 설계하고, 구현하였다. 이를 위해, 기존 데이터베이스를 분석하여, 다양한 속성을 XML 데이터 구조로 정리하고, 웹파서와 텍스트 마이닝 도구를 이용하여 통합 데이터베이스를 구축하였다. 그리고, SOAP/HTTP 통신을 이용한 웹서비스를 통해 이용할 수 있도록 하였으며, 질병 검색 서비스 프로토타입 예제를 함께 구현하였다.
본 절에서는 제안하는 질병 검색 서비스를 이용한 예제 페이지를 구현하여 제안하는 서비스의 유용성을 기술한다. 제안하는 서비스의 서비스 제공 페이지는 사전에 구축 된 통합 데이터베이스와 연동 및 XML 엘리먼트를 효율적으로 처리하여 결과를 제공하기 위해 AJAX (Asynchronous Javascript and XML) 와 PHP를 이용 하여 구현하였다. 질병을 검색하기 위한 검색 폼 및 질병 검색 서비스에 새롭게 추가 된 데이터베이스나 서비스 변경 사항을 제공한다.
각 웹 서비스는 개발자가 데이터 질병 검색 서비스를 위해 필요한 API를 제공한다. 제안하는 시스템은 웹 서버에 질병 검색 서비스를 제공하기 위한 통신 기능을 제공하며 웹 서버와 SOAP/HTTP을 통해 통신을 수행한다.
본 논문에서는 인간 질병 검색 서비스를 위해 필요한웹 서비스 시스템을 제안한다. 제안하는 웹 서비스 시스템은 크게 질병 검색을 위한 웹 서비스, 질병 추가를 위한 웹 서비스, 질병 갱신을 위한 웹 서비스, 질병 삭제를 위한 웹 서비스로 나누어진다. 각 웹 서비스는 개발자가 데이터 질병 검색 서비스를 위해 필요한 API를 제공한다.
또한, 특정 질병 정보에 대해 다수 개로 존재할 수 있는 속성에 대해 데이터베이스의 키값을 이용하여 테이블별로 나누어 관리하기 때문에 불필요한 데이터 공간의 낭비를 줄였다. 질병에 대한 자료 검색시에는 XML 구조를 바탕으로 하나의 내용으로 표현하여 질병의 각 속성별 내용 파악이 용이하도록 하였다.
CHE는 질병에 대한 카 테고리, 정확도, 유발물질, 원인 그리고 관련논문 등에 대해서 서비스를 제공하고 있다. 통합 관리를 하기 위해서 각 서비스로부터 해당 데이터를 추출해야하며, 추출을 위하여 각 서비스에 적합한 웹파서와 텍스터 마이너를 구현하였다. 그 다음, 통합 관리자를 통하여 질병의 식별자를 생성하고 식별자를 기준으로 통합 데이터베이스를 구성한다.
대상 데이터
질병의 수는 24개 정도이고, 대체질병명의 수는 19644개 이다. 관련 Gene의 수는 22864개이며, Category의 수는 392개이다. 유발물질의 개수는 2760개 이며, link의 수는 8336개이고 Researchs는 209개의 정보를 포함한다.
그림 1은 본 논문에서 제안하는 디렉토리 시스템의 구조를 나타낸다. 기존에 서비스 되고 있는 질병 데이터의 통합을 위해 기존 질병 데이터를 서비스하는 각웹 사이트 데이터를 수집하였다. 웹 서비스의 각 데이터는 웹파서와 텍스트 마이너를 통해 시스템에서 필요로 하는 자료의 형태로 수집하였다.
기존에 서비스 되고 있는 질병 데이터의 통합을 위해 기존 질병 데이터를 서비스하는 각웹 사이트 데이터를 수집하였다. 웹 서비스의 각 데이터는 웹파서와 텍스트 마이너를 통해 시스템에서 필요로 하는 자료의 형태로 수집하였다. 웹파서와 텍스트마이너를 통해 수집된 데이터는 통합관리자를 통해 통합 데이터베이스의 스키마에 따라 저장하였다.
관련 Gene의 수는 22864개이며, Category의 수는 392개이다. 유발물질의 개수는 2760개 이며, link의 수는 8336개이고 Researchs는 209개의 정보를 포함한다.
제안하는 디렉토리 시스템은 CentOS 5.2 서버 환경에서 J2EE 1.4와 J2SDK 1.5를 이용하여 구현하였으며, 데이터베이스 관리 시스템으로 MySQL 5.0을 사용하였다. 또한, 디렉토리 시스템의 활용을 보이기 위해서 Ajax와 PHP를 이용하여 질병 검색 서비스를 구현하였다.
표 1은 DB 테이블에 포함되어 있는 데이터의 수를 나타낸다. 질병의 수는 24개 정도이고, 대체질병명의 수는 19644개 이다. 관련 Gene의 수는 22864개이며, Category의 수는 392개이다.
성능/효과
각 웹서비스별로 얻어진 데이터의 속성을 분류하여 관리함으로써 데이터의 관리를 용이하게 하였다. 또한, 특정 질병 정보에 대해 다수 개로 존재할 수 있는 속성에 대해 데이터베이스의 키값을 이용하여 테이블별로 나누어 관리하기 때문에 불필요한 데이터 공간의 낭비를 줄였다. 질병에 대한 자료 검색시에는 XML 구조를 바탕으로 하나의 내용으로 표현하여 질병의 각 속성별 내용 파악이 용이하도록 하였다.
후속연구
그리고, SOAP/HTTP 통신을 이용한 웹서비스를 통해 이용할 수 있도록 하였으며, 질병 검색 서비스 프로토타입 예제를 함께 구현하였다. 향후에는 수집된 질병 데이터의 연관성을 바탕으로 질병을 보다 체계적으로 분류하고, 질병에 작용하는 기전, 단백질, 상호작용 등의 다양한 정보들을 수집하고 제공 하여 질병단위의 분자 네트워크 연구나 질병 사이의 연계성 분석 등에 활용할 예정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
질병에 대한 효율적인 연구를 위해서 개별적으로 이루어지는 연구 결과를 통합하고 체계적으로 정리해 공유하는 시스템이 필요한 이유는 무엇인가?
질병에 대한 연구는 많은 과학자들의 중요 연구테마 이자, 일반인을 포함한 모든 사람들의 큰 관심사이기도 하다. 현재 질병 데이터를 분류하고, 웹을 통해 데이터를 제공하는 다양한 서비스가 존재한다. 하지만, 서로 다른 목적을 위해서 생성된 데이터베이스이기 때문에 각기 다른 분류 방법을 가지고 있으며, 동일한 질병이라 할지라도 다른 이름을 사용하는 경우가 빈번하다. 또한, 고차원 처리를 요구하는 신규 서비스와 연계할수 있는 IT 인프라의 부재는 생명 공학 연구의 발전을 저해하는 요소로 작용하기도 한다. 따라서 질병에 대한 효율적인 연구를 위해서 개별적으로 이루어지는 연구 결과를 통합하고 체계적으로 정리해 공유하는 시스템이 필요하다.
대표적인 질병관련 데이터베이스로는 어떠한 것이 있는가?
대표적인 질병관련 데이터베이스로는 CHE[3], Gastro net[4], Findis[5], AID[6], 3DinSight[7], OMIM-Morbid Map[8], DiseaseDatabase[9]가 있다. CHE는 약물과 질병데이터베이스로 화학적 약물에 대한 정보와 약 180여 가지의 인간 질병에 대한 간단한 정보를 제공한다.
바이오인포메틱스란 무엇인가?
당시 많은 과학자들이 단백질의 아미노산 서열을 분석 하는 실험을 수행하면서 아미노산 서열들에 대한 많은 정보를 축적하고, 그들은 축적된 정보들을 통합하고 정리하여 데이터베이스를 구축해 연구에 사용함으로써 최초의 바이오인포메틱스 데이터베이스가 만들어졌다. 초기 단백질 아미노산 서열 데이터를 축적해 데이터베이스화하고, 그 서열들을 분석하는 도구를 개발하게 되면서 바이오인포메틱스라는 새로운 분야로 자리매김하였고, 지금은 아미노산이나 유전자 서열뿐만 아니라 다양한 종류의 생명 공학 분야의 대용량 데이터에 IT 기술을 결합해 연구하는 모든 분야를 일컬어 바이오인포메틱스라고 한다[1][2].
※ AI-Helper는 부적절한 답변을 할 수 있습니다.