본 과제는 바이오 텍스트 문서를 분석하여 생물학적 요소들 간의 정형화된 상호작용관계를 자동으로 추출 및 추론하는 시스템을 구현하는 것이다. 이를 위해 시스템은 텍스트 분석, 관계 추론, 가시화 모듈로 구성된다. 텍스트 분석 모듈은 바이오 텍스트 마이닝 시스템의 시작부분으로서 마이닝을 수행 할 텍스트 데이터를 대상으로 자연어처리 기술을 사용하여 텍스트 분석을 수행한다. 이 모듈에서는 바이오 텍스트 문서에 대해 품사 및 통사 정보를 부착하고, 유전자 이름 등의 개체명을 인식하고 이들 간의 1차적 상호작용관계 정보를 추출한다. 관계 추론
본 과제는 바이오 텍스트 문서를 분석하여 생물학적 요소들 간의 정형화된 상호작용관계를 자동으로 추출 및 추론하는 시스템을 구현하는 것이다. 이를 위해 시스템은 텍스트 분석, 관계 추론, 가시화 모듈로 구성된다. 텍스트 분석 모듈은 바이오 텍스트 마이닝 시스템의 시작부분으로서 마이닝을 수행 할 텍스트 데이터를 대상으로 자연어처리 기술을 사용하여 텍스트 분석을 수행한다. 이 모듈에서는 바이오 텍스트 문서에 대해 품사 및 통사 정보를 부착하고, 유전자 이름 등의 개체명을 인식하고 이들 간의 1차적 상호작용관계 정보를 추출한다. 관계 추론 모듈은 실제로 데이터 미이닝 알고리즘 및 기계학습 알고리즘을 이용하여 연관 규칙에 대한 추론 및 클러스터링 등을 수행하는 모듈로써 텍스트 분석 결과 추출된 1차적 상호작용정보들로부터 고차원적 상호작용정보를 추론한다. 이를 위해 상호작용정보들은 네트워크로 표현하고 표현된 네트워크에 연관성 가설을 추론하는 기능을 지원한다. 관계 추론 모듈에서 생성하는 가설은 상호작용관계 추출 규칙 및 추론된 규칙을 포괄적으로 표현할 수 있는 보다 일반화된 연관성 규칙을 의미한다. 이때 계층적 혹은 비계층적 클러스터링 알고리즘을 적용하여 연관규칙의 대분류 모델을 구성하고, 대분류 모델에 따라 연관규칠의 부류를 정한다. 이러한 클러스터링 정보 및 연관규칙 정보를 사용하여 상호작용관계의 추론 범위를 결정하고 단백질-단백질 또는 유전자-유전자 등과 같은 생물학적 개체들 간의 고차원적 연관성 추론을 수행한다. 가시화 모듈은 시스템에서 추출하고 추론한 단백질과 유전자등 개체들간의 상호작용관계를 시각화 하여 보여주는 모듈이다. 이 모듈에서는 이전의 텍스트 분석 모듈과 관계 추론 모듈에서 추출된 연관성 정보와, 추출 작업을 수행한 원본 문서를 연결해 보여준다. 또한 그래프나 네트워크 구조를 이용하여 추출된 관계를 시각화하여 표현하는데, 추출 및 추론된 개체들간의 상호 관계를 시각화할 수 있는 통합 인터페이스를 제공한다.
Abstract▼
Knowledge discovery in the rapidly growing area of biomedicine area is very important. However, a vast amount of knowledge still resides in large collections of scientific papers such as Medline and the amount of the literature is continuously increasing. It is necessary to develop a tool for discov
Knowledge discovery in the rapidly growing area of biomedicine area is very important. However, a vast amount of knowledge still resides in large collections of scientific papers such as Medline and the amount of the literature is continuously increasing. It is necessary to develop a tool for discovering the knowledge from the bio-texts. Bio Text Miner is a system which analyzes the bio-texts and discovers meaningful information such as protein-protein, gene-gene interactions in a specific binding activities. The system is composed of text analysis, relation inference, and relation visualization modules. In the text analysis module, as the first component of the bio-text mining system, we try to analyze the text using robust natural language techniques such as the part-of-speech tagging, base phrase chunking, and grammatical relation tagging syntactic analysis. Also, we recognize the bio-entity names such as gene, amino acid, and automatically extract the reliable interaction events between them by using machine learning techniques. Then, the extracted informations with their sources are stored into the relational DB which is composed of several tables including protein/gene tables, event tables and document/sentence tables. The relation inference module actually performs the inference for discovering the higher-level interaction information using data mining or machine learning techniques such as Apriori and distribution-based clustering algorithms. In this step, we infer the higher-level relations of the interaction information extracted in the text analysis step by using association rules. For the purpose of this, we construct the interaction networks and try to cluster the interactions and the bio-entities based on the document information. And we generate the hypotheses to the networks. The hypotheses mean the generalized association rules, which can represent the interaction extraction rules or the inferred rules. The inferred relations as well as the relations from the text analysis step are systematically stored in the local database. To effectively provide the information, the relation information is transmitted to the next step, the relation visualization module. The relation visualization module aims to visualize the interactions between the bio-entities stored by the previous steps. It also shows the documents linked to the relation information as well as the information extracted from the previous text analysis and relation inference modules. Also, it variously represents an amount of information such as the weights of the association relations between the biological entities. Therefore, the users can identify the reliability for the inferred relations provided by the system. In this module, to search the information and visualize the relations as graph or diagram, we provide an integrated interface, which can show not only the extracted and the inferred interactions in the structured networks but also the reliability through search and reference for the source including the target relations.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.