[보고서]국어정보처리 기술 개발

최기선

국어정보처리 기술 개발
Development of Korean Language Information Processing Technology 원문보기

보고서 정보
주관연구기관	한국과학기술연구원 Korea Institute Of Science and Technology
연구책임자	최기선
참여연구자	강현규
발행국가	대한민국
언어	한국어
발행년월	2000-10
주관부처	과학기술부
사업 관리 기관	한국과학기술연구원 Korea Institute Of Science and Technology
등록번호	TRKO200200049335
DB 구축일자	2013-04-18

초록 ▼

제 1 세부과제 : 언어처리 미들웨어 개발 1. 언어처리 미들웨어 툴킷 ● 한국어 질의의 특성 연구 ● 구문분석에 기반한 한글 자연어 질의 분석 ● XML 구조 문서 검색을 위한 한국어 질의어셋 분석 ● XML 구조 문서 검색을 위한 한국어 질의어셋의 XQL 생성기 개발 ● 모든 XML구성요소에 대한 access 기능 ● 응용 프로그램별 특화된 API 요구 : 편집기, 저장관리기, 검색기등 별도의 API 에 대한 요구사항을 반영하여 특화된 API 제공 ● 사용하기 용이한 툴킷 개발 ● 윈도우 한글코드(KSC5601) 지원 ● 지역적 특성을 반영한 부가 기능 제공 - 한글데이터에 대한 한국어 퇴고 기능을 별도 제공 ● 표준 API 지원 - XML 1.0, REC-xml-19980210 스펙지원 - Namespaces in XML, REC-xml-names-19990114 스펙지원 - DOM Level 1, REC-DOM-Level-1-19981001(DOM XML) 스펙지원 - SAX(Simple API for XML) ● XSL/XSLT 기초 기술 연구 및 XML 문서 Formatting 시스템 개발 ● 문장 분석을 이용한 한국어 문서 오류 분석 및 교정 시스템 개발 ● 복합명사 처리 시스템 개발 ● 전체 서브시스템 개별 검증 ● 시스템 통합 및 테스트 2. XML 기반의 문서 저장 관리기 ● XML 데이터 모델 개발 - 복잡한 트리 형태와 재귀적 구조를 갖는 XML 문서를 정보의 손실없이 데이터베이스 시스템에 저장하여 관리하기 위한 데이터 모델을 개발 - XML 문서 관리를 위한 데이터 모델은 사용자가 파일 시스템을 사용하는 것과 같은 개념을 제공하도록 가상 디렉토리(Virtual Directory) 구조를 지원 - 문서의 논리적 구조를 반영하여 저장 ● XML 저장 관리기 개발 - 클라이언트-서버 환경에서 설계한 XML 데이터 모델에 따라 XML 문서를 트리 형태로 저장하는 시스템을 개발 - 특정 문서에 대한 다수의 저자가 공동 저작할 수 있도록 문서 일부분에 대한 Check-in /Check-out 기능을 구현 - 변경된 문서의 히스토리를 관리하기 위한 버전 관리 기능을 구현 ● XML 문서 관리를 위한 웹클라이언트 개발 - 웹 브라우저를 이용하여 XML 저장 관리 서버와 연동하여 사용될 수 있는 클라이언트 응용 프로그램을 개발 - 웹 클라이언트의 기능들로써는 XML 문서 저장과 트리 형태로 저장된 XML 객체에 대해 열람, 편집, 검색, 버전 관리 등을 지원 3. XML 기반의 색인/검색/결과제시기 ● 구조 + 내용 혼합 색인기 개발 - XML 문서의 내용정보, 구조정보, 엘리먼트정보, 속성정보를 색인할 수 있는 색인기 개발 - Fulltext 색인기 개발 - 효율적인 XML 문서 색인 구조 개발 - 동적 삽입/삭제/수정을 지원하는 색인 구조 개발 - 단순한 저장관리기 기능 개발 - 한번에 최대 색인량: BG byte(선진국:2G byte) ● 구조 + 내용 혼합 검색기 개발 - XML 문서의 구조적인 정보 및 내용 정보에 대한 구조 및 내용의 혼합 검색기 개발 - Fulltext 검색기 개발 - 멀티 DTD를 고려하는 색인 및 검색 - 불리언, 확장불리언, 벡터공간모델에 기반한 검색 개발 - 자연어 질의 제공 - 구조 + 내용 혼합 제시기 개발 - XML 문서의 논리적인 세부 구조 및 내용에 대한 제시기를 개발 - 구조 및 내용을 중심으로 한 다양한 제시가 가능 - 적합도순에 따른 결과제시 기능 개발 - 검색결과 클러스터링에 따른 결과제시 기능 개발 - DTD별 정렬에 의한 결과제시 기능 개발 제 2 세부과제: 대용량 국어정보 심층처리 및 품질관리 기술 개발 대용량 국어정보 심층처리 및 품질 관리 구축을 위한 지원 도구 개발을 목표로 한다. 첫째, 국어정보 심층처리는 (1) 정보의 단위라고 하는 고유/합성명사의 내부의미구조와 의미분류의 유형화에 의한 적응성 있는 정보베이스, (2) 문장 단위의 중심인 동사와 명사의 의미관계와 이에 따른 명사의 의미분류 체계에 있으며, (3) 전문용어 목록과 이의 형식화에 의하여 전문분야 적응성을 준다. 둘째, 품질관리측면에서 (1) 일반 사전에서 망라적으로 추출된 명사 목록, (2) 코퍼스의 용례 서비스 (http://csfive.kaist.ac.kr/kcp)인 본 과제의 1 단계 결과물 (일반공개)에 바탕으로 한 객관성 있는 동사/명사 의미관계 설정, (3) 분류체계를 데이터 관찰에 입각한 철저한 검증, (4) 이 과정에 대한 시스템 워크벤치화에 의하여 오류와 검증을 하도록 한다. 셋째, 끝없는 시지프스적 반복되는 언어정보베이스 작업의 싸이클을 이루기 위한 조치로서, 패턴화된 명사의미구조, 의미에 입각한 동사유형분류, 다국어 정보검색 등 응용을 위한 중립적 기술을 목표로 한다.그림 1 에서와 같이 본 세부과제는 지식원천자원 공간, 지식차원, 품질관리와 그 위의 엔진모듈차원의 연계성을 고려하여 공유핵심언어와 전문분야 언어자원의 균형을 이룩함을 연구내용의 근간으로 삼는다. 이는 그림 2 와 같은 공정처리에 의하여 일관성있고 정교한 구축을 꾀하게 된다.연구항목과 구체적 범위는 다음과 같다.1. 공유 핵심 국어정보베이스 1.1 명사 구조/의미 정보베이스 구축 - 명사 의미정보 유형분류 - 복합명사 패턴 및 내부 통사-의미 구조유형분류 - 고유명사 유형 설정 1.2 구문정보베이스(용언정보베이스) 10,000항목 구축 1.3 음성분석/생성용 사전개발을 위한 음운정보베이스 - 음운 레이블링 DB 개발 - 전문용어 음성 DB의 설계 - 단어레벨전문용어음성 DB 프로토타입 1.4 개발자 및 사용자용 사전인터페이스 및 그래픽 도구 개발 2. 전문분야별 언어지식 시스템 2.1 전문용어 정보베이스 - 경제, 기계, 자동차, 의학 등 5개 분야 전문용어 어휘 목록 및 관련 코퍼스 구축 2.2 부언어(sublanguage) 분석 및 전문용어 추출 - 5 개 분야 통합 전문용어 지식베이스 구축 - 전문분야 적응성 워크벤치 개발 3. 국어정보 품질관리 시스템 - 통합 대규모 정보베이스 사용성 평가 - 통합 대규모 정보베이스 품질관리 시스템 보완 및 보급판 개발 - 통합 대규모 정보베이스 보완 및 개선 - 통합 대규모 정보베이스 보급 체제 마련 - 교육용 전문용어 용언사전 - 교육용 전문용어 용언의 다국어 통합정보사전

Abstract ▼

1. Middleware Development for Language Processing 1.1. Language Processing Middleware Toolkit Language Processing Middleware Toolkit consists of syntactic analyzer toolkit, XML Toolkit and text correction system toolkit. The ohjective of syntactic analyzer toolkit is to develop the natural language query processing system for retrieving efficiently XML documents of the standard specification of the Internet world. This query processor was developed to make users retrieve XML documents with the saving time and convenient usage. Using a practical syntactic processor, we developed a natural language query processor considering the characteristics of Korean language. The XML Toolkit supports DOM and SAX of common API among application programs and defines the data structures to process all components of XML documents. The application programs of XML documents have to use the XML parser and process the style information and the link information. The application programs consist of XML editor, XSL editor, XML browser, XML repository, XML document searcher, and XML conversion tools. Because these various application programs need the standard library API, DOM and SAX, the standard library API, are being defined. In addition, the XML toolkit includes a XML formatter that can present dynamically XML documents by using the format information of XSL. In the text correction system toolkit we have developed a system that can detect spelling, syntactic, semantic and stylistic errors in Korean documents and provide correct words. The system also gives the reason of errors through their examples. The semantic and stylistic errors are detected by the patterns of phrases in which Koreans frequently make mistakes. Using the result of the analysis by rule-based tagging, we improve the accuracy of the provided phrase against the erroneous one. The good writing requires an efficient supporting tool to detect and correct errors in a document and tools supporting the quality of writing are tightly related to the accuracy of sentence analysis. The good sentence analysis system can also be used for the other application as a machine translation. 1.2.XML Document Management System (XDMS) The objective of this research is to develop the integration package of the XML document repository based on XML documents. The XDMS system implements the library service function for XML documents (check-in/check-out, versioning, user access management), dynamic indexing and retrieval, the publishing function of the style sheet. It is necessary to develop the XML document repository system that can store and manage the XML entity of XML documents The XDMS system has preformed TCP/IP server architecture to accommodate multiple users efficiently. The system also has a client application, which allows users to manage repository objects easily. The system has the follow components: (1) the repository server, (2) the XML parser, (3) the instance loader, (4) the repository object manager, (5) the repository SDK (Software Development Kit), and (6) the client workbench. 1.3.XML Document Searcher (XDS) This research aims to develop the indexer and retriever and visualization tool for XML documents. The XDS system includes the efficient indexer using the content and the structure of XML documents, the retriever using the structured query and natural language query, and various visualization methods that the conventional retrieval engines cannot provide. The XDS system can provide only the information which users want to find, and can increase user's knowledge acquisition capability. For example, if the retrieval engine of a digital library can find documents by using only the title, users cannot search the information rapidly and, after all, will give up the retrieval with wandering the result lists. However, the XDS system can find the documents rapidly by using the author, the publishing company, and the abstract information.2. Large-scale Korean Language Information Deep Processing and Quality Management Technology Development Major R&D contents are construction of the deeper level language processing in sentence level and their supporting tools. First, our deep level language processing means: (1) internal semantic structure inside of proper and compound nouns and their semantic classification; furthermore, their expandability, to know the internal structure of information units; (2) semantic relation between verbs and nouns, and noun classification system according to the verb-noun relation: they are the center of sentence-level processing;(3) domain adaptability through the terminology information base and their extraction farmalization. Second, for the quality management of language resources, (1) noun lexical items are collected from the large-scale paper dictionary; (2) semantic verb-noun relations are investigated through the corpus KWIC search (http://csfive.kaist.ac.kr/kcp); (3) objective and thorough proof by the bottom-up way of observation for construction of classification systems; (4) coonstruction/debugging workbenches are made to emulate the human behavior for the above language resource construction processes. Third, this repetitive endless task of language resource construction is moved to the pattern-classified noun-internal semantic structure, the meaning-based predicate classification, a neutral description based on multi-lingual comparison.Figure 1 shows the relations among knowledge resource level, knowledge level, quality management and module dependencies for domain-specific languages and common language knowledge. The relation between two items (that is, language processing middleware and language resources/module levels) are shown in this figure.

목차 Contents

제 1 부 언어처리 미들웨어 개발...27
제 1 장 서 론...29
제 2 장 언어처리 미들웨어 툴킷...31
제1절 구문 분석 툴킷...31
1. 서론...31
2. XML 문서와 정보 검색 시스템...33
3. 정보검색 시스템 한국어 질의 처리...35
4. 한국어 질의어 XQL 생성 시스템...37
5. 결 론...37
제2절 XML 툴킷...38
1. 개 요...38
2. 요구사항 및 고려사항...40
3. Toolkit 개요...42
4. XML 브라우져...43
제3절 문서 교정 시스템 툴킷...51
1. 서 론...51
2. 어휘 중의성 제거 규칙과 부분 문장 분석을 이용한 의미 ·문체 검사기...52
3. 연어관계를 이용한 철자 검사/교정기...67
4. 의미정보를 이용한 복합명사 처리...74
5. 연구 결과...82
6. 활용에 대한 건의...83
7. 기대효과...84
제 3 장 XML 기반의 문서 저장 관리기...85
제1절 XML 문서 저장 관리기 SDK...85
1. 개요...85
제2절 XML 문서 저장 관리 서버...87
1. 개요...87
2. 시스템 구조...88
3. 문서 관리 기능...90
4. 색인/검색 인터페이스...92
제3절 XML 문서 저장 관리 클라이언트...98
1. 서 론...98
2. 시스템 설계...98
3. 개발 및 구현 환경...109
4. 시스템 구현...109
5. 시스템 설치와 운용...111
제 4 장 XML 문서 색인/검색/제시기...128
제1절 시스템 개요...128
1. XML 문서 색인/검색 시스템의 구현 방법론...128
2. 시스템 구성도...129
제2절 XML 문서 색인기...132
1. Metafilter...132
2. 자동 색인기...135
3. 색인 구조...135
제3절 XML 문서 검색기...139
1. 질의파서...139
2. 검색엔진...141
제4절 XML 문서 결과 제시기...143
1. 시스템 구성도...143
2. DTD Reduction Tool...144
3. 검색결과 클러스터링 방법...146
4. XML WWW 검색 질의 및 결과 제시기...147
제 5 장 결론...161
제 6 장 참고문헌...162
제 2 부 대용량 국어정보 심층처리 및 품질관리 기술 개발...167
제 1 장 서론...169
제 1 절 공유핵심 국어정보베이스...172
1. 구문정보베이스...173
2. 명사의미정보베이스...174
3. 음운정보베이스...175
4. 음성정보베이스...175
5. 부차적 언어정보 및 그래픽 도구의 연구...175
제 2 절 전문분야별 언어지식 시스템...177
1. 연구개발의 목적...177
2. 연구 개발의 필요성...177
제 3 절 국어정보처리 품질관리시스템...177
1. 정보베이스 개발/관리 시스템...177
2. 분산된 언어자원 통합 관리 기술...178
제 2 장 국내외 기술개발 현황...181
제 1 절 공유핵심 국어정보베이스 국내외 기술개발 현황...181
1. 구문정보베이스...181
2. 명사의미정보베이스...182
3. 부차적 언어정보 및 그래픽 도구의 연구...185
제 2 절 전문분야별 언어지식 시스템의 국내외 기술개발 현황...187
1. 국외 연구 동향...187
제 3 절 국어정보처리 품질관리시스템의 국내외 현황...191
1. 어휘-의미 정보에 기반한 전자사전...191
2. 전자사전 구축 워크벤치..192
제 3 장 연구개발수행 내용 및 결과...195
제 1 절 공유핵심 국어정보베이스의 연구내용 및 결과...195
1. 구문정보베이스의 연구내용 및 결과...195
2. 명사의미정보베이스의 연구내용 및 결과...214
3. 음운정보베이스...235
4. 부차적 언어정보 및 그래픽 도구의 연구...238
제 2 절 전문분야별 언어지식 시스템의 연구내용 및 결과...245
1. 전문분야 언어지식 시스템의 연구내용...245
2. 전문분야 언어지식 시스템의 연구결과...247
제 3 절 국어정보처리 품질관리시스템의 연구내용 및 결과...266
1. 정보베이스 개발/관리 시스템...266
2. 분산 언어자원 통합 관리 기술 개발...303
제 4 장 연구개발목표 달성도 및 대외기여도...313
제 1 절 연구개발 목표 달성도...313
제 2 절 대외기여도...317
1. 공유핵심 국어정보베이스...317
2. 전문분야별 언어지식 시스템...319
3. 국어정보처리 품질관리시스템...319
제 5 장 연구개발결과의 활용계획...321
제 1 절 공유핵심 국어정보베이스...321
1. 구문정보베이스...321
2. 의미정보베이스...321
3. 부차적 언어정보 및 그래픽 도구의 연구...323
제 2 절 전문분야별 언어지식 시스템...323
1. 직접적 활용...323
2. 간접적 활용...323
제 3 절 국어정보처리 품질관리시스템...324
1. 정보베이스 개발/관리 시스템...324
제 6 장 참고문헌...327

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

국어정보처리 기술 개발
Development of Korean Language Information Processing Technology 원문보기

초록 ▼

Abstract ▼

목차 Contents

참고문헌 (25)

연구과제 타임라인

관련 콘텐츠

원문 보기

이 보고서와 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

국어정보처리 기술 개발 Development of Korean Language Information Processing Technology 원문보기

초록 ▼

Abstract ▼

목차 Contents

참고문헌 (25)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

이 보고서와 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

국어정보처리 기술 개발
Development of Korean Language Information Processing Technology 원문보기