[논문]분석의 최종 판단자로서의 구문 분석기

여상화

문제 정의

따라서, 본 논문에서는 구문분석기를 분석 결과의 최종 판단자로 이용할 것을 제안한다. 즉, 문장 분리를 포함한 구문 분석 전단계의 모든 분석 정보는 구문 분석기에 우선 순위를 가진 후보 정보들로서 제공되고, 구문분석기는 구문분석을 수행하는 과정에서 이들 정보들로부터 최종의, 최적의 분석 후보를 결정한다.
따라서, 본 논문에서는, 각 단계에서 결정적이고 최종적인 분석 결과를 제공하는 것이 아니라, 구문 분석기로 하여금, 분석의 전 과정에서 제공된 정보를 제공받아, 구문 분석 과정에서 얻어지는 구문 정보를 이용하여 각 분석의 결과를 전역적으로 최종 판단하도록 할 것을 제안한다. 문장 분리, 형태소분석, 품사 태깅, 복합단위 인식기의 분석 결과는 구문분석기의 챠트(Chart)에 기록되며, 구문 제약 정보를 가지는 규칙들은 구문 분석 과정에서 적용된다.

가설 설정

기존의 언어처리 시스템은 정확히 분리된 한 문장을 입력 단위로 가정한다¹. 그러나, 실제 문서( Real Text)에서는 ‘.

제안 방법

따라서, 본 논문에서는 구문 분석 과정 중에 하나의 문장(또는 분리하여도 상관없는 부분 문장)을 인식하며, 이를 하나의 분석 결과로 출력하고 관련된 Active Item 과 Inactive Item 을 Chart 에서 제거한다. 이를 위해 Item List 들은 Best-First Parsing 을 위해 Priority Circular Queue 자료구조에 보관된다.
본 논문에서 제안하는 영어 구문분석기는 전처리 과정부터 복합단위 인식기까지의 구문 분석 전단계에서 제공된 모든 분석 정보를 결정적이며 최종적인 정보로 사용하지 않으며 Priority 를 가진 제안(Suggestion)으로 받아들이며 구문분석을 통해 이전 과정의 결과로 제공된 정보를 검증한다. 또한, 구문 분석 이전 단계의 분석 모듈에서 구문정보를 중복 처리 없이 제약 정보로 사용할 수 있도록 하며, 이를 통해, 이전 분석과정에서 제공되는 문장 분리, 형태소분석, 품사 태깅, 복합단위 인식 결과 등을 구문 분석 과정을 통해 최종적으로 결정한다. 분석의 첫 단계로서 문장 분리를 수행하는 전처리 과정과 같은 하위 수준에서도 중복처리 없이 구문 수준의 제약정보를 사용할 수 있도록 하여 분석 시스템의 정확률을 크게 향상시킨다.
본 논문에서 제안하는 영어 구문분석기는 전처리 과정부터 복합단위 인식기까지의 구문 분석 전단계에서 제공된 모든 분석 정보를 결정적이며 최종적인 정보로 사용하지 않으며 Priority 를 가진 분석 후보로 받아들이며, 구문분석을 통해 이전 분석 과정의 결과로 제공된 정보를 검증한다. 이를 통해, 이전 분석과정에서 제공되는 문장 분리, 품사 태깅, 복합단위 인식 결과 등을 구문 분석 과정을 통해 최종적으로 결정한다.
본 논문에서 제안하는 영어 구문분석기는 전처리 과정부터 복합단위 인식기까지의 구문 분석 전단계에서 제공된 모든 분석 정보를 결정적이며 최종적인 정보로 사용하지 않으며 Priority 를 가진 제안(Suggestion)으로 받아들이며 구문분석을 통해 이전 과정의 결과로 제공된 정보를 검증한다. 또한, 구문 분석 이전 단계의 분석 모듈에서 구문정보를 중복 처리 없이 제약 정보로 사용할 수 있도록 하며, 이를 통해, 이전 분석과정에서 제공되는 문장 분리, 형태소분석, 품사 태깅, 복합단위 인식 결과 등을 구문 분석 과정을 통해 최종적으로 결정한다.
이러한 특성에 기인하여, 본 논문에서 제안된 구문 분석기는, 문장 분리가 전혀 되어 있지 않거나, 또는 문장 종결 부호가 사용되지 않았거나 여러 문장이 한 문장으로 인식된 경우에도, 기존의 구문분석기와 달리 문장 분리를 겸하면서 구문 분석을 수행한다. 이러한 능력은 자동 번역(Machine Translation), 자연어 질의어 처리(Natural Language Query), 음성인식을 위한 언어 모델(Language Model) 등에서 유용하게 사용될 수 있다.
본 논문에서 제안하는 영어 구문분석기는 전처리 과정부터 복합단위 인식기까지의 구문 분석 전단계에서 제공된 모든 분석 정보를 결정적이며 최종적인 정보로 사용하지 않으며 Priority 를 가진 분석 후보로 받아들이며, 구문분석을 통해 이전 분석 과정의 결과로 제공된 정보를 검증한다. 이를 통해, 이전 분석과정에서 제공되는 문장 분리, 품사 태깅, 복합단위 인식 결과 등을 구문 분석 과정을 통해 최종적으로 결정한다. 제안된 구문분석기는 통계적인 Best-First 통계적 Earley Parser 를 기반으로 제작된다[15].
이를 통해, 이전 분석과정에서 제공되는 문장 분리, 품사 태깅, 복합단위 인식 결과 등을 구문 분석 과정을 통해 최종적으로 결정한다. 제안된 구문분석기는 통계적인 Best-First 통계적 Earley Parser 를 기반으로 제작된다[15].
구문 분석 수행 중에 문장을 분리하는 기능은 본 논문에서 처음으로 제안하는 것으로, 기존의 시스템에서 Memory Fault 가 예견될 때, Chart 에서 Coverage 가 가장 넓은 분석 결과를 출력하는 Fail Safe 와는 다르다. 즉, 본 논문에서 제안하는 방식은, Bottom-Up 과 Top-Down 파싱을 수행하는 도중에 메모리 Fault 가 발생하지 않을 상황에서도 문장 분리가 이루어진다. 이는, 기계번역시스템을 최종 응용시스템으로 염두에 둔 전략이다.
0, 컴파일러 제작 도구인 ParserGenerator[15][16]]를 이용하여 구현되었다. 통계적인 영어 구 구조 규칙은 Penn Treebank Version 2 의 영어 Combined Corpus3중 Wall Street Journal(WSJ)의 00 부터 24 로부터 추출하였으며, 규칙의 개수를 줄이기 위해 Function Tag 와 Epsilon 을 제거한 후 추출하였다. 이를 통해 추출된 분석 규칙의 개수는 16,619 개이다.

대상 데이터

통계적인 영어 구 구조 규칙은 Penn Treebank Version 2 의 영어 Combined Corpus3중 Wall Street Journal(WSJ)의 00 부터 24 로부터 추출하였으며, 규칙의 개수를 줄이기 위해 Function Tag 와 Epsilon 을 제거한 후 추출하였다. 이를 통해 추출된 분석 규칙의 개수는 16,619 개이다. 이중에서 출현 빈도가 10 이하인 규칙을 제거하고 사용한다.

이론/모형

본 논문에서 제안하는, 영어 구문분석기는 Visual C++6.0, 컴파일러 제작 도구인 ParserGenerator[15][16]]를 이용하여 구현되었다. 통계적인 영어 구 구조 규칙은 Penn Treebank Version 2 의 영어 Combined Corpus3중 Wall Street Journal(WSJ)의 00 부터 24 로부터 추출하였으며, 규칙의 개수를 줄이기 위해 Function Tag 와 Epsilon 을 제거한 후 추출하였다.
따라서, 분석의 첫 단계인 문장 단위의 인식에서도 중의성이 발생하며, 잘못된 문장 단위 인식 결과는 구문 분석에서 치명적인 분석 실패를 야기하게 된다. 이를 해결하기 위한 노력으로, [1]에서는 정규 표현(Regular Expression)을 사용하였으며, [14].에서는 통계적인 분류 트리(Statistical Classification Tree)를 사용하였으며, [9] [10]에서는 마침표 전후 일부 단어들의 품사정보를 뉴럴 네트워크(Neural Network)로 학습시켜 문장 분리를 하였다.

성능/효과

구문 분석 수행 중에 문장을 분리하는 기능은 본 논문에서 처음으로 제안하는 것으로, 기존의 시스템에서 Memory Fault 가 예견될 때, Chart 에서 Coverage 가 가장 넓은 분석 결과를 출력하는 Fail Safe 와는 다르다. 즉, 본 논문에서 제안하는 방식은, Bottom-Up 과 Top-Down 파싱을 수행하는 도중에 메모리 Fault 가 발생하지 않을 상황에서도 문장 분리가 이루어진다.
따라서, 입력의 길이가 길어질수록 분석 시간과 메모리 요구량이 급격히 증가한다. 본 논문에서 제안하는 구문분석기는 한 문장을 입력 단위로 가정하지 않으므로 입력의 길이가 기존의 구문분석기에 비해 길어질 수 있으며, 이전 분석에서의 결과를 최종적인 것으로 받아들이지 않으므로 분석 단계에서 보관해야 할 정보량이 많아지게 된다. 컴퓨터 하드웨어의 비약적인 발전으로 CPU 의 성능과 Memory 의 양은 충분할 수 있지만, 실용적인 시스템을 위해서는 분석 시간과 메모리를 고려하지 않을 수 없다.
본 논문에서 제안하는 구문분석기는, 구문 분석 과정에서 Bottom-Up 분석을 통한 충분한 구문 정보를 이용하여 문장 분리를 시도함으로써 기존의 방법에 비해 단문 분리 오류를 크게 줄일 수 있다.
또한, 구문 분석 이전 단계의 분석 모듈에서 구문정보를 중복 처리 없이 제약 정보로 사용할 수 있도록 하며, 이를 통해, 이전 분석과정에서 제공되는 문장 분리, 형태소분석, 품사 태깅, 복합단위 인식 결과 등을 구문 분석 과정을 통해 최종적으로 결정한다. 분석의 첫 단계로서 문장 분리를 수행하는 전처리 과정과 같은 하위 수준에서도 중복처리 없이 구문 수준의 제약정보를 사용할 수 있도록 하여 분석 시스템의 정확률을 크게 향상시킨다.
제안된 방법은 구문분석 앞 단계에서의 잘못된 정보 제공(예: 문장 분리 오류, 품사 오류, 복합단위 인식 오류 등)으로 인한 분석 실패부터 자유로울 수 있으며, 이를 통해 구문 분석 실패의 가능성을 최대로 줄인다.
또한, 기존의 분석 시스템에서는 각 분석 단계의 결과를 다음 단계에 최종적인 결과로 제공함으로써, 여러 분석 단계를 가치는 동안 분석 오류가 누적되어 전파된다는 문제점이 있고, 이로 인해 상위 단계의 분석 실패를 야기할 수 있다는 단점이 있다. 즉, 구문 분석 전 단계에서 문장 분리, 형태소분석, 품사 태깅, 복합단위 인식과 같은 4 단계의 분석 과정을 거치고, 각 분석 모듈의 정확률이 99%라면, 최종적으로 구문 분석기의 입력은 96.06%의 정확률을 가지게 되어, 약 4%의 오류를 가진 입력이 주어지게 된다. 이러한 오류들은 구문 분석기의 분석 성공률을 떨어뜨리고, 구문 분석기의 성능에 절대적으로 의존하는 많은 언어처리 응용 시스템(예: 자동번역기, 자연어 질의시스템 등)의 성능을 저하시키게 된다.
이는, 기계번역시스템을 최종 응용시스템으로 염두에 둔 전략이다. 즉, 기존의 모든 영한 번역시스템은 단어의 길이가 길어질수록 번역의 정확률이 급격히 떨어져 15 단어 이상의 장문의 번역률이 40% 미만이라는 실험결과에 바탕을 둔다. 즉, 장문의 입력 전체에 대한 분석은 불필요한 시간 낭비와 더불어 분석 정확률을 떨어뜨리는 주된 요인이다.

후속연구

분석의 모든 단계에서는 상위 단계의 정보를 중복 처리 없이 사용할 수 있어 보다 높은 정확률을 기대할 수 있다. 또한, 단어의 수가 늘어나면 기하급수적으로 늘어나는 분석 시간을 줄이기 위해, 분석 과정에서 분리 가능한 문장으로 인식되면 이들을 분리하고 나머지 입력에 대해 분석을 계속해 나간다.

핵심어	질문	논문에서 추출한 답변
	언어처리 관련 기존의 분석 시스템의 단점은?	또한, 기존의 분석 시스템에서는 각 분석 단계의 결과를 다음 단계에 최종적인 결과로 제공함으로써, 여러 분석 단계를 가치는 동안 분석 오류가 누적되어 전파된다는 문제점이 있고, 이로 인해 상위 단계의 분석 실패를 야기할 수 있다는 단점이 있다. 즉, 구문 분석 전 단계에서 문장 분리, 형태소분석, 품사 태깅, 복합단위 인식과 같은 4 단계의 분석 과정을 거치고, 각 분석 모듈의 정확률이 99%라면, 최종적으로 구문 분석기의 입력은 96.
	중의성 해결을 위한 품사 태깅 알고리즘은 일반적으로 어떻게 사용되는가?	중의성 해결을 위한 품사 태깅 알고리즘으로는 HMM(Hidden Markov Mode), Neural Network, Transformational-based Learning, Maximum Entropy 모델 등이 사용되며, 현재, 최고 성능을 보이는 것으로는 [Ratnaparkhi96]의 Maximum Entropy 모델을 사용한 것으로 99%의 정확률을 보고하고 있다. 여러 모델의 혼합형(Hybrid) 모델을 사용하여 정확률을 높이거나[16], 구문 분석기의 입력으로 n-Best 후보를 제공하는 것이 일반적이다[3][16]
	통상적인 언어처리 과정은?	통상적인 언어처리 과정은 전처리(Preprocess)를 통한 문장 분리와 분석 대상 어휘인 토큰(Token) 분리, 형태소 분석을 통한 원형 복원과 품사 정보 획득, 품사 태깅(Tagging)을 통한 최적 품사 결정, 숙어나 고정표현을 포함한 복합 단위(Compound Unit) 인식을 통한 다중어(Multi-Word) 인식, 그리고 구문 분석을 통한 올바른 구문 구조 결정을 거친다. 이러한, 전통적인 접근 방법은 각 단계에서 분석의 부담을 나눠 가짐으로써 분석기의 부담을 줄이고, 모듈들의 개별적인 성능 향상을 가능하게 하여 대부분의 언어처리 시스템에서 적용하고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

분석의 최종 판단자로서의 구문 분석기
Parser as An Analysis Finisher 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

분석의 최종 판단자로서의 구문 분석기 Parser as An Analysis Finisher 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

분석의 최종 판단자로서의 구문 분석기
Parser as An Analysis Finisher 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper