[논문]코퍼스그람 실험과 개발에 대한 연구

이호석

문제 정의

조사 결과는 Jiang & Conrath의 정보 내용 기반 방법이 Hirst, St-Onge, Leacock, Chodorow, Lin, Resnik의 방법에 비하여 우수한 것으로 판명되었다. 또한 분산적인 유사성은 어휘간의 의미 관련성을 나타내는데 적절한 것이 아니라는 것을 제시한다. 참고 문헌 [11]은 Hobbs가 제시한 담론 관계(discourse relation)를 이용하여, 사용하기 쉽고 적절한 자료 구조를 구성하기 쉬운 담론 구조 관계(discourse structure relation)를 논의한다.
즉, Wall Street Journal 신문과 AP 뉴스 기사 중에서 135개의 텍스트에 대하여 담론 결합성(coherence) 구조를 설정할 수 있는 표시 방법에 대하여 논의한다. 또한 트리 구조는 담론 구조를 표시하는데 적절한 구조가 아니라는 것을 제시한다. 참고 문헌 [12]는 기본적 으로 단어 사이에서 파라메타를 사용한 분산 유사성(parameterized distributional similarity)을 계산하는 방법을 논의한다.
현재의 자동 문서 요약 연구는 문장 추출에 의한 요약과 단어 집합을 사용한 제목 생성이다. 이 논문에 서는 문서와 요약 사이에서 자동으로 단어-대-단어 쌍과 구절-대-구절 쌍을 추출할 수 있는 방법을 개발하였다. 이 방법은 hidden Markov 모델을 확장하여 개발하였으며 감독받지 않고 (unsupervised) 자동으로 수행한다.
이 논문에서는 코퍼스그람에 대한 실험 방법과 적용에 대하여 논의하였다. 앞으로의 연구로는 코퍼스를 구축하여 이 논문에서 논의한 사항들을 실험하여 실제 사용이 가능한 코퍼스 그람 시스템을 구축하는 것이다.
둘째로, 유사한 장소에 나타나는 단어의 집합은 장소에 대한 단어의 요구사항이라고 정의한다. 이 연구의 학습 목적은 유사한 위치 나타나는 유사한 단어의 집단을 확인하는 것이다. 이것은 단어들의 구문적이고 의미적인 요구 사항을 학습하는 것을 의미한다.
참고 문헌 [11]은 Hobbs가 제시한 담론 관계(discourse relation)를 이용하여, 사용하기 쉽고 적절한 자료 구조를 구성하기 쉬운 담론 구조 관계(discourse structure relation)를 논의한다. 즉, Wall Street Journal 신문과 AP 뉴스 기사 중에서 135개의 텍스트에 대하여 담론 결합성(coherence) 구조를 설정할 수 있는 표시 방법에 대하여 논의한다. 또한 트리 구조는 담론 구조를 표시하는데 적절한 구조가 아니라는 것을 제시한다.
참고 문헌 [19]는 문장 요약에 대한 것이다. 즉, 이 논문에서는 문서에서 공통 정보를 합성하여 텍스트-텍스트 생성을 하는 새로운 방법을 제시한다. 우선, 유사한 정보를 나타내는 구절을 텍스트에서 찾아서 통계적으로 공통의 구절을 하나의 문장으로 묶는 방법을 사용한다.

가설 설정

즉, 1) mail car는 train의 부분, 2) side door는 car의 부분, 3) keyhole은 door의 부분, 4) cab은 locomotive의 부분, 5) tender는 train의 부분, 6) locomotive는 train의 부분, 7) door는 car의 부분, 그리고 8) car는 express train이 부분-전체 관계이다. 텍스트에서 이러한 부분-전체 관계는 텍스트의 의미 체계를 이해하는데 반드시 필요한 요소이다.
첫 번째로는 위의 코퍼스그람 설명에서 수식 (1), 수식 (2), 그리고 수식 (3)의 경우를 실제 코퍼스를 대상으로 실험하는 바람직한 경우를 찾는 것이 좋을 것이다.
참고 문헌 [20]은 감독되지 않는(unsupervised) 상태에서 부분적으로 파싱된 텍스트 코퍼스로부터 명사, 동사, 형용사에 대한 구문과 의미적인(syntactico-semantic) 근거를 찾는 방법을 제시한다. 첫째로, 의존 관계에 있는 두 개의 단어는 상호 필요한 존재라고 가정하고 상호 요구조건 (corequirement) 라고 부른다. 둘째로, 유사한 장소에 나타나는 단어의 집합은 장소에 대한 단어의 요구사항이라고 정의한다.

제안 방법

즉, 이 논문에서는 문서에서 공통 정보를 합성하여 텍스트-텍스트 생성을 하는 새로운 방법을 제시한다. 우선, 유사한 정보를 나타내는 구절을 텍스트에서 찾아서 통계적으로 공통의 구절을 하나의 문장으로 묶는 방법을 사용한다. 참고 문헌 [20]은 감독되지 않는(unsupervised) 상태에서 부분적으로 파싱된 텍스트 코퍼스로부터 명사, 동사, 형용사에 대한 구문과 의미적인(syntactico-semantic) 근거를 찾는 방법을 제시한다.
참고 문헌 [8]은 기계 번역에 대한 것으로서, 평행하지 않은(non-parallel) 코퍼스로부터 평행한(parallel) 문장을 발견하는 새로운 방법을 논의하고 있다. 이 논문은 최대 엔트로피 분류기(maximum entropy classifier)를 사용하여 중국어, 아랍어, 그리고 영어 코퍼스에 대하여 번역 결과(sentence pair)를 찾을 수 있다고 한다. 이 방법의 또 다른 장점은 크기가 크지 않은 대략 100,000 단어정도로 구성된 코퍼스에도 적용할 수 있다는 것이다.
참고 문헌 [9]는 WordNet에 대한 것이다. 현재 WordNet 명사의 하위어(hyponym) 부분을 확장하여 클래스로서의 하위어와 인스턴스(instance)로서의 하위어를 구분할 수 있도록 하였다. 참고 문헌 [10]은 어휘간의 의미 관련성 연구에 대한 것으로서, WordNet을 사용하는 5가지의 어휘 의미 측정 방법을 스펠링 에러를 찾아서 수정할 수 있는 성능 면에서 평가 하여 제시한다.

대상 데이터

텍스트에서 이러한 부분-전체 관계는 텍스트의 의미 체계를 이해하는데 반드시 필요한 요소이다. 이 참고문헌에서는 WordNet, LA Times, Wall Street Journal, SemCor 1.7 텍스트 모음 등을 사용하여, 29,134 건의 긍정적인 예와 27,963 건의 부정적인 예로 구성되는 코퍼스를 구성하여 실험하였다. 분류 방법은 C4.
비교하는 두 가지 방법은 WordNet을 이용한 방법과 직접 코퍼스를 조사하여 어휘 의미 패턴을 찾는 방법이다. 코퍼스로는 BNC(British National Corpus)를 사용하였으며 Web 텍스트도 사용하였다. 연구의 결과로는 (a) WordNet 에 저장된 지식이 anaphora 해결을 위하여 부족한 것으로 보이며, (b) other-anaphora에 있어서는 웹기반 방법이 WordNet 기반 방법보다 좋은 결과를 내었다, (c) 정확한 NP 상호 참조 해결에 있어서는 웹 기반 방법이 WordNet 방법과 비슷한 결과를 내었으며 어떤 경우에는 WordNet 보다 좋은 결과를 내었다, (d) 두 가지 경우 모두에 있어서, BNC 방법이 데이터의 희소성으로 말미암아 더 좋지 않았다.

이론/모형

7 텍스트 모음 등을 사용하여, 29,134 건의 긍정적인 예와 27,963 건의 부정적인 예로 구성되는 코퍼스를 구성하여 실험하였다. 분류 방법은 C4.5 판단 트리(decision tree)를 사용하였으며 형태는 if-then 규칙 형태로 표현된다. 일반적인 부분-전체 관계를 좀 더 구분하면 의미 적인 관점에서 다음과 같은 관계를 포함한다, 1) component-integral 관계, 2) member-collection 관계, 3) portion-mass 관계, 4) stuff-object 관계, 5) feature-activity 관계, 그리고 6) place-area 관계.
참고 문헌 [14]는 의미 분석에 대한 것으로서 텍스트 분할의 정확성을 높이기 위하여 코퍼스로부터 의미 지식을 추출하는 방법을 논의한다. 사용하는 방법은 LSA(Latent Semantic Analysis)로서 다른 연구자들이 제안한 LSA 방법을 향상시켜 적용하였다. 참고 문헌 [15]는 자연 언어 생성에 대한 것으로 템플릿을 사용한 언어 생성이 다른 방법에 비하여 좋지 않다고 알려져 있으나, 이 논문은 그렇지 않은 경우를 보여 주고 있다.
따라서 패턴이 부분-전체 관계를 포함하 는지 혹은 그 밖에 다른 관계도 포함하고 있는지 구분할 수 있는 학습 방법이 필요하다. 우선 명사구에 적용되어 ISS(Iterative Semantic Specialization) 방법을 통하여 부분-전체 관계가 학습된다. 다음에 소유격, 복합 명사, 그리고 전치사 절을 포함한 명사절에 적용되어 학습된다.

성능/효과

코퍼스로는 BNC(British National Corpus)를 사용하였으며 Web 텍스트도 사용하였다. 연구의 결과로는 (a) WordNet 에 저장된 지식이 anaphora 해결을 위하여 부족한 것으로 보이며, (b) other-anaphora에 있어서는 웹기반 방법이 WordNet 기반 방법보다 좋은 결과를 내었다, (c) 정확한 NP 상호 참조 해결에 있어서는 웹 기반 방법이 WordNet 방법과 비슷한 결과를 내었으며 어떤 경우에는 WordNet 보다 좋은 결과를 내었다, (d) 두 가지 경우 모두에 있어서, BNC 방법이 데이터의 희소성으로 말미암아 더 좋지 않았다. 결론적으로 웹 기반 방법이 anaphora 해결에 있어서 어휘 지식의 부족을 경감시켜주는 좋은 자료가 되는 것을 알 수 있었다.
코퍼스로는 BNC(British National Corpus)를 사용하였으며 Web 텍스트도 사용하였다. 연구의 결과로는 (a) WordNet 에 저장된 지식이 anaphora 해결을 위하여 부족한 것으로 보이며, (b) other-anaphora에 있어서는 웹기반 방법이 WordNet 기반 방법보다 좋은 결과를 내었다, (c) 정확한 NP 상호 참조 해결에 있어서는 웹 기반 방법이 WordNet 방법과 비슷한 결과를 내었으며 어떤 경우에는 WordNet 보다 좋은 결과를 내었다, (d) 두 가지 경우 모두에 있어서, BNC 방법이 데이터의 희소성으로 말미암아 더 좋지 않았다. 결론적으로 웹 기반 방법이 anaphora 해결에 있어서 어휘 지식의 부족을 경감시켜주는 좋은 자료가 되는 것을 알 수 있었다.
코퍼스로는 BNC(British National Corpus)를 사용하였으며 Web 텍스트도 사용하였다. 연구의 결과로는 (a) WordNet 에 저장된 지식이 anaphora 해결을 위하여 부족한 것으로 보이며, (b) other-anaphora에 있어서는 웹기반 방법이 WordNet 기반 방법보다 좋은 결과를 내었다, (c) 정확한 NP 상호 참조 해결에 있어서는 웹 기반 방법이 WordNet 방법과 비슷한 결과를 내었으며 어떤 경우에는 WordNet 보다 좋은 결과를 내었다, (d) 두 가지 경우 모두에 있어서, BNC 방법이 데이터의 희소성으로 말미암아 더 좋지 않았다. 결론적으로 웹 기반 방법이 anaphora 해결에 있어서 어휘 지식의 부족을 경감시켜주는 좋은 자료가 되는 것을 알 수 있었다.
그리고 형태는 부분-전체 관계의 모양을 하고 있으나 전혀 아닌 것도 있다. 예를 들어서 1) The substance consists of three ingredients, 2) The cloud was made of dust, 3) Iceland is a member of NATO 등은 명확하게 부분-전체 관계를 보여준다. 반면에, 4) The lieutenant is part of the play 문장은 모양은 부분-전체 관계이나 의미적으로는 부분-전체 관계가 아니기 때문에, 부분-전체 관계라고 해석해서는 안된다.
예를 들어서 1) The substance consists of three ingredients, 2) The cloud was made of dust, 3) Iceland is a member of NATO 등은 명확하게 부분-전체 관계를 보여준다. 반면에, 4) The lieutenant is part of the play 문장은 모양은 부분-전체 관계이나 의미적으로는 부분-전체 관계가 아니기 때문에, 부분-전체 관계라고 해석해서는 안된다.
연구의 결과로는 (a) WordNet 에 저장된 지식이 anaphora 해결을 위하여 부족한 것으로 보이며, (b) other-anaphora에 있어서는 웹기반 방법이 WordNet 기반 방법보다 좋은 결과를 내었다, (c) 정확한 NP 상호 참조 해결에 있어서는 웹 기반 방법이 WordNet 방법과 비슷한 결과를 내었으며 어떤 경우에는 WordNet 보다 좋은 결과를 내었다, (d) 두 가지 경우 모두에 있어서, BNC 방법이 데이터의 희소성으로 말미암아 더 좋지 않았다. 결론적으로 웹 기반 방법이 anaphora 해결에 있어서 어휘 지식의 부족을 경감시켜주는 좋은 자료가 되는 것을 알 수 있었다. 참고 문헌 [19]는 문장 요약에 대한 것이다.
첫째로, 의존 관계에 있는 두 개의 단어는 상호 필요한 존재라고 가정하고 상호 요구조건 (corequirement) 라고 부른다. 둘째로, 유사한 장소에 나타나는 단어의 집합은 장소에 대한 단어의 요구사항이라고 정의한다. 이 연구의 학습 목적은 유사한 위치 나타나는 유사한 단어의 집단을 확인하는 것이다.
참고 문헌 [10]은 어휘간의 의미 관련성 연구에 대한 것으로서, WordNet을 사용하는 5가지의 어휘 의미 측정 방법을 스펠링 에러를 찾아서 수정할 수 있는 성능 면에서 평가 하여 제시한다. 조사 결과는 Jiang & Conrath의 정보 내용 기반 방법이 Hirst, St-Onge, Leacock, Chodorow, Lin, Resnik의 방법에 비하여 우수한 것으로 판명되었다. 또한 분산적인 유사성은 어휘간의 의미 관련성을 나타내는데 적절한 것이 아니라는 것을 제시한다.

후속연구

네 번째로는 단어 연속어 집합과 단어 클러스터링은 정보 검색에 의한 텍스트 조사에 직접 적용될 수 있을 것이다. 참고 문헌 [2]에서 복합 명사의 처리에 대한 논의가 있는데, 이는 명사들의 연속어를 조사하면 용이하게 처리할 수 있을 것이다.
참고 문헌 [2]에서 복합 명사의 처리에 대한 논의가 있는데, 이는 명사들의 연속어를 조사하면 용이하게 처리할 수 있을 것이다. 또한 의미 관계의 구성도 단어들의 연속어와 클러스터링를 조사하면 처리할 수 있을 것이다. 그 밖에 의미 네트워크의 구성, 의미의 과잉 일반화 해결 등도 코퍼스그람에 계층적으로 구축된 단어 연결 네트워크를 이용하면 용이하게 처리할 수 있을 것이다.
또한 부분-전체 관계를 텍스트에서 자동으로 파악하여 텍스트에서 개념 구조를 생성할 수있는 실용적이고 효율적인 방법을 찾는 것이 필요하다. 부분-전체 관계의 자동 조사 및 생성은 텍스트 개념 구조와 이해 구조의 생성, 온톨로지 체계의 구축 등을 위하여 반드시 필요할 것이다. 한국어는 한자어 처리가 한국어 단어의 개념 구조 구축에 필요할 것이다.
이 논문에서는 코퍼스그람에 대한 실험 방법과 적용에 대하여 논의하였다. 앞으로의 연구로는 코퍼스를 구축하여 이 논문에서 논의한 사항들을 실험하여 실제 사용이 가능한 코퍼스 그람 시스템을 구축하는 것이다.
이 논문에서 논의한 방법은 자연언어 처리, 정보 검색, 온톨로지[4], 그리고 의미 웹 연구[5] 등에 폭 넓게 활용될 수 있을 것이다.
이것은 단어들의 구문적이고 의미적인 요구 사항을 학습하는 것을 의미한다. 이 연구의 결과는 접속(attachment)의 모호성(ambiguity)을 해결하는데 사용될 수 있다.
단어들의 조합은 집합의 형태로 인식하여 처리할 수가 있다. 즉, 코퍼스그람에서 단어들의 조합을 조사해 보면, 관용어, 연속어, 그리고 주제어를 파악할 수 있을 것이다.

핵심어	질문	논문에서 추출한 답변
	코퍼스그람에서 실험이 필요한 부분에는 어떤 것들이 있는가?	코퍼스그람에서 실험이 필요한 부분은, 첫 번째는 변수 d와 dust의 정의 부분이다. 즉, 변수 d만을 이용한 경우, 변수 dist만을 이용한 경우, 그리고 변수 d와 dist를 모두 이용한 경우를 실험해 보아야 한다. 두 번째는 코퍼스그람에서 거리가 가까운 단어들의 조합, 예를 들어 명사와 명사, 동사와 명사, 형용사와 명사, 동사와 부사를, 조사하여 그 의미를 해석하여 보는 것이다. 세 번째로는 코퍼스그람의 단어들에 대하여 거리를 중심으로 단어 연결(connection) 네트워크를 구성하고 의미 네트워크와 비교하여 보는 것이다. 네 번째로는 연결 네트워크를 정보 검색 등의 응용에 적용하여 효과를 확인하는 것이다. 그리고 언어 처리, 온톨로지 등에 중요한 요소인 부분-전체 관계에 대하여 소개하였다.
	텍스트 부분-전체 관계의 조사에서 어려운 문제는 무엇인가?	부분-전체 관계는 오래전 그리스 시대부터 철학적으로 연구가 되었으며 근래에도 철학, 심리학, 언어학 등의 분야에서 연구가 계속 되고 있으며 온톨로지 관계 중에서도 가장 근본적인 것으로 인식되고 있다. 부분-전체 관계의 조사에서 어려운 문제는 패턴이 다른 의미 관계도 포함한다는 것이다. 따라서 패턴이 부분-전체 관계를 포함하 는지 혹은 그 밖에 다른 관계도 포함하고 있는지 구분할 수 있는 학습 방법이 필요하다.
	영어의 자연어처리에서 확률 파서를 이용한 방법의 장점은 무엇인가?	이방법의 강점은 파싱 트리가 피처(feature)들의 집합으로 나타난다는 것이다. 즉, 문법 전개 (derivation)나 생성(generation)을 고려하지 않고 파싱 결과를 피처들의 집합으로 나타낼수 있다는 것이다. 참고 문헌 [7]은 Penn Treebank 코퍼스에 의미 관계 정보 계층, 혹은 의미 역할 표시를 설정하여 의미 표현에 대하여 실제적인 접근을 한 연구이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

코퍼스그람 실험과 개발에 대한 연구
A Study on Corpusgram Experiment and Development 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

코퍼스그람 실험과 개발에 대한 연구 A Study on Corpusgram Experiment and Development 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

코퍼스그람 실험과 개발에 대한 연구
A Study on Corpusgram Experiment and Development 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper