Hedge는 불확실함을 나타내는 언어적 표현으로, 저자가 자신의 글에 내포된 내용이 불확실하거나 의심이 갈 때 사용한다. 이러한 불확실성 때문에 hedge가 포함된 문장은 사실이 아닌 문장으로 간주된다. 문장이 사실인지 아닌지를 판단하는 것은 여러 응용에서 사용될 수 있는데, 정보검색, 정보추출, 질의응답 등의 응용분야에서 전처리 과정으로 사용되어, 보다 정확한 결과를 얻게 한다. 본 논문에서는 한국어 hedge 말뭉치를 구축하고, 이로부터 hedge 단서 어구들을 추출하여 일반화된 단서어구 패턴을 구축한 후, 한국어 hedge 인식 실험을 하였다. 실험을 통하여 78.6%의 F1-measure값을 얻을 수 있었다.
Hedge는 불확실함을 나타내는 언어적 표현으로, 저자가 자신의 글에 내포된 내용이 불확실하거나 의심이 갈 때 사용한다. 이러한 불확실성 때문에 hedge가 포함된 문장은 사실이 아닌 문장으로 간주된다. 문장이 사실인지 아닌지를 판단하는 것은 여러 응용에서 사용될 수 있는데, 정보검색, 정보추출, 질의응답 등의 응용분야에서 전처리 과정으로 사용되어, 보다 정확한 결과를 얻게 한다. 본 논문에서는 한국어 hedge 말뭉치를 구축하고, 이로부터 hedge 단서 어구들을 추출하여 일반화된 단서어구 패턴을 구축한 후, 한국어 hedge 인식 실험을 하였다. 실험을 통하여 78.6%의 F1-measure값을 얻을 수 있었다.
A hedge is a linguistic device to express uncertainties. Hedges are used in a sentence when the writer is uncertain or has doubt about the contents of the sentence. Due to this uncertainty, sentences with hedges are considered to be non-factual. There are many applications which need to determine wh...
A hedge is a linguistic device to express uncertainties. Hedges are used in a sentence when the writer is uncertain or has doubt about the contents of the sentence. Due to this uncertainty, sentences with hedges are considered to be non-factual. There are many applications which need to determine whether a sentence is factual or not. Detecting hedges has the advantage in information retrieval, and information extraction, and QnA systems, which make use of non-hedge sentences as target to get more accurate results. In this paper, we constructed Korean hedge corpus, and extracted generalized hedge cue-word patterns from the corpus, and then used them in detecting hedges. In our experiments, we achieved 78.6% in F1-measure.
A hedge is a linguistic device to express uncertainties. Hedges are used in a sentence when the writer is uncertain or has doubt about the contents of the sentence. Due to this uncertainty, sentences with hedges are considered to be non-factual. There are many applications which need to determine whether a sentence is factual or not. Detecting hedges has the advantage in information retrieval, and information extraction, and QnA systems, which make use of non-hedge sentences as target to get more accurate results. In this paper, we constructed Korean hedge corpus, and extracted generalized hedge cue-word patterns from the corpus, and then used them in detecting hedges. In our experiments, we achieved 78.6% in F1-measure.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 아직까지 시도된 적이 없는 한국어 hedge 인식 작업을 수행하였다. 먼저, 한국어 hedge 태깅 말뭉치를 구축할 수 있는 태깅 도구를 구현하여 2만여 문장으로 구성된 말뭉치를 구축하고, 이로부터 hedge 단서어구들을 추출하여 일반화된 단서어구 패턴을 구축한 후, 한국어 hedge 인식 실험을 하였다.
비사실적 추측성 문장을 배제한 사실 텍스트에 한정하여 정보검색, 정보추출, 질의응답시스템 등을 수행할 때 유용한 정보가 될 수 있다[5]. 본 논문에서는 한국어 hedge 인식 방법론을 개발하기 위하여 먼저, 한국어 hedge 말뭉치를 구축하고, 이를 이용하여 일반화된 단서어구 패턴과 단서단어를 이용한 hedge 인식 방법을 제안하였다. 이는 아직까지 연구된 적이 없는 한국어와 같은 언어를 대상으로 처음 시도해 볼 수 있는 방법으로, 한국어 hedge 인식에서의 베이스라인 실험의 성격을 가진다.
가설 설정
(b) 제주도는 세계 7대 자연경관일지 모른다.
제안 방법
Hedge 문장인지 non-hedge 문장인지를 태깅하는 작업은 사람이 수작업으로 해야 하기 때문에 태깅 작업의 편의를 도울 수 있는 도구를 개발하여 사용하였다. 그림 2에서 예시한 태깅 도구는 위키피디아 말뭉치를 읽어 들여 각 문장별로 hedge 여부를 태깅하고, hedge 단서어구의 위치를 [ccue] 태그를 이용하여 표시하는 핵심기능을 제공하며.
각 문장의 [sentence]태그에 certainty 속성을 추가하여 해당 문장이 hedge 문장이면 “uncertain” 값을 저장하고, non-hedge 문장이면 “certain” 값을 저장한다.
실제 작업은 총 4명의 작업자가 태깅 작업을 수행하였으며, 태깅 결과의 객관성을 보장하기 위해서 1차 태깅된 결과를 가지고 서로 다른 작업자가 2차 태깅 작업을 하여 보완하였다. 구축된 한국어 hedge 말뭉치는 hedge 인식 작업의 성능 평가를 위해 표 2과 같이 학습말뭉치와 평가 말뭉치로 구분하였다.
본 논문에서는 아직까지 시도된 적이 없는 한국어 hedge 인식 작업을 수행하였다. 먼저, 한국어 hedge 태깅 말뭉치를 구축할 수 있는 태깅 도구를 구현하여 2만여 문장으로 구성된 말뭉치를 구축하고, 이로부터 hedge 단서어구들을 추출하여 일반화된 단서어구 패턴을 구축한 후, 한국어 hedge 인식 실험을 하였다.
이렇게 완성된 말뭉치는 추후 hedge 인식 작업에서 중요한 리소스로 활용된다. 실제 작업은 총 4명의 작업자가 태깅 작업을 수행하였으며, 태깅 결과의 객관성을 보장하기 위해서 1차 태깅된 결과를 가지고 서로 다른 작업자가 2차 태깅 작업을 하여 보완하였다. 구축된 한국어 hedge 말뭉치는 hedge 인식 작업의 성능 평가를 위해 표 2과 같이 학습말뭉치와 평가 말뭉치로 구분하였다.
일반화된 단서어구 패턴만 사용한 경우와 단서단어 목록까지 사용하는 경우로 나누어 실험을 하였다. 실험 결과는 표 5에 제시하였으며, 정확률과 재현율, F1-measure를 이용하여 평가하였다.
한국어 hedge 말뭉치를 구축하기 위하여, 한국어 위키피디아로부터 2만여 문장을 추출하여 XML 형태의 파일로 저장하였다. 그림 1과 같이 하나의 위키피디아 문서는 [Document] 태그를 이용하여 구분하고, 문서 내 문장은 [sentence] 태그로 구분한다.
데이터처리
일반화된 단서어구 패턴만 사용한 경우와 단서단어 목록까지 사용하는 경우로 나누어 실험을 하였다. 실험 결과는 표 5에 제시하였으며, 정확률과 재현율, F1-measure를 이용하여 평가하였다. 단서어구 패턴과 단서단어를 모두 적용한 경우가 단서어구 패턴만 사용한 경우보다 재현율이 다소 증가하여 F1 값이 2.
이론/모형
Light[4]는 MEDLINE 논문초록 분석을 통해 얻은 14개 대표적 hedge 실마리 어구들(suggest, potential, likely, may, at least, in part 등) 중 하나 이상이 출현한 문장을 hedge 문장으로 분류하는 초보적 기법을 사용하였다. 이후 연구들로는, 보다 많은 다양한 hedge 실마리 어구들을 hedge 판단의 자질로 활용하기 위해, 초기 수 개의 seed 어휘(suggest, likely 등)만을 입력으로 받아 원시 말뭉치로부터 새로운 hedge 단서 어구들을 자동 획득하는 기법들(weakly-supervised learning)이 SVM[5], MaxEnt[6]학습 모델과 결합되어 성공적으로 시도되었다.
성능/효과
한국어 hedge 문장 인식 과정은 그림 3과 같다. 4.2절에서 구축된 일반화된 단서어구 패턴과 단서단어가 입력 문장에서 나타나면 hedge 문장으로 인식하고, 나타나지 않는 경우에는 non-hedge 문장으로 분류하게 된다. 이 방법은 hedge 정보가 태깅된 말뭉치가 있을 때, 가장 먼저 적용해 볼 수 있는 방법으로, 향후 hedge 문장 분류를 위한 형태소, 품사 등의 정보를 문장에서 추출하고, 이를 기계학습 기법을 이용하여 분류하는 실험이 이루어졌을 때, 비교의 대상이 될 수 있는 방법이다.
실험 결과는 표 5에 제시하였으며, 정확률과 재현율, F1-measure를 이용하여 평가하였다. 단서어구 패턴과 단서단어를 모두 적용한 경우가 단서어구 패턴만 사용한 경우보다 재현율이 다소 증가하여 F1 값이 2.5% 정도 향상되었다.
전체적인 Hedge 인식 결과를 보면 정확률은 높으나 재현율은 상대적으로 낮은 결과를 보이고 있다. 그 이유로는 hedge 태깅 작업 시 hedge 문장인지의 여부가 작업자별로 상이한 경우에는 non-hedge 문장으로 간주하였고, 이렇게 구축된 hedge 말뭉치로부터 단서어구 패턴을 추출하였기 때문이다.
후속연구
이는 사실 정보를 담고 있을 가능성이 높은 문장만을 처리 대상에 포함시키는 응용분야에서 유용한 방법이라고 볼 수 있다. 또한, 제안한 방법을 먼저 적용하여 확실한 결과를 얻은 후, 이 단계에서 분류되지 않은 나머지 문장을 대상으로 또 다른 hedge 인식 방법을 적용하는 다단계처리 방법의 구현도 가능케 한다. 사실 제안한 방법은 hedge 인식 분야에서 가장 먼저 시도해 볼 수 있는 방법으로, 경우에 따라 높은 재현율을 필요로 하는 응용분야를 위해 재현율을 높일 수 있는 다른 접근 방법의 연구도 필요하다.
또한, 제안한 방법을 먼저 적용하여 확실한 결과를 얻은 후, 이 단계에서 분류되지 않은 나머지 문장을 대상으로 또 다른 hedge 인식 방법을 적용하는 다단계처리 방법의 구현도 가능케 한다. 사실 제안한 방법은 hedge 인식 분야에서 가장 먼저 시도해 볼 수 있는 방법으로, 경우에 따라 높은 재현율을 필요로 하는 응용분야를 위해 재현율을 높일 수 있는 다른 접근 방법의 연구도 필요하다.
이는 아직까지 연구된 적이 없는 한국어와 같은 언어를 대상으로 처음 시도해 볼 수 있는 방법으로, 한국어 hedge 인식에서의 베이스라인 실험의 성격을 가진다. 향후에는 입력 문장으로부터 형태소, 품사, 구문 정보 등을 분석하여 특징 벡터를 구성하고, 이를 SVM, CRF 등의 기계학습 기법으로 분류하는 방법에 대해 연구할 예정이며, 또한 일반화된 단서어구 패턴과 기계학습 방법을 함께 사용하는 하이브리드 형태의 방법도 연구하고자 한다.
질의응답
핵심어
질문
논문에서 추출한 답변
Hedge이란?
Hedge는 불확실함을 나타내는 언어적 표현으로, 저자가 자신의 글에 내포된 내용이 불확실하거나 의심이 갈 때 사용한다. 이러한 불확실성 때문에 hedge가 포함된 문장은 사실이 아닌 문장으로 간주된다.
Hedge은 언제 사용하는가?
Hedge는 불확실함을 나타내는 언어적 표현으로, 저자가 자신의 글에 내포된 내용이 불확실하거나 의심이 갈 때 사용한다. 이러한 불확실성 때문에 hedge가 포함된 문장은 사실이 아닌 문장으로 간주된다.
참고문헌 (9)
G. Lakoff, "Hedges: a study in meaning critera and the logic of fuzzy concepts", Chicago Linguistics Society Papers, vol.8 pp.183-228, 1972.
J. Holmes, "Doubt and Certainty in ESL Textbooks", Applied Linguistics, vol.9, no.1, pp.21-44, 1988.
R. Farkas, V. Vincze, G. Mora, J. Csirik, and G. Szarvas, "The CoNLL 2010 Shared Task: Learning to Detect Hedges and their Scope in Natural Language Text", In Proceedings of the Shared Task, 14th Conference on Computational Natural Language Learning, Sweden, pp.1-12, 2010.
M. Light, X. Y. Qiu, and P. Srinivasan, "The language of bioscience: facts, speculations, and statements in between", In Proceedings of BioLINK-2004: Linking Biological Literature, Ontologies and Databases, pp.17-24, 2004.
B. Medlock, and T. Briscoe, "Weakly supervised learning for hedge classification in scientific literature", In Proceedings of 45th Meeting of the Association for Computational Linguistics, pp.992-999, 2007.
G. Szarvas, "Hedge classification in biomedical texts with a weakly supervised selection of keywords", In Proceedings of 46th Meeting of the Association for Computational Linguistics, pp.281-289, 2008.
R. Morante, and W. Daelemans, "Learning the scope of hedge cues in biomedical texts", In Proceedings of the BioNLP-2009 Workshop, pp.28-36, 2009.
B. Tang, X. Wang, X. Wang, B. Yuan, and S. Fan, "A Cascade Method for Detecting Hedges and their Scope in Natural Language Text", In Proceedings of the Shared Task, 14th Conference on Computational Natural Language Learning, Sweden, pp.13-17, 2010.
M. Georgescul, "A Hedgehop over a Max-Margin Framework Using Hedge Cues", In Proceedings of the Shared Task, 14th Conference on Computational Natural Language Learning, Sweden, pp.26-31, 2010.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.