[논문]띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류

박근영; 김경덕; 강인호

문제 정의

본 논문에서는 문법적 오류 중 띄어쓰기 오류를 포함하는 한국어 문장을 대상으로 분류 모델을 적용할 때 강건한 수준의 성능을 확보할 수 있는 문장 압축 기반 학습 방식을 제안하였다. 더불어 인터넷 상에 공개된 한국어 영화 리뷰 코퍼스와 텍스트 분류 과업에서 표준 모델링 방식으로 인정되는 Yoon[3]의 모델링 방법을 채택하여 되도록 객관적인 성능 검증을 진행하고자 하였다.
본 논문에서는 문법적 오류 중 띄어쓰기 오류를 포함하는 한국어 문장을 대상으로 분류 모델을 적용할 때 강건한 수준의 성능을 확보할 수 있는 문장 압축 기반 학습 방식을 제안하였다. 더불어 인터넷 상에 공개된 한국어 영화 리뷰 코퍼스와 텍스트 분류 과업에서 표준 모델링 방식으로 인정되는 Yoon[3]의 모델링 방법을 채택하여 되도록 객관적인 성능 검증을 진행하고자 하였다.
기존에 한국어 문장에 포함된 철자 혹은 띄어쓰기 오류 등의 수정에 대한 연구들[1][2]은 있었으나 이러한 문법적 오류를 포함하는 문장을 분류하는 모델의 성능 문제에 대한 연구는 아직 많지 않은 상황이다. 본 연구는 이러한 한국어 문장 수준에서 자주 발생하는 문법적 오류 중 띄어쓰기 오류에 강건한 분류 성능을 보이는 문장 압축 기반 학습 방식을 제안한다. 즉 분류 모델로 하여금 원본 문장의 모든 공백을 제거한 압축된 형태의 문자열을 추가로 학습하게 함으로써 다양한 수준에서 발생하는 한국어 문장 띄어쓰기 오류에 대처하도록 한다.
그러나 이러한 기존 조합들 중 분류 대상 문장이 문법적 오류를 포함하고 있는 경우에 대한 모델링 수준의 대응 방안을 제공하는 연구는 많지 않다. 본 연구에서는 음절 단위 임베딩 벡터 표현과 CNN 모델의 조합에 문장 압축 기반 학습 방식을 적용해 띄어쓰기 오류를 포함하는 한국어 문장을 대상으로 분류성능을 평가한다.
실험 결과만으로 일반화 시킬 수는 없겠으나 제안한 문장 압축 기반 학습 방식이 다양한 수준의 한국어 문장띄어쓰기 오류 현상에 대해 강건한 성능을 유지할 수 있음을 입증했다. 이를 위해 본 연구에서는 입력 문장 자질 생성 방식 자체에 집중하고자 하였다. 추가적인 분류성능의 향상이 필요할 경우 입력 자질의 보충이나 모델의 네트워크 구조 및 인자 최적화 등의 작업이 별도로 요구된다.

제안 방법

이를 CNN 문장 분류 모델 학습 및 평가 목적으로 사용하기 위해 전체 데이터셋을 train:validation:test =8:1:1의 비율로 분할하여 사용한다. 또한 평가 데이터셋에 대해 0%/5%/10%/20%/50% 수준에서 임의로 띄어쓰기 추가/삭제 오류를 발생시켜 다양한 수준의 띄어쓰기 오류를 포함하는 경우에 대한 평가 목적으로 활용한다.
본 모델은 입력 문장 문자열을 음절 단위로 분리하여 d 차원의 벡터 형식으로 변환한 후 서로 다른 크기의 음절 배열을 인식하는 필터들을 통해 feature map을 생성한다. 이어 이들을 대상으로 max pooling을 적용해 얻어낸 문장 표현 벡터를 FC 계층(Fully Connected Layer)을 거쳐 softmax 연산을 적용시켜 최종적으로 입력 문장이 사전에 정의된 개별 클래스에 속할 확률을 각각 계산하게 된다.
필터들이 n-gram 문자열의 패턴에 서로 다른 가중치를 부여해 학습을 진행하고 feature map을 생성한 후 이를 pooling 연산을 거쳐 중요한 정보를 갖는 값을 선별해 최종 벡터 표현을 생성해 내는 과정에서 이러한 특정 n-gram 문자열 패턴에 부여되는 가중치, 그리고 필터들 사이의 상대적 비중 등이 조율된다. 이러한 CNN 네트워크에 원본 문장의 압축된 문자열을 추가로 제공함으로써 필터들로 하여금 띄어쓰기 변동으로 인한 가변부(원본문장)와 띄어쓰기 변동 수준에 무관한 불변부(압축된 문자열)를 모두 학습하도록 한다. 이 과정에서 다양한 종류와 수준의 띄어쓰기 오류를 포함하는 원본 문장으로 인해 발생하는 변동에 따른 분류 성능 하락 요인을 문장 압축 기반 자질이 일정 수준 상쇄시켜 주는 역할을 할 것으로 기대한다.
본 모델은 입력 문장 문자열을 음절 단위로 분리하여 d 차원의 벡터 형식으로 변환한 후 서로 다른 크기의 음절 배열을 인식하는 필터들을 통해 feature map을 생성한다. 이어 이들을 대상으로 max pooling을 적용해 얻어낸 문장 표현 벡터를 FC 계층(Fully Connected Layer)을 거쳐 softmax 연산을 적용시켜 최종적으로 입력 문장이 사전에 정의된 개별 클래스에 속할 확률을 각각 계산하게 된다.
본 연구는 이러한 한국어 문장 수준에서 자주 발생하는 문법적 오류 중 띄어쓰기 오류에 강건한 분류 성능을 보이는 문장 압축 기반 학습 방식을 제안한다. 즉 분류 모델로 하여금 원본 문장의 모든 공백을 제거한 압축된 형태의 문자열을 추가로 학습하게 함으로써 다양한 수준에서 발생하는 한국어 문장 띄어쓰기 오류에 대처하도록 한다. 해당 방법의 실증적이고 객관적인 검증을 위해 인터넷에 공개된 한국어 영화 리뷰 공개 코퍼스¹를 학습 및 평가 데이터셋으로 사용한다.

대상 데이터

본 실험에서는 0%/5%/10%/20%/50% 수준의 띄어쓰기 오류를 포함하는 평가 데이터셋을 대상으로 baseline 모델과 test 모델을 각각 적용한다. 우선 baseline 모델은 원본 입력 문장의 음절 단위 임베딩 벡터 표현을 학습과 평가에 사용한다.
즉 분류 모델로 하여금 원본 문장의 모든 공백을 제거한 압축된 형태의 문자열을 추가로 학습하게 함으로써 다양한 수준에서 발생하는 한국어 문장 띄어쓰기 오류에 대처하도록 한다. 해당 방법의 실증적이고 객관적인 검증을 위해 인터넷에 공개된 한국어 영화 리뷰 공개 코퍼스¹를 학습 및 평가 데이터셋으로 사용한다. 아울러 최근 딥러닝 분야의 활발한 연구 및 발전과 더불어 텍스트 분류 모델링 방법론의 사실상 표준으로 자리잡은 Yoon Kim[3]의 컨볼루션신경망(Convolution Neural Network: CNN) 기반 문장 분류 모델을 활용한다.

이론/모형

본 연구에서 제안하는 문장 압축 기반 학습 방식의 효과를 확인하기 위해 기존 텍스트 분류 관련 연구를 통해 입증된 Yoon[3]의 CNN 기반 문장 분류 모델링 방법론을 채택한다. 또한 모델 입력 자질로서 음절 단위를 적용한다.
본 연구에서 제안하는 문장 압축 기반 학습 방식이 분류 모델의 성능에 미치는 영향을 객관적으로 검증하고자 실험 데이터셋으로 한국어 영화 리뷰 코퍼스를 채택하고모델링 방식으로는 Yoon Kim[3]의 CNN 기반 문장 분류모델을 사용하였다. 더불어 평가 데이터셋의 경우 실험목적에 맞춰 임의로 띄어쓰기를 추가/삭제하는 오류를 다양한 수준에서 발생시켜 분류 모델의 성능 변화 평가에 활용한다.
해당 방법의 실증적이고 객관적인 검증을 위해 인터넷에 공개된 한국어 영화 리뷰 공개 코퍼스¹를 학습 및 평가 데이터셋으로 사용한다. 아울러 최근 딥러닝 분야의 활발한 연구 및 발전과 더불어 텍스트 분류 모델링 방법론의 사실상 표준으로 자리잡은 Yoon Kim[3]의 컨볼루션신경망(Convolution Neural Network: CNN) 기반 문장 분류 모델을 활용한다.
본 실험에서는 0%/5%/10%/20%/50% 수준의 띄어쓰기 오류를 포함하는 평가 데이터셋을 대상으로 baseline 모델과 test 모델을 각각 적용한다. 우선 baseline 모델은 원본 입력 문장의 음절 단위 임베딩 벡터 표현을 학습과 평가에 사용한다. 반면 test 모델은 원본 입력 문장과 공백을 제거한 압축 문자열을 결합한 텍스트를 학습과 평가에 적용한다.

성능/효과

본 실험에서는 음절 단위 임베딩을 채택하므로 CNN의 개별 필터가 인식하는 단위는 기존 자연어 처리에서 텍스트를 분할 처리할 때 사용하는 n-gram 단위에 대응된다. 또한 이러한 필터를 다양한 인식 영역 크기로 적용함으로써 복수개의 n-gram 단위 입력 자질 데이터를 추출해 분류 작업에 활용하는 효과를 얻게 된다.
실험 결과만으로 일반화 시킬 수는 없겠으나 제안한 문장 압축 기반 학습 방식이 다양한 수준의 한국어 문장띄어쓰기 오류 현상에 대해 강건한 성능을 유지할 수 있음을 입증했다. 이를 위해 본 연구에서는 입력 문장 자질 생성 방식 자체에 집중하고자 하였다.
그림 4는 두 모델의 평균 성능 수준과 그 편차의 범위를 띄어쓰기 오류 수준에 따라 도식화한 것이다. 이를 통해 정확도 성능의 평균 수준과 편차 범위 측면에서 test 모델이 baseline 모델을 앞서고 있을 뿐만 아니라 띄어쓰기 오류의 발생 빈도 수준이 증가하더라도 매우 안정적인 수준의 성능을 유지하고 있음을 쉽게 확인할 수 있다.
표 3과 표 4는 baseline 모델과 test 모델 각각에 대해 총 6회의 실험을 수행하여 얻은 정확도(accuracy) 성능에 대한 평균과 표준편차를 정리한 것이다. 평균적으로 test 모델의 분류 성능이 모든 띄어쓰기 오류 수준에서 baseline 모델의 성능을 앞서고 있으며 편차 범위도 더 낮은 수준으로 비교적 안정성을 보인다고 할 수 있다. 그림 4는 두 모델의 평균 성능 수준과 그 편차의 범위를 띄어쓰기 오류 수준에 따라 도식화한 것이다.

후속연구

띄어쓰기 오류와 함께 한국어 문장 상에서 가장 빈번히 발생하는 철자 오류에 대해 강건한 분류 성능을 나타내는 모델링 방식에 대한 연구도 추가로 이루어질 필요가 있다고 보여진다. 음절 이하 자모 단위의 임베딩 벡터 표현과 함께 자연 발생적 철자 오류와 유사한(예를들어 키보드 사용 시 발생 빈도가 높은 오타 패턴 등)수준의 잡음을 학습 과정에 투입함으로써 모델의 저항력을 키우는 것도 좋은 시도가 될 것으로 보인다.
음절 이하 자모 단위의 임베딩 벡터 표현과 함께 자연 발생적 철자 오류와 유사한(예를들어 키보드 사용 시 발생 빈도가 높은 오타 패턴 등)수준의 잡음을 학습 과정에 투입함으로써 모델의 저항력을 키우는 것도 좋은 시도가 될 것으로 보인다. 아울러 평가 데이터셋 생성을 위한 띄어쓰기 혹은 철자 오류의 발생 과정을 좀 더 사람에 의해 자연스럽게 발생하는 패턴 수준으로 개선할 수 있다면 더욱 정확한 모델 성능평가가 될 수 있을 것이라 생각한다.
이러한 CNN 네트워크에 원본 문장의 압축된 문자열을 추가로 제공함으로써 필터들로 하여금 띄어쓰기 변동으로 인한 가변부(원본문장)와 띄어쓰기 변동 수준에 무관한 불변부(압축된 문자열)를 모두 학습하도록 한다. 이 과정에서 다양한 종류와 수준의 띄어쓰기 오류를 포함하는 원본 문장으로 인해 발생하는 변동에 따른 분류 성능 하락 요인을 문장 압축 기반 자질이 일정 수준 상쇄시켜 주는 역할을 할 것으로 기대한다.

핵심어	질문	논문에서 추출한 답변
	머신러닝을 사용해 자연어 텍스트를 처리하기 위해서는 무엇이 필요한가?	머신러닝을 사용해 자연어 텍스트를 처리하기 위해서는 텍스트를 수치적 표현으로 변환해야 하며 이 과정에서 임베딩 벡터 표현이 사용된다. 어휘가 발생하는 문맥에 따라 임베딩 벡터를 학습하는[4][5][6] 이러한 벡터 표현 학습 방식은 대상 어휘의 단위에 따라 다양한 모델이 제안되었다[7][8].
	자연어 텍스트의 문법적 완결성을 더욱 악화시키는 요인이 되는것은?	한국어에서 발생 가능한 다양한 형태의 문법적 오류 중 철자나 띄어쓰기의 오류는 한국어 원어민 사이에서도 쉽게 발견된다. 또한 인터넷과 스마트폰, 인공지능 스피커 등의 사용이 일상화된 오늘날의 상황에서 키보드 타이핑 혹은 음성 인식 과정에서 발생하는 오류는 자연어 텍스트의 문법적 완결성을 더욱 악화시키는 요인이 된다. 이러한 오류는 의미의 중의성과 모호성을 증가시켜 결과적으로 텍스트 분류 모델의 성능 또한 저하시킨다.
	문법적 오류 중 띄어쓰기 오류를 포함하는 한국어 문장을 대상으로 분류 모델을 적용할 때 강건한 수준의 성능을 확보할 수 있는 문장 압축 기반 학습 방식을 제안한 연구의 결과는?	실험 결과만으로 일반화 시킬 수는 없겠으나 제안한 문장 압축 기반 학습 방식이 다양한 수준의 한국어 문장띄어쓰기 오류 현상에 대해 강건한 성능을 유지할 수 있음을 입증했다. 이를 위해 본 연구에서는 입력 문장 자질 생성 방식 자체에 집중하고자 하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류
Jam-packing Korean sentence classification method robust for spacing errors 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류 Jam-packing Korean sentence classification method robust for spacing errors 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류
Jam-packing Korean sentence classification method robust for spacing errors 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper