[논문]영작문 자동평가를 위한 비속어 검출과 미등록어 분류

이경호; 김성권; 이공주

doi:10.3745/ktsde.2014.3.9.381

문제 정의

본 논문에서는 중⋅고등 수준 단문형 영어 작문시험의 자동채점 시스템에서 사용하는 미등록어 유형 분류기에 대하여 연구하였다.
본 논문에서는 중⋅고등학교 학생들을 대상으로 주어진 상황에 맞는 단문(1∼2문장) 영작문 능력을 측정하는 시험※의 자동채점 프로그램에서 생길 수 있는 문제를 해결하기 위한 미등록어 분류기를 연구하였다.
사전에 등록되어 있지 않은 미등록어가 실제로 사용하는 단어이지만 사전에 포함되어 있지 않은 단어인지 아니면 오류나 노이즈단어인지를 인식하기 위한 연구가 진행된 바 있다. 이 연구에서는 웹문서를 기반으로 출현빈도를 계산하여 사전에 등록되지 않은 미등록어를 인식하는 방식을 연구하였다[2]. 이 연구에서는 미등록어 처리를 위해 단계별 접근을 취하고 있다.
본 논문의 구성은 다음과 같다. 이어지는 2절에서 미등록어 분류기와 관련된 관련 연구를 소개한다. 3절에서는 본 논문에서 연구한 미등록어 분류기의 시스템 구성에 대해 설명하고 분류기의 성능을 측정하였다.

제안 방법

1) 먼저 언어처리기로부터 받은 고유명사 목록에 미등록 어가 포함되는지 여부 및 고유명사 목록의 단어와 미등록어의 차이의 크기 등을 고려하여 미등록어가 고유명사인지 여부를 확인한다. 그 결과, 단어가 고유명사로 판명된다면, 미등록어의 유형을 고유명사 유형으로 결정한다.
노이즈 단어 유형 5번은 미등록어의 복잡도(Perplexity)[6][7]를 이용하여 노이즈 단어 여부를 판별한다. 20,399개의 단어를 가지고 있는 영어 사전에 나타난 단어들의 알파벳 character 단위의 tri-gram을 학습한 언어 모델을 생성하고, 그 사전에서 나타난 단어의 복잡도 중 가장 높은 복잡도보다 미등록어의 복잡도가 높으면 노이즈 단어로 판별하도록 하였다[5].
그렇기 때문에 미등록어의 유형을 추정하고 복원할 때, 중⋅고등학교 학생의 어휘 수준을 고려하도록 설계하였다.
이 자동채점 시스템은 기계학습 알고리즘을 기반으로 하고 있다. 답안 중 일부에 대해 미리 채점을 하고 이를 이용하여 학습 모델을 생성한다. 생성된 학습 모델을 이용하여 다른 답안을 채점하게 된다.
이 논문에서 용언과 명사 검사를 따로 행하는 것은 각각에 붙는 어미(또는 조사)가 보통 다르기 때문이다. 따라서 각각에 어미리스트와 조사리스트를 가지고 어미와 조사를 제거하고 웹 검색을 이용해 출현빈도수를 추출해낸다.
이 논문에서 기계학습 방식을 이용하여 미등록어의 품사를 추론한다. 미등록어의 품사태깅을 위하여 이 논문의 기계학습기는 미등록어의 양쪽에 있는 단어들의 품사, 미등록어의 양쪽에 있는 단어들의 문법형태, 미등록어의 접두사와 접미사, 관사의 사용여부, 대문자 사용여부나 하이픈 사용여부를 기계학습의 자질(feature)로 사용하여 미등록어의 품사를 분류한다. 본 연구는 기계학습을 이용하여 미등록어의 품사를 결정하는 방식이 아닌 각 미등록어가 가지고 있는 특징을 기반으로 순차적으로 미등록어의 유형을 분류한다는 점에서 이 연구와 차이점이 있다.
복원 정확도는 {1-(분류오류개수+복원오류개수)/(전체개수)}×100로 계산된다. 복원오류개수는 원래 단어를 추론해야 하는 단순철자오류와 띄어쓰기 오류, 대소문자오류에 대해서 복원오류 개수와 복원 정확도를 계산하였다.
이를 통해 미등록어 속에 섞여 있을 수 있는 비속어를 검출 할 수 있다. 본 논문에서 다루는 영작문 자동채점 시스템은 비속어가 쓰인 영작문에 대해 0점 처리라는 강력한 규정이 있기 때문에2), 6), 7)의 세 단계에 걸쳐 최대한 false positive를 줄일 수 있도록 검출을 하였다. 이러한 비속어 검출 단계에서도 비속어가 아님으로 판단되었다면, 8) 단어의 노이즈 판별단계를 수행한다.
본 논문에서는 검출해야 하는 비속어의 유형을 4가지로 분류하였다. 영어 비속어의 경우, 1) 영어 비속어를 그대로 쓰는 경우와 2) 영어 비속어를 한국어 발음나는 대로 키보드의 한글 자판배열에 맞춰 로마자로 작성하는 경우이다.
본 논문의 분류기는 입력으로 들어온 미등록어를 7가지 유형(철자오류, 대소문자오류, 공백오류, 고유명사, 비속어, 노이즈단어, 기타)으로 분류한다. 분류된 미등록어와 그 유형은 자동채점 단계에서 채점요소로 각 유형별로 다르게 반영된다.
분류 및 복원정확도 실험 결과에서 비속어가 아닌 단어를 비속어로 분류하는 경우(false positive)는 나타나지 않았다. 비속어 검출 실험에서는 분류기의 한국어 및 영어 비속어 검출 능력을 실험하였다.
[1]의 연구에서는 미등록어의 품사를 추정하는 연구를 수행하였다. 이 논문에서 기계학습 방식을 이용하여 미등록어의 품사를 추론한다. 미등록어의 품사태깅을 위하여 이 논문의 기계학습기는 미등록어의 양쪽에 있는 단어들의 품사, 미등록어의 양쪽에 있는 단어들의 문법형태, 미등록어의 접두사와 접미사, 관사의 사용여부, 대문자 사용여부나 하이픈 사용여부를 기계학습의 자질(feature)로 사용하여 미등록어의 품사를 분류한다.
비속어 사전의 엔트리와 정확 일치여부가 아닌 경우 철자 검사를 거쳐 다시 비속어 검사 단계를 수행하게 된다. 이때는 비속어 사전을 기본 사전으로 이용하는 Aspell 철자교정기를 사용하여 비속어를 검출한다. 이 단계에서는 영어 비속어(Table 2의 1번 비속어 유형)과 한글 비속어 로마자 표기(Table 2의 3번 비속어 유형)만을 검사한다.
미등록어가 서브스트링으로 비속어를 포함하는 경우가 있다. 이런 비속어를 검출하기 위해 미등록어를 4글자 이상(영어 비속어 사전 단어들의 평균 길이와 자주 나오는 비속어의 길이를 고려하여 선정)의 문자개수를 가지는 substring으로 나누고, 각 단어들을 비속어 검출 단계1) 비속어 사전의 단어와 일치여부 작업을 다시 수행한다. 검출 단계 1만 수행하는 이유는 단순한 노이즈 단어가 substring으로 쪼개지는 과정에서 비속어로 검출되는 위험을 막기 위함이다.
이 분류기를 통해 자동채점기가 확인할 수 없는 단어의 유형에 대한 정보를 제공할 수 있게 된다. 이를 위해 7가지의 미등록어 유형을 정의하고 각 유형에 대한 검출 방법을 소개하였다. 그 결과 미등록어의 유형에 대한 92.
영어 비속어의 경우 영어 비속어를 모은 “영어 비속어 사전”과 영어 비속어에서 중⋅고등학생 수준에서 많이 사용되는 비속어를 한국어 발음대로 변환한 “영어 비속어 한국어발음표기 사전”을 만들었다. 이와 같은 비속어 분류와 비속어 사전을 이용하여 분류기는 아래와 같이 총 3단계에 걸쳐 비속어 검출을 수행한다.
사전 미등록어 분류기에서는 미리 입력된 고유명사 후보군을 이용하여 미등록어의 고유명사 여부를 판별한다. 입력받은 고유명사목록을 Aspell의 사전으로 사용하여 Aspell의 교정능력 수준에서 학생답안의 미등록어와 고유명사목록의 단어를 비교하여 고유명사 여부를 판별한다.
중⋅고등학생들을 대상으로 한 단문형 영어작문 시험의 데이터를 이용하여 분류기의 성능을 평가하기 위한 실험을 수행하였다.
실험을 위해 영어권 사용자가 사용할 수 있는 비속어와 한국어 비속어 및 그 비속어들의 변형 형태를 각각 110개, 154개 수집하였다. 한국어 비속어의 경우 수집한 한국어 비속어를 한글-로마자변환규칙에 따라 로마자로 변환하여 비속어 검출을 수행하였다. 실험결과는 Table 9과 같다.

대상 데이터

본 논문에서 연구하는 분류기가 사용되는 시험은 중⋅고등학교 학생을 대상으로 하는 시험이다.
비속어 검출을 위하여 영어 비속어 126개와 한국어 비속어 1,990개를 수집하였다. 한국어 비속어의 경우 인터넷 게시판에서 사용되는 금지어 목록을 수집하고 이중 자주 쓰이는 한국어 비속어를 골라내었다.
실험을 위해 영어권 사용자가 사용할 수 있는 비속어와 한국어 비속어 및 그 비속어들의 변형 형태를 각각 110개, 154개 수집하였다. 한국어 비속어의 경우 수집한 한국어 비속어를 한글-로마자변환규칙에 따라 로마자로 변환하여 비속어 검출을 수행하였다.
중⋅고등학생들을 대상으로 한 단문형 영어작문 시험의 데이터를 이용하여 분류기의 성능을 평가하기 위한 실험을 수행하였다. 총 1,209개의 학생 답안에서 발생한 1,212개의 미등록어에 대해, 본 논문의 분류기의 분류 결과와 사람의 분류 결과를 비교하는 실험을 수행했다.

이론/모형

그렇기 때문에 본 논문의 미등록어 분류기는 전체 자동채점 과정에서 중요한 역할을 한다. 미등록어 분류기의 기본 동작은 영어권 철자교정기에 많이 사용되고 있는 Aspell 철자교정기의 기능을 이용하여 수행하였다.
본 논문의 분류기는 기존에 유닉스 시스템에서 철자교정기로 많이 사용되고 있는 Aspell[3]을 활용하고 있다. Aspell은 Metaphone 알고리즘[4]을 이용하여 발음을 기반으로 한 철자 교정 작업을 수행한다.

성능/효과

이를 위해 7가지의 미등록어 유형을 정의하고 각 유형에 대한 검출 방법을 소개하였다. 그 결과 미등록어의 유형에 대한 92.4%의 분류 정확도와 89.4%의 복원 정확도를 보였다.
본 논문에서 구현한 미등록어 분류기의 주요 특징은 정확한 비속어 검출에 있다. 비속어는 영작문 점수에 큰 영향을 줄 수 있기 때문에 신중하고 정확히 검출되어야 한다.
실험 결과 중 기타유형 대한 분류 정확도가 다른 항목에 비해 낮았는데, 이는 사전미등록어를 구분하는 별도의 방법 없이 앞서 분류되지 않은 것을 기타유형으로 분류하는 데서 기인한다고 볼 수 있다. 기타유형 미등록어의 보다 정확한 판별은 향후 연구 과제로 남아 있다.
실험 결과를 살펴보면, 철자오류에서 분류오류나 복원오류로 잘못 분류되는 경우들에는 “ah-ha”를 “ahead”로, “Heiioa”를 “Hero”로 복원하는 것 같이 2 edit distance를 갖는 단어를 잘못 복원하는 경우들이 보였다.
실험결과 미등록어로 분류된 1,212개의 단어에 대해 약 92.4%의 분류 정확도와 89.4%의 복원 정확도를 보였다. 고유명사나, 노이즈, 대/소문자 오류 같은 경우에는 분류 정확도가 높았지만, 기타유형 판별에 있어서는 낮은 정확도를 보였다.
하지만 답안을 작성할 때 나타날 수 있는 변형은 다양하다. 실험결과를 보면 어느 정도 단어의 변형에 대해 대응이 가능함을 보였다. 이전에 비속어검출에 관한 공개된 실험결과를 논문의 저자가 아는 수준에서는 발견하지 못하였으므로 다른 실험의 방법과 결과에 대한 엄밀한 비교가 어렵다.

후속연구

기타유형 미등록어의 보다 정확한 판별은 향후 연구 과제로 남아 있다. 또한 각 오류 유형의 검출 단계에 맞는 적절한 유사어 검출 방법을 적용하여 검출 성능을 향상 시킬 수 있을 것으로 생각한다.
본 논문에서 소개한 미등록어 자동 분류기는 향후 학생 영어 시험뿐만 아니라 사전을 재정의 함으로써 성인이나 기타 다양한 목적을 가진 영어 능력평가 자동채점 시스템이나 SNS, 대화 시스템 등의 다양한 응용의 미등록어 자동 분류기로 확장할 수 있다. 이를 위하여 적절한 사전 정의 방식과 데이터 수집, 분류 기법의 지속적인 연구를 필요로 한다.
본 논문에서 소개한 미등록어 자동 분류기는 향후 학생 영어 시험뿐만 아니라 사전을 재정의 함으로써 성인이나 기타 다양한 목적을 가진 영어 능력평가 자동채점 시스템이나 SNS, 대화 시스템 등의 다양한 응용의 미등록어 자동 분류기로 확장할 수 있다. 이를 위하여 적절한 사전 정의 방식과 데이터 수집, 분류 기법의 지속적인 연구를 필요로 한다. 본 논문의 미등록어 분류기는 이러한 발전을 위한 시스템 구현과 실제 적용 사례로 그 의의가 있다.
이전에 비속어검출에 관한 공개된 실험결과를 논문의 저자가 아는 수준에서는 발견하지 못하였으므로 다른 실험의 방법과 결과에 대한 엄밀한 비교가 어렵다. 하지만 임의로 수집된 비속어에 대한 분류 실험에서 사전의 질에 전적으로 의지하는 정확검출보다 단어의 변화에 대처하는 변형검출의 결과가 더 좋은 것을 보아, 분류기가 적용되는 시점에서 응시생들의 수준을 고려하여 적절한 비속어 사전을 구축할 수 있다면 실제 시험에서의 비속어 검출에 충분히 적용할 수 있을 것이다.

핵심어	질문	논문에서 추출한 답변
	본 논문에서 제안한 미등록어 분류기의 특징은 무엇인가?	1) 입력된 미등록어를 7가지 유형으로 분류 2) 중⋅고등학교 학생들의 어휘수준을 고려 3) 비속어에 대한 강력한 검출 4) Aspell을 이용한 시스템 구성
	본 논문에서 제안한 미등록어 분류기는 어떻게 비속어 검출을 수행하는가?	1) 비속어 사전의 단어와 일치여부 (Fig. 2의 2단계) 2) 비속어 사전의 단어와 edit distance 차이 비교 (Fig. 2의 6단계) 3) 단어 내의 substring으로 포함된 비속어 검출 (Fig. 2의 7단계)
	본 논문에서 제안한 미등록어 분류기는 미등록어를 어떻게 분류하는가?	본 논문의 분류기는 입력으로 들어온 미등록어를 7가지 유형(철자오류, 대소문자오류, 공백오류, 고유명사, 비속어, 노이즈단어, 기타)으로 분류한다. 분류된 미등록어와 그 유형은 자동채점 단계에서 채점요소로 각 유형별로 다르게 반영된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

영작문 자동평가를 위한 비속어 검출과 미등록어 분류
Swear Word Detection and Unknown Word Classification for Automatic English Writing Assessment 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (7)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

영작문 자동평가를 위한 비속어 검출과 미등록어 분류 Swear Word Detection and Unknown Word Classification for Automatic English Writing Assessment 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (7)

이 논문을 인용한 문헌

저자의 다른 논문 :

이경호 (6) 이공주 (40)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

영작문 자동평가를 위한 비속어 검출과 미등록어 분류
Swear Word Detection and Unknown Word Classification for Automatic English Writing Assessment 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper