학생 필자에게 양질의 논증 피드백을 제공하는 것은 매우 중요하다. 그러나 우리의 교육 여건 상, 학생 필자가 자신의 글쓰기 결과물에 대해 충분한 피드백을 제공받기는 매우 어렵다. 이에 대한 대안으로 국외에서는 일찍이 논증적 글쓰기 과제를 비롯한 글쓰기 자동 채점 시스템 개발을 위한 연구가 이루어져왔다. 그러나 교사 채점자를 대체하려는 목적에 따라 설계된 이들 시스템은 교사 채점자와 협업하여 채점을 수행해야 하는 일반의 교실 상황에서는 효과적으로 기능하기 어렵다는 한계가 있다. 이러한 문제 인식에 기초하여 본 연구에서는 논증적 글쓰기 채점 과제를 대상으로 교사 채점자와 기계 채점자의 협업적 채점 수행 모델을 기반으로한 새로운 형태의 자동 채점 방안을 제안하고 효과성을 검증하고자 하였다. 연구는 크게 세 단계로 이루어져 있다. 첫 번째 단계에서는 논증적 글쓰기 채점 과정에서 교사 채점자가 경험하는 ...
학생 필자에게 양질의 논증 피드백을 제공하는 것은 매우 중요하다. 그러나 우리의 교육 여건 상, 학생 필자가 자신의 글쓰기 결과물에 대해 충분한 피드백을 제공받기는 매우 어렵다. 이에 대한 대안으로 국외에서는 일찍이 논증적 글쓰기 과제를 비롯한 글쓰기 자동 채점 시스템 개발을 위한 연구가 이루어져왔다. 그러나 교사 채점자를 대체하려는 목적에 따라 설계된 이들 시스템은 교사 채점자와 협업하여 채점을 수행해야 하는 일반의 교실 상황에서는 효과적으로 기능하기 어렵다는 한계가 있다. 이러한 문제 인식에 기초하여 본 연구에서는 논증적 글쓰기 채점 과제를 대상으로 교사 채점자와 기계 채점자의 협업적 채점 수행 모델을 기반으로한 새로운 형태의 자동 채점 방안을 제안하고 효과성을 검증하고자 하였다. 연구는 크게 세 단계로 이루어져 있다. 첫 번째 단계에서는 논증적 글쓰기 채점 과정에서 교사 채점자가 경험하는 인지 부하 요인을 도출하고 이를 바탕으로 한 협업적 채점 수행 모델을 제안하였다. 이에 경력 10년차 내외의 현직 국어교사 10인을 대상으로 고등학생 2학년이 작성한 논증문 20편을 컴퓨터 기반의 채점 프로그램을 활용하여 채점하도록 한 뒤, 사후 설문조사와 인터뷰를 통해 논증적 글쓰기 채점 과정의 인지 부하 요인과 인지적 보조 요구를 도출하였다. 연구 결과, 논증적 글쓰기 채점 과정에서 채점자의 인지 부하 요인은 총 5가지로 (1)‘채점 기준 재확인 과정에서의 인지 부하’, (2)‘이전 채점 결과의 확인 및 비교 과정에서의 인지 부하’, (3)‘유사한 내용(핵심주장, 주장, 근거)의 반복적인 읽기 상황에서의 인지 부하’, (4)‘자료 글과 학생 글의 대조 과정에서의 인지 부하’, (5)‘글의 표현 측면에 대한 동시적 평가 요구로 인한 인지 부하’ 등이다. 이후 도출된 인지 부하 요인을 경감시키기 위해 제안된 자동 채점 기능은 총 9가지로 (1)‘채점 중 수준 진술문 동시 노출 기능’과 (2)‘비슷한 수준의 글 검색 기능’, (3)‘핵심 주장 탐지 기능’, (4)‘주요 근거 탐지 기능’, (5)‘자료 글 활용 탐지 기능’, (6)‘어휘 다양성 지수 산출 기능’, (7)‘중복 표현 탐지 기능’, (8)‘맞춤법 등 어문 규범에 어긋난 표현 탐지 기능’, (9)‘맞춤법 등 어문 규범에 어긋난 표현 교정 기능’ 등이다. 이후 이상의 자동 채점 기능을 바탕으로 논증적 글쓰기 과제에 대한 교사 채점자와 기계 채점자의 협업적 채점 수행 모델을 도출하였다. 두 번째 단계에서는 앞서 제안된 자동 채점 기능을 딥러닝 자연어 처리 기법 등의 알고리즘을 활용하여 구현하였다. 이에 (1)‘채점 중 수준 진술문 동시 노출 기능’은 관련 평가 기준의 수준 진술문 데이터를 조회하여 노출하도록 하는 알고리즘으로 구현되었으며, (2)‘비슷한 수준 글 검색 기능’의 경우, 동일한 수준으로 평가했던 글을 찾아 보여주도록 하는 알고리즘으로 구현되었으며, (3)‘핵심 주장 탐지 기능’은 CNN 모델을 기반으로 핵심 주장과 주요 근거에 해당하는 문장을 탐지하고 학생 글 노출 영역에 해당 문장을 별도의 색상으로 강조 표시하도록, (4)'주요 근거 탐지 기능'은 BERT를 기반으로 핵심 주장과 주요 근거에 해당하는 문장을 탐지하고 해당 문장을 별도의 색상으로 강조 표시하도록, (5)‘자료 글 활용 탐지 기능’은 3-gram 분석 및 pororo의 개체명 인식모듈을 활용하여 주어진 자료 글을 그대로 가져온 부분을 탐지하여 강조 표시하도록, (6)‘어휘 다양성 지수 산출 기능’은 TTR(Type-Token Ratio) 지수를 노출하도록, (7)‘중복 표현 탐지 기능’은 mecab 형태소 분석기와 6-gram 분석을 통해 학생 글 내에서 중복되어 사용된 표현을 탐지하여 강조 표시하도록, (8)‘맞춤법 등 어문 규범에 어긋난 표현 교정 기능’은 네이버 맞춤법 검사기를 활용하여 학생 글에서 표현 오류를 교정하도록, (9)‘맞춤법 등 어문 규범에 어긋난 표현 탐지 기능’ 교정이 이루어진 영역을 오류 유형에 따라 별도의 색상으로 강조 표시하도록 하는 알고리즘으로 구현되었다. 세 번째 단계는 협업적 채점 수행 모델의 효과성을 검증하는 단계이다. 이 단계에서는 구현한 자동 채점 기능을 활용하여 교사 채점자가 채점을 수행하도록 하고 자동 채점 기능의 활용도와 더불어 교사 채점자의 채점 수행의 향상도를 확인한다. 이를 위해 앞서 사용한 것과 동일한 컴퓨터 기반의 채점 프로그램에 9가지 자동 채점 기능을 탑재하여, 현직 국어교사 8인을 대상으로 해당 채점 프로그램을 활용하여 채점을 수행(협업 채점)하도록 했다. 이전 연구 단계에서 교사 채점자가 단독으로 채점을 수행(단독 채점)했을 때와 같은 종류의 채점 과제를 제시하고 이 둘을 비교 분석하였다. 분석 대상은 채점 프로그램 상의 로그(log) 기록과 교사 채점자의 평정 점수, 교사 채점자가 기록한 채점 근거, 설문 및 인터뷰 결과 등이다. 자동 채점 기능의 활용도를 분석한 결과, (1)‘채점 중 수준 진술문 동시 노출 기능’의 경우, 채점자들은 해당 기능을 유용하게 활용한 것으로 나타났으며, 대체로 ‘매우 유용하다’(M=4.9, SD=0.3)고 평가하였다, (2)‘비슷한 수준 글 찾기 기능’의 경우, 채점자들은 대체로 ‘유용하다’(M=3.8, SD=0.3)고 평가하였다. (3)‘핵심 주장 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘주장의 명료성’ 기준을 채점하는 과정에 활용하였으며 대체로 ‘매우 유용하다’(M=4.9, SD=0.3)고 평가하였다. (4)‘주요 근거 탐지 기능’의 경우, 채점자들은 해당 기능을 ‘근거의 관련성’ 기준과 ‘논증의 타당성’ 기준을 채점하는 데에 활용하였으며 대체로 ‘매우 유용하다’(M=4.3, SD=1.1)고 평가하였다. (5)‘자료 글 활용 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘자료 활용의 효과성’ 기준을 채점하는 데에 활용하였으며 대체로 ‘유용하다’(M=3.9, SD=1.8)고 평가하였다. (6)‘어휘 다양성 지수 산출 기능’의 경우 다수 채점자들은 해당 기능을 ‘어휘의 다양성’ 기준을 채점하는 과정에서 활용하였으며 대체로 ‘매우 유용하다’(M=4.4, SD=1.4)고 평가하였다. (7)‘중복 표현 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘어휘의 다양성’ 기준의 채점 과정에서 활용하였고, 대체로 ‘매우 유용하다’(M=4.5, SD=1.4)고 평가하였다. (8)‘맞춤법 등 어문 규범에 어긋난 표현 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘어법의 정확성’ 기준을 채점하는 과정에서 활용하였으며 평균적으로 ‘매우 유용하다’(M=4.3, SD=1.0)고 평가하였다. (9)‘맞춤법 등 어문 규범에 어긋난 표현 교정 기능’의 경우, 다수 채점자들은 해당 기능을 활용하였으며 평균적으로 ‘매우 유용하다’(M=3.9, SD=1.2)고 평가하였다. 다음으로는 협업 채점 상황에서 교사 채점자의 채점 수행 향상도를 분석하였다. 채점 수행 향상도는 채점 신뢰도, 채점 시간, 채점 근거의 양적 질적 수준 측면 등을 비교 분석하였다. 먼저, 채점 신뢰도를 분석한 결과, 부분 일치도는 소폭 감소하였음에도 불구하고 Fleiss Kappa 계수와 완전 일치도를 기준으로 신뢰도가 향상되어 자동 채점 기능이 교사 채점자의 채점 신뢰도 향상에 효과적인 것으로 나타났다. 채점 시간을 분석한 결과, 협업 채점 상황에서 채점에 소요된 시간이 유의한 수준에서 단축된 것으로 나타났으며, 평균 34.2분, 많게는 90.2분까지 채점 시간이 단축되었다. 채점 기준별로는 ‘주장의 명료성’ 기준과 ‘자료 활용의 효과성’ 기준에서 유의한 수준의 단축이 관찰되었다. 채점 근거의 양적 수준을 분석한 결과, 협업 채점 상황에서 채점 근거의 양적 수준이 유의한 수준에서 향상되었다. 채점 기준별로는 ‘근거의 관련성’, ‘논증의 타당성’, ‘자료 활용의 효과성’, ‘어휘 사용의 다양성’, ‘어법의 정확성’에서 유의한 상승이 나타났으며 이들은 채점자들이 자동 텍스트 분석 기능을 활용한 채점 기준이었다는 점에서 주목할 만하다. 채점 근거의 양적 수준을 분석한 결과, 협업 채점 상황에서 채점 근거의 질적 수준이 유의한 수준에서 향상되었다. 전반적으로 상 수준의 채점 근거에 유의한 수준으로 증가하였고, 하 수준의 채점 근거는 유의한 수준에서 감소하거나 유의한 차이가 없었다. 이는 교사 채점자가 하 수준 보다는 상 수준의 채점 근거를 토대로 채점을 수행하게 되었음을 의미한다. 이상의 내용을 종합해볼 때 본 연구에서 설계한 협업적 채점 수행 모델을 기반으로한 자동 채점 방안은 타당한 것으로 나타났다. 이 연구는 논증적 글쓰기 과제라는 구체적인 글쓰기 과제를 대상으로 대안적 형태의 자동 채점 방안을 제안하고 효과성을 검증했다는 점, 교사 채점자의 채점 과정을 효과적으로 지원하는 협업적 채점 수행 모델을 제안했다는 점, 향후 교실 단위의 글쓰기 평가 상황에서 활용 가능한 자동 채점 모델의 일부를 검증했다는 점에서 의의가 있다.
학생 필자에게 양질의 논증 피드백을 제공하는 것은 매우 중요하다. 그러나 우리의 교육 여건 상, 학생 필자가 자신의 글쓰기 결과물에 대해 충분한 피드백을 제공받기는 매우 어렵다. 이에 대한 대안으로 국외에서는 일찍이 논증적 글쓰기 과제를 비롯한 글쓰기 자동 채점 시스템 개발을 위한 연구가 이루어져왔다. 그러나 교사 채점자를 대체하려는 목적에 따라 설계된 이들 시스템은 교사 채점자와 협업하여 채점을 수행해야 하는 일반의 교실 상황에서는 효과적으로 기능하기 어렵다는 한계가 있다. 이러한 문제 인식에 기초하여 본 연구에서는 논증적 글쓰기 채점 과제를 대상으로 교사 채점자와 기계 채점자의 협업적 채점 수행 모델을 기반으로한 새로운 형태의 자동 채점 방안을 제안하고 효과성을 검증하고자 하였다. 연구는 크게 세 단계로 이루어져 있다. 첫 번째 단계에서는 논증적 글쓰기 채점 과정에서 교사 채점자가 경험하는 인지 부하 요인을 도출하고 이를 바탕으로 한 협업적 채점 수행 모델을 제안하였다. 이에 경력 10년차 내외의 현직 국어교사 10인을 대상으로 고등학생 2학년이 작성한 논증문 20편을 컴퓨터 기반의 채점 프로그램을 활용하여 채점하도록 한 뒤, 사후 설문조사와 인터뷰를 통해 논증적 글쓰기 채점 과정의 인지 부하 요인과 인지적 보조 요구를 도출하였다. 연구 결과, 논증적 글쓰기 채점 과정에서 채점자의 인지 부하 요인은 총 5가지로 (1)‘채점 기준 재확인 과정에서의 인지 부하’, (2)‘이전 채점 결과의 확인 및 비교 과정에서의 인지 부하’, (3)‘유사한 내용(핵심주장, 주장, 근거)의 반복적인 읽기 상황에서의 인지 부하’, (4)‘자료 글과 학생 글의 대조 과정에서의 인지 부하’, (5)‘글의 표현 측면에 대한 동시적 평가 요구로 인한 인지 부하’ 등이다. 이후 도출된 인지 부하 요인을 경감시키기 위해 제안된 자동 채점 기능은 총 9가지로 (1)‘채점 중 수준 진술문 동시 노출 기능’과 (2)‘비슷한 수준의 글 검색 기능’, (3)‘핵심 주장 탐지 기능’, (4)‘주요 근거 탐지 기능’, (5)‘자료 글 활용 탐지 기능’, (6)‘어휘 다양성 지수 산출 기능’, (7)‘중복 표현 탐지 기능’, (8)‘맞춤법 등 어문 규범에 어긋난 표현 탐지 기능’, (9)‘맞춤법 등 어문 규범에 어긋난 표현 교정 기능’ 등이다. 이후 이상의 자동 채점 기능을 바탕으로 논증적 글쓰기 과제에 대한 교사 채점자와 기계 채점자의 협업적 채점 수행 모델을 도출하였다. 두 번째 단계에서는 앞서 제안된 자동 채점 기능을 딥러닝 자연어 처리 기법 등의 알고리즘을 활용하여 구현하였다. 이에 (1)‘채점 중 수준 진술문 동시 노출 기능’은 관련 평가 기준의 수준 진술문 데이터를 조회하여 노출하도록 하는 알고리즘으로 구현되었으며, (2)‘비슷한 수준 글 검색 기능’의 경우, 동일한 수준으로 평가했던 글을 찾아 보여주도록 하는 알고리즘으로 구현되었으며, (3)‘핵심 주장 탐지 기능’은 CNN 모델을 기반으로 핵심 주장과 주요 근거에 해당하는 문장을 탐지하고 학생 글 노출 영역에 해당 문장을 별도의 색상으로 강조 표시하도록, (4)'주요 근거 탐지 기능'은 BERT를 기반으로 핵심 주장과 주요 근거에 해당하는 문장을 탐지하고 해당 문장을 별도의 색상으로 강조 표시하도록, (5)‘자료 글 활용 탐지 기능’은 3-gram 분석 및 pororo의 개체명 인식 모듈을 활용하여 주어진 자료 글을 그대로 가져온 부분을 탐지하여 강조 표시하도록, (6)‘어휘 다양성 지수 산출 기능’은 TTR(Type-Token Ratio) 지수를 노출하도록, (7)‘중복 표현 탐지 기능’은 mecab 형태소 분석기와 6-gram 분석을 통해 학생 글 내에서 중복되어 사용된 표현을 탐지하여 강조 표시하도록, (8)‘맞춤법 등 어문 규범에 어긋난 표현 교정 기능’은 네이버 맞춤법 검사기를 활용하여 학생 글에서 표현 오류를 교정하도록, (9)‘맞춤법 등 어문 규범에 어긋난 표현 탐지 기능’ 교정이 이루어진 영역을 오류 유형에 따라 별도의 색상으로 강조 표시하도록 하는 알고리즘으로 구현되었다. 세 번째 단계는 협업적 채점 수행 모델의 효과성을 검증하는 단계이다. 이 단계에서는 구현한 자동 채점 기능을 활용하여 교사 채점자가 채점을 수행하도록 하고 자동 채점 기능의 활용도와 더불어 교사 채점자의 채점 수행의 향상도를 확인한다. 이를 위해 앞서 사용한 것과 동일한 컴퓨터 기반의 채점 프로그램에 9가지 자동 채점 기능을 탑재하여, 현직 국어교사 8인을 대상으로 해당 채점 프로그램을 활용하여 채점을 수행(협업 채점)하도록 했다. 이전 연구 단계에서 교사 채점자가 단독으로 채점을 수행(단독 채점)했을 때와 같은 종류의 채점 과제를 제시하고 이 둘을 비교 분석하였다. 분석 대상은 채점 프로그램 상의 로그(log) 기록과 교사 채점자의 평정 점수, 교사 채점자가 기록한 채점 근거, 설문 및 인터뷰 결과 등이다. 자동 채점 기능의 활용도를 분석한 결과, (1)‘채점 중 수준 진술문 동시 노출 기능’의 경우, 채점자들은 해당 기능을 유용하게 활용한 것으로 나타났으며, 대체로 ‘매우 유용하다’(M=4.9, SD=0.3)고 평가하였다, (2)‘비슷한 수준 글 찾기 기능’의 경우, 채점자들은 대체로 ‘유용하다’(M=3.8, SD=0.3)고 평가하였다. (3)‘핵심 주장 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘주장의 명료성’ 기준을 채점하는 과정에 활용하였으며 대체로 ‘매우 유용하다’(M=4.9, SD=0.3)고 평가하였다. (4)‘주요 근거 탐지 기능’의 경우, 채점자들은 해당 기능을 ‘근거의 관련성’ 기준과 ‘논증의 타당성’ 기준을 채점하는 데에 활용하였으며 대체로 ‘매우 유용하다’(M=4.3, SD=1.1)고 평가하였다. (5)‘자료 글 활용 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘자료 활용의 효과성’ 기준을 채점하는 데에 활용하였으며 대체로 ‘유용하다’(M=3.9, SD=1.8)고 평가하였다. (6)‘어휘 다양성 지수 산출 기능’의 경우 다수 채점자들은 해당 기능을 ‘어휘의 다양성’ 기준을 채점하는 과정에서 활용하였으며 대체로 ‘매우 유용하다’(M=4.4, SD=1.4)고 평가하였다. (7)‘중복 표현 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘어휘의 다양성’ 기준의 채점 과정에서 활용하였고, 대체로 ‘매우 유용하다’(M=4.5, SD=1.4)고 평가하였다. (8)‘맞춤법 등 어문 규범에 어긋난 표현 탐지 기능’의 경우, 다수 채점자들은 해당 기능을 ‘어법의 정확성’ 기준을 채점하는 과정에서 활용하였으며 평균적으로 ‘매우 유용하다’(M=4.3, SD=1.0)고 평가하였다. (9)‘맞춤법 등 어문 규범에 어긋난 표현 교정 기능’의 경우, 다수 채점자들은 해당 기능을 활용하였으며 평균적으로 ‘매우 유용하다’(M=3.9, SD=1.2)고 평가하였다. 다음으로는 협업 채점 상황에서 교사 채점자의 채점 수행 향상도를 분석하였다. 채점 수행 향상도는 채점 신뢰도, 채점 시간, 채점 근거의 양적 질적 수준 측면 등을 비교 분석하였다. 먼저, 채점 신뢰도를 분석한 결과, 부분 일치도는 소폭 감소하였음에도 불구하고 Fleiss Kappa 계수와 완전 일치도를 기준으로 신뢰도가 향상되어 자동 채점 기능이 교사 채점자의 채점 신뢰도 향상에 효과적인 것으로 나타났다. 채점 시간을 분석한 결과, 협업 채점 상황에서 채점에 소요된 시간이 유의한 수준에서 단축된 것으로 나타났으며, 평균 34.2분, 많게는 90.2분까지 채점 시간이 단축되었다. 채점 기준별로는 ‘주장의 명료성’ 기준과 ‘자료 활용의 효과성’ 기준에서 유의한 수준의 단축이 관찰되었다. 채점 근거의 양적 수준을 분석한 결과, 협업 채점 상황에서 채점 근거의 양적 수준이 유의한 수준에서 향상되었다. 채점 기준별로는 ‘근거의 관련성’, ‘논증의 타당성’, ‘자료 활용의 효과성’, ‘어휘 사용의 다양성’, ‘어법의 정확성’에서 유의한 상승이 나타났으며 이들은 채점자들이 자동 텍스트 분석 기능을 활용한 채점 기준이었다는 점에서 주목할 만하다. 채점 근거의 양적 수준을 분석한 결과, 협업 채점 상황에서 채점 근거의 질적 수준이 유의한 수준에서 향상되었다. 전반적으로 상 수준의 채점 근거에 유의한 수준으로 증가하였고, 하 수준의 채점 근거는 유의한 수준에서 감소하거나 유의한 차이가 없었다. 이는 교사 채점자가 하 수준 보다는 상 수준의 채점 근거를 토대로 채점을 수행하게 되었음을 의미한다. 이상의 내용을 종합해볼 때 본 연구에서 설계한 협업적 채점 수행 모델을 기반으로한 자동 채점 방안은 타당한 것으로 나타났다. 이 연구는 논증적 글쓰기 과제라는 구체적인 글쓰기 과제를 대상으로 대안적 형태의 자동 채점 방안을 제안하고 효과성을 검증했다는 점, 교사 채점자의 채점 과정을 효과적으로 지원하는 협업적 채점 수행 모델을 제안했다는 점, 향후 교실 단위의 글쓰기 평가 상황에서 활용 가능한 자동 채점 모델의 일부를 검증했다는 점에서 의의가 있다.
주제어
#논증적 글쓰기 자동 채점 협업 모델 채점자 인지 과정 채점자 인지 부하 딥러닝 자연어처리 기법 인지공학적 설계
학위논문 정보
저자
김승주
학위수여기관
한국교원대학교 대학원
학위구분
국내박사
학과
국어교육학과 국어교육전공
발행연도
2022
총페이지
xii, 245 p
키워드
논증적 글쓰기 자동 채점 협업 모델 채점자 인지 과정 채점자 인지 부하 딥러닝 자연어처리 기법 인지공학적 설계
※ AI-Helper는 부적절한 답변을 할 수 있습니다.