한국 예비 대학생의 영어 사용 특성 파악을 위한 대규모 공개 영어 학습자 코퍼스 구축 및 분석 Compilation of the Yonsei English Learner Corpus (YELC) 2011 and Its Use for Understanding Current Usage of English by Korean Pre-university Students원문보기
최근 영어 학습자 코퍼스(English learner corpus)를 활용하여 다양한 영어 교육 분야에 활용하는 시도가 이뤄지고 있다. 하지만 지금까지 국내에서 개발된 대다수 영어 학습자 코퍼스는 소규모이거나 공개가 되지 않아 공익을 위한 영어 교육 콘텐츠로서의 적절한 역할을 하지 못하고 있다. 본 연구에서는 국내외 영어 학습자 코퍼스 구축 현황을 살펴보고 대규모 공개 한국인 영어 학습자 코퍼스의 필요성을 논의한다. 또한, 이와 같은 필요성을 바탕으로 1백만 단어 이상으로 만들어진 대규모 공개 한국인 영어 학습자 코퍼스 구축과정과 결과를 분석하여 예비 대학생의 영어사용 특성을 파악하고 이를 영어 교육 개선을 위해 활용할 수 있는 방안을 제안한다.
최근 영어 학습자 코퍼스(English learner corpus)를 활용하여 다양한 영어 교육 분야에 활용하는 시도가 이뤄지고 있다. 하지만 지금까지 국내에서 개발된 대다수 영어 학습자 코퍼스는 소규모이거나 공개가 되지 않아 공익을 위한 영어 교육 콘텐츠로서의 적절한 역할을 하지 못하고 있다. 본 연구에서는 국내외 영어 학습자 코퍼스 구축 현황을 살펴보고 대규모 공개 한국인 영어 학습자 코퍼스의 필요성을 논의한다. 또한, 이와 같은 필요성을 바탕으로 1백만 단어 이상으로 만들어진 대규모 공개 한국인 영어 학습자 코퍼스 구축과정과 결과를 분석하여 예비 대학생의 영어사용 특성을 파악하고 이를 영어 교육 개선을 위해 활용할 수 있는 방안을 제안한다.
In recent years, researchers have become increasingly interested in the creation and pedagogical use of English learner corpora. Many studies have shown that learner corpora can not only make a significant contribution to second language acquisition research but also contribute to the construction a...
In recent years, researchers have become increasingly interested in the creation and pedagogical use of English learner corpora. Many studies have shown that learner corpora can not only make a significant contribution to second language acquisition research but also contribute to the construction and evaluation of language tests by advancing our understanding of English learners. So far, however, little attention has been paid to the Korean EFL (English as a foreign language) learners' corpus. The Yonsei English Learner Corpus (YELC 2011) is a specialized, monolingual, and synchronic Korean EFL learner corpus that was developed by Yonsei University from 2011 to 2012. Over 3,000 Korean high school graduates (or equivalents) who were accepted by Yonsei University for their further studies participated in this project. It consists of 6,572 written texts (1,085,828 words) at nine different English proficiency levels. In this paper, we describe its compilation, and more specifically, how we have corpusized from a text archive to a corpus. After introducing the process of corpusization, we report arresting insights into the specific linguistic features that different proficiency levels of Korean learners of English have. This study also discusses the potential use of the YELC 2011 which is now freely available for research purposes.
In recent years, researchers have become increasingly interested in the creation and pedagogical use of English learner corpora. Many studies have shown that learner corpora can not only make a significant contribution to second language acquisition research but also contribute to the construction and evaluation of language tests by advancing our understanding of English learners. So far, however, little attention has been paid to the Korean EFL (English as a foreign language) learners' corpus. The Yonsei English Learner Corpus (YELC 2011) is a specialized, monolingual, and synchronic Korean EFL learner corpus that was developed by Yonsei University from 2011 to 2012. Over 3,000 Korean high school graduates (or equivalents) who were accepted by Yonsei University for their further studies participated in this project. It consists of 6,572 written texts (1,085,828 words) at nine different English proficiency levels. In this paper, we describe its compilation, and more specifically, how we have corpusized from a text archive to a corpus. After introducing the process of corpusization, we report arresting insights into the specific linguistic features that different proficiency levels of Korean learners of English have. This study also discusses the potential use of the YELC 2011 which is now freely available for research purposes.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이러한 점에 착안하여, 본 연구에서는 국내 한 4년제 대학교 입학예정자들이 생산한 텍스트를 기반으로 영어 학습자 3,286명이 기여한 대규모 공개 한국인 영어 문어 코퍼스인 연세 영어 학습자 코퍼스(Yonsei English Learner Corpus, YELC 2011)를 구축하고, 이를 기반으로 우리나라 예비 대학생의 전반적인 영어 사용 특성과 등급별 특성을 분석하고자 한다. 본 연구는 우리나라 최초의 대규모 공개 한국인 영어 학습자 코퍼스를 구축함으로써 대학에 입학하는 학생들의 영어 사용의 실태를 파악하고, 영어 원어민과 어떤 차이가 있는지 규명하고, 또한 영어 학습자 코퍼스를 공개함으로써 국내외 학자와 연구자들이 영어 학습자의 실물 자료를 바탕으로 폭넓게 영어 교육에 활용할 수 있는 토대를 마련하는데 그 의의가 있다.
이러한 점에 착안하여, 본 연구에서는 국내 한 4년제 대학교 입학예정자들이 생산한 텍스트를 기반으로 영어 학습자 3,286명이 기여한 대규모 공개 한국인 영어 문어 코퍼스인 연세 영어 학습자 코퍼스(Yonsei English Learner Corpus, YELC 2011)를 구축하고, 이를 기반으로 우리나라 예비 대학생의 전반적인 영어 사용 특성과 등급별 특성을 분석하고자 한다. 본 연구는 우리나라 최초의 대규모 공개 한국인 영어 학습자 코퍼스를 구축함으로써 대학에 입학하는 학생들의 영어 사용의 실태를 파악하고, 영어 원어민과 어떤 차이가 있는지 규명하고, 또한 영어 학습자 코퍼스를 공개함으로써 국내외 학자와 연구자들이 영어 학습자의 실물 자료를 바탕으로 폭넓게 영어 교육에 활용할 수 있는 토대를 마련하는데 그 의의가 있다.
제안 방법
LOCNESS는 미국과 영국 대학생 영어 원어민들의 작문과 영국 대학교 입학 준비생인 영어 원어민 학생들의 작문을 모두 포함한다. 따라서 본 연구에서는 연령대가 비슷한 영국 대학교 입학 준비생인 영어 원어민 학생들의 작문만 추출해서 LOCNESS-E라는 서브코퍼스 (sub-corpus)를 만들었고, LOCNESS-E를 YELC 2011과 비교했다. 워드스미스를 사용하여 LOCNESS-E를 YELC 2011과 같은 조건에서 STTR 값을 구했고, 그 값은 80.
마지막으로, 수험생의 입학예정학과와 개인신상을 추측할만한 의미를 담고 있던 응시자 번호를 무기명화 하는 작업을 진행했다. 저자들은 이를 위해 오픈 소스 파일 매니저 프로그램인 넥석스파일(NexusFile 5.
저자들은 이 엑셀 문서에 있는 학생들의 쓰기 결과를 코퍼스화하기 위해 각각의 쓰기 결과를 개별적인 텍스트 파일 형태로 만들었다. 이를 위해 마이크로소프트에서 개발한 노트패드(Notepad) 6.1 버전을 사용해서 엑셀 문서에 있는 3,563명의 쓰기 결과물 전체를 수작업으로 하나씩 개별 텍스트 파일로 만들었다. 그 결과 총 7,126개의 개별 텍스트 파일이 만들어졌고, 각 파일을 구별하기 위해 컴퓨터 하드드라이브에 편의상 YELC 2011_Part_01과 YELC 2011_Part_02라는 파일 폴더를 만든 후, 내부적으로 각 파일을 ‘수험번호_Writing Part’의 형식으로 이름 붙였다.
그 안에는 학생들의 기본 정보, 쓰기 결과물, 채점자, 채점결과 등이 각각의 셀에 독립적인 형태로 담겨 있다. 저자들은 이 엑셀 문서에 있는 학생들의 쓰기 결과를 코퍼스화하기 위해 각각의 쓰기 결과를 개별적인 텍스트 파일 형태로 만들었다. 이를 위해 마이크로소프트에서 개발한 노트패드(Notepad) 6.
대상 데이터
YELC 2011 구축에 사용된 실물 언어자료는 2011년 1월과 2월 사이에 시행된 YEPT 쓰기 시험에 참여한 총 3,563명의 응시자가 작성한 7,126개의 쓰기 결과물 중, 본 연구목적에 맞는 3,286명의 쓰기 결과 중 파트 2 와 3, 총 6,572개의 텍스트이다. 이 장에서는 이 같은 코퍼스 구축에 대한 실제 과정을 단계별로 알아본다.
마지막으로, 수험생의 입학예정학과와 개인신상을 추측할만한 의미를 담고 있던 응시자 번호를 무기명화 하는 작업을 진행했다. 저자들은 이를 위해 오픈 소스 파일 매니저 프로그램인 넥석스파일(NexusFile 5.3.1.5460)의 고급기능을 사용해서 최종 3,286명이 작성한 쓰기 결과물을 1번부터 3,286번까지 번호를 부여했고, 파트 1과 파트 2를 구분하기 위해 그 뒤에 파트 1인 경우 01, 파트 2인 경우 02를 붙였다. 예를 들어 1_01인 경우 학생 1번이 쓴 파트 1이고, 1_02는 학생 1번이 쓴 파트 2이다.
데이터처리
YELC 2011을 구성하는 텍스트의 등급별 어휘 분포를 분석하기 위해 무료 소프트웨어 AntWordProfiler 1.4.0w을 사용하였다[37]. AntWordProfiler 1.
이론/모형
YELC 2011을 구성하는 텍스트 분석을 위해 WordSmith Tools 6.0[33](이하 ‘워드스미스’)을 사용하였다.
YELC 2011의 STTR을 비교하기 위해 연령대가 비슷한 영어 원어민 코퍼스 중 하나인 Louvain Corpus of Native English Essays(LOCNESS)를 사용하였다[36]. LOCNESS는 미국과 영국 대학생 영어 원어민들의 작문과 영국 대학교 입학 준비생인 영어 원어민 학생들의 작문을 모두 포함한다.
성능/효과
이것은 등급이 올라갈수록 학생들이 쉬운 어휘 사용이 줄고 그보다 조금 어려운 어휘를 사용하고 있다는 것을 확인할 수 있다. AWL의 경우는 낮은 등급에서 높은 등급으로 갈수록 학생들이 일관되게 AWL 어휘목록에 포함된 어휘를 많이 사용하는 것으로 드러났다. 또한, GSL 1K+2K, AWL에 포함되지 않은 ‘Not in the list(NITL)’가 낮은 등급에서 높은 등급으로 갈수록 일관성 있게 줄어드는 경향도 볼 수 있는데, NITL에서 줄어든 비율은 등급이 올라갈수록 GSL 2K와 AWL의 비율로 상쇄되는 경향을 보였다
결과적으로 YELC 2011을 구성하는 텍스트는 영어 학습자의 쓰기에 직·간접적으로 영향을 줄 수 있는 일체의 도움 없이 그 자리에서 본인의 영어 쓰기 능력을 그대로 보여준다는 점에서 실제성이 있다고 할 수 있다.
그 결과 총 7,126개의 개별 텍스트 파일이 만들어졌고, 각 파일을 구별하기 위해 컴퓨터 하드드라이브에 편의상 YELC 2011_Part_01과 YELC 2011_Part_02라는 파일 폴더를 만든 후, 내부적으로 각 파일을 ‘수험번호_Writing Part’의 형식으로 이름 붙였다.
또한, GSL 1K+2K, AWL에 포함되지 않은 ‘Not in the list(NITL)’가 낮은 등급에서 높은 등급으로 갈수록 일관성 있게 줄어드는 경향도 볼 수 있는데, NITL에서 줄어든 비율은 등급이 올라갈수록 GSL 2K와 AWL의 비율로 상쇄되는 경향을 보였다
본 연구는 연구 목적으로 사용될 수 있는 대규모 개방형 한국인 영어 학습자 코퍼스를 구축하고, 이를 통해 직관이 아닌 예비 대학생이 작성한 실제 작문을 기반으로 영어능력 등급이 높은 학생일수록 문장을 만들 때 같은 단어의 반복적 사용을 자제하고 상대적으로 어렵고 다양한 단어를 사용하고 있음을 확인할 수 있었다. 또한, 영어능력 등급이 높은 학생일수록 한 문장을 만들 때 평균적으로 더 많은 단어를 사용하고 있다는 점도 연구를 통해 발견할 수 있었다. 본 연구를 통해 우리나라 예비 대학생들의 어휘의 다양성 측면을 비슷한 연령대의 영어 원어민 학생들이나 영국 대학교에 재학 중인 학생들과 비교했을 때 현저한 차이는 보이지 않는다는 것도 확인할 수 있었다
본 연구는 연구 목적으로 사용될 수 있는 대규모 개방형 한국인 영어 학습자 코퍼스를 구축하고, 이를 통해 직관이 아닌 예비 대학생이 작성한 실제 작문을 기반으로 영어능력 등급이 높은 학생일수록 문장을 만들 때 같은 단어의 반복적 사용을 자제하고 상대적으로 어렵고 다양한 단어를 사용하고 있음을 확인할 수 있었다. 또한, 영어능력 등급이 높은 학생일수록 한 문장을 만들 때 평균적으로 더 많은 단어를 사용하고 있다는 점도 연구를 통해 발견할 수 있었다.
또한, 영어능력 등급이 높은 학생일수록 한 문장을 만들 때 평균적으로 더 많은 단어를 사용하고 있다는 점도 연구를 통해 발견할 수 있었다. 본 연구를 통해 우리나라 예비 대학생들의 어휘의 다양성 측면을 비슷한 연령대의 영어 원어민 학생들이나 영국 대학교에 재학 중인 학생들과 비교했을 때 현저한 차이는 보이지 않는다는 것도 확인할 수 있었다
따라서 본 연구에서는 연령대가 비슷한 영국 대학교 입학 준비생인 영어 원어민 학생들의 작문만 추출해서 LOCNESS-E라는 서브코퍼스 (sub-corpus)를 만들었고, LOCNESS-E를 YELC 2011과 비교했다. 워드스미스를 사용하여 LOCNESS-E를 YELC 2011과 같은 조건에서 STTR 값을 구했고, 그 값은 80.77%로 나타났다. 앞서 언급한 BAWE의 경우 비록 연령대는 다르지만, 영국 대학교 재학생들의 B+ 이상을 받은 상위 과제물을 모은 코퍼스이다.
85단어가 사용된 것으로 나타났다. 참고로 LOCNESS-E는 한 문장당 평균 12.36단어, BAWE는 한 문장당 평균 22.55단어가 사용된 것으로 나타났다. 통계적인 숫자만 보면, 한국 예비 대학생이 비슷한 연령대의 영어 원어민보다 평균적으로 한 문장을 완성하기 위해 더 많은 단어를 사용하고 있음을 알 수 있다.
40%가 나온다. 통계적으로만 봤을 때, YELC 2011 기여자의 STTR은 비슷한 연령대의 영어 원어민 학생들보다는 약 5%가량 낮게 나오지만, 영국 대학교에 재학 중이던 대학생들의 STTR과는 3%의 차이를 보이는 것으로 나타났다.
55단어가 사용된 것으로 나타났다. 통계적인 숫자만 보면, 한국 예비 대학생이 비슷한 연령대의 영어 원어민보다 평균적으로 한 문장을 완성하기 위해 더 많은 단어를 사용하고 있음을 알 수 있다. YELC 2011과 LOCNESS-E 모두 BAWE와는 상당한 차이를 보이는데, BAWE는 최소 500단어에서 많은 것은 10,000단어와 참고문헌까지 들어간 학술 보고서를 다수 포함한 과제물로 이루어져 있기 때문이라고 추정할 수 있다.
후속연구
예를 들어 ‘한국인들은 관사를 자주 틀린다’는 통설을 실제 대규모 한국인 영어 학습자 코퍼스인 YELC 2011 을 통해 제한적으로나마 검증할 수 있다. 또한, YELC 2011을 이용해서 또래 영어 원어민 학생들보다 상대적으로 과도하게 사용하거나, 혹은 미흡하게 사용하는 표현들에 대한 비교 분석연구도 할 수 있다. 앞서 언급하였듯이 2012년 3월 31일 YELC 2011이 최초 공개된 이 후, 국내외 연구자들은 YELC 2011을 기반으로 L1과 L2 writing 비교, 제2언어 습득 관련 조동사 사용, 영어 교육과정 어휘와 비교연구 등의 주제를 갖고 학술지, 콘퍼런스 발표지, 학위논문, 서적 출간을 목표로 다양한 연구 분야에 활용하고 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
Sinclair는 코퍼스의 텍스트가 어떤 것이어야 한다고 했는가?
코퍼스(corpus)란, 기본적으로 텍스트화 된 언어의 모음을 의미한다. 하지만 Sinclair[1]은 이러한 텍스트가 단순히 텍스트가 아니라 우리가 자연스럽게 발화한 언어이어야 한다고 주장한다. 한편, O'Keeff, McCarthy 와 Carter[2]는 이러한 언어 모음이 종이 형태가 아니라 컴퓨터를 통해 읽을 수 있는 전산화 작업이 이뤄진 형태여야 한다며, 컴퓨터 발명 이후의 코퍼스에 의미를 새롭게 부여한다.
코퍼스는 무엇인가?
코퍼스(corpus)란, 기본적으로 텍스트화 된 언어의 모음을 의미한다. 하지만 Sinclair[1]은 이러한 텍스트가 단순히 텍스트가 아니라 우리가 자연스럽게 발화한 언어이어야 한다고 주장한다.
국내에서 개발된 대다수의 영어 학습자 코퍼스에서 문제점은 무엇인가?
최근 영어 학습자 코퍼스(English learner corpus)를 활용하여 다양한 영어 교육 분야에 활용하는 시도가 이뤄지고 있다. 하지만 지금까지 국내에서 개발된 대다수 영어 학습자 코퍼스는 소규모이거나 공개가 되지 않아 공익을 위한 영어 교육 콘텐츠로서의 적절한 역할을 하지 못하고 있다. 본 연구에서는 국내외 영어 학습자 코퍼스 구축 현황을 살펴보고 대규모 공개 한국인 영어 학습자 코퍼스의 필요성을 논의한다.
참고문헌 (41)
J. Sinclair, Corpus, concordance, collocation. Oxford: Oxford University Press, 1991.
A. O'Keefe, M. McCarthy, and R. Carter, From corpus to classroom: Language use and language teaching, Cambridge: Cambridge University Press, 2007.
S. Hunston, Corpora in applied linguistics, Cambridge: Cambridge University Press, 2002.
양옥렬, 강창규, 남명우, "대화형 코퍼스의 설계 및 구조적 문서화에 관한 연구", 한국콘텐츠학회논문지, 제4권, 제4호, pp.1-10, 2004.
하명정, "코퍼스에 기반한 문학텍스트 분석", 한국콘텐츠학회논문지, 제13권, 제9호, pp.447-447, 2013.
권혁승, 정채관, 코퍼스 언어학, 한국문화사, 2012.
H. Kucera and W. Francis, Computational analysis of present-day American English, Providence, R.I.: Brown University Press, 1967.
P. Crawford, B. Brian, and H. Kevin. In H. Hamilton, W. Y. Chou (eds.), The Routledge Handbook of Language and Health Communication, Abingdon, UK: Routledge, pp.75-90, 2014.
G. Kjellmer, A dictionary of English collocations based on the Brown Corpus, Oxford: Clarendon Press, 1994.
G. Leech, "100 million words of English: the British National Corpus (BNC)," Language Research, Vol.28, No.1, pp.1-13, 1992.
G. Leech, P. Rayson, and A. Wilson, Word frequencies in written and spoken English: Based on the British National Corpus, London: Longman, 2001.
P. Baker, A. Hardie, and T. McEnery, A glossary of corpus linguistics, Edinburgh: Edinburgh University Press, 2006.
S. Granger, The computer learner corpus: A versatile new source of data for SLA research, In S. Granger (ed.), Learner English on computer, Abingdon, UK: Routledge, pp.3-18, 2013.
C. James, Awareness, consciousness and language contrast. In. C. Mair, and M. Markus (eds.). Proceedings of the new departures in contrastive linguistics conference, Leopold - Franzens - University of Innsbruck, Austria, pp.183-197, 1992.
S. Granger, "The international corpus of learner English: A new resource for foreign language learning and teaching and second language acquisition research," TESOL Quarterly, Vol.37, pp.538-546, 2003.
P. Gillard and A. Gadsby, Using a learners' corpus in compiling ELT dictionaries, In S. Granger (ed.), Learner English on Computer, London: Longman, pp.159-171, 1998.
권혁승, "코퍼스 언어학의 실제 및 응용",응용언어학, 제24권, 제3호, pp.1-30, 2008.
J. M. Choi, Personal communication, September 24, 2011.
한나래, 이수화, "학습자 코퍼스를 이용한 영어 전치사 오류 교정 모델 개발", 언어학, 제53권, 제1호, pp.163-185, 2009.
N. R. Han, Personal communication, February 25, 2012.
H. S. Kwon, "The SNU Korean learner corpus of English: Compilation and application," English Language and Linguistics, Vol.28, pp.203-228, 2009.
H. K. Lee, "Investigating the applicability of the CEFR to a placement test for an English language program in Korea," English Language and Linguistics, Vol.17, pp.29-60, 2011.
D. Biber, University language: A corpus-based study of spoken and written registers, Amsterdam: John Benjamins Publishing, 2006.
T. McEnery, R. Xiao, and Y. Tono. Corpus-based language study: An advanced resource book, Abingdon, UK: Routledge, 2006.
S. Alsop and H. Nesi, "Issues in the development of the British Academic Written English (BAWE) corpus," Corpora, Vol.4, pp.71-83, 2009.
C. K. Jung and S. Wharton, "Finding textual examples of genres: Issues for corpus users," Korean Journal of English Language and Linguistics, Vol.12, No.1, pp.64-82, 2012.
H. Nesi and S. Gardner, Genres across the disciplines: Student writing in higher education, Cambridge: Cambridge University Press, 2012.
M. Stubbs, Text and corpus analysis, Oxford: Blackwell, 1996.
N. Pravec, "Survey of learner corpora," ICAME Journal, Vol.26, pp.81-114, 2002.
E. J. Lee, "Degree adverbial collocations in the Korean EFL learners' writing corpus: With a focus on intensifiers," Foreign Language Education, Vol.13, pp.1-21, 2006.
M, Axelsson, "USE-The Uppsala Student English Corpus: An instrument for needs analysis," ICAME Journal, Vol.24, pp.155-157, 2000.
M. Scott, WordSmith Tools version 6, Liverpool: Lexical Analysis Software, 2012.
P. Scholfield, Quantifying language: A researcher's and teacher's guide to gathering language data and reducing it to figures, Clevedon, Avon: Multilingual Matter, 1995.
E. Castello, Integrating learner corpus data into the assessment of spoken interaction in English in an Italian university context, In S. Granger, G. Gilquin, and F. Meunier (eds.), Twenty Years of Learner Corpus Research: Looking back, Moving ahead, Louvain-la-Neuve: Presses universitaires de Louvain, pp.61-74, 2013
S. T. Gries, and A. S. Adelman, "Subject realization in Japanese conversation by native and non-native speakers: Examplifying a new paradigm for learner corpus research," In J. Romero-Trillo (ed.), Yearbook of Corpus Linguistics and Pragmatics 2014: New Empirical and Theoretical Paradigms, pp.35-54, 2014.
L. Anthony, AntWordProfiler 1.4.0w Tokyo: Waseda University, 2013.
M. West. A general service list of English words, London: Longman, 1953.
I. S. P. Nation and L. Anthony, "Mid-frequency readers," The Journal of Extensive Reading, Vol.1, pp.5-16, 2013.
A. Coxhead, "A new academic word list," TESOL Quarterly, Vol.34, pp.213-238, 2000.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.