$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

교육용 과학언어 연구를 위한 범용 자료로서 과학교과서 말뭉치 K-STeC(Korean Science Textbook Corpus) 구축
Building Korean Science Textbook Corpus (K-STeC) for research of Scientific Language in Education 원문보기

한국과학교육학회지 = Journal of the Korean association for science education, v.38 no.4, 2018년, pp.575 - 585  

윤은정 (경북대학교) ,  김진호 (강원대학교) ,  남길임 (경북대학교) ,  송현주 (계명대학교) ,  옥철영 (울산대학교) ,  최준 (경북대학교) ,  박윤배 (경북대학교)

초록
AI-Helper 아이콘AI-Helper

본 연구에서는 과학교육에서 그 동안 주목받지 못했던 과학언어 및 과학용어에 대한 연구를 체계적으로 수행하기 위한 목적으로 지난 20년간의 과학교과서 텍스트를 한 자리에 모아 과학교과서 말뭉치를 구축함으로써 다각도로 분석 가능한 형태의 언어 자원을 생성하였다. 말뭉치 구축 대상 자료는 6차 교육과정, 7차 교육과정, 2009 개정교육과정의 초등학교에서부터 고등학교까지 모든 과학교과서를 수집하고 이 가운데 두 개의 출판사에 해당하는 132권에 대한 말뭉치를 구축하였다. 원시말뭉치, 형태주석 말뭉치, 용어주석 말뭉치의 총 3단계로 구축하였다. 최종적으로 구축된 과학교과서 말뭉치를 K-STeC(Korea - Science Textbook Corpus)이라 명명하였다. K-STeC은 과학용어에 대한 의미 구분과 분야가 표지된 의미 주석 말뭉치로서 교육과정, 과목, 학년, 출판사의 서지 정보와 대단원, 중단원, 소단원의 단원 정보, 페이지, 문장번호의 위치 정보와 함께 본문, 탐구활동, 참고자료, 제목 등의 텍스트 구조 정보를 메타정보로 마크업 하였다. 총 3년여에 걸친 연구 기간 동안 언어정보학, 컴퓨터공학, 과학교육학의 세 분야 전문가들의 노하우를 융합하여 새로운 연구 방법을 창출하였고, 다수의 전문 인력들이 투입되어 노동집약적 결과물을 내었다. 본 원고에서는 전체적인 연구 절차와 방법을 조망함으로써 새로운 연구 방법론 및 결과물을 소개하고 향후 과학언어 연구의 발전 가능성 및 결과물의 활용방안에 대해 논의하였다.

Abstract AI-Helper 아이콘AI-Helper

In this study, the texts of science textbooks of the past 20 years were collected in order to systematically carry out researches on scientific languages and scientific terms that have not been noticed in science education. We have collected all the science textbooks from elementary school to high s...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 말뭉치라는 개념은 언어학 분야에서는 이미 하나의 학문 분야로 자리 잡은 만큼 그 의미를 설명하는 것이 무색한 일일 것이다. 그러나 본 연구가 소개될 과학교육 분야에서는 생소할 수 있으므로 간략하게 말뭉치의 개념과 역사, 원리 등에 대해서 소개하고자 한다. 말뭉치란 모집단의 언어를 대표하는 샘플을 모아 놓은 기계가독형텍스트로, 그 어원은 라틴어의 몸(‘corpus’), 즉 ‘말의 몸뚱이 그 자체’라는 뜻이다.
  • 대상 자료 선정에 있어 분야, 학년, 단원 내용을 균형있게 포함하는 것을 지향하였다. 전체 학년, 전체 단원을 포괄하는 것은 학년별로 교과서 한 권씩 선택하면 간단하게 해결이 된다.
  • 본 연구의 경우 과학교과서 말뭉치를 구축함에 있어 기본적으로는 언어학의 말뭉치 구축 전략을 바탕으로 하되 결과물의 과학 교육적 활용 목적에 맞도록 새로운 연구 방법들을 개발하여 적용하는 것이 주안점이다. 따라서 과학교육 연구에서 연구 방법과 결과를 분리하여 작성하는 것이 보편적이기는 하나 본 연구의 성격과 내용을 보다 잘 드러내기 위하여 연구 방법에 대한 상세한 설명과 그에 따른 결과물을 함께 제시하는 방법으로 기술하고자 한다.
  • 본 연구에서는 교육용 과학언어 연구의 대상이 되는 말뭉치를 구축하되 폭넓은 활용성을 고려하여 특정 분야나 특정 학년, 특정 내용에 치우치지 않고 모든 분야, 모든 학년, 모든 내용을 포괄하는 자료를 구축하고자 하였다. 따라서 이들 요인들이 균형있게 반영되어 균형성이 확보된 과학교과서 말뭉치를 구축함을 목적으로 한다.
  • 그러나 Utagger가 참조하고 있는 데이터베이스에 과학 텍스트의 비율이 낮아 과학텍스트에서의 의미 분류에 대한 정확도는 매우 낮다. 따라서 하나의 표현형에 다양한 의미를 담고 있는 단어들을 대상으로 그 의미를 구분해주는 작업을 수행하였다. 예를 들어 ‘눈’의 경우 ‘빛의 자극을 받아 물체를 볼 수 있는 감각 기관’의 의미로 사용된 경우와 ‘대기 중의 수증기가 찬 기운을 만나 얼어서 땅 위로 떨어지는 얼음의 결정체’의 의미, 그리고 ‘새로 막 터져 돋아나려는 초목의 싹.
  • 그러나 이들 자료 사이의 불일치도가 높고,세 자료를 합하더라도 여전히 누락된 용어들이 존재한다(Yun & Park, 2014). 본 연구 과정에서는 이들 자료들을 한 자리에 모아 정리하고 PoS-gram 방법을 사용하여 누락된 용어들을 보완하기 위한 노력이 있었다. 물론 본 연구에서 구축한 과학용어 대조 사전 역시 완벽하다고 보기는 어렵다.
  • 과학언어를 연구함에 있어 대표성과 균형성을 갖춘 자료가 무엇인지 그 대상과 범위를 정하는 것은 자료로부터 도출될 연구 결과물들의 타당성을 결정짓는 매우 중요한 일이다. 본 연구에서 지향하는 두 가지 큰 목표는 첫째, 학생들이 과학언어를 자유롭고 능숙하게 구사하여 과학언어로 인해 겪었던 과학 학습의 여러 가지 어려움을 해소해 주는 것과, 둘째, 과학언어에 내포되어 있는 과학적 지식의 구조와 사고 체계를 학생들에게 효과적으로 전달할 수 있는 방법을 찾는 것이다. 이 두 가지 목표를 달성하기 위해서 연구해야 할 대상은 실제 과학 학습에서 사용되는 언어이면서, 정확하고 표준적이며 규범성을 갖는 자료여야 한다.
  • 따라서 학계에서 조차 더 이상 사용하지 않는 사어나 통일되지 않은 표기 등이 포함되어 있기도 하고 혹은 누락된 용어들이 발견되기도 하였다(Yun & Park, 2014). 본 연구에서는 과학교과서 텍스트말뭉치에서 과학용어를 선별하여 의미 주석을 다는 것이 목적이므로 사어나 표기 불일치 용어들이 추출되는 것은 별로 문제가 되지 않으나 과학용어임에도 주석이 누락되는 것을 막는 것은 중요한 이슈라고 판단하였다. 따라서 기존 용어집을 그대로 활용하여 포괄적인 용어추출을 실시한 뒤, 누락된 용어들을 구제하는 방안을 마련하였다.
  • 본 연구에서는 과학교육에서 그 동안 주목받지 못했던 과학언어 및 과학용어에 대한 연구를 체계적으로 수행하기 위한 목적으로 지난 20년간의 과학교과서 텍스트를 한 자리에 모아 과학교과서 말뭉치를 구축함으로써 다각도로 분석 가능한 형태의 언어 자원을 생성하였다. 총 3년여에 걸친 연구 기간 동안 언어정보학, 컴퓨터공학, 과학교육학의 세 분야 전문가들의 노하우를 융합하여 새로운 연구 방법을 창출하였고, 다수의 전문 인력들이 투입되어 노동집약적 결과물을 내었다.
  • 그리고 수 년 마다 이루어지는 교육과정 개편에 따라 새로운 과학교과서가 집필된다. 본 연구에서는 교육용 과학언어 연구의 대상이 되는 말뭉치를 구축하되 폭넓은 활용성을 고려하여 특정 분야나 특정 학년, 특정 내용에 치우치지 않고 모든 분야, 모든 학년, 모든 내용을 포괄하는 자료를 구축하고자 하였다. 따라서 이들 요인들이 균형있게 반영되어 균형성이 확보된 과학교과서 말뭉치를 구축함을 목적으로 한다.
  • 본 연구에서는 그 중요성과 필요성에도 불구하고 지금까지 잘 이루어지지 못했던 과학언어에 대한 연구가 체계적으로 축적될 수 있도록 말뭉치 언어학의 방법을 도입하여 지금껏 구축된 적 없는 과학언어말뭉치를 구축하고자 하였다. 본 연구를 통해 구축되는 말뭉치는 초중등 과학 교육용 과학언어 연구라는 분명하고 구체적인 목적을 가지고 출발하지만, 그 활용 가능성은 현 시점에서 고려되는 것들 뿐만 아니라 고려되지 않는 부분들 까지도 다양하게 확장될 수 있을 것으로 기대한다.
  • 이 두 가지 목표를 달성하기 위해서 연구해야 할 대상은 실제 과학 학습에서 사용되는 언어이면서, 정확하고 표준적이며 규범성을 갖는 자료여야 한다. 본 연구에서는 이 두 가지 조건을 모두 갖춘 최적의 자료로서 과학교과서를 지목하였다. 과학교과서는 국가 교육과정에서 정한 교육 내용을 그대로 담고 있으며, 이를 학생들에게 전달하기 적합한 언어로 구현된 자료이다.
  • 총 3년여에 걸친 연구 기간 동안 언어정보학, 컴퓨터공학, 과학교육학의 세 분야 전문가들의 노하우를 융합하여 새로운 연구 방법을 창출하였고, 다수의 전문 인력들이 투입되어 노동집약적 결과물을 내었다. 본 원고에서는 전체적인 연구 절차와 방법을 조망함으로써 새로운 연구 방법론 및 결과물을 소개하고 향후 과학언어 연구의 발전 가능성 및 결과물의 활용방안에 대해 논의하고자 하였다. 처음 시도되는 방법인 만큼 각 연구 단계 마다 많은 논의와 이슈가 있었으나 과학교육학적 관점에서 본 연구가 갖는 의의를 중심으로 아래에 기술해 보았다.
  • 총 3년여에 걸친 연구 기간 동안 언어정보학, 컴퓨터공학, 과학교육학의 세 분야 전문가들의 노하우를 융합하여 새로운 연구 방법을 창출하였고, 다수의 전문 인력들이 투입되어 노동집약적 결과물을 내었다. 본 원고에서는 전체적인 연구 절차와 방법을 조망함으로써 새로운 연구 방법론 및 결과물을 소개하고 향후 과학언어 연구의 발전 가능성 및 결과물의 활용방안에 대해 논의하고자 하였다. 처음 시도되는 방법인 만큼 각 연구 단계 마다 많은 논의와 이슈가 있었으나 과학교육학적 관점에서 본 연구가 갖는 의의를 중심으로 아래에 기술해 보았다.
  • 이 외에도 과학교과서 텍스트가 담고 있는 과학적 지식의 구조와사고 체계를 알아볼 수 있는 자료로서의 가치, 과학 교사 교수 자료로서의 가치, 과학 학습 자료 생성 용도로의 가치, 완벽하다고는 하기 어려울 것이나 이상적인 과학 교수 언어로서 교사 교육 용도로의 가치 등 과학교과서 말뭉치가 과학교육학적으로 갖는 잠재적 가치는 매우 넓다. 아래에는 언어학에서 지금까지 있어왔던 말뭉치 활용 사례들을 기반으로 하여 과학교과서 말뭉치의 과학교육학적 활용 방안을 기술해 보았다.
  • 말뭉치 구축에 대한 기본적인 원리나 절차는 언어학 분야에서 이미 많은 연구가 이루어져 있으므로 도입하면 될 것이나 대상 자료의 선정이나 분량, 말뭉치의 구조나 설계 등의 세부적인 사항은 개별 말뭉치의 특성 및 연구 목적에 따라 이루어져야 한다. 이에 본 연구에서는 교육용 과학언어 말뭉치를 구축함에 있어 대상 자료의 범위와 분량 설정에서부터 말뭉치 설계와 실제 구축에 이르기까지의 과정을 소개하고 구축된 말뭉치의 활용 방안과 향후 관리에 대한 논의를 간략하게 제시하고자 한다.

가설 설정

  • 넷째, 4차 산업혁명 이후의 과학교육에 대비한 중요한 자원이 될 것이다. 4차 산업혁명의 키워드 가운데 하나는 인공지능이며, 인공지능의 핵심 기술인 딥러닝 가운데 문자 기반 기법인 RNN은 말뭉치를 자원으로 한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
말뭉치란 무엇인가? 그러나 본 연구가 소개될 과학교육 분야에서는 생소할 수 있으므로 간략하게 말뭉치의 개념과 역사, 원리 등에 대해서 소개하고자 한다. 말뭉치란 모집단의 언어를 대표하는 샘플을 모아 놓은 기계가독형텍스트로, 그 어원은 라틴어의 몸(‘corpus’), 즉 ‘말의 몸뚱이 그 자체’라는 뜻이다. 일반적으로 언어학 연구에서는 주요 말뭉치 유형을 문어 말뭉치(written corpus)와 구어 말뭉치(spoken corpus)로 구분하며, 말뭉치 자체에 품사 등 문법 표지를 부착하느냐의 여부에 따라 원시 말뭉치(raw corpus)와 주석 말뭉치(annotated corpus) 등으로 구분한다.
모집단의 언어를 대표하는 말뭉치의 정의에는 어떤 원리가 포함되는가? 모집단의 언어를 대표하는 말뭉치의 정의에는 기본적으로 ‘대표성’과 ‘균형성’의 원리가 포함된다. ‘대표성’이란 수집된 자료가 연구대상 모집단의 언어 특성을 대표할 수 있어야 한다는 것이고, ‘균형성(balance)’은 말뭉치의 실제 구성에서 개별 텍스트들이 특정 주제나 장르에 편중되지 않고 균형있게 수집되어야 한다는 뜻이다.
PoS-gram을 도입하게 된 계기는 무엇인가? 누락된 과학용어들을 구제하기 위해서 가장 단순하게는 전체 말뭉치를 어절 하나하나씩 검토하며 자동 주석 단계에서 누락된 과학용어들을 찾아낼 수 있으나 너무 많은 인력과 시간, 비용이 발생하는 문제,전문 인력들을 동원하더라도 판단의 일관성을 확보하기 어렵다는 문제 등이 있다. 따라서 본 연구에서는 이러한 문제들을 최소화하는 방안으로 PoS-gram을 도입하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (27)

  1. Darian, S. G. (2003). Understanding the language of science. University of Texas Press. 

  2. Fang, Z. (2006). The language demands of science reading in middle school. International Journal of Science Education, 28(5), 491-520. 

  3. Ford, A., & Peat, F. D. (1988). The role of language in science. Foundations of Physics, 18, 1233. 

  4. Ham, J., Lee, J., & Shin, D. (2011). Middle school students’ feelings of easiness and understanding of earth science terminology. Journal of Research in Curriculum Instruction, 15(4), 1045-1060. 

  5. Jaipal, K. (2001). English second language students in a grade 11 biology class: Relationships between language and learning. Proceeding of 2001 Annual Meeting of the American Educational Research Association, ED 453690. 

  6. Jeon, S. H. (2003). (21st Sejong project) Application of corpus. The National Institute of the Korean Language. 

  7. Kang, B. M. (2011). Language, computer, and corpus linguistics. Seoul: Korea University Press. 

  8. Kwak, Y. (2013). Corpus quality control for high-quality language resource construction. Doctoral Dissertation, Yonsei University. 

  9. Kwak, Y. (2017). Exploration of features of Korean eighth grade students' achievement and curriculum matching in TIMSS 2015 earth science. Journal of the Korean Association for Science Education, 37(1), 9-16. 

  10. Kwak, Y., Kim, C. J., Lee, Y. R., & Jeong D. S. (2006). Investigation on elementary and secondary students' interest in science. Journal of the Korean Earth Science Society, 27(3), 260-268. 

  11. Martin, M. O., Mullis, I. V. S., Foy, P., & Hooper, M. (2016). TIMSS 2015 International results in science. IEA. 

  12. Maskill, R. (1988). Logical language, natural strategies and the teaching of science. International Journal of Science Education, 10(5), 485-495. 

  13. McEnery, A. & Hardie, A.(2012). Corpus linguistics: Theory, method and practice. Cambridge: Cambridge University Press. 

  14. Merzyn, G. (1987). The language of school science. International Journal of Science Education, 9(4), 483-489. 

  15. Mikolov, T., Yih, W., & Zweig, G. (2013). Linguistic regularities in continuous space word representations. HLT-NAACL, 746-751. 

  16. Miller, J. (2009). Teaching refugee learners with interrupted education in science: Vocabulary, literacy and pedagogy. International Journal of Science Education, 31(4), 571-592. 

  17. Nam, K. S. (2008). Middle school students' learning difficulty caused by scientific terminology and ways to solve it via writing using scientific terminology. Doctoral Dissertation, Seoul National University. 

  18. Park, Y., Gwon, S., & Yun, E. (2015). Research for improvement of science textbook(Physics) through inducing change of instruction. Korea Foundation for the Advancement of Science & Creativity, Research Report. 

  19. Reeves, C. (2005). The language of science. Routledge. 

  20. Shaw, J. (2002). Linguistically responsive science teaching. Electronic Magazine of Multicultural Education, 4(1), 24. 

  21. Shin, J. C., & Ock, C. Y. (2012). A stage transition model for Korean part-of-speech and homograph tagging. Software and Application, 39(11), 889-901. 

  22. The National Institute of the Korean Language (2008). Pyojun Korean unabridged dictionary, The National Institute of the Korean Language. 

  23. Wellington J., & Osborne, J. (2001). Language and literacy in science education. Open University Press. 

  24. Yore, L. D., Hand, B., Goldman, S. R., & Hildbrand, G. M. (2004). New directions in language and science education research. Reading Research Quarterly, 39(3), 347-352. 

  25. Yun, E., & Park, Y. (2013a). Research on science teacher's perception of teaching science terminology. Journal of the Korean Association for Science Education, 33(7), 1343-1353. 

  26. Yun, E., & Park, Y. (2013b). Analysis of physics terminology in science textbooks for teaching science words. Journal of the Korean Association for Science Education, 33(4), 735-750. 

  27. Yun, E., & Park, Y. (2014). Consistency among the glossary for a textbook, the Glossary of Physics Terminology and the Pyojun Korean Unabridged Dictionary on the basis of the words used in middle-school science textbooks. Sae Mulli, 64, 180-187. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로