인터넷과 스마트 기기의 사용량 증가로 인해 다양한 교육정보와 많은 양의 데이터가 생성되어 빠르게 확산되고 있다. 최근 이러닝 이용률이 증가하면서 발생하는 빅데이터를 활용하여 학습자들의 교육 성과와 교육 시스템의 효과성을 극대화 하는 것을 목표로 하는 교육 데이터 관련 연구 분야에 대한 관심이 높아지고 있으며 온라인에서 학습자들이 학습한 수많은 기록과 데이터들이 정보로 쌓이게 된다. 이에 본 논문에서는 이러닝 학습자들이 시스템에 남긴 수강 기록을 기반으로 학습자 현황에 대해 객관적으로 파악할 수 있도록 신경망 알고리즘인 Word2Vec을 적용하여 단어 간 유사도를 구하고 클러스터링 알고리즘을 이용하여 군집화 하였다. Word2vec을 이용하여 학습을 시키면 연관된 의미의 단어가 나타나게 되고 학습을 반복해 나가는 과정에서 점차 가까운 벡터를 지니게 된다. 또한 클러스터 알고리즘을 이용하여 명사, 동사, 형용사, 부사가 중심점에서 최소의 거리를 두고 같은 거리에 위치해 있음을 실험 검증하였다.
인터넷과 스마트 기기의 사용량 증가로 인해 다양한 교육정보와 많은 양의 데이터가 생성되어 빠르게 확산되고 있다. 최근 이러닝 이용률이 증가하면서 발생하는 빅데이터를 활용하여 학습자들의 교육 성과와 교육 시스템의 효과성을 극대화 하는 것을 목표로 하는 교육 데이터 관련 연구 분야에 대한 관심이 높아지고 있으며 온라인에서 학습자들이 학습한 수많은 기록과 데이터들이 정보로 쌓이게 된다. 이에 본 논문에서는 이러닝 학습자들이 시스템에 남긴 수강 기록을 기반으로 학습자 현황에 대해 객관적으로 파악할 수 있도록 신경망 알고리즘인 Word2Vec을 적용하여 단어 간 유사도를 구하고 클러스터링 알고리즘을 이용하여 군집화 하였다. Word2vec을 이용하여 학습을 시키면 연관된 의미의 단어가 나타나게 되고 학습을 반복해 나가는 과정에서 점차 가까운 벡터를 지니게 된다. 또한 클러스터 알고리즘을 이용하여 명사, 동사, 형용사, 부사가 중심점에서 최소의 거리를 두고 같은 거리에 위치해 있음을 실험 검증하였다.
These days, various and tons of education information are rapidly increasing and spreading due to Internet and smart devices usage. Recently, as e-Learning usage increasing, many instructors and students (learners) need to set a goal to maximize learners' result of education and education system eff...
These days, various and tons of education information are rapidly increasing and spreading due to Internet and smart devices usage. Recently, as e-Learning usage increasing, many instructors and students (learners) need to set a goal to maximize learners' result of education and education system efficiency based on big data analytics via online recorded education historical data. In this paper, the author applied Word2Vec algorithm (neural network algorithm) to find similarity among education words and classification by clustering algorithm in order to objectively recognize and analyze online recorded education historical data. When the author applied the Word2Vec algorithm to education words, related-meaning words can be found, classified and get a similar vector values via learning repetition. In addition, through experimental results, the author proved the part of speech (noun, verb, adjective and adverb) have same shortest distance from the centroid by using clustering algorithm.
These days, various and tons of education information are rapidly increasing and spreading due to Internet and smart devices usage. Recently, as e-Learning usage increasing, many instructors and students (learners) need to set a goal to maximize learners' result of education and education system efficiency based on big data analytics via online recorded education historical data. In this paper, the author applied Word2Vec algorithm (neural network algorithm) to find similarity among education words and classification by clustering algorithm in order to objectively recognize and analyze online recorded education historical data. When the author applied the Word2Vec algorithm to education words, related-meaning words can be found, classified and get a similar vector values via learning repetition. In addition, through experimental results, the author proved the part of speech (noun, verb, adjective and adverb) have same shortest distance from the centroid by using clustering algorithm.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
표 1, 표 2에서 형태소 분석기로 분류한 명사, 동사,형용사, 부사로 구분된 어휘들이 품사와 관계없이 같은 수준으로 클러스터링 되는지 아니면 품사에 따라 다른 수준으로 클러스터링 되는지 알아보기 위해 실험을 진행하였다.
기존의 전통적인 교육에서는 교수자가 일방적으로 지식을 전달하는 강의식 수업이었고 학습자들과 함께 상호작용하는 과정은 사라지고 시험의 결과인 성적만 기록되었다[6]. 하지만 이러닝에서는 교수자와 학습자,학습자와 학습자들 간의 학습 활동과 관련된 모든 데이터들이 디지털화 되어 쌓이고 있으며, 여기서 발생하는 데이터를 분석하여 학습자들을 파악하고자 한다.
제안 방법
Crawler에서 수집된 데이터를 분석하여 전 처리하고 표 1과 표 2에 긍정적 극성을 보이는 어휘와 부정적 극성을 보이는 어휘로 분류하여 정리하였다.
다만 수 없이 많은 데이터를 보면 동사들이 어떤 목적어를 가지는지 규칙성을 파악함으로 어느 정도 동사들 간의 의미 관계도 학습이 가능하다고 볼 수 있다. Word2vec 모델은 C, Python, Java,Go, Scala 등 다양한 언어로 구현이 가능하며 본 논문에서는 Java program으로 구현하였다.
본 논문에서는 이러닝 학습자들이 시스템에 남긴 수강 기록을 기반으로 Word2Vec을 적용하여 단어 간 유사도를 구하고 클러스터링 알고리즘을 이용하여 군집화 하였다. 크롤러를 사용하여 수강 후기 데이터를 모은 다음 형태소 분석을 통해 어휘를 구분하였다.
검색 엔진의 근간으로 웹 크롤러, 스파이더 로봇 등 다양한 이름으로 불리며 웹 페이지에서 각종 정보를 자동적으로 수집하는 프로그램이다. 사용자가 웹페이지링크를 일일이 따라가 정보를 얻는 작업을 대신하여 자동적으로 순회하며 내용을 분석하고 수집한다. Java의 Jsoup 라이브러리를 사용해 크롤러를 만들고 이러닝 학습이 가능한 지안에듀 (http://www.
또한 전통적인 방식의 교육에서는 학습활동과 관련된 대부분의 데이터가 교육이 끝난 뒤 모두 없어지는데,온라인에서는 학습자들이 학습한 수많은 기록과 데이터들이 디지털 정보로 쌓이게 된다. 이에 본 논문에서는 이러닝 학습자들이 시스템에 남긴 수강 기록을 기반으로 학습자 현황에 대해 객관적으로 파악할 수 있도록 신경망 알고리즘인 Word2Vec을 적용하여 단어 간 유사도를 구하고 클러스터링 알고리즘을 이용하여 군집화 하였다.
본 논문에서는 이러닝 학습자들이 시스템에 남긴 수강 기록을 기반으로 Word2Vec을 적용하여 단어 간 유사도를 구하고 클러스터링 알고리즘을 이용하여 군집화 하였다. 크롤러를 사용하여 수강 후기 데이터를 모은 다음 형태소 분석을 통해 어휘를 구분하였다.
대상 데이터
사용자가 웹페이지링크를 일일이 따라가 정보를 얻는 작업을 대신하여 자동적으로 순회하며 내용을 분석하고 수집한다. Java의 Jsoup 라이브러리를 사용해 크롤러를 만들고 이러닝 학습이 가능한 지안에듀 (http://www.algisa.com)사이트를 대상으로 선정하였다. 데이터를 수집할 때 제일 먼저 고려한 사항은 학생들의 의견이 정확히 나와 있고 유의미한 연구 결과를 보여 줄 수 있는 데이터 규모를 고려하여 1,200여 건의 수강 후기를 수집하였다.
com)사이트를 대상으로 선정하였다. 데이터를 수집할 때 제일 먼저 고려한 사항은 학생들의 의견이 정확히 나와 있고 유의미한 연구 결과를 보여 줄 수 있는 데이터 규모를 고려하여 1,200여 건의 수강 후기를 수집하였다.
이론/모형
인공 신경망(Neural network) 연구에서 시작되었으며 단어 간 유사도를 구하기 위해 Word2vec을 이용하였다 [7,8]. 형태소 분석을 통해 나온 단어들을 인공 신경망에 학습을 시키면 연관된 의미의 단어가 나타나게 되고 학습을 반복해 나가는 과정에서 점차 가까운 벡터를 지니게 된다 [9].
성능/효과
그림 2는 학습 전 랜덤 분포를 나타내고 그림3은 학습 후 긍정과 부정, 즉 같은 극성끼리 모인 것을 보여준다. 따라서 이러닝에서 학습자들의 긍정적인 반응과 부정적인 반응을 파악하여 이러닝 강의를 수정하거나 보완가능하다는 결론이다.
Word2vec을 이용하여 학습을 시키면 연관된 의미의 단어가 나타나게 되고 학습을 반복해 나가는 과정에서 점차 가까운 벡터를 지니게 된다. 또한 클러스터 알고리즘을 이용하여 명사, 동사, 형용사, 부사가 중심점에서 최소의 거리를 두고 같은 거리에 위치해있음을 실험 검증하였다. 향후에는 형태소 분석기로 문장을 단어로 나눌 필요 없이 직접 문장을 학습하게 함으로써 정확도의 향상을 기대해 본다.
후속연구
향후에는 형태소 분석기로 문장을 단어로 나눌 필요 없이 직접 문장을 학습하게 함으로써 정확도의 향상을 기대해 본다. 또한 빅데이터 분석을 이용한 알고리즘 구현에도 중요한 연구가 될 것이다.
또한 클러스터 알고리즘을 이용하여 명사, 동사, 형용사, 부사가 중심점에서 최소의 거리를 두고 같은 거리에 위치해있음을 실험 검증하였다. 향후에는 형태소 분석기로 문장을 단어로 나눌 필요 없이 직접 문장을 학습하게 함으로써 정확도의 향상을 기대해 본다. 또한 빅데이터 분석을 이용한 알고리즘 구현에도 중요한 연구가 될 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
이러닝이란?
IT 기술의 발전과 사회적 변화로 교육의 영역이 확대되고 있으며 각종 기관이나 학교, 회사 등에서 ‘이러닝’이라는 온라인 학습이 활발히 사용되고 있다. 이러닝은 시간과 장소에 관계없이 언제, 어디서, 누구나 자유롭게 학습할 수 있는 환경을 말하며, 그 이용도가 높아지고 있어 지속적인 성장이 기대된다[1, 2].
Word2vec의 단점은?
따라서 아주 추상적인 동사나 형용사는 학습이 명사에 비해 어려울 수 있다. 다만 수 없이 많은 데이터를 보면 동사들이 어떤 목적어를 가지는지 규칙성을 파악함으로 어느 정도 동사들 간의 의미 관계도 학습이 가능하다고 볼 수 있다.
빅데이터가 주목받는 이유는?
빅데이터가 주목받는 이유는 IT를 활용한 다양한 분야의 대용량의 데이터가 급증하면서 정형화된 데이터에서 비정형 데이터까지 범위가 넓어지고 있으며 가공되지 않은 데이터의 가치가 높아지고 있기 때문이다 [5].
참고문헌 (9)
J. Lee, "What Drives a Successful e-Learning: Focusing on the Critical Factors Influencing e-Learning Satisfaction," Korea Jounal of Business Administration, vol. 24, no. 4, pp. 2245-2257, Aug. 2011.
J. Park, and D. Lee, "Proposal of Smart era Online Learning Model with BigData," Journal of the Korea Institute of Information and Communication Engineering, vol. 19, no. 4, pp. 991-1000 Apr. 2015.
J. Shin, J. Choi, and W. Koh, "A study on the Use of Learning Analytics in Higher Education: Focusing on the perspective of professors," Journal of Educational Technology, vol. 31, no. 2, pp. 223-252, Feb. 2015.
Y. Yun, H. Ji, "A development of Open Social Learning Platform for learning analytics and educational data mining," Journal of Korean Institute of Information Scientists and Engineers, vol. 23, no. 12, pp. 1349-1351, Dec. 2015.
H. Yoon, "Research on the Application Methods of Big Data within the Cultural Industry," Academic Association of Global Cultural Contents, vol. 10, no. 1, pp. 157-179, Feb. 2013.
J. Choi, "Applications of Educational Big Data Generated in Smart Education," Journal of Korea Intelligent Information System Society, vol. 20, no. 5, pp. 144-148, May 2015.
J. Lee, "Three-Step Probabilistic Model for Korean Morphological Analysis," Journal of KIISE: Software and Applications, vol.38, no.5, pp.257-268, May 2011.
L. Wolf, Y. Hanani, K. Bar, and N. Dershowitz, "Joint word2vec networks for bilingual semantic representations," International Journal of Computational Linguistics and Applications, vol. 5, no.1, pp. 27-44, Feb. 2014.
S. Kim, and S. Lee, "Automatic Extraction of Alternative Word Candidates using the Word2vec model," Journal of Korean Institute of Information Scientists and Engineers, vol. 23, no. 12, pp. 769-771, Dec. 2015.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.