[논문]공공데이터와 감성분석을 이용한 대학평판시스템

김은아; 이연식

문제 정의

이러한 연구들의 결과를 대학평판 시스템으로 통합하면서 보완하였는데 보완사항은 비정형 데이터로 인한 신뢰성 문제와 정성적 데이터로 인한 객관성 문제들이었다. 본 논문에서는 대학평판을 위해서 정형데이터 위주로 신뢰성을 높였고, 정량지수와 정성지수를 혼합하여 객관성을 높인 혼합 대학평판 시스템과 평판 지수를 제안하였다. 공공데이터 중 대학알리미의 정량지표를 활용하여 정량지수를 구하였고, 정형데이터인 네이버 뉴스 기사를 기반으로 감성분석을 통해서 정성지수를 구한 후 혼합 대학평판 지수를 산출하였다.
본 논문은 대학평판 시스템에 대한 연구이며 기존의 대학평판 시스템들과는 다르게 공공데이터를 활용한 정량지수와 빅 데이터의 정형데이터 중 뉴스기사를 중심으로 감성분석을 한 정성지수를 활용하고자 한다. 대학평판에 정량지수와 정성지수를 활용한 혼합 대학평판 지수(CCRQ : Complex College Reputation Quotient)를 산출하고 이를 기반으로 한 혼합 대학평판 시스템(CCRS : Complex College Reputation System)을 제안한다.
공공데이터 중 대학알리미의 정량지표를 활용하여 정량지수를 구하였고, 정형데이터인 네이버 뉴스 기사를 기반으로 감성분석을 통해서 정성지수를 구한 후 혼합 대학평판 지수를 산출하였다. 이를 통해 신뢰성과 객관성을 가진 대학평판 시스템을 구축하고자 하였다.
대학평가에서도 주로 편제정원 대비 정원 내 재학생 충원율을 활용하고 있어 그 기준에 따라 정량지수로 활용하며 편제정원을 기준으로 정원 내 재학생의 비율로 계산하는데 100%가 넘는 경우 100%로 계산한다. 캠퍼스 통합 등의 사유로 재학생 충원율이 일시적으로 과도한 비율(100%를 훨씬 넘기는)을 나타내는 문제가 있어 그 부분을 보완하기 위해서이다. 재학생 충원율도 대학평가 지표에서 활용하는 정원 내 재학생 충원율을 2017년 공시 50%, 2016년 공시 30%, 2015년 공시 20% 비율로 계산한다.

제안 방법

혼합 대학평판 시스템은 3단계로 구성된다. 1단계는 데이터 수집 단계로 정량지수 산출을 위한 데이터 수집단계이며 공공데이터인 대학알리미를 통해서 대학의 3년간 신입생 충원율, 재학생 충원율, 취업률을 산출한다. 정성지수 산출을 위한 데이터 수집은 네이버 신문기사를 수집한다.
정성지수 산출을 위한 데이터 수집은 네이버 신문기사를 수집한다. 2단계는 지수 산출 단계로 정량지수에서는 3년간 데이터 중 최신(2017년 기준) 데이터의 비중을 50%, 전년도는 30%, 전전년도는 20%의 비율로 계산한 후 신입생 충원율(15%), 재학생충원율(20%), 취업률(15%)의 비율로 정량지수를 산출한다.
SNS 데이터를 활용한 국내대학 인식 및 선호도 분석에서는 SNS 빅 데이터를 수집하고 분석하여 이전까지 알 수 없었던 새로운 가치를 발견하려 하였고 국내대학들에 대한 일반인들의 인식을 파악 및 분석하여 각 대학의 발전에 도움이 될 시의성 있는 정보와 의견을 제시하였다. 이 연구의 결과는 전체대학에 대한 키워드 빈도분석과 해당 대학의 연관 키워드 빈도분석과 감성분석을 실시하였다.
구현은 파이썬 언어를 사용하여 구현하였고 크롤링은 파이썬 라이브러리(BeautifulSoup)를 사용하여 구현하였으며, 한글 형태소 분석은 KoNLPy의 API중 mecab으로 수행하였다. 감성분석은 KOSAC의 감성 사전에 기반을 두어 긍정 부정을 판단하였고, 데이터 처리와 혼합 대학평판 지수 산출은 파이썬 라이브러리인 팬더스(Pandas)에서 수행하였다.
본 논문에서는 대학평판을 위해서 정형데이터 위주로 신뢰성을 높였고, 정량지수와 정성지수를 혼합하여 객관성을 높인 혼합 대학평판 시스템과 평판 지수를 제안하였다. 공공데이터 중 대학알리미의 정량지표를 활용하여 정량지수를 구하였고, 정형데이터인 네이버 뉴스 기사를 기반으로 감성분석을 통해서 정성지수를 구한 후 혼합 대학평판 지수를 산출하였다. 이를 통해 신뢰성과 객관성을 가진 대학평판 시스템을 구축하고자 하였다.
3단계 극성탐지는 감성분석에 필요한 부분에서 주어진 데이터가 ‘긍정’인지, ‘부정’인지를 판단하는 부분이다. 긍정적, 부정적인 단어를 탐지, 이를 정량화 한 뒤 통계적 기법을 적용한다. 극성탐지에는 기본적인 방법으로 감성어 사전(lexicon)을 이용하는 방법이 활용되고 있으며, 최근에는 기계학습을 사용하여 긍정, 부정을 판단하는데 사용하고 있다.
본 논문의 결과는 혼합평판지수뿐만 아니라 정량지수, 정성지수를 따로 추출해 사용할 수 있는 장점을 가지고 있으며 정성지수에서는 대학별 특정 기간 기사 빈도수도 추출할 수 있다. 기존 연구 중 비정형데이터를 중심으로 국내대학 인식 및 선호도 분석[8]연구결과와 비교해 보았다. 동일한 기간(2013년 10월 15일~11월 23일)의 정형데이터의 빈도수와 비교한 결과를 표 1에 나타내었다.
본 논문은 대학평판 시스템에 대한 연구이며 기존의 대학평판 시스템들과는 다르게 공공데이터를 활용한 정량지수와 빅 데이터의 정형데이터 중 뉴스기사를 중심으로 감성분석을 한 정성지수를 활용하고자 한다. 대학평판에 정량지수와 정성지수를 활용한 혼합 대학평판 지수(CCRQ : Complex College Reputation Quotient)를 산출하고 이를 기반으로 한 혼합 대학평판 시스템(CCRS : Complex College Reputation System)을 제안한다.
본 논문에서 사용할 정량지수 산출을 위한 지표로는 신입생 충원율, 재학생 충원율, 취업률이다. 많은 평가지표가 있지만 학생대상의 지표를 중심으로 일반인들이 알고 있는 입학, 대학생활, 취업이라는 3가지 중요한 항목을 선정하여 대학평판 지표로 활용하였다. 대학알리미에서는 지표별로 3년간의 데이터를 제공하고 있으며 최근데이터를 기준으로 차등적으로 정량지수로 활용한다.
본 논문에서는 KOSAC의 감성사전을 기반으로 형태소가 없는 단어는 추가했고, 극성 결과가 대학과 현저히 맞지 않은 부분에 대해서는 극성 값을 조정하여 사용하였다. 감성분석 중 형태소 분석 시 약어에 의한 동의어 처리로 인한 혼란이 우려되어 가장 일반적으로 사용되는 몇 가지의 (대)명사들로 통일하여 적용한다
본 논문에서는 네이버 교육 뉴스기사를 대상으로 삼았으며 이는 많은 뉴스 기사 중 네이버의 기준으로 선별된 기사로 신뢰성이 있다고 판단된다. 이 기사들을 대상으로 KOSAC의 감성사전을 이용해서 감성분석의 3단계인 극성탐지를 실시하며 신문기사의 극성 어휘의 빈도수를 측정(30개 추출)하고 이를 통해 신문기사의 긍정, 부정을 판단하고자 한다. 긍정의 기사에는 +1, 부정의 기사에는 –1, 중립인 경우는 0점을 부여하여 정성지수(Qualitative Quotient)를 산출하는데 각 대학별 월별 기사 중 모든 기사의 극성을 계산하고 합산하여 산출한다.
국내에서 대학평판에 관한 연구는 대학 이미지 인식측정이나 선호도 분석으로 수행되었으며 대학평가와 관련하여 평가지표 연구로 진행되었다. 이러한 연구들의 결과를 대학평판 시스템으로 통합하면서 보완하였는데 보완사항은 비정형 데이터로 인한 신뢰성 문제와 정성적 데이터로 인한 객관성 문제들이었다. 본 논문에서는 대학평판을 위해서 정형데이터 위주로 신뢰성을 높였고, 정량지수와 정성지수를 혼합하여 객관성을 높인 혼합 대학평판 시스템과 평판 지수를 제안하였다.
평판지수로 정성지수 뿐만 아니라 정량지수를 혼합하여 사용하고, 대학 평판 측정을 위해서 뉴스기사 위주의 정형데이와 대학 평가지표 중 신입생 취업률, 재학생 충원율, 취업률(건강보험 DB연계) 등 3가지 대표 지표를 활용함으로서, 평판시스템의 신뢰성과 객관성을 향상시키고자 한다.
정성지수는 전처리(Preprocessing) 과정으로 크롤링된 전체 기사 중에서 먼저 전문대학을 제외한 대학 관련 기사를 추출하고, 추가적으로 제외할 필요가 있는 단어들을 포함하여 필터링함으로서 ‘일반대학’과 관련된 기사만을 처리대상으로 한다. 한글 형태소 분석은 KoLNPy[13]의 API중 mecab을 활용하여 빈도가 높은 형태소 30개를 추출하고 이 형태소를 대상으로 감성사전의 극성을 참조하여 긍정, 부정과 중립을 계산한다. 여기서 극성이란 각 형태소별로 긍정, 부정의 사용 확률을 계산한 결과를 의미한다.

대상 데이터

본 논문에서는 네이버 교육 뉴스기사를 대상으로 삼았으며 이는 많은 뉴스 기사 중 네이버의 기준으로 선별된 기사로 신뢰성이 있다고 판단된다. 이 기사들을 대상으로 KOSAC의 감성사전을 이용해서 감성분석의 3단계인 극성탐지를 실시하며 신문기사의 극성 어휘의 빈도수를 측정(30개 추출)하고 이를 통해 신문기사의 긍정, 부정을 판단하고자 한다.
1단계는 데이터 수집 단계로 정량지수 산출을 위한 데이터 수집단계이며 공공데이터인 대학알리미를 통해서 대학의 3년간 신입생 충원율, 재학생 충원율, 취업률을 산출한다. 정성지수 산출을 위한 데이터 수집은 네이버 신문기사를 수집한다. 2단계는 지수 산출 단계로 정량지수에서는 3년간 데이터 중 최신(2017년 기준) 데이터의 비중을 50%, 전년도는 30%, 전전년도는 20%의 비율로 계산한 후 신입생 충원율(15%), 재학생충원율(20%), 취업률(15%)의 비율로 정량지수를 산출한다.
정성지수는 2017년 12월, 2018년 1월 네이버 교육란의 기사를 기준으로 산출하였는데 2017년 12월 네이버 교육관련 기사 7,369개 중 전처리를 거친 일반대학 관련 기사는 1,044개가 대상이었고, 2018년 1월은 네이버 교육관련 기사 6,306개 중 전처리를 거친 일반대학 관련 기사는 753개가 대상이었다. 결과를 보면 긍정, 부정의 점수 계산도 중요하지만 일반적으로 기사 노출 빈도수에 비례하는 결과를 보이고 있다.
정성지수는 전처리(Preprocessing) 과정으로 크롤링된 전체 기사 중에서 먼저 전문대학을 제외한 대학 관련 기사를 추출하고, 추가적으로 제외할 필요가 있는 단어들을 포함하여 필터링함으로서 ‘일반대학’과 관련된 기사만을 처리대상으로 한다.

데이터처리

혼합 대학평판 시스템은 대학의 정량지수와 정성지수로 계산된 혼합 대학평판 지수를 산출하고 각 대학별 이슈를 여러 가지 형태로 나타낼 수 있다. 구현은 파이썬 언어를 사용하여 구현하였고 크롤링은 파이썬 라이브러리(BeautifulSoup)를 사용하여 구현하였으며, 한글 형태소 분석은 KoNLPy의 API중 mecab으로 수행하였다. 감성분석은 KOSAC의 감성 사전에 기반을 두어 긍정 부정을 판단하였고, 데이터 처리와 혼합 대학평판 지수 산출은 파이썬 라이브러리인 팬더스(Pandas)에서 수행하였다.
SNS 데이터를 활용한 국내대학 인식 및 선호도 분석에서는 SNS 빅 데이터를 수집하고 분석하여 이전까지 알 수 없었던 새로운 가치를 발견하려 하였고 국내대학들에 대한 일반인들의 인식을 파악 및 분석하여 각 대학의 발전에 도움이 될 시의성 있는 정보와 의견을 제시하였다. 이 연구의 결과는 전체대학에 대한 키워드 빈도분석과 해당 대학의 연관 키워드 빈도분석과 감성분석을 실시하였다.[8] 연구결과는 우수하나 트위터 같은 비정형데이터만으로 데이터 분석과 감성분석을 실시한 부분은 아쉬운 부분으로 생각되며 여기에 정형데이터가 포함한다면 더욱 좋을 것이다.

성능/효과

본 논문에서 사용할 정량지수 산출을 위한 지표로는 신입생 충원율, 재학생 충원율, 취업률이다. 많은 평가지표가 있지만 학생대상의 지표를 중심으로 일반인들이 알고 있는 입학, 대학생활, 취업이라는 3가지 중요한 항목을 선정하여 대학평판 지표로 활용하였다.
본 논문의 결과는 혼합평판지수뿐만 아니라 정량지수, 정성지수를 따로 추출해 사용할 수 있는 장점을 가지고 있으며 정성지수에서는 대학별 특정 기간 기사 빈도수도 추출할 수 있다. 기존 연구 중 비정형데이터를 중심으로 국내대학 인식 및 선호도 분석[8]연구결과와 비교해 보았다.
정량지수는 대학알리미의 2017년 12월 31일 기준으로 산출하였고 결과를 보면 전국적으로 교육대학들의 정량지표(신입생 충원율, 재학생 충원율, 취업률)가 높게 나왔는데 3개 지표에서 골고루 높게 나왔고 특히 취업률에서는 10개 대학 중 8개 대학이 75% 이상을 나타냈다. 수도권을 보면 일반대학 평가와 비슷한 결과를 나타냈다.

후속연구

빅 데이터 시대의 특징을 살린 대학평판 시스템이 되기 위해서는 많은 데이터의 활용과 많은 데이터를 처리하면서도 정확한 결과를 얻을 수 있어야 한다. 본 연구에서는 정형데이터 위주로 다루었는데 비정형데이터까지 취급하는 확장성과 감성사전을 활용한 방법을 개선하여 머신러닝 등을 활용하여 정확성을 높인다면 향상된 대학평판 시스템이 될 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

공공데이터와 감성분석을 이용한 대학평판시스템
The College Reputation System using Public Data and Sentiment Analysis 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

공공데이터와 감성분석을 이용한 대학평판시스템 The College Reputation System using Public Data and Sentiment Analysis 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

이연식 (40)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

공공데이터와 감성분석을 이용한 대학평판시스템
The College Reputation System using Public Data and Sentiment Analysis 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper