[논문]Web of Science 빅데이터를 활용한 텍스트 마이닝 기반의 정보윤리 이슈 탐색

김한성

doi:10.32431/kace.2019.22.3.006

문제 정의

본 연구는 정보윤리 교육을 위한 이슈를 탐색하기 위해 방대한 양의 논문과 텍스트 마이닝을 활용한 과학적 접근을 시도하였다는 것에 그 의의가 있다.
본 연구는 정보윤리 연구의 주요 이슈와 연구 경향을 살펴보고 이를 토대로 우리나라 정보윤리 교육을 위한 시사점을 제공하기 위해 수행하였다.
본 연구의 목적 달성을 위해 구체적인 연구문제를 설정해 수행하고자 한다. 각 연구문제를 살펴보면 다음과 같다.
본 절에서는 정보윤리와 관련한 여러 학자들의 이론을 분석하여 정보윤리의 개념과 범위를 정의하고 정보과 및 관련 교과들에서 제시하고 있는 정보 윤리 교육 내용요소를 살펴본다.
이러한 문제의식에서 출발한 본 연구의 목적은 정보윤리 내용요소 선정을 위해 고려해야할 정보윤리 이슈가 무엇인지 탐색하고, 이를 토대로 정보윤리 교육을 위한 시사점을 도출하는 것에 있다.

제안 방법

끝으로 문구문제3: 각 이슈별 연구동향을 살펴보기 위해 각 연도별 저널에 해당 이슈가 등장하는 확률 값을 계산하였으며, 이를 전체 이슈에 대한 상대적인 분포와 함께 각 이슈별 세부적인 경향으로 나누어 분석하였다.
둘째, 연구문제2: 정보윤리 이슈를 도출하기 위해 토픽 모델링을 실시하였다. 토픽 모델링은 문서와 단어로 구성된 데이터를 기반으로 각 문서에 잠재되어 있다고 가정되는 토픽의 등장 확률을 추정 하는 통계적 텍스트 처리기법이다[20].
첫째, 분석 데이터를 말뭉치(Corpus)로 변환한 후, 숫자, 특수 문자, 문장 부호를 제거하였다. 둘째, 이렇게 처리된 데이터를 1차로 확인한 후, 대문자로 나타난 텍스트를 소문자로 전환하고 tm 패키지의 en 함수를 활용해 불용문자를 제거하였다. 여기서 en 함수는 ‘i’, ‘my, ’me’ 등과 같이 일반 적으로 분석의 의미를 갖지 못하는 최소한의 단어 들을 포함하는 함수이다.
여기서 en 함수는 ‘i’, ‘my, ’me’ 등과 같이 일반 적으로 분석의 의미를 갖지 못하는 최소한의 단어 들을 포함하는 함수이다. 셋째, 어근 동일화 함수를 이용해 일반적으로 같은 의미에서 파생한 단어의 다양한 형태(시제, 단복수 등)를 하나의 단어로 치환하였다. 넷째, 끝으로 이렇게 정리된 단어들의 주요 빈도 수를 살펴보고 본 연구 목적에 맞지 않는 단어를 추가적으로 삭제하는 과정을 반복하였다.
이에, 본 연구에서는 특정 토픽 수 구간을 정해 CTM을 여러번 구현한 뒤, 각 토픽을 대표하는 논문을 직접 확인한 후 적절히 분석이 되었는지 판단하는 과정을 반복하였다. 이를 위해 PV를 기준으로 7개에서 12개 사이의 토픽 구간을 정한 뒤, 각 이슈를 대표하는 15개 키워드를 도출하였다. 이를 통해 각 키워드간의 상관성을 살펴본 후, 1차로 각 토픽의 이름을 명명하였다.
이를 위해 Wos의 학술 빅데이터를 활용해 텍스트 마이닝 기반의 키워드 분석, 토픽 모델링 분석 그리고 연구 경향 분석을 하였다. 먼저, 본 연구에서 설정한 세 가지 연구문제를 중심으로 주요 결과를 간략히 살펴보면 다음과 같다.
이를 위해 PV를 기준으로 7개에서 12개 사이의 토픽 구간을 정한 뒤, 각 이슈를 대표하는 15개 키워드를 도출하였다. 이를 통해 각 키워드간의 상관성을 살펴본 후, 1차로 각 토픽의 이름을 명명하였다. 이후, posterior 함수를 활용해각 토픽을 대표하는 논문을 확인하는 사후 분석을 실시하였다.
PV는 그 값이 적게 나올수록 적정한 모델로 평가되지만, 일반적으로 도출하는 토픽 수가 많을수록 값이 낮아지는 경향이 있다. 이에, 본 연구에서는 특정 토픽 수 구간을 정해 CTM을 여러번 구현한 뒤, 각 토픽을 대표하는 논문을 직접 확인한 후 적절히 분석이 되었는지 판단하는 과정을 반복하였다. 이를 위해 PV를 기준으로 7개에서 12개 사이의 토픽 구간을 정한 뒤, 각 이슈를 대표하는 15개 키워드를 도출하였다.
첫째, 2019년 3월 31일을 기준으로 WoS에 접속하여 정보윤리와 관련된 논문을 검색하였다. 자료 검색 시 정확하면서도 가급적 많은 저널이 포함될 수 있도록 검색 기간은 제한하지 않았으며, 정보윤리와 관련한 다양한 키워드를 활용 하였다. 키워드는 선행연구에서 도출된 ‘정보윤리 (Information ethics)’, ‘컴퓨터 윤리(Computer ethics)’, ‘인터넷 윤리(Internet ethics)’, ‘사이버 윤리(Cyber ethics)’, ‘디지털 윤리(Digital ethics)’를 활용하였으며, ‘ethics’과 유사어로 활용 되고 있는 ‘moral’ 을 ‘ethics’과 대체하여 검색 구문을 추가해 활용해 검색하였다.
분석 대상 논문을 수집하기 위하여 다음과 같은 절차를 거쳤다. 첫째, 2019년 3월 31일을 기준으로 WoS에 접속하여 정보윤리와 관련된 논문을 검색하였다. 자료 검색 시 정확하면서도 가급적 많은 저널이 포함될 수 있도록 검색 기간은 제한하지 않았으며, 정보윤리와 관련한 다양한 키워드를 활용 하였다.
첫째, 분석 데이터를 말뭉치(Corpus)로 변환한 후, 숫자, 특수 문자, 문장 부호를 제거하였다. 둘째, 이렇게 처리된 데이터를 1차로 확인한 후, 대문자로 나타난 텍스트를 소문자로 전환하고 tm 패키지의 en 함수를 활용해 불용문자를 제거하였다.
첫째, 연구문제1: 주요 키워드 빈도 분석을 위해 단어빈도(Term Frequency, TF), 문서빈도 (Document Frequency, DF), 그리고 TF-IDF(Term Frequency - Inverse Document Frequency) 가중치를 이용한 빈도 분석을 하였다.
키워드는 선행연구에서 도출된 ‘정보윤리 (Information ethics)’, ‘컴퓨터 윤리(Computer ethics)’, ‘인터넷 윤리(Internet ethics)’, ‘사이버 윤리(Cyber ethics)’, ‘디지털 윤리(Digital ethics)’를 활용하였으며, ‘ethics’과 유사어로 활용 되고 있는 ‘moral’ 을 ‘ethics’과 대체하여 검색 구문을 추가해 활용해 검색하였다.

대상 데이터

구체적인 분석 대상은 각 논문의 제목, 저자 키워드, 학술지 지정 키워드, 그리고 요약이다.
본 연구에서 분석 대상으로 하는 학술 데이터는 WoS에서 제공하는 SSCI, SCI, SCIE, A&HCI급 학술 논문이다.
이후, posterior 함수를 활용해각 토픽을 대표하는 논문을 확인하는 사후 분석을 실시하였다. 사후 분석 과정을 통해 임시 명명되었던 이슈와 실제 대표 논문간의 일치도를 확인한 후, 최종적으로 8개 토픽과 토픽명을 선정하였다.
이렇게 수집된 논문 중 요약 정보를 제공하지 않거나, 정보량이 극히 제한적인 논문들을 제외하고 총 318편의 논문을 분석 대상으로 선정하였다.
이렇게 전처리 과정을 거쳐 본 연구에 활용 된 최종 단어 수는 36,763개이며, 이 중 고유 단어 수는 3,837개이다.

데이터처리

연구문제를 해결하기 위해 Web of Science (WoS)에서 제공하는 학술 빅데이터를 활용해 키워드 빈도 분석, 토픽모델링 분석, 연도별 토픽 출현 빈도 분석을 실시하였다.
이를 통해 각 키워드간의 상관성을 살펴본 후, 1차로 각 토픽의 이름을 명명하였다. 이후, posterior 함수를 활용해각 토픽을 대표하는 논문을 확인하는 사후 분석을 실시하였다. 사후 분석 과정을 통해 임시 명명되었던 이슈와 실제 대표 논문간의 일치도를 확인한 후, 최종적으로 8개 토픽과 토픽명을 선정하였다.
토픽 모델링을 통해 도출된 정보윤리 이슈의 적정 수는 Perplexity Value(PV)를 평가를 통해 확인하였다. PV는 그 값이 적게 나올수록 적정한 모델로 평가되지만, 일반적으로 도출하는 토픽 수가 많을수록 값이 낮아지는 경향이 있다.

이론/모형

본 연구는 텍스트 마이닝을 위해 RStudio version 1.1.463(for mac)을 활용하였으며, R에서 제공하는 자연어 처리 패키지인 tm과 토픽 모델링 패키지 topicmodel를 사용하였다.
토픽 모델링은 문서와 단어로 구성된 데이터를 기반으로 각 문서에 잠재되어 있다고 가정되는 토픽의 등장 확률을 추정 하는 통계적 텍스트 처리기법이다[20]. 본 연구에서는 토픽 모델링을 위해 상관토픽모형 (Correlated Topic Model, CTM)을 사용하였다. CTM은 토픽 모델링을 위해 일반적으로 사용되는 잠재적 할당 모형(Latent Dirichlet Allocation, LDA)을 보완한 것으로, 잠재토픽 사이의 상관관계 발생을 고려해 토픽을 도출하는 보다 정교한 모형이다.

성능/효과

그 외, TF/DF와 비교 했을 때 ‘software’, ‘privacy’가 순위가 향상되었다.
사후 분석을 통해 ‘IT and Social Impact’가 등장하는 주요 논문을 살펴보면 Vanacker, Heider(2012), Rehg(2015), Healey, Stephens (2017) 의 연구가 이를 대표하는 것으로 나타났다[30][31][32]. 그리고 각 논문에서 다루고 있는 주요 주제는 IT가 가지고온 사회적 변화에 대한 전반적인 주제와 사회적 영향력, 글로벌 윤리, 문화적 차이 등에 대한 논의임을 확인할 수 있다.
사후 분석을 통해 ‘Professional value’가 등장하는 주요 논문을 살펴보면 Gotterbarn(2001), Gorniak(2007), Ferguson, Thornley, Gibb(2007) 의 연구가 이를 대표하는 것으로 나타났다 [5][21][22]. 그리고 각 논문에서 다루고 있는 주요 주제는 소프트웨어 개발 과정에서 경험할 수 있는 윤리적 딜레마, 지켜야 할 윤리적 가치, 그리고 윤리적 소양에 대한 논의임을 확인할 수 있다.
사후 분석을 통해 ‘Security and Privacy’가 등장하는 주요 논문을 살펴보면 Sung, Kim(2016), Wolf(2016), Wachter(2017)의 연구가 이를 대표하는 것으로 나타났다[2][3][29]. 그리고 각 논문에서 다루고 있는 주요 주제는 소프트웨어의 취약성, 보안, 그로 인한 사회적 영향과 개인 프라이버시에 미치는 영향력 등에 대한 논의임을 확인할 수 있다.
그리고 각 논문에서 다루고 있는 주요 주제는 인공지능이 삶에 미치는 영향과 인공지능 객체에 대한 도덕적·윤리적 가치 그리고 새롭게 등장할 윤리적 문제에 대한 논의임을 확인할 수 있다.
그리고 각 논문에서 다루고 있는 주요 주제는 인터넷이 가지고 온 사회적 변화, 인터넷에서 공유되는 정보의 공정함, 정보 제공 알고리 즘의 투명도, 정치적 영향력, 인종차별 등과 같은 사회적 영향력 등에 대한 윤리적 논의임을 확인할수 있다.
사후 분석을 통해 ‘Teaching and Learning’이 등장하는 주요 논문을 살펴보면 Liu, Yang(2012), Choi(2016), Huang, Huang, Wu(2016)의 연구가 이를 대표하는 것으로 나타났다[6][7][33]. 그리고 각 논문에서 다루고 있는 주요 주제는 정보윤리 교육을 위한 교육 내용, 교수 학습 방법, 적용 그리고 효과성에 대한 논의임을 확인할 수 있다.
셋째, 어근 동일화 함수를 이용해 일반적으로 같은 의미에서 파생한 단어의 다양한 형태(시제, 단복수 등)를 하나의 단어로 치환하였다. 넷째, 끝으로 이렇게 정리된 단어들의 주요 빈도 수를 살펴보고 본 연구 목적에 맞지 않는 단어를 추가적으로 삭제하는 과정을 반복하였다. 특히, 거의 모든 문서에 공통적으로 나타나면 서도 큰 의미를 갖지 못하는 ‘ethics’, ‘moral’, ‘research’, ‘study’ 등과 같은 단어들을 추가적으로 삭제하였다.
다만, TF-IDF 분석 결과를 살펴보면, ‘digital’, ‘student’, ‘software’, ‘privacy’ 등의 단어가 TF/DF에 비해 순위가 상승된 것을 확인할 수 있었다.
둘째, ‘AI and Social Impact’가 독립된 이슈로 분석되었다는 것이다.
둘째, 정보 윤리의 특성 상 새로운 기술의 등장으로 인해 발생하는 윤리적 공백을 최대한 적절한 시점에 다룰 수 있어야 한다. 본 연구의 결과에서도 2010년 전후로 ‘Professional value’, ‘Cyber-bullying’ 관련 연구가 대폭 증가하는 것으로 나타났으며, 이는 2007년 스마트폰의 등장과 함께, 전 세계적으로 Computational thinking 기반의 정보교육의 중요성이 대두되는 시점과 무관하다고 할 수 없을 것이다.
둘째, 토픽 모델링 분석에 기초한 주요 이슈들을 살펴보면, ‘Professional value’, ‘Cyber-bullying’, ‘Media and Reliability’, ‘Security and Privacy’, ‘IT and Social Impact’, ‘Teaching and Learning’, ‘Property and Behavior’, ‘AI and Social Impact’ 으로 분석되었다.
셋째, 각 이슈별 연구 경향을 살펴보면, ‘Professional value’와 ‘Cyber-bullying’이 상대적 으로 높은 비율을 차지하고 있으며, 특히 2010년을 전후로 ‘Professional value’, ‘Cyber-bullying’, ‘Media and Reliability’, ‘Teaching and Learning’ 이슈가 가파르게 상승하는 것을 알 수있었다.
셋째, 다양한 정보윤리 이슈가 도출되었다는 것이다. 토픽 모델링 결과 8개의 이슈로 유형화될 수있었다.
우선 TF 분석 결과를 살펴보면 ‘information’, ‘computer’, ‘use’, ‘technology’, ‘internet’ 순으로 나왔다.
이와 함께, ‘Teaching and Learning’과 관련된 연구가 타 주제와 비교해 상대적으로 많은 등장 비율을 보여 주고 있는 것을 확인할 수 있다.
첫째, ‘Professional value‘가 강조 되고 있다는 것이다.
첫째, TF/DF 모두 ‘information’, ‘computer’, ‘use’, ‘technology’, ‘internet’ 등의 단어가 높은 빈도를 차지고 하고 있었다.
첫째, 출연 문서 총합을 보았을 때 가장 높게 나타난 이슈는 ‘Professional value’이다.

후속연구

이를 보완하기 위해서는 향후 소셜 빅데이터 등의 분석을 통해 보다 다각적인 방식으로 접근할 필요가 있다. 또한 체계적인 정보과 정보윤리 교육을 위해서는 정보윤리 교육의 목적, 방법, 평가 등에 대한 연구와 논의가 지속적으로 이루어져야 할 것이다.
하지만, 그 대상을 WoS에서 제공하는 전문 학술 저널만을 대상으로 하였다는 한계점이 존재한다. 이를 보완하기 위해서는 향후 소셜 빅데이터 등의 분석을 통해 보다 다각적인 방식으로 접근할 필요가 있다. 또한 체계적인 정보과 정보윤리 교육을 위해서는 정보윤리 교육의 목적, 방법, 평가 등에 대한 연구와 논의가 지속적으로 이루어져야 할 것이다.
최근 IEEE, ACM 등이 앞다투어 AI 서비스 개발에 앞서 지켜야할 윤리적 가치를 지침을 만들었으나[39][40], 아직 초·중등 교육을 위한 내용과 교육 방법에 대한 연구는 부족한 상태이다. 이에 향후 AI의 발달로 인해 발생할수 있는 윤리적 이슈를 보다 면밀히 분석하고, 초중등 교육에서 다루어야 할 교육내용 및 방법에 대한 연구가 이루어져야 할 것이다.
즉, Maker 또는 개발자 관점에서 경험할수 있는 윤리적 이슈를 토대로 초·중등 수준에 맞는 교육내용으로 구성해야할 것이다.

핵심어	질문	논문에서 추출한 답변
	컴퓨터의 등장과 ICT의 빠른 발전으로 생긴 윤리적 이슈는 무엇인가?	하지만 이렇게 빠르게 변화하는 사회문화 이면에는 프라이버시, 정보 접근성, 정보 신뢰성, 소프트 웨어 안정성 등과 같은 윤리적 이슈들이 지속적으로 등장하고 있다[2][3][4][5]. 이러한 윤리적 이슈 중에는 기존의 갈등이 심화된 경우도, 새롭게 갈등이 되는 경우도 존재한다.
	정보윤리란?	임상수(2003)는 정보윤리의 교육의 범위를 명확히 하기 위해 정보윤리의 범위를 ‘협의의 정보윤리’, ‘사이버윤리’, ‘컴퓨터윤 리’로 구체화하여 그 내용을 살필 필요가 있다고 하였다[16]. 그는 협의의 정보윤리를 정보의 일생 사에 관련된 윤리적 쟁점을 다루는 규범과 이론 체계로 규정하고, 사이버 윤리는 사이버 공간과 관련된 윤리적 쟁점을 다루는 규범과 이론으로 정의하였다. 그리고 컴퓨터윤리는 컴퓨터 기술과 관련된 윤리적 쟁점을 다루는 규범과 이론체계로 한정할 필요가 있다고 하였다.
	교육내용 선정은 어떠한 것들을 만족해야하는가?	교육내용 선정은 교과 목표의 부합성, 개인적·사 회적 요구, 학문적 특성 및 교수·학습 가능성 등을 만족해야한다[10]. 특히, 정보윤리의 학문적 역사가 길지 않았음을 고려하였을 때 교육 내용요소 선정을 위해 그 동안 시행된 학문적 숙의 과정에 관한 재논의는 반드시 필요하며, 이를 보완하기 위한 보다 체계적인 내용요소 선정 과정이 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

Web of Science 빅데이터를 활용한 텍스트 마이닝 기반의 정보윤리 이슈 탐색
Exploring Information Ethics Issues based on Text Mining using Big Data from Web of Science 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

Web of Science 빅데이터를 활용한 텍스트 마이닝 기반의 정보윤리 이슈 탐색 Exploring Information Ethics Issues based on Text Mining using Big Data from Web of Science 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

김한성 (8)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

Web of Science 빅데이터를 활용한 텍스트 마이닝 기반의 정보윤리 이슈 탐색
Exploring Information Ethics Issues based on Text Mining using Big Data from Web of Science 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper