[논문]저널리즘 가치에 기초한 알고리즘을 이용한 뉴스 시각화

박대민; 김기남; 강남용; 서봉원; 하효지; 온병원

doi:10.17210/jhsk.2014.11.9.2.5

초록
AI-Helper

현재 온라인 뉴스 서비스는 선정적인 연성뉴스 중심으로 제공된다. 이에 따라 저널리즘 가치를 구현한 뉴스 서비스의 필요성이 대두되고 있다. 정보원과 공동 인용 여부에 따라 기사를 클러스터링하고 가중치를 부여해 사실성, 다양성, 심층성, 비판성 등 주요 저널리즘 가치를 구현한 알고리즘은 뉴스정보원연결망분석(news source network analysis)으로 제안된 바 있다. 본 연구는 이를 사용자 친화적으로 시각화한 서비스인 뉴스소스를 제안한다. 뉴스소스는 시간과 정보원에 따라 뉴스를 막대그래프 형식으로 어떤 토픽에 대해 분야별, 소속별로 얼마만큼의 중요도에 따라 논의되는지를 대조적으로 보여준다. 본 연구에서는 뉴스 아카이브인 카인즈의 기사를 활용해 뉴스소스의 베타 버전을 구현했다. (http://147.47.125.161/NSNA/ 에서 베타서비스 중이며, 구글 크롬에 최적화 되어있음)

Abstract ▼ AI-Helper

There was widespread criticism of the online news services due to their bias toward sensational and soft news. Thus, news services based on journalist values are socially requested. News source network analysis(NSNA), an algorithm to cluster and weight news sources, quotes, and articles, is suggeste...

There was widespread criticism of the online news services due to their bias toward sensational and soft news. Thus, news services based on journalist values are socially requested. News source network analysis(NSNA), an algorithm to cluster and weight news sources, quotes, and articles, is suggested as a method to emphasize on journalist values like facts, variety, depth, and criticism in the previous study. This study suggests 'News Sources' as a visualization tool of NSNA. 'News Sources' shows news as bar graphs, weighted by facts and criticism, and arranged by organizations and subjects. This study designed a beta version using KINDS, a news archive of Korean Press Foundation.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 저널리즘의 가치 중 사실성, 비판성, 다양성, 심층성 등이 높은 기사와 정보원에 가중치를 두는 NSNA을 기반으로 일반 사용자들이 쉽게 이해할 수 있는 뉴스소스를 제안하고 실제로 구현한 웹어플리케이션을 소개했다.
뉴스정보원 연결망은 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는 양방향(undirected) 준 연결망 (quasi network)이다. 본 연구는 NSNA를 사용자 친화적으로 시각화한 뉴스소스를 제안한다. 뉴스소스는 뉴스 보기 화면을 정보원들의 토론장처럼 시각화한다.
뉴스소스는 뉴스 보기 화면을 정보원들의 토론장처럼 시각화한다. 즉 어떤 토픽에 대한 분야별, 소속별 의견을 사실에 가중치를 두어 시간에 따라 대조할 수 있도록 막대그래프를 활용함으로써 저널리즘 가치를 반영한 뉴스의 시각화를 구현하고자 했다.

제안 방법

기사와 정보원들의 가중치는 저널리즘 가치 중 사실성에 초점을 두고 저널리즘 관행에 따른 영역 지식과 NSNA을 통해 결정했다. 첫째, 정보원 가중치는 우선 개인실명정보원, 집단정보원, 익명정보원 순으로 할당된다.
우선 기사와 정보원의 식별 과정을 설명하면, 기사를 문장 단위로 분할하고 인용문 추출한 다음 정보원의 인명․소속․ 직함의 추출에서는 룰과 인명사전을 활용했다. 문장 식별은 쌍따옴표나 숫자를 이용하기 때문에 거의 100% 식별된다.
기사 데이터는 텍스트 형태의 비정형 데이터이다. 이를 뉴스 소스 시스템에서 시각화할 수 있는 형태로 정형화하고 가중치를 부여하기 위해 자연어처리와 뉴스정보원연결망분석 등을 실시했다.
자연어처리는 ‘꼬꼬마 형태소 분석기(kkma.snu.ac.kr)’, 검색엔진은 Lucene 등을 국문 기사 분석에 맞게 보완해 사용했고, 자료 저장 및 관리와 처리에는 Linux, Hadoop, HBase, MapReduce, Hive 등의 오픈소스를 활용했다.
기사의 지면은 우선 카인즈가 인력으로 분류한 지면 분류를 정보원 소속 분류에 맞추어 표 3과 같이 5개 분야로 재분류했다. 카인즈에서 분류하지 않은 지면에 대해서는 재분류된 기사를 참고해 각 분야에 대한 트레이닝 테이블을 작성한 후 간단한 베이지안 텍스트 분류(Naive Baysian Text classification)기법을 통해 추가로 분류했는데 평균 75%의 정확도를 기록했다. 여기서 미분류된 기사는 ‘종합/사회’에 할당했다.

대상 데이터

그림 1에서 검색어는 ‘총선’이었으며 검색기간은 19대 국회의원 선거 후보자 등록이 시작된 2012년 3월 22일부터 총선을 진행한 2012년 4월 10일까지로 설정했다. 검색매체는 한겨레신문과 동아일보였다. 그림 3은 연결정도가 0~1인 정보원을 제외한 뒤 가장 큰 주요구성집단(main component)인 뉴스정보원 연결망을 UCINET을 통해 시각화한 것이다.
그림 1에서 검색어는 ‘총선’이었으며 검색기간은 19대 국회의원 선거 후보자 등록이 시작된 2012년 3월 22일부터 총선을 진행한 2012년 4월 10일까지로 설정했다.
기사 데이터는 텍스트 형태의 비정형 데이터이다. 이를 뉴스 소스 시스템에서 시각화할 수 있는 형태로 정형화하고 가중치를 부여하기 위해 자연어처리와 뉴스정보원연결망분석 등을 실시했다.
뉴스 데이터로는 한국언론진흥재단과의 협약을 통해 제공 받은 뉴스 아카이브인 카인즈의 데이터를 활용했다. 카인즈는 포털뉴스처럼 실시간 뉴스 서비스를 제공 중이며 뉴스소스에서는 1990년 1월 1일부터 2014년 4월 10일까지 총 68개 매체 2900만 여건의 기사 데이터를 가공해 시각화했다.
뉴스소스는 NSNA 알고리즘으로 각 토픽에 대해 분야별, 소속별로 중요한 정보원을 도출하고, 정보원의 중요도에 따라 가장 중요한 기사를 막대그래프 형식의 목록으로 보여준다. 현재 한국언론진흥재단의 미디어 관련 자료 아카이브인 미디어가온(www.mediagaon.or.kr)을 통해 베타버전을 공개한 상태이다. 개발언어는 자바(JAVA)를 기본으로 했다.

이론/모형

다음으로 정보원 매칭(예컨대 ‘박원순 서울시장’과 ‘박 시장’의 매칭)은 SVM(support vector machine)을 활용했다[12].
본 연구는 시각화를 위한 기사, 정보원, 인용문의 가중치부여에 NSNA를 활용한다. 그림 3은 뉴스정보원연결망의 한 사례이다.
본 연구에서 참조한 예로는 Marcos Weskamp의 Newsmap이 있다[9]. Marcos의 Newsmap은 Google의 뉴스 서비스를 기반데이터로 Squarified Treemap Algorithm을 이용해 그림 1과 같이 실시간으로 뉴스의 클러스터링과 중요도를 각각 색상과 사각형의 크기를 통해 시각적으로 제공한다[10].

성능/효과

둘째, ‘검색’으로 검색어를 입력하면 검색기간별로 해당 검색어와 관련된 주요 정보원의 발언과 기사를 역시 중복 없이 중요도에 따라 보여준다.
집단정보원 간 가중치와 익명정보원 간 가중치는 동일하다. 둘째, 문장 가중치는 우선 개인실명정보원의 인용문, 수치문, 집단정보원의 인용문, 익명정보원의 인용문 순으로 부여된다. 인용문 내에서는 가중치가 높은 정보원의 인용문이 더 높은 가중치를 부여받는다.
인명·소속·직함 식별의 정확도는 일반적으로는 60~90%이지만, 사전 활용과 함께 저널리즘 영역지식으로 보강하여 룰 기반을 활용한 결과 2013년 7월 20일자 기사 기준으로 인간이 코딩한 것과 비교해 이름은 90.3%, 소속은 92.7%, 직함은 97.8%의 높은 정확도를 보였다.
다음으로 정보원 매칭(예컨대 ‘박원순 서울시장’과 ‘박 시장’의 매칭)은 SVM(support vector machine)을 활용했다[12]. 정보원 매칭 성능의 경우 무작위 선정 300개의 개체쌍에 대해 10-fold cross validation를 수행한 결과 95%의 정확도를 보였다.
정확도, 재현율, F-measure, 순수도 측정결과 결과 90~100%의 평가 성능을 보였다. 정보원 식별에 날짜, 성, 이름, 소속, 직함, 수치 등 6개의 정보를 핵심적으로 활용해 정확도가 개선됐다. 해당 일에 유사 기사가 없다면, 군집화 과정은 생략된다.
중복기사를 제거하기 위한 유사 기사 및 유사 문장의 군집화(clustering)는 인명·소속·직함 및 주요 명사를 중심으로 문서 간의 코사인 유사도(cosine similarity)를 계산하여 일정 수준 이상의 유사한 기사끼리 묶어주었다. 정확도, 재현율, F-measure, 순수도 측정결과 결과 90~100%의 평가 성능을 보였다. 정보원 식별에 날짜, 성, 이름, 소속, 직함, 수치 등 6개의 정보를 핵심적으로 활용해 정확도가 개선됐다.
기사와 정보원들의 가중치는 저널리즘 가치 중 사실성에 초점을 두고 저널리즘 관행에 따른 영역 지식과 NSNA을 통해 결정했다. 첫째, 정보원 가중치는 우선 개인실명정보원, 집단정보원, 익명정보원 순으로 할당된다. 개인실명정보원 간의 가중치 비교는 정보원의 논쟁적인 정도를 나타내는 값인 2주간 공동인용된 정보원수, 즉 연결정도 값을 활용한다.

후속연구

텍스트 중심에서 사진이나 동영상을 함께 서비스할 때 시각화 방안도 고민할 필요가 있다. 또한 본 연구의 기초가 되는 NSNA를 더욱 정교화해 기사와 사실의 가중치 부여 방식을 다양화하고 이를 바탕으로 준공공데이터인 기사로부터 더 많은 가치를 끌어낼 수도 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	포털 저널리즘이 비판을 받는 이유는?	현재 포털 뉴스 검색 서비스에서는 연예, 스포츠, 성(sex), 범죄, 인물, 미담 등 선정적 기사 또는 연성뉴스(soft news)가 중시되는 황색 저널리즘(yellow journalism)의 성격이 강하게 나타난다[1]. 포털 저널리즘이 인터넷 담론 공중[2]의 토론 기초가 되는 등 긍정적 기능이 있음에도 불구하고, 적지 않은 비판을 받는 것도 이 때문이다[3].
	저널리즘의 주요 가치로 인정받는 것은?	저널리즘의 주요 가치로는 사실성, 다양성, 심층성, 비판성 등이 널리 인정받는다. 우선 사실성 관행으로는 대표적으로 인용, 수치, 사례를 꼽을 수 있다[4].
	NSNA 알고리즘은 어떤 알고리즘인가?	NSNA 알고리즘은 사실성과 비판성에 의해 가중치를 부여하는 알고리즘이다. NSNA에 의해 중시되는 기사는 논쟁적인 관련 기사가 많은 기사이며, 정보원의 경우 논쟁적인 기사에 많이 실린 정보원이 중요하게 취급된다.

참고문헌 (12)

한국언론연구원. 매스컴대사전. 서울：한국언론연구원. 1993.
이준웅. 인터넷 공론장의 매개된 상호가시성과 담론 공중 의 형성. 언론정보연구. 제46권 2호. pp. 5-32. 2009.

상세보기
김위근, 김성해, 김동윤. 뉴스의 대중화 혹은 저널리즘의 게토화：저널리즘 관점에서 본 네이버 '뉴스캐스트' 사례 분석. 사이버커뮤니케이션학보. 제30권 2호. pp. 33-72. 2013.

상세보기
van Dijk, T. A. News As Discourse. Lawrence Erlbaum. New Jersey. 1988.
Sigal, L. V. Reporters and Officials : The Organization and Politics of Newsmaking. Lexington. DC Health & Co. Lexington. Massachusetts. 1973.
Schudson, M. Discovering The News : A Social History of American Newspapers. Basic Books. New York. 1978.
Gans, H. Deciding Whats News. University of Texas Press. Austin. 1979.
박대민. 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보 원연결망분석. 한국언론학보. 제57권 6호. pp. 233-261. 2013.
Weskamp, M. Newsmap. Webdesigning Magazine. June 2004.
Bederson, B. B., Shneiderman, B., and Wattenberg, M.. Ordered and Quantum Treemaps : Making Effective Use of 2D Space to Display Hierarchies. ACM Transactions on Graphics. 21(4). pp. 833-854. 2002.
http://media1.s-nbcnews.com/i/msnbc/components/spectra/ 2013.
Witten, I. H., Frank, E. and Hall, M. Data Mining : Practical Machine Learning Tools and Techniques (3rd ed.). Morgan Kaufmann. 2011.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

저널리즘 가치에 기초한 알고리즘을 이용한 뉴스 시각화
A news visualization based on an algorithm by journalistic values 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

저널리즘 가치에 기초한 알고리즘을 이용한 뉴스 시각화 A news visualization based on an algorithm by journalistic values 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

김기남 (1) 하효지 (2) 온병원 (14)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

저널리즘 가치에 기초한 알고리즘을 이용한 뉴스 시각화
A news visualization based on an algorithm by journalistic values 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper