현재 온라인 뉴스 서비스는 선정적인 연성뉴스 중심으로 제공된다. 이에 따라 저널리즘 가치를 구현한 뉴스 서비스의 필요성이 대두되고 있다. 정보원과 공동 인용 여부에 따라 기사를 클러스터링하고 가중치를 부여해 사실성, 다양성, 심층성, 비판성 등 주요 저널리즘 가치를 구현한 알고리즘은 뉴스정보원연결망분석(news source network analysis)으로 제안된 바 있다. 본 연구는 이를 사용자 친화적으로 시각화한 서비스인 뉴스소스를 제안한다. 뉴스소스는 시간과 정보원에 따라 뉴스를 막대그래프 형식으로 어떤 토픽에 대해 분야별, 소속별로 얼마만큼의 중요도에 따라 논의되는지를 대조적으로 보여준다. 본 연구에서는 뉴스 아카이브인 카인즈의 기사를 활용해 뉴스소스의 베타 버전을 구현했다. (http://147.47.125.161/NSNA/ 에서 베타서비스 중이며, 구글 크롬에 최적화 되어있음)
현재 온라인 뉴스 서비스는 선정적인 연성뉴스 중심으로 제공된다. 이에 따라 저널리즘 가치를 구현한 뉴스 서비스의 필요성이 대두되고 있다. 정보원과 공동 인용 여부에 따라 기사를 클러스터링하고 가중치를 부여해 사실성, 다양성, 심층성, 비판성 등 주요 저널리즘 가치를 구현한 알고리즘은 뉴스정보원연결망분석(news source network analysis)으로 제안된 바 있다. 본 연구는 이를 사용자 친화적으로 시각화한 서비스인 뉴스소스를 제안한다. 뉴스소스는 시간과 정보원에 따라 뉴스를 막대그래프 형식으로 어떤 토픽에 대해 분야별, 소속별로 얼마만큼의 중요도에 따라 논의되는지를 대조적으로 보여준다. 본 연구에서는 뉴스 아카이브인 카인즈의 기사를 활용해 뉴스소스의 베타 버전을 구현했다. (http://147.47.125.161/NSNA/ 에서 베타서비스 중이며, 구글 크롬에 최적화 되어있음)
There was widespread criticism of the online news services due to their bias toward sensational and soft news. Thus, news services based on journalist values are socially requested. News source network analysis(NSNA), an algorithm to cluster and weight news sources, quotes, and articles, is suggeste...
There was widespread criticism of the online news services due to their bias toward sensational and soft news. Thus, news services based on journalist values are socially requested. News source network analysis(NSNA), an algorithm to cluster and weight news sources, quotes, and articles, is suggested as a method to emphasize on journalist values like facts, variety, depth, and criticism in the previous study. This study suggests 'News Sources' as a visualization tool of NSNA. 'News Sources' shows news as bar graphs, weighted by facts and criticism, and arranged by organizations and subjects. This study designed a beta version using KINDS, a news archive of Korean Press Foundation.
There was widespread criticism of the online news services due to their bias toward sensational and soft news. Thus, news services based on journalist values are socially requested. News source network analysis(NSNA), an algorithm to cluster and weight news sources, quotes, and articles, is suggested as a method to emphasize on journalist values like facts, variety, depth, and criticism in the previous study. This study suggests 'News Sources' as a visualization tool of NSNA. 'News Sources' shows news as bar graphs, weighted by facts and criticism, and arranged by organizations and subjects. This study designed a beta version using KINDS, a news archive of Korean Press Foundation.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문은 저널리즘의 가치 중 사실성, 비판성, 다양성, 심층성 등이 높은 기사와 정보원에 가중치를 두는 NSNA을 기반으로 일반 사용자들이 쉽게 이해할 수 있는 뉴스소스를 제안하고 실제로 구현한 웹어플리케이션을 소개했다.
뉴스정보원 연결망은 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는 양방향(undirected) 준 연결망 (quasi network)이다. 본 연구는 NSNA를 사용자 친화적으로 시각화한 뉴스소스를 제안한다. 뉴스소스는 뉴스 보기 화면을 정보원들의 토론장처럼 시각화한다.
뉴스소스는 뉴스 보기 화면을 정보원들의 토론장처럼 시각화한다. 즉 어떤 토픽에 대한 분야별, 소속별 의견을 사실에 가중치를 두어 시간에 따라 대조할 수 있도록 막대그래프를 활용함으로써 저널리즘 가치를 반영한 뉴스의 시각화를 구현하고자 했다.
제안 방법
기사와 정보원들의 가중치는 저널리즘 가치 중 사실성에 초점을 두고 저널리즘 관행에 따른 영역 지식과 NSNA을 통해 결정했다. 첫째, 정보원 가중치는 우선 개인실명정보원, 집단정보원, 익명정보원 순으로 할당된다.
우선 기사와 정보원의 식별 과정을 설명하면, 기사를 문장 단위로 분할하고 인용문 추출한 다음 정보원의 인명․소속․ 직함의 추출에서는 룰과 인명사전을 활용했다. 문장 식별은 쌍따옴표나 숫자를 이용하기 때문에 거의 100% 식별된다.
기사 데이터는 텍스트 형태의 비정형 데이터이다. 이를 뉴스 소스 시스템에서 시각화할 수 있는 형태로 정형화하고 가중치를 부여하기 위해 자연어처리와 뉴스정보원연결망분석 등을 실시했다.
자연어처리는 ‘꼬꼬마 형태소 분석기(kkma.snu.ac.kr)’, 검색엔진은 Lucene 등을 국문 기사 분석에 맞게 보완해 사용했고, 자료 저장 및 관리와 처리에는 Linux, Hadoop, HBase, MapReduce, Hive 등의 오픈소스를 활용했다.
기사의 지면은 우선 카인즈가 인력으로 분류한 지면 분류를 정보원 소속 분류에 맞추어 표 3과 같이 5개 분야로 재분류했다. 카인즈에서 분류하지 않은 지면에 대해서는 재분류된 기사를 참고해 각 분야에 대한 트레이닝 테이블을 작성한 후 간단한 베이지안 텍스트 분류(Naive Baysian Text classification)기법을 통해 추가로 분류했는데 평균 75%의 정확도를 기록했다. 여기서 미분류된 기사는 ‘종합/사회’에 할당했다.
대상 데이터
그림 1에서 검색어는 ‘총선’이었으며 검색기간은 19대 국회의원 선거 후보자 등록이 시작된 2012년 3월 22일부터 총선을 진행한 2012년 4월 10일까지로 설정했다. 검색매체는 한겨레신문과 동아일보였다. 그림 3은 연결정도가 0~1인 정보원을 제외한 뒤 가장 큰 주요구성집단(main component)인 뉴스정보원 연결망을 UCINET을 통해 시각화한 것이다.
그림 1에서 검색어는 ‘총선’이었으며 검색기간은 19대 국회의원 선거 후보자 등록이 시작된 2012년 3월 22일부터 총선을 진행한 2012년 4월 10일까지로 설정했다.
기사 데이터는 텍스트 형태의 비정형 데이터이다. 이를 뉴스 소스 시스템에서 시각화할 수 있는 형태로 정형화하고 가중치를 부여하기 위해 자연어처리와 뉴스정보원연결망분석 등을 실시했다.
뉴스 데이터로는 한국언론진흥재단과의 협약을 통해 제공 받은 뉴스 아카이브인 카인즈의 데이터를 활용했다. 카인즈는 포털뉴스처럼 실시간 뉴스 서비스를 제공 중이며 뉴스소스에서는 1990년 1월 1일부터 2014년 4월 10일까지 총 68개 매체 2900만 여건의 기사 데이터를 가공해 시각화했다.
뉴스소스는 NSNA 알고리즘으로 각 토픽에 대해 분야별, 소속별로 중요한 정보원을 도출하고, 정보원의 중요도에 따라 가장 중요한 기사를 막대그래프 형식의 목록으로 보여준다. 현재 한국언론진흥재단의 미디어 관련 자료 아카이브인 미디어가온(www.mediagaon.or.kr)을 통해 베타버전을 공개한 상태이다. 개발언어는 자바(JAVA)를 기본으로 했다.
본 연구는 시각화를 위한 기사, 정보원, 인용문의 가중치부여에 NSNA를 활용한다. 그림 3은 뉴스정보원연결망의 한 사례이다.
본 연구에서 참조한 예로는 Marcos Weskamp의 Newsmap이 있다[9]. Marcos의 Newsmap은 Google의 뉴스 서비스를 기반데이터로 Squarified Treemap Algorithm을 이용해 그림 1과 같이 실시간으로 뉴스의 클러스터링과 중요도를 각각 색상과 사각형의 크기를 통해 시각적으로 제공한다[10].
성능/효과
둘째, ‘검색’으로 검색어를 입력하면 검색기간별로 해당 검색어와 관련된 주요 정보원의 발언과 기사를 역시 중복 없이 중요도에 따라 보여준다.
집단정보원 간 가중치와 익명정보원 간 가중치는 동일하다. 둘째, 문장 가중치는 우선 개인실명정보원의 인용문, 수치문, 집단정보원의 인용문, 익명정보원의 인용문 순으로 부여된다. 인용문 내에서는 가중치가 높은 정보원의 인용문이 더 높은 가중치를 부여받는다.
인명·소속·직함 식별의 정확도는 일반적으로는 60~90%이지만, 사전 활용과 함께 저널리즘 영역지식으로 보강하여 룰 기반을 활용한 결과 2013년 7월 20일자 기사 기준으로 인간이 코딩한 것과 비교해 이름은 90.3%, 소속은 92.7%, 직함은 97.8%의 높은 정확도를 보였다.
다음으로 정보원 매칭(예컨대 ‘박원순 서울시장’과 ‘박 시장’의 매칭)은 SVM(support vector machine)을 활용했다[12]. 정보원 매칭 성능의 경우 무작위 선정 300개의 개체쌍에 대해 10-fold cross validation를 수행한 결과 95%의 정확도를 보였다.
정확도, 재현율, F-measure, 순수도 측정결과 결과 90~100%의 평가 성능을 보였다. 정보원 식별에 날짜, 성, 이름, 소속, 직함, 수치 등 6개의 정보를 핵심적으로 활용해 정확도가 개선됐다. 해당 일에 유사 기사가 없다면, 군집화 과정은 생략된다.
중복기사를 제거하기 위한 유사 기사 및 유사 문장의 군집화(clustering)는 인명·소속·직함 및 주요 명사를 중심으로 문서 간의 코사인 유사도(cosine similarity)를 계산하여 일정 수준 이상의 유사한 기사끼리 묶어주었다. 정확도, 재현율, F-measure, 순수도 측정결과 결과 90~100%의 평가 성능을 보였다. 정보원 식별에 날짜, 성, 이름, 소속, 직함, 수치 등 6개의 정보를 핵심적으로 활용해 정확도가 개선됐다.
기사와 정보원들의 가중치는 저널리즘 가치 중 사실성에 초점을 두고 저널리즘 관행에 따른 영역 지식과 NSNA을 통해 결정했다. 첫째, 정보원 가중치는 우선 개인실명정보원, 집단정보원, 익명정보원 순으로 할당된다. 개인실명정보원 간의 가중치 비교는 정보원의 논쟁적인 정도를 나타내는 값인 2주간 공동인용된 정보원수, 즉 연결정도 값을 활용한다.
후속연구
텍스트 중심에서 사진이나 동영상을 함께 서비스할 때 시각화 방안도 고민할 필요가 있다. 또한 본 연구의 기초가 되는 NSNA를 더욱 정교화해 기사와 사실의 가중치 부여 방식을 다양화하고 이를 바탕으로 준공공데이터인 기사로부터 더 많은 가치를 끌어낼 수도 있을 것이다.
카인즈는 포털뉴스처럼 실시간 뉴스 서비스를 제공 중이며 뉴스소스에서는 1990년 1월 1일부터 2014년 4월 10일까지 총 68개 매체 2900만 여건의 기사 데이터를 가공해 시각화했다. 향후 한국언론진흥재단과 저작권 문제 등을 협의 후 실시간 연동 서비스를 제공할 예정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
포털 저널리즘이 비판을 받는 이유는?
현재 포털 뉴스 검색 서비스에서는 연예, 스포츠, 성(sex), 범죄, 인물, 미담 등 선정적 기사 또는 연성뉴스(soft news)가 중시되는 황색 저널리즘(yellow journalism)의 성격이 강하게 나타난다[1]. 포털 저널리즘이 인터넷 담론 공중[2]의 토론 기초가 되는 등 긍정적 기능이 있음에도 불구하고, 적지 않은 비판을 받는 것도 이 때문이다[3].
저널리즘의 주요 가치로 인정받는 것은?
저널리즘의 주요 가치로는 사실성, 다양성, 심층성, 비판성 등이 널리 인정받는다. 우선 사실성 관행으로는 대표적으로 인용, 수치, 사례를 꼽을 수 있다[4].
NSNA 알고리즘은 어떤 알고리즘인가?
NSNA 알고리즘은 사실성과 비판성에 의해 가중치를 부여하는 알고리즘이다. NSNA에 의해 중시되는 기사는 논쟁적인 관련 기사가 많은 기사이며, 정보원의 경우 논쟁적인 기사에 많이 실린 정보원이 중요하게 취급된다.
참고문헌 (12)
한국언론연구원. 매스컴대사전. 서울:한국언론연구원. 1993.
이준웅. 인터넷 공론장의 매개된 상호가시성과 담론 공중 의 형성. 언론정보연구. 제46권 2호. pp. 5-32. 2009.
van Dijk, T. A. News As Discourse. Lawrence Erlbaum. New Jersey. 1988.
Sigal, L. V. Reporters and Officials : The Organization and Politics of Newsmaking. Lexington. DC Health & Co. Lexington. Massachusetts. 1973.
Schudson, M. Discovering The News : A Social History of American Newspapers. Basic Books. New York. 1978.
Gans, H. Deciding Whats News. University of Texas Press. Austin. 1979.
박대민. 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보 원연결망분석. 한국언론학보. 제57권 6호. pp. 233-261. 2013.
Weskamp, M. Newsmap. Webdesigning Magazine. June 2004.
Bederson, B. B., Shneiderman, B., and Wattenberg, M.. Ordered and Quantum Treemaps : Making Effective Use of 2D Space to Display Hierarchies. ACM Transactions on Graphics. 21(4). pp. 833-854. 2002.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.