[논문]텍스트마이닝을 활용한 미국 대통령 취임 연설문의 트렌드 연구

조수곤; 조재희; 김성범

doi:10.7232/jkiie.2015.41.5.453

문제 정의

따라서 본 연구의 대상인 대통령의 연설문 또한 대중에게 그 내용이 전달되는 방법, 즉 미디어가 활자로 대표되는 신문 또는 도서 등에서 라디오 또는 텔레비전 등으로 변화함에 따라 보다 평이하고, 간결한 형태를 보이고 있음을 유추할 수 있다. 그러나 본 연구는 이와 같은 단편적인 추이의 관찰을 넘어, 보다 정밀한 연설문의 트렌드 분석을 수행하기 위하여 문서의 특성을 대표하는 객관적 주제어를 추출하고, 연설문 내의 주제어의 출현 횟수를 기록한 문서-단어 교차표를 생성하기 위한 전처리 작업을 수행 하였다.
따라서 본 연구는 이와 같은 기존연구의 한계점을 극복하기 위하여, 전처리 단계 및 분석단계로 구성되는 미국 대통령 취임연설문의 분석방법을 제안한다. 먼저, 전처리 단계는 기존 연구자의 자의적 단어선정을 지양하기 위하여 객관적 절차를 수행했다.
이와 같이 k-평균 군집화는 연설문에 존재하는 주제어 어간의 군집을 확인하고, 그 트렌드를 보여주지만 주제어 어간들 사이의 관계를 살펴보는 데는 한계가 있다. 따라서 본 연구에서는 차원 축소를 통해 시각화를 용이하게 할 수 있는 지역선형사상 방법을 활용하여, 연설문에서 사용된 단어들의 관계를 살펴보았다.
본 장은 미국 대통령 취임사를 활용하여, 문서 및 주제어 어간의 군집화를 활용한 트렌드분석 결과를 보인다. 또한 주제어 어간의 시각화를 통한 관찰 내용을 제시한다.

제안 방법

다양한 군집수의 결정 방법들이 존재하나(Gordon, 1999), 방법 간의 우열을 논하기는 어려우며, 통상 문제의 배경지식을 기반으로 연구자가 결정한다. 또한 거리계산방식은 유클리드, 맨하튼, 상관관계 등 다양한 방식이 있으나 데이터의 특성과 분석 목적에 맞게 결정을 한다.
주제어 선정을 위한 전처리 과정을 보다 객관적으로 제시하고, 분석을 위한 문서-단어 교차표와 k-평균 군집화를 활용하여 유사한 특성을 보이는 문서 및 단어들을 군집화 하였다. 또한 지역선형사상을 이용하여 주제어들을 효과적으로 시각화함으로써 텍스트의 객관적, 정량적 트렌드 분석을 위한 연구결과를 도출하였다.
따라서 본 연구는 이와 같은 기존연구의 한계점을 극복하기 위하여, 전처리 단계 및 분석단계로 구성되는 미국 대통령 취임연설문의 분석방법을 제안한다. 먼저, 전처리 단계는 기존 연구자의 자의적 단어선정을 지양하기 위하여 객관적 절차를 수행했다. 텍스트에 포함된 모든 단어집합으로부터 불용어(stop words), 기호 등 무의미한 단어 들를 객관적인 기준에 의하여 제거하고, 어휘적으로 동일한 의미의 단어를 통합하여 단어 중복의 문제를 피하기 위한 절차로써, 어간(stemming analysis) 분석을 활용하여 데이터를 재구성했다.
본 장에서는 문서 및 주제어 어간의 군집을 확인하고 패턴을 관찰하기 위하여 활용된 k-평균 군집화 알고리즘을 살펴본다. 또한, 직관적이고 용이한 트렌드의 관찰을 가능하게 하는, 지역선형사상의 시각화 방법과 그 예를 확인한다.
이후, 문서의 특성을 대표하는 주제어 어간을 선정하고 및 모든 문서에서의 출현 정도를 기록한 문서-단어 교차표를 생성하여, 문서의 트렌드 정보를 내포한 정형데이터를 준비했다. 분석 단계에서는 k-평균 군집화 알고리즘의 활용을 통한 문서 및 주제어 어간의 군집 및 패턴의 관찰과 함께, 지역선형사상(locally linear embedding)을 이용한 주제어 어간의 시각화를 활용하여 연설문에 내포된 통합 트렌드를 도출하고 관찰함으로써, 기존의 단편적 트렌드 관찰의 한계를 극복했다.
시간 흐름에 따른 주제의 트렌드를 살펴보기 위해 k-평균 군집화의 수행하였다. 이때, 실루엣 통계량으로부터 구한 적절한 군집수는 3이었으며, 거리척도는 상관관계거리를 활용하였다.
이렇게 어간으로 추출된 총 5,134개 단어 중, 핵심어를 추출하기 위하여 과정으로 TF-IDF(Rajaraman and Ullman, 2011)분석을 수행하였다. TF-IDF는 여러 문서로 이루어진 문서의 집합이 존재할 때, 각각의 문서에 포함된 단어의 중요도를 산출하는 통계적인 수치로써, 문서 내 단어의 출현양을 나타내는 TF와 총 문서에서의 단어의 출현비율의 역수를 취한 IDF을 활용하며, 식 (1)과 같이 계산된다.
텍스트에 포함된 모든 단어집합으로부터 불용어(stop words), 기호 등 무의미한 단어 들를 객관적인 기준에 의하여 제거하고, 어휘적으로 동일한 의미의 단어를 통합하여 단어 중복의 문제를 피하기 위한 절차로써, 어간(stemming analysis) 분석을 활용하여 데이터를 재구성했다. 이후, 문서의 특성을 대표하는 주제어 어간을 선정하고 및 모든 문서에서의 출현 정도를 기록한 문서-단어 교차표를 생성하여, 문서의 트렌드 정보를 내포한 정형데이터를 준비했다. 분석 단계에서는 k-평균 군집화 알고리즘의 활용을 통한 문서 및 주제어 어간의 군집 및 패턴의 관찰과 함께, 지역선형사상(locally linear embedding)을 이용한 주제어 어간의 시각화를 활용하여 연설문에 내포된 통합 트렌드를 도출하고 관찰함으로써, 기존의 단편적 트렌드 관찰의 한계를 극복했다.
본 연구는 약 200여 년 동안 축적된 56개 미국 대통령 취임사의 트렌드 분석을 수행하였다. 주제어 선정을 위한 전처리 과정을 보다 객관적으로 제시하고, 분석을 위한 문서-단어 교차표와 k-평균 군집화를 활용하여 유사한 특성을 보이는 문서 및 단어들을 군집화 하였다. 또한 지역선형사상을 이용하여 주제어들을 효과적으로 시각화함으로써 텍스트의 객관적, 정량적 트렌드 분석을 위한 연구결과를 도출하였다.
총 56개의 연설문에서 전 처리 된 5,134개 단어의 전체문서 집합으로부터 중요도를 산출하기 위하여, 각 단어의 평균 TF-IDF 점수를 산출했다(Pramokchon and Piamsa-nga, 2014; Zhang et al., 2010). 모든 단어의 중요도를 내림차순으로 정렬한 결과는 [Figure 3]과 같다.
먼저, 전처리 단계는 기존 연구자의 자의적 단어선정을 지양하기 위하여 객관적 절차를 수행했다. 텍스트에 포함된 모든 단어집합으로부터 불용어(stop words), 기호 등 무의미한 단어 들를 객관적인 기준에 의하여 제거하고, 어휘적으로 동일한 의미의 단어를 통합하여 단어 중복의 문제를 피하기 위한 절차로써, 어간(stemming analysis) 분석을 활용하여 데이터를 재구성했다. 이후, 문서의 특성을 대표하는 주제어 어간을 선정하고 및 모든 문서에서의 출현 정도를 기록한 문서-단어 교차표를 생성하여, 문서의 트렌드 정보를 내포한 정형데이터를 준비했다.

대상 데이터

본 논문의 연구대상으로 선정된 미국 대통령 취임사는, 1789년 초대 대통령 ‘George Washington’ 이후 2009년 ‘Barack Obama’까지 약 200여 년간 축적된 총 56개의 문서집합이다.
본 연구는 약 200여 년 동안 축적된 56개 미국 대통령 취임사의 트렌드 분석을 수행하였다. 주제어 선정을 위한 전처리 과정을 보다 객관적으로 제시하고, 분석을 위한 문서-단어 교차표와 k-평균 군집화를 활용하여 유사한 특성을 보이는 문서 및 단어들을 군집화 하였다.
분석대상인 56개의 취임사를 살펴보면, 총 4,905개의 문장과 145,735개의 단어가 담겨져 있으며, 중복을 제거한 단어의 개수는 43,469개이다. 각 시기별 문장의 평균 길이는 [Figure 1]에서 살펴볼 수 있듯이, 과거에서 현대로 이동함에 따라 그 양이 감소함을 알 수 있다.
모든 단어의 중요도를 내림차순으로 정렬한 결과는 [Figure 3]과 같다. 이때 평균 TF-IDF의 급격한 변화를 보이는 지점, 즉 팔꿈치 지점(elbow point)를 기준으로 상위 TF-IDF 단어를 선택함으로써 최종 주제어 어간을 선정하게 되는데, 본 연구에서는 평균 TF-IDF 점수가 0.34 이상인 125개의 단어를 선정하였다. 팔꿈치 지점이 명확하지 않을 경우에는 해당 분야 전문지식이 있는 사람들이 주관적으로 판단하게 된다.

데이터처리

[Table 3]과 같이 구성되는 전치행렬은 원래의 행을 열로, 열을 행으로 바꾼 교차표로, 분석을 위한 관측치가 연설문에서 주제어 어간으로 변경됨을 알 수 있다. 시간 흐름에 따른 주제의 트렌드를 살펴보기 위해 k-평균 군집화의 수행하였다. 이때, 실루엣 통계량으로부터 구한 적절한 군집수는 3이었으며, 거리척도는 상관관계거리를 활용하였다.

이론/모형

각 시기별 미국 대통령 취임 연설문의 트렌드를 살펴보기 위한 k-평균 군집화 분석에 앞서, 본 연구에서는 적정 군집수의 측정을 시도하였는데 여러 기법 중 널리 쓰이고 있는 실루엣 통계량을 활용하였다(Rousseeuw, 1987). 실루엣 통계량은군집 내 밀집의 정도와 군집 간 분리의 정도를 나타내며, 큰 값을 가질수록 좋은 군집이 형성된 결과로 판단한다.
본 연구는 미국 대통령 취임 연설문의 군집 확인과 함께, 문서 주제의 시대별 트렌드를 파악하기 위하여, 앞서 [Table 1]에서 제시한 문서-단어 교차표의 전치행렬(transpose matrix)을 활용하였다. [Table 3]과 같이 구성되는 전치행렬은 원래의 행을 열로, 열을 행으로 바꾼 교차표로, 분석을 위한 관측치가 연설문에서 주제어 어간으로 변경됨을 알 수 있다.
불용어는 의미 없는 단어들의 집합이며 관사, 전치사, 조사, 접속사가 그 예이다. 본 연구에서는 Natural language toolkit(Bird, 2006) corpus의 불용어 사전을 활용하여 불용어를 제거하였다. 이후, 문서 내에 포함된 기호 및 무의미한 단어는 연구자가 확인하고 삭제했는데, 이때 제거된 기호는 ‘-’, ‘)’, ‘?’ 등이며, 무의미한 단어는 ‘0’, ‘13’, ‘14th’, ‘15th’ 등이다.
군집수, k는 앞서 실루엣 통계량을 활용하여 측정된 적정 군집수인 2와 비교 군집수 3, 4를 추가로 설정했다. 이때, 거리척도는 주제어의 벡터로 표현되는 개별 문서의 유사성을 상대적으로 잘 반영하는 것으로 알려진 상관관계거리를 사용하였다(Huang, 2008). X-축은 문서의 연도, Y-축은 군집의 색인을 의미하며, 2개의 군집수로 설정하여 분석한 결과(a)는 1901년의 연설문을 중심으로 이전과 이후로 분류됨을 확인할 수 있다.
이는 인터넷 검색엔진이 질의어를 통한 검색을 수행할 때, 동일한 어간을 가지는 단어들을 동의어로 취급하여 질의어를 확장하고, 검색결과의 품질을 향상시키는 방법과 같은 맥락이라고 하겠다. 주요 어간추출 방법은 Snowball stemmer(Porter, 2001), Lacaster stemmer(Chris, 1990), Porter stemmer(Porter, 1980)가 존재하는데 본 연구에서는 이중 가장 널리 사용되는 Snowball stemmer 방법을 활용하여(Jivani, 2011), 총 5,134개의 어간을 추출하였다. 어간이 추출된 결과의 예를 살펴보면, 복수형의 경우 ‘people’과 ‘peoples’의 어간은 동일하게 ‘peopl’이 선정된다.

성능/효과

각 군집에 속한 단어의 최상위 출현비율을 나타내는 3개 단어를 살펴보면, ‘하강 트렌드’의 경우 ‘state’, ‘constitute’ 및 ‘public’, ‘상승 트렌드’는 ‘peace’, ‘America’ 및 ‘freedom’ 그리고 ‘1900년 전후 상승·감소 트렌드’에는 ‘law’, ‘congress’, ‘import’ 등의 단어를 확인할 수 있다.
이와 같은 문장의 평균길이 감소 현상은 독자들이 보다 용이하고 신속한 읽기를 할 수 있도록, 문장이 점차 문어체에서 구어체로 변화하는 현상을 대변한다(Akimoto, 2010). 따라서 본 연구의 대상인 대통령의 연설문 또한 대중에게 그 내용이 전달되는 방법, 즉 미디어가 활자로 대표되는 신문 또는 도서 등에서 라디오 또는 텔레비전 등으로 변화함에 따라 보다 평이하고, 간결한 형태를 보이고 있음을 유추할 수 있다. 그러나 본 연구는 이와 같은 단편적인 추이의 관찰을 넘어, 보다 정밀한 연설문의 트렌드 분석을 수행하기 위하여 문서의 특성을 대표하는 객관적 주제어를 추출하고, 연설문 내의 주제어의 출현 횟수를 기록한 문서-단어 교차표를 생성하기 위한 전처리 작업을 수행 하였다.
각각의 시기는 미국의 국가채무비율이 급증하기 직전 시점, 즉 나라빚이 감소하여 안정화되는 시점과 일치한다. 따라서 주제어로 살펴본 미국 대통령 취임 연설문은, 국가채무비율이 변동되는 시점을 기준으로 군집이 나누어지는 것을 확인할 수 있었다.
이와 같이, 차원축소를 활용한 주제어 어간의 시각화는 문서의 트렌드 특성을 탐구함에 있어, 거시적 또는 미시적 관점에서의 분석을 가능하게 하는 좋은 자료가 될 수 있음을 확인했다.또한, 개념적 사고의 접근이 필수적인 고차원데이터의 연구의 수행에서, 지역선형사상과 같은 차원축소를 활용한 시각화는 직관적이고 용이한 해석을 돕는다는 장점을 확인했다.
본 결과는 미국 대통령 연설문이 시대적 과제 및 지향점의 요약정보를 담고 있다는 점을 감안했을 때, 국정 운영의 관심정도가 시대에 따라 변한다는 점을 보여주었다. 이와 같이 시간에 따른 주제어의 군집 결과는 국가적 의제 설정의 추이를 알아볼 수 있는 매우 흥미로운 자료로도 사용될 수 있을 것이다.
본 연구는 미국 대통령 취임사라는 특정 영역의 문서를 대상으로 분석을 수행하였지만, 제시한 분석 절차 및 기법은 다른 분야에도 충분히 적용이 가능하다. 예를 들면, 특정 제품에 대한 소비자 후기를 분석함으로써 보다 고객 지향적인 제품의 생산 및 판매의 기초데이터로 활용할 수 있다.
오른쪽 하단 점선영역에는 ‘상승 트렌드’ 가 뚜렷하게 군집을 형성하는 것을 확인할 수 있었으며, 좌측에는 ‘하강 트렌드’ , 그리고 ‘1900년 전후 상승·감소 트렌드’ 은 경계선을 형성하며 또 다른 군집을 형성하고 있는 것을 확인할 수 있었다.
우측 하단 의 영역 상단에 위치한 ‘econom’, ‘chang’는 각각 ‘경제’, ‘변화’를 대표하는 어간으로 ‘1900년 중심 상승 주제어’ 에 포함된 단어지만, 1900년대 후반에도 빈번하게 사용된 단어로 확인할 수 있었다.
[Table 2]는 k-평균 군집화의 군집수를 2부터 6까지 변경하며, 실루엣 통계량을 산출한 결과인데, 군집수를 2개로 설정했을 때 실루엣 통계량 값이 최대가 됨을 알 수 있었다. 이 결과는 미국 대통령 취임 연설문이 세계 1차 대전이 발발하여 국가채무가 급격하게 증가하기 직전인, 1901년을 중심으로 이전과 이후로 구분됨을 알 수 있었다.
우측 하단 <군집 2>의 영역 상단에 위치한 ‘econom’, ‘chang’는 각각 ‘경제’, ‘변화’를 대표하는 어간으로 ‘1900년 중심 상승 주제어’ <군집 3>에 포함된 단어지만, 1900년대 후반에도 빈번하게 사용된 단어로 확인할 수 있었다. 이와 같이, 차원축소를 활용한 주제어 어간의 시각화는 문서의 트렌드 특성을 탐구함에 있어, 거시적 또는 미시적 관점에서의 분석을 가능하게 하는 좋은 자료가 될 수 있음을 확인했다.또한, 개념적 사고의 접근이 필수적인 고차원데이터의 연구의 수행에서, 지역선형사상과 같은 차원축소를 활용한 시각화는 직관적이고 용이한 해석을 돕는다는 장점을 확인했다.
하지만, 본 시각화의 결과를 통하여, ‘1900년 전후 상승·감소 트렌드’ 에 속한 주에 어간들은 ‘하강 트렌드’ 과 보다 유사하다는 결과를 얻을 수 있었다.

후속연구

예를 들면, 특정 제품에 대한 소비자 후기를 분석함으로써 보다 고객 지향적인 제품의 생산 및 판매의 기초데이터로 활용할 수 있다. 또한, 생산현장에서 도출되는 공정의 불량 및 수리 이력을 분석함으로써, 보다 신뢰성 높은 제품 생산을 위한 지식으로 활용할 수 있을 것으로 기대된다.
본 연구에서 주요한 분석기법으로 활용된 k-평균 군집화 방법은 문서 및 주제어의 군집을 이해하는데 매우 효과적인 데이터마이닝 방법임에도 불구하고, 개별 관측치 사이의 상관관계를 살펴볼 수 없다는 한계점을 지닌다. 향후, 사회연결망분석(social network analysis) 또는 연관성분석(association analysis)등의 방법을 활용한 개별 관측치 사이의 관계를 살펴보는 연구가 수반되어야 할 것으로 보인다.
본 결과는 미국 대통령 연설문이 시대적 과제 및 지향점의 요약정보를 담고 있다는 점을 감안했을 때, 국정 운영의 관심정도가 시대에 따라 변한다는 점을 보여주었다. 이와 같이 시간에 따른 주제어의 군집 결과는 국가적 의제 설정의 추이를 알아볼 수 있는 매우 흥미로운 자료로도 사용될 수 있을 것이다.
본 연구에서 주요한 분석기법으로 활용된 k-평균 군집화 방법은 문서 및 주제어의 군집을 이해하는데 매우 효과적인 데이터마이닝 방법임에도 불구하고, 개별 관측치 사이의 상관관계를 살펴볼 수 없다는 한계점을 지닌다. 향후, 사회연결망분석(social network analysis) 또는 연관성분석(association analysis)등의 방법을 활용한 개별 관측치 사이의 관계를 살펴보는 연구가 수반되어야 할 것으로 보인다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

텍스트마이닝을 활용한 미국 대통령 취임 연설문의 트렌드 연구
Discovering Meaningful Trends in the Inaugural Addresses of United States Presidents Via Text Mining 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (40)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

텍스트마이닝을 활용한 미국 대통령 취임 연설문의 트렌드 연구 Discovering Meaningful Trends in the Inaugural Addresses of United States Presidents Via Text Mining 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (40)

이 논문을 인용한 문헌

저자의 다른 논문 :

조수곤 (2) 조재희 (28) 김성범 (19)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

텍스트마이닝을 활용한 미국 대통령 취임 연설문의 트렌드 연구
Discovering Meaningful Trends in the Inaugural Addresses of United States Presidents Via Text Mining 원문보기

AI 본문요약
AI-Helper