[국내논문]텍스트 마이닝 기법을 활용한 고전 추리 소설 작가 간 문체적 차이와 문체 구조에 대한 연구 A study on detective story authors' style differentiation and style structure based on Text Mining원문보기
본 연구는 고전 추리 소설 작가로 유명한 아서 코난 도일과 애거서 크리스티의 문체적 차이점을 데이터 분석을 통해 제시하고, 나아가 텍스트 마이닝에 입각한 문체 연구의 해석적 방법론을 제시하고자 시행되었다. 추리 소설의 핵심 요소인 사건과 인물에 더해 작가의 문법적인 집필 방식을 문체로 정의하고 분석을 시도하였다. 작가 별로 각 2권, 총 4권의 책을 선정하였으며 문장 단위로 텍스트를 나누어 데이터를 확보하였다. 각 문장에 따른 감성 점수를 부여한 뒤 페이지 진행에 따른 감성을 시각화하였으며, 페이지에 따라 토픽 모델링을 적용하여 소설 속 사건 진행 흐름을 파악할 수 있었다. 동시 발생매트릭스(co-occurrence matrix)를 구성하고 네트워크 분석(Network Analysis)을 시행함으로써 사건이 진행되는 과정에서 인물들 간 관계의 변화를 확인할 수 있었다. 또한 전체 문장을 총 6가지 문체를 기준으로 문법적인 체계를 나누어 작가 간, 그리고 작품 간 집필 방식의 차이점을 확인하였다. 이러한 일련의 연구 과정은 문체에 대한 이해를 바탕으로 글 전체의 맥락을 파악할 수 있도록 도움을 줄 수 있으며, 나아가 기존에 개별적으로 진행되었던 문체 연구를 통합시킴으로써 문체 구조에 대한 이해를 도울 수 있다. 그리고 이러한 선행된 이해를 통해 온라인 텍스트를 비롯한 비정형 데이터 속 문체의 존재를 발견하고 구체화하는 작업에 기여할 수 있다. 뉴미디어를 포함한 온라인 텍스트를 심도 있게 분석하고자 하는 시도가 증가하고 있는 상황에서 해당 연구들과 연계를 통해 보다 의미 있는 온라인 텍스트 분석에 기여할 것으로 기대된다.
본 연구는 고전 추리 소설 작가로 유명한 아서 코난 도일과 애거서 크리스티의 문체적 차이점을 데이터 분석을 통해 제시하고, 나아가 텍스트 마이닝에 입각한 문체 연구의 해석적 방법론을 제시하고자 시행되었다. 추리 소설의 핵심 요소인 사건과 인물에 더해 작가의 문법적인 집필 방식을 문체로 정의하고 분석을 시도하였다. 작가 별로 각 2권, 총 4권의 책을 선정하였으며 문장 단위로 텍스트를 나누어 데이터를 확보하였다. 각 문장에 따른 감성 점수를 부여한 뒤 페이지 진행에 따른 감성을 시각화하였으며, 페이지에 따라 토픽 모델링을 적용하여 소설 속 사건 진행 흐름을 파악할 수 있었다. 동시 발생 매트릭스(co-occurrence matrix)를 구성하고 네트워크 분석(Network Analysis)을 시행함으로써 사건이 진행되는 과정에서 인물들 간 관계의 변화를 확인할 수 있었다. 또한 전체 문장을 총 6가지 문체를 기준으로 문법적인 체계를 나누어 작가 간, 그리고 작품 간 집필 방식의 차이점을 확인하였다. 이러한 일련의 연구 과정은 문체에 대한 이해를 바탕으로 글 전체의 맥락을 파악할 수 있도록 도움을 줄 수 있으며, 나아가 기존에 개별적으로 진행되었던 문체 연구를 통합시킴으로써 문체 구조에 대한 이해를 도울 수 있다. 그리고 이러한 선행된 이해를 통해 온라인 텍스트를 비롯한 비정형 데이터 속 문체의 존재를 발견하고 구체화하는 작업에 기여할 수 있다. 뉴미디어를 포함한 온라인 텍스트를 심도 있게 분석하고자 하는 시도가 증가하고 있는 상황에서 해당 연구들과 연계를 통해 보다 의미 있는 온라인 텍스트 분석에 기여할 것으로 기대된다.
This study was conducted to present the stylistic differences between Arthur Conan Doyle and Agatha Christie, famous as writers of classical mystery novels, through data analysis, and further to present the analytical methodology of the study of style based on text mining. The reason why we chose my...
This study was conducted to present the stylistic differences between Arthur Conan Doyle and Agatha Christie, famous as writers of classical mystery novels, through data analysis, and further to present the analytical methodology of the study of style based on text mining. The reason why we chose mystery novels for our research is because the unique devices that exist in classical mystery novels have strong stylistic characteristics, and furthermore, by choosing Arthur Conan Doyle and Agatha Christie, who are also famous to the general reader, as subjects of analysis, so that people who are unfamiliar with the research can be familiar with them. The primary objective of this study is to identify how the differences exist within the text and to interpret the effects of these differences on the reader. Accordingly, in addition to events and characters, which are key elements of mystery novels, the writer's grammatical style of writing was defined in style and attempted to analyze it. Two series and four books were selected by each writer, and the text was divided into sentences to secure data. After measuring and granting the emotional score according to each sentence, the emotions of the page progress were visualized as a graph, and the trend of the event progress in the novel was identified under eight themes by applying Topic modeling according to the page. By organizing co-occurrence matrices and performing network analysis, we were able to visually see changes in relationships between people as events progressed. In addition, the entire sentence was divided into a grammatical system based on a total of six types of writing style to identify differences between writers and between works. This enabled us to identify not only the general grammatical writing style of the author, but also the inherent stylistic characteristics in their unconsciousness, and to interpret the effects of these characteristics on the reader. This series of research processes can help to understand the context of the entire text based on a defined understanding of the style, and furthermore, by integrating previously individually conducted stylistic studies. This prior understanding can also contribute to discovering and clarifying the existence of text in unstructured data, including online text. This could help enable more accurate recognition of emotions and delivery of commands on an interactive artificial intelligence platform that currently converts voice into natural language. In the face of increasing attempts to analyze online texts, including New Media, in many ways and discover social phenomena and managerial values, it is expected to contribute to more meaningful online text analysis and semantic interpretation through the links to these studies. However, the fact that the analysis data used in this study are two or four books by author can be considered as a limitation in that the data analysis was not attempted in sufficient quantities. The application of the writing characteristics applied to the Korean text even though it was an English text also could be limitation. The more diverse stylistic characteristics were limited to six, and the less likely interpretation was also considered as a limitation. In addition, it is also regrettable that the research was conducted by analyzing classical mystery novels rather than text that is commonly used today, and that various classical mystery novel writers were not compared. Subsequent research will attempt to increase the diversity of interpretations by taking into account a wider variety of grammatical systems and stylistic structures and will also be applied to the current frequently used online text analysis to assess the potential for interpretation. It is expected that this will enable the interpretation and definition of the specific structure of the style and that various usability can be considered.
This study was conducted to present the stylistic differences between Arthur Conan Doyle and Agatha Christie, famous as writers of classical mystery novels, through data analysis, and further to present the analytical methodology of the study of style based on text mining. The reason why we chose mystery novels for our research is because the unique devices that exist in classical mystery novels have strong stylistic characteristics, and furthermore, by choosing Arthur Conan Doyle and Agatha Christie, who are also famous to the general reader, as subjects of analysis, so that people who are unfamiliar with the research can be familiar with them. The primary objective of this study is to identify how the differences exist within the text and to interpret the effects of these differences on the reader. Accordingly, in addition to events and characters, which are key elements of mystery novels, the writer's grammatical style of writing was defined in style and attempted to analyze it. Two series and four books were selected by each writer, and the text was divided into sentences to secure data. After measuring and granting the emotional score according to each sentence, the emotions of the page progress were visualized as a graph, and the trend of the event progress in the novel was identified under eight themes by applying Topic modeling according to the page. By organizing co-occurrence matrices and performing network analysis, we were able to visually see changes in relationships between people as events progressed. In addition, the entire sentence was divided into a grammatical system based on a total of six types of writing style to identify differences between writers and between works. This enabled us to identify not only the general grammatical writing style of the author, but also the inherent stylistic characteristics in their unconsciousness, and to interpret the effects of these characteristics on the reader. This series of research processes can help to understand the context of the entire text based on a defined understanding of the style, and furthermore, by integrating previously individually conducted stylistic studies. This prior understanding can also contribute to discovering and clarifying the existence of text in unstructured data, including online text. This could help enable more accurate recognition of emotions and delivery of commands on an interactive artificial intelligence platform that currently converts voice into natural language. In the face of increasing attempts to analyze online texts, including New Media, in many ways and discover social phenomena and managerial values, it is expected to contribute to more meaningful online text analysis and semantic interpretation through the links to these studies. However, the fact that the analysis data used in this study are two or four books by author can be considered as a limitation in that the data analysis was not attempted in sufficient quantities. The application of the writing characteristics applied to the Korean text even though it was an English text also could be limitation. The more diverse stylistic characteristics were limited to six, and the less likely interpretation was also considered as a limitation. In addition, it is also regrettable that the research was conducted by analyzing classical mystery novels rather than text that is commonly used today, and that various classical mystery novel writers were not compared. Subsequent research will attempt to increase the diversity of interpretations by taking into account a wider variety of grammatical systems and stylistic structures and will also be applied to the current frequently used online text analysis to assess the potential for interpretation. It is expected that this will enable the interpretation and definition of the specific structure of the style and that various usability can be considered.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문은 감성 분석과 토픽 모델링, 언어 네트워크와 자체적인 문법 체계를 통해 두 작가 간 문체적 특성에 대해 연구하였다. 감성 분석과 토픽 모델링, 언어 네트워크는 어휘와 어법의 구조를 파악함으로써 문체를 규명하고자 했던 기존 연구에서 나아가 스토리의 진행에 따른 사건의 전개 양상과 인물 간의 관계를 확인하는 방식으로 보다 내재된 작가의 문체 성향을 확인하고자 시도되었다. 분석 결과, 아서 코난 도일은 작품 간 역할로 구분되는 등장인물들의 등장 순서와 그들 간 관계를 고정시킴으로써 스토리를 전개하는 내재적 문체 특성을 보였다.
본 논문은 감성 분석과 토픽 모델링, 언어 네트워크와 자체적인 문법 체계를 통해 두 작가 간 문체적 특성에 대해 연구하였다. 감성 분석과 토픽 모델링, 언어 네트워크는 어휘와 어법의 구조를 파악함으로써 문체를 규명하고자 했던 기존 연구에서 나아가 스토리의 진행에 따른 사건의 전개 양상과 인물 간의 관계를 확인하는 방식으로 보다 내재된 작가의 문체 성향을 확인하고자 시도되었다.
본 연구의 주된 목적은 진위가 텍스트의 여러 층위에 감춰져 복합적인 구조를 가지는 추리 소설을 텍스트 마이닝을 통해 분석해보고, 문법적 분석에 추가적인 문체 방식을 정의해 봄으로써 문체 구조의 기계적 분석이 가능함을 확인하는 것이다. 복합적인 텍스트에 내포되어 있는 인물들의 관계 변화를 사회 연결망으로 관측하고, 이야기의 진행 흐름을 시각화하는 작업은 글 전체의 맥락을 파악하는 데 도움을 줄 수 있다.
제안 방법
본 연구는 종속 접속사와 등위 접속사의 사용 유무, 일정 기준 이상의 형용사적 표현, 부사 표현(to 부정사, 분사, 관계사, 전치사 구) 유무, 감탄사의 유무, 비유적 표현의 유무, 그리고 숙어 표현의 유무에 따라 구어체, 문어체, 화려체, 건조체, 간결체, 만연체를 구분하여 문법적 체계를 정리했다. 각 문법적 표현들의 어순에 따른 역할 구분을 위해 형태소 분석을 수행한 뒤 각 형태소들의 인덱스 값을 활용하여 조건문을 설정하였으며 전체 문장을 기준으로 해당 문법 체계를 가진 문장들의 비율을 계산하여 작가 간 문법 체계의 차이점을 정리하였다. [Table 1]은 문체 종류에 대한 정의와 문법적 체계에 대한 설명을 보여 주고 있다.
두 작가의 추리 소설 시리즈를 분석하기 위해 각자 전처리를 수행한 뒤 감성 분석, 토픽 모델링, 네트워크 분석, 문법 체계 분석을 시도하여 텍스트를 통해 드러나는 언어 표현법을 관찰하였다. 그리고 각 표현법을 통해 제시될 수 있는 문체적 특성과 독자에게 전달 가능한 작가의 성향을 파악하고 해석함으로써 최종적으로 어떠한 내재적 문체 형성에 기여했는지를 확인하였다.
전체적인 연구 과정은 [Figure 1]과 같이 진행한다. 두 작가의 추리 소설 시리즈를 분석하기 위해 각자 전처리를 수행한 뒤 감성 분석, 토픽 모델링, 네트워크 분석, 문법 체계 분석을 시도하여 텍스트를 통해 드러나는 언어 표현법을 관찰하였다. 그리고 각 표현법을 통해 제시될 수 있는 문체적 특성과 독자에게 전달 가능한 작가의 성향을 파악하고 해석함으로써 최종적으로 어떠한 내재적 문체 형성에 기여했는지를 확인하였다.
소설 속에서 이어지는 일련의 스토리는 등장인물들의 참여로 이루어지는 것이며, 그들의 관계를 파악하는 것만으로도 하나의 이야기가 형성될 수 있다. 따라서 본 연구는 앞서 구분된 사건 구간에 따른 등장인물 간 관계 변화를 파악하기 위해 네트워크 분석을 수행하였다. 각 소설에 등장하는 주요 등장인물들을 정리하여 구간에 따른 동시 발생 매트릭스를 구축한 뒤, 가장 많은 등장 빈도수를 차지하는 인물을 기준으로 빈도수를 나누어 가중치를 설정하였다.
본 논문은 앞서 언급한 문헌 연구를 바탕으로 고전 추리 소설의 대가로 명시되는 아서 코난 도일과 애거서 크리스티의 작가 고유 문체를 판별하고 비교함으로써 문체의 종합적인 접근을 시도하였다. 작가 고유 문체를 판별하기 위해서는 동일 작가의 작품들 간 문체적 특성에서 공통점을 발견할 수 있어야 하며, 이러한 공통성이 타 작가와 차별성을 가져야 한다.
네트워크는 텍스트 내에서 키워드들 간 동시 발생(Co-occurrence) 정도를 계산함으로써 구현 가능하다. 본 연구는 각 소설에 등장하는 핵심 등장인물(탐정, 조력자, 형사, 피해자, 용의자)을 선정하여 그들 간 텍스트 내 동시 발생 수를 매트릭스(matrix)로 계산한 뒤, 이야기 진행에 따른 관계 변화를 그래프로 시각화하였다.
따라서 소설 속 등장인물이 텍스트와 작가, 독자에게 미치는 영향이 상당하다고 볼 수 있으며, 이는 곧 작가가 등장인물을 통해 드러내고자 하는 고유한 문체 해석이 가능하다는 의미를 가진다. 본 연구는 소설 속 등장인물들의 관계를 규명하고 이를 통해 작가 간 서술 방식을 비교하고자 언어 네트워크 분석을 시도하였다.
본 연구는 종속 접속사와 등위 접속사의 사용 유무, 일정 기준 이상의 형용사적 표현, 부사 표현(to 부정사, 분사, 관계사, 전치사 구) 유무, 감탄사의 유무, 비유적 표현의 유무, 그리고 숙어 표현의 유무에 따라 구어체, 문어체, 화려체, 건조체, 간결체, 만연체를 구분하여 문법적 체계를 정리했다. 각 문법적 표현들의 어순에 따른 역할 구분을 위해 형태소 분석을 수행한 뒤 각 형태소들의 인덱스 값을 활용하여 조건문을 설정하였으며 전체 문장을 기준으로 해당 문법 체계를 가진 문장들의 비율을 계산하여 작가 간 문법 체계의 차이점을 정리하였다.
본 연구에서는 두 작가의 이야기 전개 방식을 이해하고 차이점을 규명하기 위해 파이썬 영문 자연 언어 처리 패키지인 NLTK의 ‘SentimentIntensityAnalyzer’와 ‘vader_lexicon’ 감성 사전을 이용하여 감성 분석을 실시하였으며 LDA(Latent Dirichlet Allocation) 토픽 모델링을 통해 감성이 변화하는 각 구간의 전개 내용을 확인하였다. 각 문장의 극성 값을 판단하여 긍정, 부정, 중립 총 세 가지 카테고리로 분류했으며, 긍정 카테고리 문장은 1점, 부정 카테고리 문장은 -1점, 중립 카테고리 문장은 0점으로 환산하여 점수를 누적해 각 페이지가 진행되는 동안 감정의 변화를 그래프로 시각화하였다.
셜록 홈즈 시리즈의 두 작품을 문장 단위로 감성 점수를 부여한 뒤, 200문장(약 10페이지, 전체 텍스트의 10분의 1)을 기준으로 x 축의 범위를 산정해 시각화를 하였다. 이후 감정 변화가 나타나는 각 구간에 따른 사건 진행을 토픽 모델링으로 정리하고 사건 진행 전반을 유추하였다.
아서 코난 도일의 두 작품을 비교하였듯이 애거서 크리스티의 두 작품 역시 감성 분석과 토픽 모델링을 실시하였으며 두 작품 간 사건 진행 양상과 이야기 전개를 비교하였다.
대상 데이터
두 작가의 작품을 분석하기 위해 고전 소설을 전자책 형태로 무료로 제공하는 manybooks.net 사이트를 이용하였다. Manybooks는 약 5만 개의 무료 소설을 전자책을 비롯한 pdf, txt 파일 형태로 제공하고 있으며 전 세계 약 15만 명이 이용하는 도서 제공 사이트이다.
본 연구는 텍스트 내에 숨겨진 언어 수단과 표현법을 관측하기 위해 고전 추리 소설의 대가로 명시되는 아서 코난 도일과 애거서 크리스티의 탐정 소설(Detective story) 2권, 총 4권의 텍스트 데이터를 수집했다. 탐정 소설이란 사건을 해결하는 탐정과 범행을 저지르는 범인으로 분명하게 역할이 구분되는 추리 소설 장르를 일컫는다.
이 또한 인지적 측면에서 문체의 발견으로 해석할 수 있다. 이러한 문체적 의의를 파악하기 위해 탐정 소설을 분석 대상으로 선정하였으며, 현대 추리 소설의 배경이자 대다수의 사람들이 친숙하게 접한 아서 코난 도일과 애거서 크리스티의 작품을 분석함으로써 해당 연구의 이해를 돕고자 하였다.
두 작가의 공통된 장르로 ‘탐정 소설’을 선정하였으며, 비교의 통일성을 주고자 탐정 소설 시리즈의 데뷔작과 후 작을 분석 대상으로 정했다. 이에 따라 아서 코난 도일은 셜록 홈즈 시리즈의 <주홍색 연구>와 <네 개의 서명>을, 애거서 크리스티는 에르퀼 푸아로 시리즈의 <스타일스 저택의 괴사건> 과 <골프장 살인 사건>을 분석 대상으로 선정하였다.
데이터처리
이후 해당 문장들이 전체 문장에서 차지하는 비율을 계산하여 작가의 문법 체계를 정리하였다. 본 연구를 진행하기 위해 마찬가지로 파이썬 영문 자연 언어 처리 패키지인 ‘NLTK’를 사용하였으며, 형태소 분석을 통해 각 어휘들의 품사를 구분한 뒤 그들 간 어순을 고려하여 문법 체계를 정립하였다.
이론/모형
본 연구는 감성 분석을 통해 구분되는 텍스트 구간 별사건의 흐름을 파악하고 맥락적 구조를 이해하기 위해 토픽 모델링 중 빈번하게 사용되는 LDA(Latent Dirichlet Allocation)를 사용한다. LDA는 문서에 포함되는 키워드들이 특정 토픽에 포함될 확률을 계산하며, 문서는 단일한 토픽이 아닌 여러 토픽으로 표현될 수 있다 (Blei et al.
이러한 공감대는 언어학자와 더불어 추상적 관념을 기술함으로써 확장적인 결론을 도출할 수 있는 연구 분야에서도 공유되고 있으며, 자연히 관련 연구가 활발히 진행되고 있다. 본 연구는 문체 속에 담긴 언어의 가변성을 감지하고 해석하기 위한 분석 기법으로 감성 분석(Sentiment Analysis) (Pang and Lee, 2008)과 토픽 모델링(Topic modeling)을 선정하였다.
성능/효과
토픽 모델링을 통해 구분되는 각 구간에 대한 인물 관계 변화를 관찰하기 위해 각 구간별 등장인물의 네트워크 분석을 시도하였고 [Table 6]와 같이 도출된 결과를 확인하였다. 분석 결과 토픽 모델링과 마찬가지로 시점은 다를 수 있으나 고정된 역할의 등장인물들이 등장하는 순서가 동일한 것을 확인할 수 있는 반면, 두 작품 간 인물 관계 형성이 다를 수 있음을 확인하였다. 예를 들어 <주홍색 연구>는 시점이 변함에 따라 인물 관계가 좀 더 복잡해지고 인물들 간 얽혀있는 관계의 심화 정도를 링크의 굵기를 통해 확인할 수 있지만, <네 개의 서명>은 사건이 진행됨에 따라 인물 관계가 복잡해지지 않으며 연결 또한 전작과 동일하지 않았다.
분석 결과, 두 작가 모두 유사한 문법 체계를 사용하는 것으로 드러났다. 가령 [Table 9]에서 드러나는 것처럼 두 작가 모두 종속 접속사와 등위 접속사의 사용이 전체 30% 이상을 차지하며 두 가지 접속사를 비중 있게 사용하는 것으로 확인되었다.
감성 분석과 토픽 모델링, 언어 네트워크는 어휘와 어법의 구조를 파악함으로써 문체를 규명하고자 했던 기존 연구에서 나아가 스토리의 진행에 따른 사건의 전개 양상과 인물 간의 관계를 확인하는 방식으로 보다 내재된 작가의 문체 성향을 확인하고자 시도되었다. 분석 결과, 아서 코난 도일은 작품 간 역할로 구분되는 등장인물들의 등장 순서와 그들 간 관계를 고정시킴으로써 스토리를 전개하는 내재적 문체 특성을 보였다. 애거서 크리스티에 비해 사건 자체의 특성과 그들의 심리 묘사에 집중하기 보다 그들의 등장과 역할에 집중하는 모습을 보여줌으로써 독자들로 하여금 사건의 중심에 선 인물들의 특성과 역할에 몰입할 수 있도록 하였다.
문체 구조에 대한 세 가지 분석 방향을 설계하고 앞서 제시한 연구 문제를 확인할 수 있었다. 셜록 홈즈와 에르퀼 푸아로 시리즈의 사건 진행 양상을 감성 분석과 토픽 모델링의 비교를 통해 파악할 수 있었고 실제 사건과 이를 표현하는 표현법 간 차이를 발견함으로써 작가 간 문체적 특성이 존재하고 있음을 확인하였다. 또한 구간 변화에 따른 인물 관계 형성 방식과 글의 문법적 표현 방식을 분석함으로써 작가의 문체적 특성을 보다 구체적으로 정의하고 어떠한 내재적 특성에 기여하는지 해석할 수 있었다.
후속연구
이러한 기계적 분석의 의의는 인간의 직관에 머무르는 문체를 구현함에 따라 장기적으로 능동적인 언어 표현을 요구하는 인공지능 개발 연구에 기여할 수 있을 것으로 판단된다. 다만, 후속 연구에 기여할 수 있는 분야가 분명함에도 언어학에서 정의하는 문체의 정의와 다양한 표현법을 본 연구를 통해 전부 담아내지 못하는 점이 한계점으로 고려된다.
본 연구는 추후 소설 텍스트를 벗어나 SNS에서 사용되는 채팅 데이터의 문체를 분석함으로써 실제 기업이 목표로 하는 SNS 플랫폼과 사용자의 성향을 분석하고 전략적 방안을 제시할 수 있을 것으로 기대된다. 또한 문학적 범주에 머물렀던 정통 문법 체계와 더불어 채팅 데이터에서 사용되는 고유한 문법적 체계를 정립할 수 있을 것이다. 이러한 후속 연구에 대하여 플랫폼의 특성과 사용자의 성향에 따라 SNS를 분류하고자하는 관련 연구에 참고할 수 있을 것이다.
문체적 특성을 파악하기 위해 감성 분석과 토픽 모델링을 사용하였으나, 추론을 기반으로 하였기에 다양한 해석 역시 가능하다는 한계점이 있다. 또한 해당 텍스트가 영문 텍스트임에 비해 한글 텍스트에 적용되는 문체 특성을 적용한 점, 문법 체계를 나누는 기준에 있어 보다 구체적이고 다양한 문법 기준을 대입하지 못한 점이 한계점으로 고려된다.
그러나 이러한 의의에도 불구하고 다음과 같은 한계점을 가진다. 문체적 특성을 파악하기 위해 감성 분석과 토픽 모델링을 사용하였으나, 추론을 기반으로 하였기에 다양한 해석 역시 가능하다는 한계점이 있다. 또한 해당 텍스트가 영문 텍스트임에 비해 한글 텍스트에 적용되는 문체 특성을 적용한 점, 문법 체계를 나누는 기준에 있어 보다 구체적이고 다양한 문법 기준을 대입하지 못한 점이 한계점으로 고려된다.
본 연구는 발전하는 소셜 네트워크와 뉴 미디어, ICT 산업을 통한 마케팅 분야에서 각 플랫폼의 성향에 따른 광고 메시지 전달 효과를 측정하고 기획하는 용도로 사용될 수 있다. 기업마다 전달하고자 하는 제품과 서비스의 가치는 다양하며, 이에 따른 목표 고객 역시 다양할 수 있다.
본 연구는 추후 소설 텍스트를 벗어나 SNS에서 사용되는 채팅 데이터의 문체를 분석함으로써 실제 기업이 목표로 하는 SNS 플랫폼과 사용자의 성향을 분석하고 전략적 방안을 제시할 수 있을 것으로 기대된다. 또한 문학적 범주에 머물렀던 정통 문법 체계와 더불어 채팅 데이터에서 사용되는 고유한 문법적 체계를 정립할 수 있을 것이다.
또한, 기존에 연구되었던 분석 기법들을 하나의 주제로 산정하고 정의해 봄으로써 개별적으로 진행되었던 텍스트 언어학적 접근을 통합시키고 나아가 ‘문체 구조’에 대한 이해를 확립할 수 있다. 이러한 기계적 분석의 의의는 인간의 직관에 머무르는 문체를 구현함에 따라 장기적으로 능동적인 언어 표현을 요구하는 인공지능 개발 연구에 기여할 수 있을 것으로 판단된다. 다만, 후속 연구에 기여할 수 있는 분야가 분명함에도 언어학에서 정의하는 문체의 정의와 다양한 표현법을 본 연구를 통해 전부 담아내지 못하는 점이 한계점으로 고려된다.
또한 문학적 범주에 머물렀던 정통 문법 체계와 더불어 채팅 데이터에서 사용되는 고유한 문법적 체계를 정립할 수 있을 것이다. 이러한 후속 연구에 대하여 플랫폼의 특성과 사용자의 성향에 따라 SNS를 분류하고자하는 관련 연구에 참고할 수 있을 것이다.
특히 국내 시장을 넘어 해외 시장을 목표로 하는 다국적 기업들은 각 나라의 문화에 대한 이해를 바탕으로 마케팅 전략을 수립할 수 있으며, 그들의 대외적 이미지 형성을 위해서도 접근성이 높은 SNS를 통해 기업 커뮤니케이션을 시도하게 된다 (Sung and Cho, 2016). 이에 더해 직관적인 언어 표현을 통한 엔터프라이즈 자동화를 추구하는 인공지능 개발 환경에서 본 연구는 언어가 가진 다양성과 내재된 의미에 대한 아이디어를 제공하며 자연어 알고리즘 개발에 기여할 수 있을 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
텍스트 마이닝은 주로 어디에 적용되는가?
텍스트 마이닝(Text Mining)은 언어학, 통계학, 기계 학습 등에 입각한 자연 언어 처리 기술을 통해 반 정형/비정형 텍스트 데이터를 정형화하고 분석하는 기법으로서, 주로 기업의 제품과 서비스에 대한 소셜 네트워크 상의 고객 리뷰 혹은 사회 이슈에 대한 대중의 의견을 분석하는 활동에 적용되었다 (Chae et al., 2015; Cho et al.
토픽 모델링은 어떤 연구에 주로 활용되는가?
토픽 모델링은 방대한 텍스트/언어 데이터를 의미 있고 해석 가능한 언어 단위로 결합하는 텍스트 마이닝 기법으로, 텍스트에 존재하는 맥락을 단서를 통해 발견하고 유사 단어들을 군집화 함으로써 실현될 수 있다. 이러한 특성으로 인해 문서 간 정보를 분류하거나 특정 사회 이슈를 구분하고 요약하는 연구에 주로 활용된다. Kang et al.
텍스트 마이닝이란?
텍스트 마이닝(Text Mining)은 언어학, 통계학, 기계 학습 등에 입각한 자연 언어 처리 기술을 통해 반 정형/비정형 텍스트 데이터를 정형화하고 분석하는 기법으로서, 주로 기업의 제품과 서비스에 대한 소셜 네트워크 상의 고객 리뷰 혹은 사회 이슈에 대한 대중의 의견을 분석하는 활동에 적용되었다 (Chae et al., 2015; Cho et al.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.