최근에 다양한 정보로부터 감정을 예측하여 청중에게 감독이 알리고자 하는 정보를 빠르게 전달하고자 한다. 또한, 청중은 감독의 의도를 대화 내용에 나타나는 대사뿐만 아니라, 영상내의 다양한 정보인 촬영 기법, 장면의 배경, 배경 음악 등을 통해 비대사 구간에서도 감정의 흐름을 이해하려고 한다. 본 논문에서는 대사와 같은 문맥의 상황뿐만 아니라, 촬영 영상에 담아낸 색상, 음향, 구도, 배치 등에 의해 표현된 정보를 혼합하여 감정을 추출하고자 한다. 즉, 다양한 감정 표현 기법을 대사 구간, 비대사 구간으로 나누어 학습하고 판별하여 영상의 완성도에 기여하고 새로운 변화에 빠르게 적용할 수 있는 감정 예측 시스템을 제안한다. 본 논문에서 제안한 감정 예측시스템이 변형된 n-gram 방식과 형태소 분석을 적용한 사례와 비교했을 때, 정확도는 약 5.1%, 0.4% 향상되었고, 재현율은 약 4.3%, 1.6% 향상되었다.
최근에 다양한 정보로부터 감정을 예측하여 청중에게 감독이 알리고자 하는 정보를 빠르게 전달하고자 한다. 또한, 청중은 감독의 의도를 대화 내용에 나타나는 대사뿐만 아니라, 영상내의 다양한 정보인 촬영 기법, 장면의 배경, 배경 음악 등을 통해 비대사 구간에서도 감정의 흐름을 이해하려고 한다. 본 논문에서는 대사와 같은 문맥의 상황뿐만 아니라, 촬영 영상에 담아낸 색상, 음향, 구도, 배치 등에 의해 표현된 정보를 혼합하여 감정을 추출하고자 한다. 즉, 다양한 감정 표현 기법을 대사 구간, 비대사 구간으로 나누어 학습하고 판별하여 영상의 완성도에 기여하고 새로운 변화에 빠르게 적용할 수 있는 감정 예측 시스템을 제안한다. 본 논문에서 제안한 감정 예측시스템이 변형된 n-gram 방식과 형태소 분석을 적용한 사례와 비교했을 때, 정확도는 약 5.1%, 0.4% 향상되었고, 재현율은 약 4.3%, 1.6% 향상되었다.
Recently, we are trying to predict the emotion from various information and to convey the emotion information that the supervisor wants to inform the audience. In addition, audiences intend to understand the flow of emotions through various information of non-dialogue parts, such as cinematography, ...
Recently, we are trying to predict the emotion from various information and to convey the emotion information that the supervisor wants to inform the audience. In addition, audiences intend to understand the flow of emotions through various information of non-dialogue parts, such as cinematography, scene background, background sound and so on. In this paper, we propose to extract emotions by mixing not only the context of scripts but also the cinematography information such as color, background sound, composition, arrangement and so on. In other words, we propose an emotional prediction system that learns and distinguishes various emotional expression techniques into dialogue and non-dialogue regions, contributes to the completeness of the movie, and quickly applies them to new changes. The precision of the proposed system is improved by about 5.1% and 0.4%, and the recall is improved by about 4.3% and 1.6%, respectively, when compared with the modified n-gram and morphological analysis.
Recently, we are trying to predict the emotion from various information and to convey the emotion information that the supervisor wants to inform the audience. In addition, audiences intend to understand the flow of emotions through various information of non-dialogue parts, such as cinematography, scene background, background sound and so on. In this paper, we propose to extract emotions by mixing not only the context of scripts but also the cinematography information such as color, background sound, composition, arrangement and so on. In other words, we propose an emotional prediction system that learns and distinguishes various emotional expression techniques into dialogue and non-dialogue regions, contributes to the completeness of the movie, and quickly applies them to new changes. The precision of the proposed system is improved by about 5.1% and 0.4%, and the recall is improved by about 4.3% and 1.6%, respectively, when compared with the modified n-gram and morphological analysis.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
SVM 학습에 필요한 방대한 자료를 위해 대량의 정형 또는 비정형의 데이터 집합으로부터 가치를 추출하고 결과를 분석하는 기술로 많이 사용되던 데이터 마이닝 기법 중 연관규칙, 순차패턴, 분류, 클러스터링 등을 통해 대량의 실제 데이터로부터 숨겨져 있어 잘 드러나지 않는 유용한 정보들을 추출하고자 한다[8].
본 논문에서는 대사와 같은 문맥의 상황뿐만 아니라 촬영 영상에 담아낸 색, 구도, 배치 등에 의해 표현된 정보를 혼합하여 감정을 추출하고자 한다. 이러한 다양한 감정 표현 기법을 대사 구간, 비대사 구간으로 나누어 학습하고 판별하여 영상의 완성도에 기여하고 새로운 변화에 빠르게 적용할 수 있도록 하고자 한다.
본 논문에서는 대사와 같은 문맥의 상황뿐만 아니라 촬영 영상에 담아낸 색, 구도, 배치 등에 의해 표현된 정보를 혼합하여 감정을 추출하고자 한다. 이러한 다양한 감정 표현 기법을 대사 구간, 비대사 구간으로 나누어 학습하고 판별하여 영상의 완성도에 기여하고 새로운 변화에 빠르게 적용할 수 있도록 하고자 한다.
즉, 전체적인 감독의 촬영기법에 따라 상이한 감정을 표현하는 경우도 적지 않다. 이러한 대사, 비대사 구간 및 전체적인 영상 표현 기법을 통해 감정을 추출하여 보다 영상물에 대한 이해도를 높이고자 한다.
비대사적 패턴에 배경 음향을 가지고도 감정을 전개하거나 고조시키는 요인이 존재한다. 이러한 배경 음향으로부터 감정의 흐름을 표현하기 위한 패턴을 추출하여 감정 추출의 한 인자로 사용하여 강화하고자 한다. 배경음향과 감정들 간의 상관관계를 수집하고 장면들 사이의 미묘한 감정의 변화되는 요인을 찾아 배경 음향 패턴 기반의 감정 생성 모델을 구축한다.
제안 방법
무작위로 수집한 시나리오 대사 및 비대사 정보를 이용하여 감정 집단인 Anger, Disgust, Fear, Joy(Happiness), Sadness, 그리고 Surprise 범주에 각각 실험 집합으로 500개씩 분류한 후, 각 감정 문서에서 무작위로 추출한 400개의 문단은 훈련 집합으로 활용하고, 나머지 100개의 문단은 테스트 집합으로 사용하였으며, 이러한 과정으로 5회 반복하여 실험하였다.
TF-IPF를 통해 추출한 키워드 후보들 집합으로부터 각 감정별 키워드를 선별하여 상위 N개의 감정 대표 키워드들의 집합을 생성하고, 감정 대표 키워드들 간의 연관도와 순차 패턴의 데이터 마이닝 기법을 적용하기 위해 각 감정 키워드별 연관-순차 패턴 정보인 연관 DB를생성한다.
3은 후보 키워드의 가중치 부여를 위한 빈도수를 보여준다. 가중치가 부여된 키워드들의 집합과 상황정보를 혼합하여 감정을 예측한다. Fig.
감정 예측을 위한 기본적인 감정 키워드를 추출하기 위해 형태소 분석기를 사용하였다. 영화 시나리오에 나타난 대화나 상황 기술은 맞춤법, 띄어쓰기 등이 비교적 양호하기 때문에 형태소 분석기를 이용하여 감정에 영향을 많이 주는 동사, 명사, 그리고 부정어 등을 추출하고 감정 예측을 위한 후보 감정 키워드들을 구축하였다.
감정 집합의 훈련 문장들을 이용하여 각 감정집합의 후보 키워드를 각각 추출한다. 이때, 감정 대표 키워드를 추출하기 위해 단어 빈도와 역문서 빈도의 곱을 가중치로 사용하는 TF-IDF(Term Frequency - Inverse Document Frequency)[12]를 변형하여 TF-IPF(Term Frequency - Inverse Paragraph Frequency)를 사용한다[13].
감정 훈련 문서를 수집하기 위해 IMSDb(The Internet Movie Script Database)[14]라는 웹 사이트에 존재하는 1194개의 영화 스크립트 중 100개 스크립트를 선별하여 텍스트파일로 변환 및 정제과정을 통해 XML 파일로 변환하였다. 이러한 감정 훈련 문서들로부터 추출된 감정-순차 DB와 대표 키워드들을 이용하여 SVM에 훈련한다.
첫 번째 단계에서는 전처리된 감정 문단들로부터 형태소 분석기(Morphological Analyzer, MORPH)를 통해 후보 키워드를 추출하고, 각 추출된 키워드들과 키워드들 사이의 가중치를 이용하여 대표키워드를 선별하여 감정별 연관-순차 DB를 생성한다. 두 번째 부분에서는 생성된 감정 데이터베이스와 SVM을 이용하여 감정별로 훈련 문단들을 훈련시킨 후, 마지막 부분에서 테스트 문단과 이러한 문단에 상응하는 상황 정보들을 입력으로 하여 표현된 감정을 SVM을 통해 예측한다.
등장인물의 평온함, 기쁨, 화남, 슬픔, 놀람, 공포 등과 같은 다양한 감정에 대한 표준화 데이터를 구축하기 위해 시나리오에 나타난 대량의 대사를 기반으로 감정을 예측하는 대사 패턴 기반의 감정 생성 모델을 구축한다. 감정은 자극에 따른 반응을 통해 인물간의 관계의 변화를 감지하며 이러한 관계를 통해 표현되는 감정의 순차적인 변화를 통해 패턴을 찾아내는 모델이 도출돼야 한다.
이러한 배경 음향으로부터 감정의 흐름을 표현하기 위한 패턴을 추출하여 감정 추출의 한 인자로 사용하여 강화하고자 한다. 배경음향과 감정들 간의 상관관계를 수집하고 장면들 사이의 미묘한 감정의 변화되는 요인을 찾아 배경 음향 패턴 기반의 감정 생성 모델을 구축한다.
감정 예측을 위한 기본적인 감정 키워드를 추출하기 위해 형태소 분석기를 사용하였다. 영화 시나리오에 나타난 대화나 상황 기술은 맞춤법, 띄어쓰기 등이 비교적 양호하기 때문에 형태소 분석기를 이용하여 감정에 영향을 많이 주는 동사, 명사, 그리고 부정어 등을 추출하고 감정 예측을 위한 후보 감정 키워드들을 구축하였다. 이때, 감정 키워드 추출을 위한 형태소 분석기로 NLTK(Natural Language Toolkit)를 사용한다.
감정 훈련 문서를 수집하기 위해 IMSDb(The Internet Movie Script Database)[14]라는 웹 사이트에 존재하는 1194개의 영화 스크립트 중 100개 스크립트를 선별하여 텍스트파일로 변환 및 정제과정을 통해 XML 파일로 변환하였다. 이러한 감정 훈련 문서들로부터 추출된 감정-순차 DB와 대표 키워드들을 이용하여 SVM에 훈련한다. 무작위로 수집한 시나리오 대사 및 비대사 정보를 이용하여 감정 집단인 Anger, Disgust, Fear, Joy(Happiness), Sadness, 그리고 Surprise 범주에 각각 실험 집합으로 500개씩 분류한 후, 각 감정 문서에서 무작위로 추출한 400개의 문단은 훈련 집합으로 활용하고, 나머지 100개의 문단은 테스트 집합으로 사용하였으며, 이러한 과정으로 5회 반복하여 실험하였다.
정보처리를 위한 다양한 오픈 소스 형태소 분석기인 KoNLPy(Korean NLP in Python)[4], MeCab-ko[5], NLTK(Natural Language Toolkit)[6] 등이 개발되었고, 이 중 교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 패키지인 NLTK패키지를 적용하고자 한다.
1과 같다. 첫 번째 단계에서는 전처리된 감정 문단들로부터 형태소 분석기(Morphological Analyzer, MORPH)를 통해 후보 키워드를 추출하고, 각 추출된 키워드들과 키워드들 사이의 가중치를 이용하여 대표키워드를 선별하여 감정별 연관-순차 DB를 생성한다. 두 번째 부분에서는 생성된 감정 데이터베이스와 SVM을 이용하여 감정별로 훈련 문단들을 훈련시킨 후, 마지막 부분에서 테스트 문단과 이러한 문단에 상응하는 상황 정보들을 입력으로 하여 표현된 감정을 SVM을 통해 예측한다.
이론/모형
감정 예측 평가에 사용되는 척도는 통계적 분류 분야에서 사용하는 정밀도(Precision), 재현율(Recall), F-measure, 그리고 정확도(Accuracy)를 사용한다[15].
이때, 감정 대표 키워드를 추출하기 위해 단어 빈도와 역문서 빈도의 곱을 가중치로 사용하는 TF-IDF(Term Frequency - Inverse Document Frequency)[12]를 변형하여 TF-IPF(Term Frequency - Inverse Paragraph Frequency)를 사용한다[13].
영화 시나리오에 나타난 대화나 상황 기술은 맞춤법, 띄어쓰기 등이 비교적 양호하기 때문에 형태소 분석기를 이용하여 감정에 영향을 많이 주는 동사, 명사, 그리고 부정어 등을 추출하고 감정 예측을 위한 후보 감정 키워드들을 구축하였다. 이때, 감정 키워드 추출을 위한 형태소 분석기로 NLTK(Natural Language Toolkit)를 사용한다.
성능/효과
본 논문에서 제안한 카메라 촬영 기법, 색상, 음향 정보 등의 상황정보를 추가하여 텍스트에 나타나지 않은 감정예측에 영향을 주었다.
6% 향상되었다. n-gram은 문맥의 의미와 상관없이 특정 단어의 출현 빈도만을 이용하여 감정으로 분류하고, 부정어 처리나 어미의 활용을 적절히 적용하지 않아 감정 오분류의 원인이 된 것으로 판단되며, 형태소 분석을 통해 추출하는 데는 많은 비용이 소모되지만, 명사, 동사 등과 같은 정확한 의미를 가진 키워드 추출과 키워드 수의 감소로 인해 감정 예측의 정확성을 높였고 전반적인 부하를 다소 줄일 수 있었다. 본 논문에서 제안한 카메라 촬영 기법, 색상, 음향 정보 등의 상황정보를 추가하여 텍스트에 나타나지 않은 감정예측에 영향을 주었다.
본 논문에서 제안한 시스템은 대사구간의 각 감정 문단으로부터 형태소 분석을 통해 대표 키워드들을 추출하고, 비대사구간의 다양한 정보를 취합하여 감정을 예측하기 위해 대표 키워드의 가중치와 데이터 마이닝 기법을 혼합하여 변형된 n-gram방법, 형태소분석만을 사용한 방법에 비해 정밀도는 각각 약 5.1%, 0.4% 향상되었고, 재현율은 약 4.3%, 1.6% 정도 향상되었다.
Table 2는 본 논문에서 제안한 형태소분석과 상황정보를 혼합한 예측 시스템이 변형된 n-gram기법과 형태소분석만을 통해 감정을 예측한 방법들과 정밀도와 재현율 관점에서 비교한 결과이다. 전체적으로 제안한 예측시스템의 성능이 변형된 n-gram방법, 형태소분석만을 사용한 방법에 비해 정밀도는 각각 약 5.1%, 0.4% 향상되었고, 재현율은 약 4.3%, 1.6% 향상되었다. n-gram은 문맥의 의미와 상관없이 특정 단어의 출현 빈도만을 이용하여 감정으로 분류하고, 부정어 처리나 어미의 활용을 적절히 적용하지 않아 감정 오분류의 원인이 된 것으로 판단되며, 형태소 분석을 통해 추출하는 데는 많은 비용이 소모되지만, 명사, 동사 등과 같은 정확한 의미를 가진 키워드 추출과 키워드 수의 감소로 인해 감정 예측의 정확성을 높였고 전반적인 부하를 다소 줄일 수 있었다.
후속연구
향후 연구에서는 대사구간 및 비대사구간 외에 다양한 정보를 혼합한 더욱 효율적인 기법을 통해 감정 예측성능을 높을 수 있도록 연구를 해야 하며, 훈련된 키워드들 사이의 상호 위치에 따른 연관성까지도 고려하여 가중치를 부여하고 감정을 예측해야 할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
다양한 감정 표현 기법추출하는 요인은 무엇인가?
또한, 청중은 감독의 의도를 대화 내용에 나타나는 대사뿐만 아니라, 영상내의 다양한 정보인 촬영 기법, 장면의 배경, 배경 음악 등을 통해 비대사 구간에서도 감정의 흐름을 이해하려고 한다. 본 논문에서는 대사와 같은 문맥의 상황뿐만 아니라, 촬영 영상에 담아낸 색상, 음향, 구도, 배치 등에 의해 표현된 정보를 혼합하여 감정을 추출하고자 한다. 즉, 다양한 감정 표현 기법을 대사 구간, 비대사 구간으로 나누어 학습하고 판별하여 영상의 완성도에 기여하고 새로운 변화에 빠르게 적용할 수 있는 감정 예측 시스템을 제안한다.
정보통신기술(ICT)의 융합 및 발전의 장점은 무엇인가?
정보통신기술(ICT)의 융합 및 발전에 힘입어 사용자는 원하는 정보를 장소와 시간의 제약에서 벗어나 손쉽게 수집, 가공, 그리고 배포할 수 있게 되었다. 특히 영화,드라마 등과 같은 콘텐츠 속에 표현된 등장인물의 감정변화와 전체적인 서사적인 흐름에 따른 감정 흐름을 통해 자신의 취향과 연관된 다양한 콘텐츠를 선택하고 추천 받기를 원한다[1].
감정 표현이란 무엇인가?
특히 영화,드라마 등과 같은 콘텐츠 속에 표현된 등장인물의 감정변화와 전체적인 서사적인 흐름에 따른 감정 흐름을 통해 자신의 취향과 연관된 다양한 콘텐츠를 선택하고 추천 받기를 원한다[1]. 감정 표현은 작가가 청중에게 알리고자 하는 객관적 감정과 청중이 받아들이는 감정은 대화 내용에 나타나는 대사뿐만 아니라, 영상에 나타난 다양한 정보인 촬영 기법, 장면의 배경, 배경 음악 등을 통해 비대사 구간에서도 감정의 흐름을 이해하려고 한다.대사 구간에서는 대사 속에 포함된 어휘를 통해 감정을쉽게 판별할 수 있지만, 촬영기법이나 화면 배경 등과 같은 부분 속 영상에 나타난 영상 및 음향 정보를 통해 감정을 보다 효과적으로 표현할 수 있다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.