어휘적 중의성이란 동음이의어, 다의어와 같이 단어를 2개 이상의 의미로 해석할 수 있는 경우를 의미하며, 감정을 나타내는 어휘에서도 어휘적 중의성을 띄는 경우가 다수 존재한다. 이러한 어휘들은 인간의 심리를 투영한다는 점에서 구체적이고, 풍부한 맥락을 전달하는 특징이 있다. 본 연구에서는 양방향 LSTM을 적용하여 중의성을 해소한 감정 분류 모델을 제안한다. 주변 문맥의 정보를 충분히 반영한다면, 어휘적 중의성 문제를 해결하고, 문장이 나타내려는 감정을 하나로 압축할 수 있다는 가정을 기반으로 한다. 양방향 LSTM은 문맥 정보를 필요로 하는 자연어 처리 연구 분야에서 자주 활용되는 알고리즘으로 본 연구에서도 문맥을 학습하기 위해 활용하고자 한다. GloVe 임베딩을 본 연구 모델의 임베딩 층으로 사용했으며, LSTM, RNN 알고리즘을 적용한 모델과 비교하여 본 연구 모델의 성능을 확인하였다. 이러한 프레임워크는 SNS 사용자들의 감정을 소비 욕구로 연결시킬 수 있는 마케팅 등 다양한 분야에 기여할 수 있을 것이다.
어휘적 중의성이란 동음이의어, 다의어와 같이 단어를 2개 이상의 의미로 해석할 수 있는 경우를 의미하며, 감정을 나타내는 어휘에서도 어휘적 중의성을 띄는 경우가 다수 존재한다. 이러한 어휘들은 인간의 심리를 투영한다는 점에서 구체적이고, 풍부한 맥락을 전달하는 특징이 있다. 본 연구에서는 양방향 LSTM을 적용하여 중의성을 해소한 감정 분류 모델을 제안한다. 주변 문맥의 정보를 충분히 반영한다면, 어휘적 중의성 문제를 해결하고, 문장이 나타내려는 감정을 하나로 압축할 수 있다는 가정을 기반으로 한다. 양방향 LSTM은 문맥 정보를 필요로 하는 자연어 처리 연구 분야에서 자주 활용되는 알고리즘으로 본 연구에서도 문맥을 학습하기 위해 활용하고자 한다. GloVe 임베딩을 본 연구 모델의 임베딩 층으로 사용했으며, LSTM, RNN 알고리즘을 적용한 모델과 비교하여 본 연구 모델의 성능을 확인하였다. 이러한 프레임워크는 SNS 사용자들의 감정을 소비 욕구로 연결시킬 수 있는 마케팅 등 다양한 분야에 기여할 수 있을 것이다.
Lexical ambiguity means that a word can be interpreted as two or more meanings, such as homonym and polysemy, and there are many cases of word sense ambiguation in words expressing emotions. In terms of projecting human psychology, these words convey specific and rich contexts, resulting in lexical ...
Lexical ambiguity means that a word can be interpreted as two or more meanings, such as homonym and polysemy, and there are many cases of word sense ambiguation in words expressing emotions. In terms of projecting human psychology, these words convey specific and rich contexts, resulting in lexical ambiguity. In this study, we propose an emotional classification model that disambiguate word sense using bidirectional LSTM. It is based on the assumption that if the information of the surrounding context is fully reflected, the problem of lexical ambiguity can be solved and the emotions that the sentence wants to express can be expressed as one. Bidirectional LSTM is an algorithm that is frequently used in the field of natural language processing research requiring contextual information and is also intended to be used in this study to learn context. GloVe embedding is used as the embedding layer of this research model, and the performance of this model was verified compared to the model applied with LSTM and RNN algorithms. Such a framework could contribute to various fields, including marketing, which could connect the emotions of SNS users to their desire for consumption.
Lexical ambiguity means that a word can be interpreted as two or more meanings, such as homonym and polysemy, and there are many cases of word sense ambiguation in words expressing emotions. In terms of projecting human psychology, these words convey specific and rich contexts, resulting in lexical ambiguity. In this study, we propose an emotional classification model that disambiguate word sense using bidirectional LSTM. It is based on the assumption that if the information of the surrounding context is fully reflected, the problem of lexical ambiguity can be solved and the emotions that the sentence wants to express can be expressed as one. Bidirectional LSTM is an algorithm that is frequently used in the field of natural language processing research requiring contextual information and is also intended to be used in this study to learn context. GloVe embedding is used as the embedding layer of this research model, and the performance of this model was verified compared to the model applied with LSTM and RNN algorithms. Such a framework could contribute to various fields, including marketing, which could connect the emotions of SNS users to their desire for consumption.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이러한 프로토타입 접근법은 사회적 상호 작용을 포함한 다양한 실제 상황에서 감정 관련 정보가 처리되는 방식을 결정하는 데 유용하다. 그렇기 때문에 본 연구에서는 감정 클래스로 Shaver의 연구[8]에서 제시한 6가지 기본적인 감정을 채택하고자 한다.
따라서, 본 연구에서는 어휘의 중의성을 해소 하는 감정 분석을 수행하기 위해 양방향 LSTM에 기반한 새로운 감정 분류 모형을 제안한다. 실제로 문맥 정보를 충분히 활용하여 어휘적 중의성을 해소해 감정 분류 성능을 높일 수 있는지 가설을 세운 후 실험을 진행하고자 한다.
본 연구에서 SNS 이용률 증가에 따른 사용자의 감정을 이해하기 위해 감정 분석 시스템을 제시하였다. 여기에 감정 어휘의 중의성을 해소할 수 있도록 문맥적 정보를 이용하려는 자연어 처리 분야에서 주로 쓰이는 양방향 LSTM을 적용하여 모델을 설계하였다.
본 연구에서는 감정 어휘의 중의성을 해소하여 감정을 분류하기 위해 GloVe 임베딩 층과 양방향 LSTM을 조합한 GloB-LSTM 연구 모델을 제안 하였으며, LSTM, RNN을 사용했을 때보다 맥락 정보를 더 반영함으로써 분류 성능을 높일 수 있는지 살펴보았다. GloVe 임베딩 층을 적용한 각 알고리즘 간의 비교 실험을 진행했고, 배치 사이즈에 따라 각각의 정확도를 구하였다<표 5>.
GloVe는 2014년 스탠포드 대학(Stanford University)에서 개발한 카운트 기반의 비지도 학습 방법론으로, 전체 말뭉치 내 단어 간 동시 등장 확률을 사용해 차원을 축소하는 등 기존의 Bo-W, TF-IDF, LSA 및 Word2Vec을 보완한다. 본 연구에서는 제한적인 데이터 수의 한계를 극복하고 도메인에 상관없이 사람들이 SNS에 쓴 텍스트로부터 감정을 추출하기 위해 GloVe를 사용하고자 한다. 본 논문의 연구 모형인 양방향 LSTM과 결합해 자질을 학습시키고, 풍부한 의미 정보를 제공 받을 것이다.
따라서, 본 연구에서는 어휘의 중의성을 해소 하는 감정 분석을 수행하기 위해 양방향 LSTM에 기반한 새로운 감정 분류 모형을 제안한다. 실제로 문맥 정보를 충분히 활용하여 어휘적 중의성을 해소해 감정 분류 성능을 높일 수 있는지 가설을 세운 후 실험을 진행하고자 한다. 크라우드 소싱 플랫폼 2곳에서 공개한 감정 레이블이 부착된 텍스트 데이터를 사용해 학습 데이터를 구축했으며, 이후, 양방향 LSTM으로 과거, 미래의 모든 정보를 반영하되, 전역적인 단어의 의미 정보를 활용하는 GloVe 임베딩을 적용하여 감정 분석을 시행하였다.
가설 설정
여기에 감정 어휘의 중의성을 해소할 수 있도록 문맥적 정보를 이용하려는 자연어 처리 분야에서 주로 쓰이는 양방향 LSTM을 적용하여 모델을 설계하였다. 본 논문은 어휘적중의성을 문맥을 통해 해소한다면, 문맥의 풍부한 의미적, 맥락적 정보를 반영한 것으로 각 문장이 나타내는 감정이 하나로 통일된다는 가설을 세우고 실험을 진행하였다. 이를 검증하기 위해 연구 모델로 양방향 LSTM을 설정했으며, GloVe 임베딩 층을 양방향 LSTM 모델의 임베딩 층으로 사용하거나 ReLU 활성화 함수 등을 추가하는 등의 하이퍼튜닝을 실시해 모델의 성능에 기여하는지 살폈다.
제안 방법
본 연구에서는 감정 어휘의 중의성을 해소하여 감정을 분류하기 위해 GloVe 임베딩 층과 양방향 LSTM을 조합한 GloB-LSTM 연구 모델을 제안 하였으며, LSTM, RNN을 사용했을 때보다 맥락 정보를 더 반영함으로써 분류 성능을 높일 수 있는지 살펴보았다. GloVe 임베딩 층을 적용한 각 알고리즘 간의 비교 실험을 진행했고, 배치 사이즈에 따라 각각의 정확도를 구하였다<표 5>.
ReLU 활성화 함수를 적용하기에 앞서, 각 문장의 단어들을 학습시킨 다음, 이를 결합하여 하나의 벡터로 만드는 과정을 수행하였다. 이 벡터는 문장의 임베딩 벡터라 할 수 있으며, 이를 softmax 활성화 함수에 적용시켜 0에서 1 사이의 확률로 출력하였다.
크라우드 소싱 플랫폼 2곳에서 공개한 감정 레이블이 부착된 텍스트 데이터를 사용해 학습 데이터를 구축했으며, 이후, 양방향 LSTM으로 과거, 미래의 모든 정보를 반영하되, 전역적인 단어의 의미 정보를 활용하는 GloVe 임베딩을 적용하여 감정 분석을 시행하였다. 또한, 활성화 함수를 양방향 LSTM의 특성을 최대화할 수 있는 ReLU 함수를 적용하는 등의 하이퍼튜닝 과정을 거쳐 모델의 성능을 높이는데 기여하였다. 최종 적으로, 다른 분류기인 LSTM과 RNN을 적용했을 때의 결과와 비교하여 성능에 얼마나 차이가 있는지 확인하였으며, 정확도와 f1-score 지표를 통해 연구자가 내세운 가설이 타당하고, 제안 모형이 가장 적절하다는 사실을 증명하였다.
또한, 훈련 및 평가 데이터 외에 트위터에서 크롤링하여 사전 학습시킨 120만 개 GloVe 벡터를 활용해 일반적인 SNS의 의미적, 구문적 정보를 활용하고자 하였다. 감정 어휘는 동일한 형태일지라도 사용자에 따라 의미가 달리 해석되기도 하며, 더 나아가 함께 쓰이는 단어와 문맥에 따라 각 문장이 나타내고자 하는 주요 감정, 즉 문장의 분위기도 달라질 수 있다.
이후 순방향, 역방향으로 각각 독립적으로 작동하는 은닉층을 지나며 문맥적 정보를 학습하였다. 문장을 좌측, 우측 양쪽에서 읽어 타깃 단어를 예측하는데, 타깃 단어 이전 주변 단어들의 정보와 이후 주변 단어들의 정보를 종합적으로 살펴 밀집 표현으로 나타냄으로써, 문장 내 전체 문맥 정보를 빠짐없이 담아냈다.
자연어를 처리하기에 앞서, 이를 정제하는 과정이 선행되어야 한다. 본 논문에서는 해시태그 표현, 특수문자 및 문장 부호와 같은 불용어를 처리하였다. 그 다음, 데이터를 살폈을 때, 문장을 구성하는 단어의 수(n)가 2개 이하일 때는 의미 있는 학습이 불가하다고 판단하여 제거하였다.
본 연구에서 진행하는 실험 과정은 다음과 같다. 앞서 데이터를 훈련, 검증, 테스트 데이터로 7:1:2 비율에 맞춰 분리하였으며, 이 중 훈련, 검증 데이터를 학습과 10차 교차 검증에 사용하고, 테스트 데이터로 분류 예측을 실시하였다.
본 연구에서 SNS 이용률 증가에 따른 사용자의 감정을 이해하기 위해 감정 분석 시스템을 제시하였다. 여기에 감정 어휘의 중의성을 해소할 수 있도록 문맥적 정보를 이용하려는 자연어 처리 분야에서 주로 쓰이는 양방향 LSTM을 적용하여 모델을 설계하였다. 본 논문은 어휘적중의성을 문맥을 통해 해소한다면, 문맥의 풍부한 의미적, 맥락적 정보를 반영한 것으로 각 문장이 나타내는 감정이 하나로 통일된다는 가설을 세우고 실험을 진행하였다.
이 때 손실 함수인 교차 크로스 엔트로피(categorical cross entropy)를 사용하는데, 이는 역전파를 계산하여 오차를 줄이는 방향으로 가중치를 업데이트하는 방식이다. 역전파가 문장의 양쪽 끝까지 제대로 전달될 수 있도록 sigmoid 활성화 함수가 아닌 ReLU 활성화 함수를 사용하였다. 0에서 1 사이의 값을 반영하는 sigmoid 함수와는 달리, ReLU 함수는 0보다 작은 값이면 0을 반환하고, 1보다 크면 그 값 그대로 반환하는데, 이러한 특징 덕분에 기울기 소실 문제를 대폭 줄일 수 있다[24].
연구자가 제안하는 모델에서는 양방향 LSTM 을 2층으로 쌓은 stacked 형태이며, 내부를 하이퍼 튜닝함으로써 최적의 모델을 찾고자 하였다. 여기엔 배치 정규화(batch normalization), 드롭아웃(dropout), ReLU 활성화 함수 적용이 해당 된다.
연구자는 에서처럼 GloVe 임베딩 층을 통제 변수로 사용하되, LSTM과 RNN을 벤치마크 모델의 알고리즘으로 사용하여 연구자가 제안하는 연구 모델과 비교하였다.
최종적으로, 트위터로부터 추출한 사전 학습시켜 생성한 120만 개의 GloVe 벡터를 활용하였다. 이로써, 어절단위로 분절한 텍스트를 GloVe 임베딩 기법에 적용시켜 GloVe 벡터의 의미적, 문법적 정보를 담아냈다.
본 논문은 어휘적중의성을 문맥을 통해 해소한다면, 문맥의 풍부한 의미적, 맥락적 정보를 반영한 것으로 각 문장이 나타내는 감정이 하나로 통일된다는 가설을 세우고 실험을 진행하였다. 이를 검증하기 위해 연구 모델로 양방향 LSTM을 설정했으며, GloVe 임베딩 층을 양방향 LSTM 모델의 임베딩 층으로 사용하거나 ReLU 활성화 함수 등을 추가하는 등의 하이퍼튜닝을 실시해 모델의 성능에 기여하는지 살폈다. 실험 결과, 정확도와 f1-score 지표를 통해 제안한 가설과 모형이 적합한 것으로 밝혀졌다.
이후 순방향, 역방향으로 각각 독립적으로 작동하는 은닉층을 지나며 문맥적 정보를 학습하였다. 문장을 좌측, 우측 양쪽에서 읽어 타깃 단어를 예측하는데, 타깃 단어 이전 주변 단어들의 정보와 이후 주변 단어들의 정보를 종합적으로 살펴 밀집 표현으로 나타냄으로써, 문장 내 전체 문맥 정보를 빠짐없이 담아냈다.
여기엔 배치 정규화(batch normalization), 드롭아웃(dropout), ReLU 활성화 함수 적용이 해당 된다. 입력값의 분산을 최소화하여 학습이 잘되도록 배치 정규화를 실시했으며, 과적합을 방지하기 위해 랜덤하게 은닉층의 뉴런을 삭제하도록 드롭아웃을 설정했다.
이 벡터는 문장의 임베딩 벡터라 할 수 있으며, 이를 softmax 활성화 함수에 적용시켜 0에서 1 사이의 확률로 출력하였다. 최종 확률 값과 실제 문장의 레이블을 비교하고, 정답에 근접한 확률이 출력될 때까지 학습을 진행하였다. 이 때 손실 함수인 교차 크로스 엔트로피(categorical cross entropy)를 사용하는데, 이는 역전파를 계산하여 오차를 줄이는 방향으로 가중치를 업데이트하는 방식이다.
실제로 문맥 정보를 충분히 활용하여 어휘적 중의성을 해소해 감정 분류 성능을 높일 수 있는지 가설을 세운 후 실험을 진행하고자 한다. 크라우드 소싱 플랫폼 2곳에서 공개한 감정 레이블이 부착된 텍스트 데이터를 사용해 학습 데이터를 구축했으며, 이후, 양방향 LSTM으로 과거, 미래의 모든 정보를 반영하되, 전역적인 단어의 의미 정보를 활용하는 GloVe 임베딩을 적용하여 감정 분석을 시행하였다. 또한, 활성화 함수를 양방향 LSTM의 특성을 최대화할 수 있는 ReLU 함수를 적용하는 등의 하이퍼튜닝 과정을 거쳐 모델의 성능을 높이는데 기여하였다.
대상 데이터
본 연구에서는 감정을 분류하기 위한 학습 및 평가 데이터로 크라우드 소싱 플랫폼(Crowd Sourcing Platform) 2곳에서 공개한 감정 레이블이 부착된 감정 텍스트 데이터를 활용하였다. 감정 레이블은 anger, fear, joy, love, sadness, surprise로 6가지이며, 각각의 개수는 2,490개다<표 1>.
또한, 대문자는 소문자로 모두 바꿔 동일한 어휘로 표현될 수 있도록 했다. 최종적으로, 트위터로부터 추출한 사전 학습시켜 생성한 120만 개의 GloVe 벡터를 활용하였다. 이로써, 어절단위로 분절한 텍스트를 GloVe 임베딩 기법에 적용시켜 GloVe 벡터의 의미적, 문법적 정보를 담아냈다.
데이터처리
또 다른 분류 성능 지표인 F1-score로 제안 모델과 비교 모델 간의 비교 분석을 실시했으며, 그 결과는 에 나와 있다.
연구자가 제안한 모델(Glo-Re-LSTM)의 정확도가 비교 모델들의 정확도 대비 가장 높게 나왔으며, ReLU 함수의 적용에 따라 먼저 결과를 비교하였다. ReLU 함수를 활성화 함수로 적용 하지 않은 상황에서 배치 사이즈가 64, 128일 때 Glo-BLSTM의 테스트 정확도는 0.
성능/효과
실험 결과, 정확도와 f1-score 지표를 통해 제안한 가설과 모형이 적합한 것으로 밝혀졌다. GloVe를 임베딩 층으로 사용한 양방향 LSTM 모델은 LSTM, RNN 모델에 적용한 경우보다 높은 성능을 보였으며, ReLU 활성화 함수를 적용함으로써 모델의 성능을 한층 향상시킬 수 있었다. 즉, 중의성을 띄는 어휘들이 LSTM과 RNN 모델보다 문맥적 의미를 학습하여 각 문장이 의미하는 감정을 하나로 귀결시켰음을 밝혀냈다.
ReLU 함수를 활성화 함수로 설정했을 때의 결과를 보면, 배치 사이즈가 64일 때, Glo-Re- BLSTM의 테스트 정확도는 0.5940으로 Glo-ReLSTM의 정확도 0.5847보다 0.0093 증가하였고, Glo-Re-RNN의 정확도 0.3621보다 0.2319 증가 하였다. 배치 사이즈가 128인 경우는 Glo-ReBLSTM의 테스트 정확도가 0.
연구자가 제안한 모델(Glo-Re-LSTM)의 정확도가 비교 모델들의 정확도 대비 가장 높게 나왔으며, ReLU 함수의 적용에 따라 먼저 결과를 비교하였다. ReLU 함수를 활성화 함수로 적용 하지 않은 상황에서 배치 사이즈가 64, 128일 때 Glo-BLSTM의 테스트 정확도는 0.5917과 0.5961로 Glo-LSTM과 Glo-RNN의 테스트 정확도보다 비교적 높게 나왔다. 배치 사이즈별로 비교했을 때 128로 배치 사이즈를 조절하자 전반적으로 정확도가 향상되었음을 확인하였다.
6964로 배치 사이즈가 128일 때보다 다소 떨어지지만, 다른 비교 모델 대비 우수한 성능을 보인다. ReLU 활성화 함수 적용 유무에 따라 결과를 비교한 경우에도 배치 사이즈에 관계없이 ReLU 함수를 적용했을 때 성능이 높은 것을 알 수 있다.
셋째, 배치 사이즈와 ReLU 적용 유무에 따라 정확도 간의 차이가 발생하는데, 배치 사이즈가 128일 때 ReLU 활성화 함수를 적용하지 않은 모델(Glo-BLSTM)의 성능이 배치 사이즈가 64일 때 ReLU 활성화 함수를 적용한 모델(Glo-Re-BLSTM)보다 우수할 수 있다는 것이다. 넷째, RNN을 적용한 비교 모델보다 가파르게 성능이 향상된 것을 보아, 양방향 LSTM이 RNN의 장기 의존성 문제를 완화하여 분류 성능에 기여했음을 알 수 있다. 다섯째, LSTM보다 성능이 향상된 결과로부터 역방향으로 학습하는 과정이 추가되어 감정 어휘가 문맥 정보를 충분히 반영함으로써 어휘의 의미를 더욱 정확하게 파악하고, 더 나아가 문장의 의미가 하나로 고정되었음을 알 수 있다.
넷째, RNN을 적용한 비교 모델보다 가파르게 성능이 향상된 것을 보아, 양방향 LSTM이 RNN의 장기 의존성 문제를 완화하여 분류 성능에 기여했음을 알 수 있다. 다섯째, LSTM보다 성능이 향상된 결과로부터 역방향으로 학습하는 과정이 추가되어 감정 어휘가 문맥 정보를 충분히 반영함으로써 어휘의 의미를 더욱 정확하게 파악하고, 더 나아가 문장의 의미가 하나로 고정되었음을 알 수 있다.
데이터를 분리한 후, 모델의 입력층에서 GloVe 임베딩 벡터를 look-up 하는 형태로 해당하는 임베딩 벡터를 추출하여, GloVe의 풍부한 의미 정보를 받았다.
2416증가하였다. 또한, Glo-BLSTM보다 배치 사이즈가 64일 때 0.0023만큼, 배치 사이즈가 128일 때 0.0046만큼 정확도가 향상되었다.
기존에는 random initialized된 임베딩 층을 사용했으나, GloVe 벡터로 해당 토큰들을 밀집된 표현(distributed representation)으로 나타내 의미적, 문법적 정보를 최대한 반영할 수 있다. 또한, 문서 내 모든 문맥 정보를 반영함으로써 감정적 어휘의 중의적인 표현들을 해소해 감정 분류의 성능을 높일 수 있다.
2319 증가 하였다. 배치 사이즈가 128인 경우는 Glo-ReBLSTM의 테스트 정확도가 0.6007 이며 GloRe-LSTM의 정확도 0.5888보다 0.0097 증가하였고, Glo-Re-RNN의 정확도 0.3591보다 0.2416증가하였다. 또한, Glo-BLSTM보다 배치 사이즈가 64일 때 0.
5961로 Glo-LSTM과 Glo-RNN의 테스트 정확도보다 비교적 높게 나왔다. 배치 사이즈별로 비교했을 때 128로 배치 사이즈를 조절하자 전반적으로 정확도가 향상되었음을 확인하였다.
첫째, ReLU 활성화 함수 적용 유무에 상관없이 양방향 LSTM을 알고리즘으로 사용했을 때 가장 분류 성능이 높으며, 둘째, 동일한 배치 사이즈 내에서 ReLU 활성화 함수를 적용하자 성능이 향상되었다는 점이다. 셋째, 배치 사이즈와 ReLU 적용 유무에 따라 정확도 간의 차이가 발생하는데, 배치 사이즈가 128일 때 ReLU 활성화 함수를 적용하지 않은 모델(Glo-BLSTM)의 성능이 배치 사이즈가 64일 때 ReLU 활성화 함수를 적용한 모델(Glo-Re-BLSTM)보다 우수할 수 있다는 것이다. 넷째, RNN을 적용한 비교 모델보다 가파르게 성능이 향상된 것을 보아, 양방향 LSTM이 RNN의 장기 의존성 문제를 완화하여 분류 성능에 기여했음을 알 수 있다.
이를 검증하기 위해 연구 모델로 양방향 LSTM을 설정했으며, GloVe 임베딩 층을 양방향 LSTM 모델의 임베딩 층으로 사용하거나 ReLU 활성화 함수 등을 추가하는 등의 하이퍼튜닝을 실시해 모델의 성능에 기여하는지 살폈다. 실험 결과, 정확도와 f1-score 지표를 통해 제안한 가설과 모형이 적합한 것으로 밝혀졌다. GloVe를 임베딩 층으로 사용한 양방향 LSTM 모델은 LSTM, RNN 모델에 적용한 경우보다 높은 성능을 보였으며, ReLU 활성화 함수를 적용함으로써 모델의 성능을 한층 향상시킬 수 있었다.
이때, SVM, k-NN, Naïve Bayes를 적용했을 때와 비교 실험을 진행했으나, LSTM이 가장 성능이 우수하다고 판단되었다.
이러한 결과는 양방향 LSTM이 LSTM과 RNN의 단점을 완화하고 어휘의 의미를 적용하는데 있어서 양쪽 문맥을 파악함으로써 분류 성능을 높일 수 있음을 제시한다. 또한 ReLU 활성화 함수의 적용은 양방향 LSTM의 성능 제고에 기여함을 보여준다.
GloVe를 임베딩 층으로 사용한 양방향 LSTM 모델은 LSTM, RNN 모델에 적용한 경우보다 높은 성능을 보였으며, ReLU 활성화 함수를 적용함으로써 모델의 성능을 한층 향상시킬 수 있었다. 즉, 중의성을 띄는 어휘들이 LSTM과 RNN 모델보다 문맥적 의미를 학습하여 각 문장이 의미하는 감정을 하나로 귀결시켰음을 밝혀냈다.
이 결과로 5가지 사실을 확인할 수 있다. 첫째, ReLU 활성화 함수 적용 유무에 상관없이 양방향 LSTM을 알고리즘으로 사용했을 때 가장 분류 성능이 높으며, 둘째, 동일한 배치 사이즈 내에서 ReLU 활성화 함수를 적용하자 성능이 향상되었다는 점이다. 셋째, 배치 사이즈와 ReLU 적용 유무에 따라 정확도 간의 차이가 발생하는데, 배치 사이즈가 128일 때 ReLU 활성화 함수를 적용하지 않은 모델(Glo-BLSTM)의 성능이 배치 사이즈가 64일 때 ReLU 활성화 함수를 적용한 모델(Glo-Re-BLSTM)보다 우수할 수 있다는 것이다.
또한, 활성화 함수를 양방향 LSTM의 특성을 최대화할 수 있는 ReLU 함수를 적용하는 등의 하이퍼튜닝 과정을 거쳐 모델의 성능을 높이는데 기여하였다. 최종 적으로, 다른 분류기인 LSTM과 RNN을 적용했을 때의 결과와 비교하여 성능에 얼마나 차이가 있는지 확인하였으며, 정확도와 f1-score 지표를 통해 연구자가 내세운 가설이 타당하고, 제안 모형이 가장 적절하다는 사실을 증명하였다.
5941은 Glo-LSTM과 Glo-RNN의 정확도보다 높다. 추가적으로, 배치 사이즈에 따라 비교하자 정확도와 유사하게 128로 모델의 배치 사이즈를 설정했을 때, 64로 설정했을 때보다 성능이 향상되었다.
후속연구
이러한 결과는 양방향 LSTM이 LSTM과 RNN의 단점을 완화하고 어휘의 의미를 적용하는데 있어서 양쪽 문맥을 파악함으로써 분류 성능을 높일 수 있음을 제시한다. 또한 ReLU 활성화 함수의 적용은 양방향 LSTM의 성능 제고에 기여함을 보여준다.
질의응답
핵심어
질문
논문에서 추출한 답변
어휘적 중의성이란?
어휘적 중의성이란 동음이의어, 다의어와 같이 단어를 2개 이상의 의미로 해석할 수 있는 경우를 의미하며, 감정을 나타내는 어휘에서도 어휘적 중의성을 띄는 경우가 다수 존재한다. 이러한 어휘들은 인간의 심리를 투영한다는 점에서 구체적이고, 풍부한 맥락을 전달하는 특징이 있다.
감정은 어떤 상태인가?
감정은 기쁨, 슬픔 등과 같은 인간이 느끼는 심리적 상태로 감정 어휘는 자신의 심리를 투영시킨다는 점에서 구체적이며, 풍부한 맥락을 전달한다. 감정은 추론, 의사 결정 및 상호 작용과 같은 합리적인 작업을 포함해 전반적으로 인간의 행동에 영향을 미치는 중요한 요소이다.
어휘적 중의성 어휘들의 특징은?
어휘적 중의성이란 동음이의어, 다의어와 같이 단어를 2개 이상의 의미로 해석할 수 있는 경우를 의미하며, 감정을 나타내는 어휘에서도 어휘적 중의성을 띄는 경우가 다수 존재한다. 이러한 어휘들은 인간의 심리를 투영한다는 점에서 구체적이고, 풍부한 맥락을 전달하는 특징이 있다. 본 연구에서는 양방향 LSTM을 적용하여 중의성을 해소한 감정 분류 모델을 제안한다.
참고문헌 (24)
김해룡, 안광호, 마케팅을 결정하는 소비 감정의 힘: 감정을 팔아라, 서울:원앤원북스, 2019.
도재학, "국어 문장의 중의성에 대하여: 언표 및 발화 문장에 따른 유형 분류를 중심으로", 아시아문화연구, 제46권, pp.39-72, 2018.
M. Munezero, "Are they different? Affect feeling emotion sentiment and opinion detection in text," IEEE Trans, Affective Comput. Vol.5, No.2, pp.101-111, 2014.
M, Lesk, "Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone," Proceedings of the 1986 SIGDOC Conference, pp.24-26, 1986.
Lee, "Supervised Word Sense Disambiguation with Support Vector Machines and Multiple Knowledge Sources," Proceedings of Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp.137-140, 2004.
A. Le, "High WSD Accuracy Using Naive Bayesian Classifier with Rich Features," PACLIC 18, Vol.18, pp.105-14, 2004.
A. Yepes, "Word embeddings and recurrent neural networks based on Long-Short Term Memory nodes in supervised biomedical word sense disambiguation," Journal of biomedical informatics, Vol.73, pp.137-147, 2017.
D. Yarowsky, "UNSUPERVISED WORD SENSE DISAMBIGUATION RIVALING SUPERVISED METHODS," In ACL 95, pp.189-196, 1995.
C. Niu, "Context Clustering for Word Sense Disambiguation Based on Modeling Pairwise Context Similarities," In: SENSEVAL- 3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp.187-190, 2004.
A. Graves, A., and Schmidhuber, J. (2005). "Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures," Neural Networks, Vol.18 No.5-6, pp.602-610, 2005.
V. Makarenkov, "Choosing the right word: Using bidirectional LSTM tagger for writing support systems," Engineering Applications of Artificial Intelligence, Vol.84, pp.1-10, 2019.
A. Pesaranghader, "One Single Deep Bidirectional LSTM Network for Word Sense Disambiguation of Text Data," Springer Advances in Artificial Intelligence: 31st Canadian Conference on Artificial Intelligence Canada, pp.96-107, 2018.
J. Min, "A Study on Word Sense Disambiguation Using Bidirectional Recurrent Neural Network for Korean Language," Journal of the Korea Society of Computer and Information, Vol.22, No.4, pp.41-49, 2017.
C, Zhang, "Biomedical word sense disambiguation with bidirectional long short-term memory and attention-based neural networks," BMC Bioinformatics, Vol.20, No.502, 2019.
Z, Li, "Context Embedding Based on Bi-LSTM in Semi-Supervised Biomedical Word Sense Disambiguation," IEEE Access, Vol.7, pp.72928-72935, 2019.
P. Jeffrey, "Glove: Global vectors for word representation," Proceedings of the Empiricial Methods in Natural Language Processing, 2014.
S. Mike, "Bidirectional recurrent neural networks," Signal Processing, IEEE Transactions on, Vol.45, No.11, pp.2673-2681, 1997.
V. Nair, "Rectified Linear Units Improve Restricted Boltzmann Machines," In Proceedings of the 27th International Conference on Machine Learning, pp.807-814, 2010.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.