$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

적대적 생성 모델을 활용한 사용자 행위 이상 탐지 방법
Anomaly Detection for User Action with Generative Adversarial Networks 원문보기

지능정보연구 = Journal of intelligence and information systems, v.25 no.3, 2019년, pp.43 - 62  

최남웅 (연세대학교 산업공학과) ,  김우주 (연세대학교 산업공학과)

초록
AI-Helper 아이콘AI-Helper

한때, 이상 탐지 분야는 특정 데이터로부터 도출한 기초 통계량을 기반으로 이상 유무를 판단하는 방법이 지배적이었다. 이와 같은 방법론이 가능했던 이유는 과거엔 데이터의 차원이 단순하여 고전적 통계 방법이 효과적으로 작용할 수 있었기 때문이다. 하지만 빅데이터 시대에 접어들며 데이터의 속성이 복잡하게 변화함에 따라 더는 기존의 방식으로 산업 전반에 발생하는 데이터를 정확하게 분석, 예측하기 어렵게 되었다. 따라서 기계 학습 방법을 접목한 SVM, Decision Tree와 같은 모형을 활용하게 되었다. 하지만 지도 학습 기반의 모형은 훈련 데이터의 이상과 정상의 클래스 수가 비슷할 때만 테스트 과정에서 정확한 예측을 할 수 있다는 특수성이 있고 산업에서 생성되는 데이터는 대부분 정답 클래스가 불균형하기에 지도 학습 모형을 적용할 경우, 항상 예측되는 결과의 타당성이 부족하다는 문제점이 있다. 이러한 단점을 극복하고자 현재는 클래스 분포에 영향을 받지 않는 비지도 학습 기반의 모델을 바탕으로 이상 탐지 모형을 구성하여 실제 산업에 적용하기 위해 시행착오를 거치고 있다. 본 연구는 이러한 추세에 발맞춰 적대적 생성 신경망을 활용하여 이상 탐지하는 방법을 제안하고자 한다. 시퀀스 데이터를 학습시키기 위해 적대적 생성 신경망의 구조를 LSTM으로 구성하고 생성자의 LSTM은 2개의 층으로 각각 32차원과 64차원의 은닉유닛으로 구성, 판별자의 LSTM은 64차원의 은닉유닛으로 구성된 1개의 층을 사용하였다. 기존 시퀀스 데이터의 이상 탐지 논문에서는 이상 점수를 도출하는 과정에서 판별자가 실제데이터일 확률의 엔트로피 값을 사용하지만 본 논문에서는 자질 매칭 기법을 활용한 함수로 변경하여 이상 점수를 도출하였다. 또한, 잠재 변수를 최적화하는 과정을 LSTM으로 구성하여 모델 성능을 향상시킬 수 있었다. 변형된 형태의 적대적 생성 모델오토인코더의 비해 모든 실험의 경우에서 정밀도가 우세하였고 정확도 측면에서는 대략 7% 정도 높음을 확인할 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

At one time, the anomaly detection sector dominated the method of determining whether there was an abnormality based on the statistics derived from specific data. This methodology was possible because the dimension of the data was simple in the past, so the classical statistical method could work ef...

주제어

표/그림 (20)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • , 2017), 시퀀스 데이터를 활용하는 연구는 미비한 실정이다. 그러므로 이미지나 영상 분야에 특화된 적대적 생성 신경망을 본 연구의 분석 도메인인 시퀀스 데이터에 사용하기 위해 구조적인 변경을 모색하고, 비슷한 종류의 비지도 학습 모델 오토인코더와 성능을 비교, 분석하여 적대적 생성 모델의 강점과 특징을 본 논문을 통해 조명하고자 한다.
  • 하지만 기존에 연구에서 최적화 구조에 따른 성능의 변화 실험에 대해서는 어떠한 고찰도 찾아볼 수 없었다. 따라서 본 논문에서는 최적화 구조 변화에 의한 성능 차이를 비교하기 위해, 기존 연구들의 방식과 새롭게 제안한 방식 두 경우로 분리하여 최적화를 진행해 보았다. 먼저 기존의 방식으로 최적화를 진행할 때의 전체 구조는 다음의 [Figure 8]과 같다.
  • 먼저 입력 받는 잠재 변수의 차원을 어떻게 설정했는지 알아보자. 생성자는 잠재 변수를 우리가 알지 못하는 방식으로 시퀀스 속성과 매핑(Mapping)하기 때문에 사용자가 임의로 차원을 설정할 수 있다.
  • 이제 상황2에 대해 오토인코더와 적대적 생성 신경망의 비교 실험을 살펴보도록 하자. 상황2의 실험은 단일 행위로만 이상을 구분하는 것이 아닌 드문 패턴까지 함께 고려하여 이상을 구분할 때, 각 모델의 성능을 확인하는 실험이다.
  • 기본적인 적대적 생성 신경망은 학습하고 위조데이터를 생성하는 과정에서 다양한 문제점이 존재한다. 첫번째로 목적 함수 형태를 주목해보자. 컴퓨터는 minmax와 maxmin의 순서를 고려하지 않기 때문에 생성자의 입장에서 실제데이터의 다양성을 반영하지 않고 전체 목적 함수의 값을 낮추는 단일한 위조데이터를 생성할 수 있다.

가설 설정

  • 즉, 드문 행위를 포함하면 비정상. 상황2) 상황1의 경우와 더불어 상위 95%를 차지하는 빈발 행위로 구성된 조합(길이 2)이 드문 패턴일 경우 비정상이라 가정.
  • 상황2에서 드문 패턴은 전체데이터의 개수에서 5% 이내의(여기서는 4,401개) 빈도를 가정하였고 (1402, 502), (502,1402)는 전체 데이터에서 각각 928개와 991개의 발생 빈도를 가지고 있어 드문 패턴이라고 정의하였다. 따라서 기존 단일 행위 기준의 정답에서 위 두 패턴을 포함하는 시퀀스를 추가적으로 이상이라고 변경하여 훈련데이터에서 제외시킨 뒤, 모델을 학습하였다.
  • 4에 나타나있다. 자질 매칭 기법을 사용하였을 때, 패턴의 정보가 유의했다면 기존 Li et al(2018)에서 제안한 이상 점수를 도출하는 방식보다 향상된 성능을 도출했을 것이다. 따라서 소수의 행위가 데이터의 대부분을 차지하는 경우, 드문 패턴 정보를 반영하는 이상을 검출할 때에는 민감도 측면에서 오토인코더를 활용하는 것이 좋고 드문 행위 정보만을 가정하여 이상을 검출할 때는 적대적 생성 신경망이 사용되어야 한다.
  • 다음으로 정상의 데이터만을 기반으로 모델을 훈련시키는 기존 방식과 달리 훈련데이터에 “비정상”이라고 가정한 시퀀스가 섞여있을 때, 두 모델의 성능에 얼마나 영향을 받는지 확인하는 강건성(Robustness) 실험을 진행하였다. 적대적 생성 신경망은 분포를 학습하기 때문에 데이터를 직접 인코딩하는 오토인코더에 비해 이상데이터의 영향을 덜 받는다는 것을 가정하고 실험을 통해 이를 증명해 보았다. [Table 5]는 최적의 분기점에서의 강건성 실험 결과를 보여주고 [Figure 12]는 테스트 데이터 상에서 분기점 별 성능 추이를 나타낸다.
  • 크게 두가지의 상황을 기반으로 성능을 측정하였다: 상황1) 상위 95%가 아닌 type이 시퀀스에 포함될 경우 비정상이라 가정. 즉, 드문 행위를 포함하면 비정상.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
오토인코더는 무엇인가? 오토인코더(Autoencoder)는 수학에서의 항등함수와 비슷한 특성을 가진 비지도 학습 기반의 신경망 모델을 말한다. 즉, 모델의 출력 값을 입력 값의 근사치로 만들며 전체 구조는 [Figure 1]과 같다.
지도 학습 기반의 모형이 갖는 문제점은 무엇인가? 따라서 기계 학습 방법을 접목한 SVM, Decision Tree와 같은 모형을 활용하게 되었다. 하지만 지도 학습 기반의 모형은 훈련 데이터의 이상과 정상의 클래스 수가 비슷할 때만 테스트 과정에서 정확한 예측을 할 수 있다는 특수성이 있고 산업에서 생성되는 데이터는 대부분 정답 클래스가 불균형하기에 지도 학습 모형을 적용할 경우, 항상 예측되는 결과의 타당성이 부족하다는 문제점이 있다. 이러한 단점을 극복하고자 현재는 클래스 분포에 영향을 받지 않는 비지도 학습 기반의 모델을 바탕으로 이상 탐지 모형을 구성하여 실제 산업에 적용하기 위해 시행착오를 거치고 있다.
지도 학습 기반의 이상 탐지 모델이 현실에 적용하기에 적절하지 않은 이유는 무엇인가? , 2005). 하지만 “이상”이라고 정의되는 데이터는 실제 산업에서 잘 발생하지 않는 사건이기 때문에 이상 탐지 분야의 분석 대상 데이터는 항상 클래스 불균형 문제를 동반하고 있다. 클래스가 불균형한 데이터를 지도 학습 기반의 분류 모델에 학습시킨다면 일률적인 예측 값을 도출하게 되며 이는 정답의 타당성을 결여하는 요인이 된다. 따라서 지도 학습 기반의 이상 탐지 모델은 현실에서 적용하기에 적절하지 않다.
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로