[논문]적은 양의 데이터에 적용 가능한 계층별 데이터 증강 알고리즘

조희찬; 문종섭

doi:10.7472/jksii.2019.20.6.65

초록
AI-Helper

데이터 증강(Data Augmentation)은 적은 양의 데이터를 바탕으로 다양한 알고리즘을 통해 데이터의 양을 늘리는 기술이다. 현실문제를 해결하기 위해 기계학습 및 딥러닝 기법을 사용하는 경우, 데이터 셋이 부족한 경우가 많다. 데이터의 부족은 모델 학습 시, 데이터 셋의 특징을 잘 반영하지 못하는 것 이외에도 과소적합 및 과적합에 빠질 위험이 크다. 따라서 본 논문에서는 오토인코더와 고유값 분해를 기반으로 하는 데이터 증강 기법을 통해 데이터를 증강 시키고 이를 심층 신경망의 각 층 마다 적용하여, 심층 신경망을 효과적으로 사전 학습하는 방법을 제시한다. 이후, WOBC 데이터와 WDBC 데이터에 대해 실험을 통하여 논문에서 제안하는 방법이 분류 정확도를 향상시키는지 측정하고 기존 연구들과 비교함으로써 제안한 방법이 실질적으로 의미가 있는 데이터를 생성하고 모델의 학습에 효과적임을 보인다.

Abstract ▼ AI-Helper

Data augmentation is a method that increases the amount of data through various algorithms based on a small amount of sample data. When machine learning and deep learning techniques are used to solve real-world problems, there is often a lack of data sets. The lack of data is at greater risk of unde...

Data augmentation is a method that increases the amount of data through various algorithms based on a small amount of sample data. When machine learning and deep learning techniques are used to solve real-world problems, there is often a lack of data sets. The lack of data is at greater risk of underfitting and overfitting, in addition to the poor reflection of the characteristics of the set of data when learning a model. Thus, in this paper, through the layer-wise data augmenting method at each layer of deep neural network, the proposed method produces augmented data that is substantially meaningful and shows that the method presented by the paper through experimentation is effective in the learning of the model by measuring whether the method presented by the paper improves classification accuracy.

주제어

표/그림 (10)

그림 (그림 1) 고유값 분해를 이용한 고유 벡터 및 고유값 계산 (Figure 1) Calculate eigen vector and eigen value using eigen decomposition
그림 (그림 2) 제안된 데이터 증강 기법을 적용한 모델 구조 (Figure 2) The structure of model using proposed augmenting method
그림 (그림 3) 오토인코더 모듈 (Figure 3) An autoencoder module
표 (표 1) 고유값 분해를 이용한 데이터 증강 알고리즘 (Table 1) Data augmentation algorithm using eigen decomposition
표 (표 2) 증강된 데이터 기반 계층별 사전학습 알고리즘 (Table 2) Layer-wise pre-training algorithm using augmented data
표 (표 3) 실험 환경 (Table 3) Experimental environment
표 (표 4) WDBC 데이터 모델 파라미터 (Table 4) parameter for WDBC data set
표 (표 5) WOBC 데이터 모델 파라미터 (Table 5) parameter for WOBC data set
표 (표 6) WDBC 데이터 셋 성능 비교 (Table 6) Performance comparison for WDBC data
표 (표 7) WOBC 데이터 셋 성능 비교 (Table 7) Performance comparison for WOBC data

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

계층별 데이터 증강 알고리즘은 데이터의 차원이 적당한 데이터에 대해서는 연산 시간이 합리적이고 좋은 성능을 보이지만, 이미지와 같이 데이터의 차원이 복잡한 데이터에는 증강 연산 시간이 많이 소요된다는 단점이 있다. 따라서 향후 연구로는 데이터의 계층별 증강 단계에서 연산량을 줄여나갈 수 최적의 알고리즘을 찾아내고자한다.
본 논문에서는 충분하지 않은 데이터 셋으로 인한 심층신경망의 학습의 어려움을 해결하기 위해 신경망의 모든 계층에 대해 데이터 증강을 수행하는 계층별 데이터 증강 기법을 제안하였다.
본 논문에서는 학습 성능을 향상시키기 위해 심층 신경망 계층 별 데이터 증강 개념을 도입한 새로운 데이터 증강 기법을 제안한다. 이 기법은 심층 신경망의 계층마다 데이터 증강을 수행하는데, 이때 각 계층은 해당 계층의 입력 데이터에 대하여, 고유값(eigen value)을 이용한 샘플링 알고리즘을 적용하여 입력 데이터에 대한 데이터 증강을 수행하고 파라미터의 사전 학습을 위해 적층 오토인코더(Stacked Autoencoder)를 사용한다.

제안 방법

WDBC 데이터 셋과 WOBC 데이터 셋을 대상으로 기존 논문들에서 각각의 분류방법으로 의사결정트리(TREE), 로지스틱회귀분석(LOGISTIC), 판별분석(LDA), 적용한 정확도와 본 논문에서 구현한 인공신경망 모델에 제안한 방법을 적용하지 않았을 때의(NN) 정확도와 적용했을 때의(Augmented NN) 정확도를 비교한다. 표 6과 표7에서 볼 수 있듯이, 제안한 방법을 적용한 인공 신경망이 다른 모델보다 성능이 좋은 것을 확인 할 수 있다.
논문에서는 p차원 입력 데이터 x에 대하여 주성분 분석을 수행한 후, 이를 이용하여 샘플링 된 데이터 x′을 생성한다.
2장은 관련연구로서 모델에서 사용될 오토인코더와 고유값 분해, 데이터 증강기법의 대표적인 방법들을 설명하고, 3장에서는 제안하는 딥러닝 모델의 전체적인 구조를 설명한다. 또한 데이터 증강 알고리즘 및 제안하는 계층별 데이터 증강 기법을 정형적으로 기술한다. 4장에서는 제안 기법의 성능을 평가하기 위한 실험을 보인다.
본 논문에서 제안하는 계층별 데이터 증강 기법의 측정하기 위해서, 실험에 사용된 데이터 셋을 활용한 기존논문, 제안한 방법을 적용하지 않았을 때의 심층 신경망, 그리고 제안한 방법을 적용했을 때의 심층 신경망 모델의 정확도를 비교한다.
제안된 기법은 첫 번째 은닉 계층을 데이터 증강 알고리즘을 통해 증강시킨 데이터를 입력으로 그림 3과 같은 오토인코더 모듈을 통해 비지도 학습하고 이 과정을 전체적층 오토인코더의 각 은닉 계층에 대해서 순차적으로 적용하여 모든 신경망의 파라미터를 사전 학습하는 형태로 구성된다.
제안된 방법을 사용하여 파라미터의 사전 학습이 모두 완료된 심층신경망을 대상으로 미세조정을 실행하는데, 이때 파라미터를 학습하기 위한 정답 값은 원핫인코딩이 적용된 라벨 값을 사용하였고, 결과 예측을 위한 활성화 함수로는 시그모이드 함수[16]를 사용하였다.

대상 데이터

WDBC 데이터 셋은 569명을 대상으로 조사되었고 악성과 양성을 나타내는 클래스 변수 1개 및 30개의 독립변수로 구성된다. 30개의 독립 변수는 세포 특성을 나타내는 10개의 변수들에 대해 평균값 표준편차 그리고 최대값을 나타내는 3개의 변수로 구성되어있다.
WOBC 데이터 셋은 699명을 대상으로 조사되었고 세침흡인 세포검사의 세포 특성을 나타내는 9개의 변수와 이를 악성인지 정상인지 나타내는 클래스 변수로 구성되어 있다.
본 논문에서 사용된 데이터 셋은 UCI Machine Learning Repository[17] Wisconsin Diagnostic Breast Cancer(WDBC) 데이터 셋과 Wisconsin Original Breast Cancer(WOBC) 데이터 셋으로서 패턴인 식 및 기계학습에 널리 사용되는 자료이다.

데이터처리

전체신경망에 대하여 미세조정을 통해 학습을 완료한다. 이때 파라미터를 학습하기 위해 정답 값으로 라벨 값에 원핫인코딩을 적용한 값을 사용하였고, 시그모이드 함수를 활성화 함수로 이용하여 데이터의 결과를 평가하였다.

이론/모형

제안된 기법은 첫 번째 은닉 계층을 데이터 증강 알고리즘을 통해 증강시킨 데이터를 입력으로 그림 3과 같은 오토인코더 모듈을 통해 비지도 학습하고 이 과정을 전체적층 오토인코더의 각 은닉 계층에 대해서 순차적으로 적용하여 모든 신경망의 파라미터를 사전 학습하는 형태로 구성된다. 사전 학습을 마친 후에는 미세조정(fine -tuning)을 수행하며, 결과 예측을 위한 활성화 함수로는 시그모이드 함수를 사용하였다.
본 논문에서는 학습 성능을 향상시키기 위해 심층 신경망 계층 별 데이터 증강 개념을 도입한 새로운 데이터 증강 기법을 제안한다. 이 기법은 심층 신경망의 계층마다 데이터 증강을 수행하는데, 이때 각 계층은 해당 계층의 입력 데이터에 대하여, 고유값(eigen value)을 이용한 샘플링 알고리즘을 적용하여 입력 데이터에 대한 데이터 증강을 수행하고 파라미터의 사전 학습을 위해 적층 오토인코더(Stacked Autoencoder)를 사용한다.

성능/효과

WDBC 데이터 셋과 WOBC 데이터 셋을 대상으로 본 논문에서 제안한 계층별 데이터 증강 모델의 성능을 실험한 결과 검증 데이터 셋과 테스트 데이터 셋에 대하여 기존의 다른 모델보다 높은 분류 성능을 발휘함을 확인하였다.
계층별 데이터 증강은 기존의 입력 계층에 국한된 증강 기법이 아닌 계층 단위의 증강을 통해 학습 능력 향상을 위한 매 계층에 대한 입력 데이터를 생성한다. 또한, 고유값 분해를 기반으로 하는 증강 알고리즘을 사용하여 기존 데이터의 특징을 반영하는 샘플링 데이터를 생성함은 물론, 이미지나 통계데이터 등 데이터 종류에 상관없이 적용하여 증강이 가능하다.
표 6과 표7에서 볼 수 있듯이, 제안한 방법을 적용한 인공 신경망이 다른 모델보다 성능이 좋은 것을 확인 할 수 있다. 이는 제안한 방법을 통해 계층별로 원본 입력 데이터의 특징을 포함하고 있는 증강된 데이터를 입력으로 심층신경망을 비지도 학습시켜 파라미터 초기값을 사전 학습시키고 이를 기반으로 미세조정을 진행하였기 때문에 높은 정확도를 나타낸다.
WDBC 데이터 셋과 WOBC 데이터 셋을 대상으로 기존 논문들에서 각각의 분류방법으로 의사결정트리(TREE), 로지스틱회귀분석(LOGISTIC), 판별분석(LDA), 적용한 정확도와 본 논문에서 구현한 인공신경망 모델에 제안한 방법을 적용하지 않았을 때의(NN) 정확도와 적용했을 때의(Augmented NN) 정확도를 비교한다. 표 6과 표7에서 볼 수 있듯이, 제안한 방법을 적용한 인공 신경망이 다른 모델보다 성능이 좋은 것을 확인 할 수 있다. 이는 제안한 방법을 통해 계층별로 원본 입력 데이터의 특징을 포함하고 있는 증강된 데이터를 입력으로 심층신경망을 비지도 학습시켜 파라미터 초기값을 사전 학습시키고 이를 기반으로 미세조정을 진행하였기 때문에 높은 정확도를 나타낸다.

질의응답

핵심어	질문	논문에서 추출한 답변
	데이터 셋의 충분한 확보가 어려운 경우 어떤 현상이 발생하는가?	하지만 일반적으로 문제 해결을 위해 딥러닝 기법을 사용하기에는 데이터 셋의 충분한 확보가 어려운 경우가 많다. 이렇게 제한된 훈련 데이터 셋으로 학습을 진행하는 경우, 학습이 제대로 이루어지지 않아 학습데이터에 대한 성능도 좋지 않고 학습되지 않은 데이터 셋에 대한 분류 성능이 떨어지는 과소적합(underfitting) 현상과, 학습은 성공적으로 되어 학습데이터에 대한 성능은 우수함에도 불구하고 학습된 모델의 학습되지 않은 데이터 셋에 대한 분류 성능이 떨어지는 과적합(overfitting) 현상이 발생한다[2]. 위와 같은 문제들을 해결하기 위해 제한된 볼츠만 머신(Restricted Boltzmann Machine: RBM)을 통해 심층 신경망 각 계층을 효과적으로 사전 학습(pre-training)하는 방법[3]과 신경망 전체를 다 학습시키는 것이 아닌 일부 노드를 무작위로 학습시키는 드롭아웃(Dropout)[4] 등 많은 방법들이 제안되었는데, 그중 한 가지는 데이터 증강(Data Augmentation)이다.
	데이터 증강은 무엇인가?	데이터 증강(Data Augmentation)은 적은 양의 데이터를 바탕으로 다양한 알고리즘을 통해 데이터의 양을 늘리는 기술이다. 현실문제를 해결하기 위해 기계학습 및 딥러닝 기법을 사용하는 경우, 데이터 셋이 부족한 경우가 많다.
	오토인코더와 고유값 분해를 기반으로 하는 데이터 증강 기법을 통해 무엇을 바라는가?	데이터의 부족은 모델 학습 시, 데이터 셋의 특징을 잘 반영하지 못하는 것 이외에도 과소적합 및 과적합에 빠질 위험이 크다. 따라서 본 논문에서는 오토인코더와 고유값 분해를 기반으로 하는 데이터 증강 기법을 통해 데이터를 증강 시키고 이를 심층 신경망의 각 층 마다 적용하여, 심층 신경망을 효과적으로 사전 학습하는 방법을 제시한다. 이후, WOBC 데이터와 WDBC 데이터에 대해 실험을 통하여 논문에서 제안하는 방법이 분류 정확도를 향상시키는지 측정하고 기존 연구들과 비교함으로써 제안한 방법이 실질적으로 의미가 있는 데이터를 생성하고 모델의 학습에 효과적임을 보인다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

적은 양의 데이터에 적용 가능한 계층별 데이터 증강 알고리즘
A layered-wise data augmenting algorithm for small sampling data 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (10)

표/그림 (10)

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

적은 양의 데이터에 적용 가능한 계층별 데이터 증강 알고리즘 A layered-wise data augmenting algorithm for small sampling data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (10) 모든 표/그림 보기

표/그림 (10) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

문종섭 (61)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

적은 양의 데이터에 적용 가능한 계층별 데이터 증강 알고리즘
A layered-wise data augmenting algorithm for small sampling data 원문보기

초록
AI-Helper

표/그림 (10)

표/그림 (10)

AI 본문요약
AI-Helper