$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

메모리 기반 추론 기법에 기반한 점진적 다분할평균 알고리즘
An Incremental Multi Partition Averaging Algorithm Based on Memory Based Reasoning 원문보기

전기전자학회논문지 = Journal of IKEEE, v.12 no.1, 2008년, pp.65 - 74  

이형일 (김포대학 인터넷정보과)

초록
AI-Helper 아이콘AI-Helper

패턴 분류에 많이 사용되는 기법 중의 하나인 메모리 기반 추론 알고리즘은 단순히 메모리에 저장하고 분류 시에 저장된 패턴과 테스트 패턴간의 거리를 계산하여 가장 가까운 학습패턴의 클래스로 분류하는 기법이기 때문에 패턴의 개수가 늘어나면 메모리가 증가하고 또한 추가로 패턴이 발생할 경우 처음부터 다시 수행해야하는 문제점을 가지고 있다. 이러한 문제점을 해결하기 위하여 이미 학습한 대표패턴을 기억하고 새로 들어오는 패턴에 대해서만 학습하는 점진적 학습 방법을 제안한다. 즉 추가로 학습패턴이 발생할 경우 매번 전체 학습 패턴을 다시 학습하는 것이 아니라, 새로 추가된 데이터만을 학습하여 대표패턴을 추출하여 메모리사용을 줄이는 iMPA(incremental Multi Partition Averaging)기법을 제안하였다. 본 논문에서 제안한 기법은 대표적인 메모리기반 추론 기법인 k-NN 기법과 비교하여 현저하게 줄어든 대표패턴으로 유사한 분류 성능을 보여주며, 점진적 특성을 지닌 NGE 이론을 구현한 EACH 시스템과 점진적인 실험에서도 탁월한 분류 성능을 보여준다.

Abstract AI-Helper 아이콘AI-Helper

One of the popular methods used for pattern classification is the MBR (Memory-Based Reasoning) algorithm. Since it simply computes distances between a test pattern and training patterns or hyperplanes stored in memory, and then assigns the class of the nearest training pattern, it is notorious for m...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 기존의 메모리 기반 추론 기법이 외부 파라미터의 최적화와 전체 학습패턴을 저장 등의 문제로 인해 점진적 특징을 만족시키지 못하며, 신경회로망이나 결정트리기법과 같은 기법도 본 논문에서 실현한 점진적 학습기능은 없는 실정이다. 그러나 본 논문의 iMPA 기법에서는 외부파라미터를 전혀 사용하지 않으며, 전체 학습패턴 중 각 초월평면의 대표패턴만을 추출하고, 그에 대한 통계자료만을 이용한 점진적 학습을 가능케 한다. 그리고, EACH 시스템의 시간 복턴간의 거리 계산으로 O(n2)이며, iMPA의 시간 복잡도 계산은 분할점 선택이 가장 큰 영향을 주며, 경계값과 패턴과의 단순비교 회수인 O(n2)이다.
  • 이때 EACH 시스템의 경우는 메모리에 저장된 분할영역의 수 × 2를 저장된 학습패턴의 수로 사용하였는데, 이는 EACH시스템에서 메모리에 저장되는 분할영역이 평면의 범위를 나타내는 상, 하한의 두 개의 패턴으로 표시되기 때문이다. 또한 iMPA는 생성된 대표패턴의 개수로 측정하였다.
  • 본 논문에서는 학습패턴을 단순히 메모리에 저장하지 않고 다분할 평균을 이용하여 대표패턴을 생성하여 메모리에 저장한 후 분류시 저장된 대표패턴을 이용하여 테스트 패턴을 분류하며 실시간으로 발생하는 자료를 처리할 수 있는 점진적 다분할평균 기법을 제안하고 구현하였다. 점진적 다분할 평균기법은 추가로 학습패턴이 발생할 경우 매번 전체 학습 패턴을 이용하여 처음부터 학습을 다시 수행하는 것이 아니라, 새로 추가된 데이터만을 학습하여 사용할 수 있는 점진적 학습 기능을 가진 알고리즘이다.
  • 분류 성능 실험에서는 표 3과 같이 학습패턴의 개수를 10%씩 증가시켜 가면서 테스트패턴의 분류성능을 EACH 시스템과 iMPA에 대해 검사하였다. iris 데이터를 예로 들면, 처음에는 전체 학습패턴 135 개중 10%인 13개를 학습한 후 테스트패턴 15개로 분류성능을 측정하고, 그 후에는 학습패턴 개수를 10%씩 증가시켜 가면서 점진적 학습을 수행하였다.

대상 데이터

  • Breast-Cancer 데이터 셋은 Wisconsin 대학병원의 William H. Wolberg 박사가 정리한 유방암 진단 자료이며[13], Glass 데이터 셋은 범죄 수사 연구에 사용하기 위해서 유리를 분석한 자료이다. Ionosphere 데이터 셋은 Goose Bay에서 수집된 레이더 데이터이며, Iris 데이터 셋은 패턴인식 분야에서 가장 많이 사용되는 꿏잎과 꽃받침의 길이와 너비 수치를 기반으로 식물의 종류를 판별하는 데이터 셋이다.
  • Wolberg 박사가 정리한 유방암 진단 자료이며[13], Glass 데이터 셋은 범죄 수사 연구에 사용하기 위해서 유리를 분석한 자료이다. Ionosphere 데이터 셋은 Goose Bay에서 수집된 레이더 데이터이며, Iris 데이터 셋은 패턴인식 분야에서 가장 많이 사용되는 꿏잎과 꽃받침의 길이와 너비 수치를 기반으로 식물의 종류를 판별하는 데이터 셋이다. New-Thyroid 데이터 셋은 갑상선 진단 자료이며, Wine 데이터 셋은 이탈리아의 동일 지역에서 세 가지 다른 품종으로 재배된 와인의 화학적 분석 결과이다.
  • 본 논문에서는 기계 학습의 벤치마크 자료로 많이 사용되는 UCI Machine learning Database Repository에서 6개의 데이터 셋을 발췌하여 사용하였다[14]. 이들 데이터는 모든 특징이 실수 값을 갖는다.
  • 분류기의 성능 및 점진적 학습 능력 검증은 UCI Machine Learning Repository에서 벤치마크 데이터를 발췌한 실험 자료를 사용하였다. 제안한 기법은 대표적인 메모리기반 추론 기법인 k-NN 기법과 비교하여 현저하게 줄어든 대표패턴으로 유사한 분류 성능을 보여주며, 점진적 특성을 지닌 NGE 이론을 구현한 EACH 시스템과 점진적인 실험에서도 탁월한 분류 성능을 보여준다.

데이터처리

  • 본 논문에서 제안한 iMPA 기법의 성능을 Stratified 10-fold Cross-validation 기법을 사용하여 k-NN, EACH, iMPA 등의 알고리즘에 대해 비교 검증하였다.

이론/모형

  • 본 논문에서 제안하는 점진적 다분할평균 (iMPA, incremental Multi Partition Averaging) 기법의 학습은 그림 1과 같은 모델을 갖는다. 이 기법은 전체 학습패턴 공간을 패턴의 분포를 고려하여 가변 크기의 여러 개의 영역으로 반복해서 분할하면서 대표패턴(Representative Pattern)을 생성하는 기법으로, 새로운 학습패턴이 추가적으로 발생되어 학습해야 할 때 기존에 학습했던 모든 학습패턴에 대해 다시 학습하지 않고 추가된 학습패턴만 학습하여 생성된 대표패턴을 기존 대표패턴에 추가된다.
  • 표 6은 그림 10에 대한 표준편차이다. 이때 k-NN 기법은 Leave-one-out Cross-validation 기법으로 계산한 최적의 k값을 사용하였으며[9], 가중치 변화량 0.2를 초기값으로 설정하여 실험하였다. 다음 표 7은 각 데이터 셋에서 사용된 k-NN 기법의 k값과 k값을 계산하기 위하여 사용된 시간을 나타낸다.
  • 이 기법은 전체 학습패턴 공간을 패턴의 분포를 고려하여 가변 크기의 여러 개의 영역으로 반복해서 분할하면서 대표패턴(Representative Pattern)을 생성하는 기법으로, 새로운 학습패턴이 추가적으로 발생되어 학습해야 할 때 기존에 학습했던 모든 학습패턴에 대해 다시 학습하지 않고 추가된 학습패턴만 학습하여 생성된 대표패턴을 기존 대표패턴에 추가된다. 이때 대표패턴은 패턴 평균(Pattern Averaging)법을 이용하여 계산한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
메모리 기반 학습이란? 메모리 기반 학습은 단순히 모든 학습패턴을 메모리에 저장하고 분류 시에 메모리에 저장된 학습패턴들과의 거리를 계산하여 가장 가까운 거리에 있는 학습패턴의 클래스로 테스트 패턴을 분류하는 기법으로 거리기반 학습(Distance Based Learning) 이라고도 한다[1][2]. 메모리 기반 학습 중에서 가장 널리 알려진 기법은 k-NN(k-Nearest Neighbors) 분류기를 들 수 있으며, 이 분류기는 메모리에 저장된 패턴 중 주어진 입력패턴과 가장 가까운 거리에 있는 k개의 학습패턴을 선택하여 그 중 가장 많은 패턴이 소속된 클래스로 입력패턴을 분류한다[2][3][4].
메모리 기반 학습에서 가장 널리 알려진 기법은 무엇인가? 메모리 기반 학습은 단순히 모든 학습패턴을 메모리에 저장하고 분류 시에 메모리에 저장된 학습패턴들과의 거리를 계산하여 가장 가까운 거리에 있는 학습패턴의 클래스로 테스트 패턴을 분류하는 기법으로 거리기반 학습(Distance Based Learning) 이라고도 한다[1][2]. 메모리 기반 학습 중에서 가장 널리 알려진 기법은 k-NN(k-Nearest Neighbors) 분류기를 들 수 있으며, 이 분류기는 메모리에 저장된 패턴 중 주어진 입력패턴과 가장 가까운 거리에 있는 k개의 학습패턴을 선택하여 그 중 가장 많은 패턴이 소속된 클래스로 입력패턴을 분류한다[2][3][4]. 이러한 k-NN 분류기는 그 성능면에서 만족할 만한 결과를 보이고 있으며, 이미 다양한 분야에 응용되고 있다.
k-NN 분류기는 어떠한 문제점을 가지는가? 이러한 k-NN 분류기는 그 성능면에서 만족할 만한 결과를 보이고 있으며, 이미 다양한 분야에 응용되고 있다. 하지만 이 기법은 패턴의 개수가 늘어나면 메모리가 증가하고 또한 추가로 패턴이 발생할 경우 처음부터 다시 수행해야하는 문제점을 가지고 있다[4]. 메모리 사용 등의 성능을 향상과 점진적 특성을 지닌 다양한 연구들이 발표되었으며, 그 대표적인 예로 NGE(Nested Generalized Exemplar) 이론을 들 수 있다[5][6][7].
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

관련 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로