[논문]기계학습 알고리즘의 컴퓨팅시간 단축을 위한 새로운 통계적 샘플링 기법

전성해

doi:10.5391/jkiis.2011.21.2.171

문제 정의

객관적인 선정기준이 마련되지 못했기 때문에 분석결과의 성능은 분석가의 경험과 지식에 의존하게 된다. 따라서 본 논문에서는 기존의 주관적 샘플링 전략들과는 다른 객관적인 샘플링 기법을 적용하여 기존의 연구결과에 비해 좀 더 객관적인 방법을 사용하려고 노력하였다. 따라서 본 연구는 기계학습 알고리즘의 컴퓨팅시간 단축을 위하여 객관적인 통계적 샘플링방법을 제안하였다.
따라서 본 논문에서는 기존의 주관적 샘플링 전략들과는 다른 객관적인 샘플링 기법을 적용하여 기존의 연구결과에 비해 좀 더 객관적인 방법을 사용하려고 노력하였다. 따라서 본 연구는 기계학습 알고리즘의 컴퓨팅시간 단축을 위하여 객관적인 통계적 샘플링방법을 제안하였다. 제안된 내용의 성능평가를 위하여 UCI Machine Learning Repository로부터의 객관적인 데이터를 이용하여 전체데이터와 샘플데이터 간의 정확도와 컴퓨팅시간을 비교하였다[16].
기존의 통계적 샘플링 기법들은 주로 여론조사, 마케팅을 위한 시장조사 등 사회과학의 설문조사(survey)에 맞추어 있기 때문에 기계학습 데이터에 그대로 적용하는데는 어려움이 있다. 본 논문에서는 기계학습 데이터분석에 알맞은 새로운 통계적 샘플링방법을 제안하고 이를 이용한 기계학습 컴퓨팅시간 단축을 위한 방안에 대하여 연구한다. 단순임의추출을 비롯한 군집추출, 층화추출, 계통추출 등의 통계적 샘플링기법들을 이용하여 주어진 데이터에 알맞은 샘플링방법을 개발하여 컴퓨팅시간의 단축을 시도한다.
물론 중앙처리장치(CPU)와 같은 컴퓨터 하드웨어의 발전이 이루어지고 있지만 저장되는 데이터용량을 따라 잡기는 어렵다. 본 논문에서는 기계학습 알고리즘의 컴퓨팅 시간 단축문제의 해결을 위하여 전체데이터의 일부분을 추출하여 분석하는 통계적 샘플링(statistical sampling) 방법을 제안한다. 단순임의추출(simple random sampling)과 같이 기존의 통계적 샘플링 기법을 그대로 적용하여 기계학습의 컴퓨팅시간을 줄이는 연구는 그동안 꾸준히 이루어져 왔다[7],[8],[9],[10],[11].
단순임의추출을 비롯한 군집추출, 층화추출, 계통추출 등의 통계적 샘플링기법들을 이용하여 주어진 데이터에 알맞은 샘플링방법을 개발하여 컴퓨팅시간의 단축을 시도한다. 본 논문에서는 수집된 전체데이터를 모집단으로 설정하고 이것을 가장 잘 대표할 수 있는 샘플을 추출할 수 있는 객관적인 방법을 제안한다. 다음 그림은 본 연구에 대한 전체적인 개념을 간략하게 나타내고 있다.
위 그림에서 모집단인 학습데이터는 단순임의추출, 층화 추출, 계통추출, 그리고 군집추출의 4가지 통계적 샘플링 기법들을 변형한 새로운 통계적 샘플링방법이 적용된다. 본 논문에서는 의사결정나무모형(decision tree)과 SVM(support vector machine)과 같은 분류모형, 다중선형 회귀모형(multiple linear regression)과 로지스틱 회귀모형 (logistic regression)으로 대표되는 회귀모형, 그리고 자기조직화지도(self organizing map, SOM)와 K-평균(means) 군집화와 같은 군집화 모형 등 대부분의 기계학습 알고리즘에 적용할 수 있는 객관적인 샘플링방법을 제안한다. 본 연구에서 기계학습 알고리즘은 샘플로 이루어진 축소된 학습 데이터를 이용하여 컴퓨팅시간이 감소된 최적의 모형을 구축하게 된다.
하지만 학습데이터의 크기가 작게 되면 구축된 모형의 정확도도 함께 떨어지게 된다. 본 논문에서는 이와 같은 문제를 해결하기 위하여 전체데이터를 분석하지 않아도 전체를 분석할 때와 비슷한 모형성능을 유지할 수 있는 새로운 통계적 샘플링방법을 제안한다. 주어진 데이터의 구조에 따라 최선의 통계적 샘플링기법을 선택할 수 있는 기준을 제시한다.
본 논문에서는 전체 데이터를 이용한 학습모형과 비슷한 정확도를 유지하면서 동시에 컴퓨팅시간을 줄일 수 있는 축소된 학습데이터를 생성하는 통게적 샘플링방법을 제안하였다. 전체데이터의 구조를 단계별로 확인하면서 가장 적절한 통계적 샘플링기법을 객관적으로 결정할 수 있게 하였다.
단순임의추출, 층화추출(stratified sampling), 계통추출(systematic sampling), 그리고 군집추출(cluster sampling)은 대표적인 확률추출의 샘플링 기법들이다. 본 논문에서는 확률분포에 의한 추정량의 성능을 평가할 수 있다고 이론적으로 증명되어 있는 객관적인 확률추출을 고려한다. 즉, 확률추출에서는개개의 샘플에 대응되는 추정값을 계산할 수 있기 때문에 추정값들의 확률분포(probability distribution)를 사용할 수 있고, 이를 통하여 추정량의 표준오차(standard error)를 계산할 수도 있다.
본 논문에서는 이와 같은 문제를 해결하기 위하여 전체데이터를 분석하지 않아도 전체를 분석할 때와 비슷한 모형성능을 유지할 수 있는 새로운 통계적 샘플링방법을 제안한다. 주어진 데이터의 구조에 따라 최선의 통계적 샘플링기법을 선택할 수 있는 기준을 제시한다. 군집, 층화, 계통추출에 의한 통계적 샘플링기법을 사용하여 정확도를 최대한 유지하면서 컴퓨팅시간을 단축할 수 있는 방법을 보인다.

제안 방법

각 샘플수준(20%-50%)에서 10번의 반복실험을 수행하였다. S.
구축된 모형을 적용하여 6,277개의 테스트데이터에 대한 정확도를 조사한 결과를 나타내고 있다. 계통추출에 의한 기계학습모형을 위한 컴퓨팅시간 단축을 위하여 본 실험에서는 샘플링시간(sampling time), 신경망모형구축 시간(modeling time), 그리고 샘플데이터로부터 구축된 모형을 적용하여 테스트데이터로부터 구한 정확도를 비교하였다. 샘플데이터로부터의 샘플링시간과 모형구축시간을 더한 값과 전체데이터의 컴퓨팅시간의 차이를 비교하였다.
본 논문에서는 기계학습 데이터분석에 알맞은 새로운 통계적 샘플링방법을 제안하고 이를 이용한 기계학습 컴퓨팅시간 단축을 위한 방안에 대하여 연구한다. 단순임의추출을 비롯한 군집추출, 층화추출, 계통추출 등의 통계적 샘플링기법들을 이용하여 주어진 데이터에 알맞은 샘플링방법을 개발하여 컴퓨팅시간의 단축을 시도한다. 본 논문에서는 수집된 전체데이터를 모집단으로 설정하고 이것을 가장 잘 대표할 수 있는 샘플을 추출할 수 있는 객관적인 방법을 제안한다.
입력변수로는 5개의 연속형변수들(age, fnlwgt, education-num, capital-gain, capital-loss, hours-per-week)을 이용하였고, 1개의 출력변수는 2개(<=50K, >50K)의 클래스를 가지고 있다. 본 실험에서 사용된 신경망모형은 다층퍼셉트론(multi-layer perceptron)이고 하나의 은닉층(hidden layer)을 가지며 은닉층의 노드(node)수는 10으로 하였다. 초기 가중치(initial weight)는 1로 하였고 최대 반복수(maximum number of iterations)는 100으로 하였다.
본 논문에서는 의사결정나무모형(decision tree)과 SVM(support vector machine)과 같은 분류모형, 다중선형 회귀모형(multiple linear regression)과 로지스틱 회귀모형 (logistic regression)으로 대표되는 회귀모형, 그리고 자기조직화지도(self organizing map, SOM)와 K-평균(means) 군집화와 같은 군집화 모형 등 대부분의 기계학습 알고리즘에 적용할 수 있는 객관적인 샘플링방법을 제안한다. 본 연구에서 기계학습 알고리즘은 샘플로 이루어진 축소된 학습 데이터를 이용하여 컴퓨팅시간이 감소된 최적의 모형을 구축하게 된다. 제안된 샘플링방법에 의한 샘플데이터를 학습한 모형은 전체데이터를 사용할 때에 근접한 정확도를 유지하면서 컴퓨팅시간의 단축을 이룰 수 있게 한다.
계통추출에 의한 기계학습모형을 위한 컴퓨팅시간 단축을 위하여 본 실험에서는 샘플링시간(sampling time), 신경망모형구축 시간(modeling time), 그리고 샘플데이터로부터 구축된 모형을 적용하여 테스트데이터로부터 구한 정확도를 비교하였다. 샘플데이터로부터의 샘플링시간과 모형구축시간을 더한 값과 전체데이터의 컴퓨팅시간의 차이를 비교하였다. 다음 4개의 표들은 20%, 30%, 40%, 그리고 50%의 계통추출에 의한 결과들이다.
전체데이터를 서로 겹치지 않는 층(stratum)들로 나눈 후에 각 층별로 단순임의추출을 수행하는 통계적 샘플링기법을 적용하여 기계학습 컴퓨팅시간의 단축을 얻은 연구결과들도 발표되었다[12],[13],[14],[15]. 이와 같은 기존의 연구결과는 데이터의 형태에 따라 적합한 샘플링 기법을 주관적으로 결정하여 사용하였다. 객관적인 선정기준이 마련되지 못했기 때문에 분석결과의 성능은 분석가의 경험과 지식에 의존하게 된다.
입력변수로는 5개의 연속형변수들(age, fnlwgt, education-num, capital-gain, capital-loss, hours-per-week)을 이용하였고, 1개의 출력변수는 2개(50K)의 클래스를 가지고 있다.
이 데이터는 모두 ‘native-country' 변수의 레이블이 El-Salvador, France, Italy, Mexico, Nicaragua, Peru, Scotland, Taiwan, Trinadad&Tobago, Vietnam에 해당되는 개체들이다. 전체 데이터와 군집추출된 샘플데이터에 대하여 신경망을 이용하여 분류모형을 구축하였다. 입력변수로는 5개의 연속형변수들(age, fnlwgt, education-num, capital-gain, capital-loss, hours-per-week)을 이용하였고, 1개의 출력변수는 2개(<=50K, >50K)의 클래스를 가지고 있다.
본 연구에서 기계학습 알고리즘은 샘플로 이루어진 축소된 학습 데이터를 이용하여 컴퓨팅시간이 감소된 최적의 모형을 구축하게 된다. 제안된 샘플링방법에 의한 샘플데이터를 학습한 모형은 전체데이터를 사용할 때에 근접한 정확도를 유지하면서 컴퓨팅시간의 단축을 이룰 수 있게 한다. 다음 그림은 본 논문에서 제안하는 통계적 샘플링 선택방법이다.
하지만 학습시간이 요구되는 기계학습 기법들은 일괄처리(batch) 방식인 통계적 분석기법에 비해 더 많은 컴퓨팅시간을 요구한다[1],[21]. 현재까지 기계학습 알고리즘의 컴퓨팅시간 단축을 위한 여러 시도들이 있고, 본 연구에서는 모형구축을 위하여 사용되는 데이터의 크기를 줄이는 접근을 시도한다. 본 연구에서 고려하는 시도는 통계적 샘플링이다.

대상 데이터

이 데이터는 10개의 연속형 입력변수들과 2개의 범주를 갖는 1개의 출력변수로 이루어져 있다. 19,020 개로 이루어진 전체데이터 중에서 2/3는 학습데이터로 그리고 1/3은 테스트데이터로 사용하였다[2]. 실험을 위하여 20%, 30%, 40%, 그리고 50%의 계통 추출 샘플을 이용하였다.
기계학습 컴퓨팅시간 단축을 위하여 본 논문에서 제안하는 통계적 샘플링방법의 성능평가 실험을 위하여 UCI machine learning repository로부터 객관적인 기계학습 데이터를 이용하였다[16]. 실험에서 사용될 기계학습 알고리즘으로 본 연구에서는 대표적인 기계학습 모형인 신경망(neural networks)에 본 연구의 제안방법을 적용하였다[2].
층화추출에 의한 기계학습 알고리즘의 컴퓨팅시간 단축은 기존의 연구들에서 이미 확인되었다[18],[19]. 마지막으로 계통추출에 의한 신경망모형의 계산시간 단축을 위한 실험을 위하여 UCI machine learning repository로부터의 Magic Gamma Telescope Data Set을 이용하였다[16]. 이 데이터는 10개의 연속형 입력변수들과 2개의 범주를 갖는 1개의 출력변수로 이루어져 있다.
전체 32,561개의 각 개체는 이 블록변수에 의해 전체 블록레이블 중 하나에 소속되어 있다. 본 실험에서는 41개의 블록 레이블들 중에서 10개의 레이블을 군집추출하였다. 아래의 표는 Census Income 데이터의 블록구조에 대한 전체와 추출된 레이블의 결과를 나타낸다.
현재까지 기계학습 알고리즘의 컴퓨팅시간 단축을 위한 여러 시도들이 있고, 본 연구에서는 모형구축을 위하여 사용되는 데이터의 크기를 줄이는 접근을 시도한다. 본 연구에서 고려하는 시도는 통계적 샘플링이다. 기존의 통계적 샘플링 기법들은 주로 여론조사, 마케팅을 위한 시장조사 등 사회과학의 설문조사(survey)에 맞추어 있기 때문에 기계학습 데이터에 그대로 적용하는데는 어려움이 있다.
19,020 개로 이루어진 전체데이터 중에서 2/3는 학습데이터로 그리고 1/3은 테스트데이터로 사용하였다[2]. 실험을 위하여 20%, 30%, 40%, 그리고 50%의 계통 추출 샘플을 이용하였다. 다음 표는 실험에 사용된 학습, 샘플, 그리고 테스트 데이터의 크기를 나타낸다.
위 표는 12,743개의 데이터를 이용하여 앞의 Census Income Data Set를 이용한 실험과 동일한 신경망모형을 구축하였다. 구축된 모형을 적용하여 6,277개의 테스트데이터에 대한 정확도를 조사한 결과를 나타내고 있다.
이 데이터는 모두 ‘native-country' 변수의 레이블이 El-Salvador, France, Italy, Mexico, Nicaragua, Peru, Scotland, Taiwan, Trinadad&Tobago, Vietnam에 해당되는 개체들이다.
군집추출, 층화추출, 계통추출, 그리고 단순임의추출을 위하여 R에서 제공하는 'sampling' 패키지를 이용하였고[26], 신경망모형을 위하여 역시 R의 ‘nnet' 패키지를 이용하였다[27]. 첫 번째 데이터는 Census Income Data Set이다[16]. 14개의 입력변수와 1개의 출력변수를 포함하고 있다.

데이터처리

따라서 본 연구는 기계학습 알고리즘의 컴퓨팅시간 단축을 위하여 객관적인 통계적 샘플링방법을 제안하였다. 제안된 내용의 성능평가를 위하여 UCI Machine Learning Repository로부터의 객관적인 데이터를 이용하여 전체데이터와 샘플데이터 간의 정확도와 컴퓨팅시간을 비교하였다[16].
군집, 층화, 계통추출에 의한 통계적 샘플링기법을 사용하여 정확도를 최대한 유지하면서 컴퓨팅시간을 단축할 수 있는 방법을 보인다. 제안방법의 성능을 평가하기 위하여 객관적인 기계학습 데이터를 이용하여 전체데이터와 샘플데이터 간의 정확도와 컴퓨팅시간을 비교하였다.

이론/모형

실험에서 사용될 기계학습 알고리즘으로 본 연구에서는 대표적인 기계학습 모형인 신경망(neural networks)에 본 연구의 제안방법을 적용하였다[2]. 본 실험에서 사용된 통계적 샘플링방법과 기계학습 모형구축 및 컴퓨팅시간 계산을 위한 분석도구로는 통계계산(statistical computing) 분야에서 주로 사용되는 R 언어를 이용하였다[25]. 군집추출, 층화추출, 계통추출, 그리고 단순임의추출을 위하여 R에서 제공하는 'sampling' 패키지를 이용하였고[26], 신경망모형을 위하여 역시 R의 ‘nnet' 패키지를 이용하였다[27].
기계학습 컴퓨팅시간 단축을 위하여 본 논문에서 제안하는 통계적 샘플링방법의 성능평가 실험을 위하여 UCI machine learning repository로부터 객관적인 기계학습 데이터를 이용하였다[16]. 실험에서 사용될 기계학습 알고리즘으로 본 연구에서는 대표적인 기계학습 모형인 신경망(neural networks)에 본 연구의 제안방법을 적용하였다[2]. 본 실험에서 사용된 통계적 샘플링방법과 기계학습 모형구축 및 컴퓨팅시간 계산을 위한 분석도구로는 통계계산(statistical computing) 분야에서 주로 사용되는 R 언어를 이용하였다[25].

성능/효과

지금까지 기계학습 알고리즘에서 고려되어진 붓 스트랩(bootstrap), 깁스 샘플러(Gibbs sampler) 등 대부분의 모의실험(simulation) 도구들에서도 단순임의추출이 기본적으로 사용되었다[24]. 결론적으로 본 연구에서 기계학습 컴퓨팅시간 단축을 위하여 제안하는 통계적 샘플링방법은 주어진 데이터의 구조를 파악하여 우선적으로 군집추출을 사용하고 이 추출방법의 적용이 어려울 경우에 다음으로 고려될 수 있는 샘플링방법은 층화추출, 계통추출의 순서로 이루어진다. 층화추출과 계통추출도 이 추출방법들이 적용될 수 있는 조건들을 잘 살펴야 한다.
29초가 합쳐진 시간이다. 따라서 주어진 데이터가 블록구조를 이루고 있을 경우에 우선적으로 군집추출에 의한 통계적 샘플링을 수행하고, 이렇게 얻어진 샘플데이터를 이용한 모형 구측을 할 경우에 전체데이터를 이용했을 경우와 비교하여 정확도인 모형의 성능은 큰 차이를 보이지 않으면서 계산시간은 단축할 수 있음을 확인할 수 있었다. 층화추출에 의한 기계학습 알고리즘의 컴퓨팅시간 단축은 기존의 연구들에서 이미 확인되었다[18],[19].
군집추출에서는 이와 반대로 같은 군집 내의 개체들은 가능한 이질적이고, 군집들 간은 상대적으로 덜 이질적이어야 효과적인 샘플링 결과를 기대할 수 있다[23]. 따라서 층화추출과 군집추출의 차이를 잘 이해하고 있어야 본 논문에서 제안하는 객관적인 샘플링방법을 실제 기계학습 분석데이터에 효과적으로 적용할 수 있게 된다. 또한 전체데이터를 L개의 층으로 나누는 층화작업을 한 후에 각각의 층을 대상으로 한 군집추출을 수행할 수도 있다.
는 각각 정확도의 평균, 최소, 최대, 그리고 표준편차를 나타낸다. 모든 샘플수준에서 작은 표준편차값이 계산됨으로서 제안 방법의 안정성도 확인할 수 있었다. 계통추출의 샘플크기는 허용할 수 있는 정확도 수준과 컴퓨팅시간을 고려하여 분석가에 의해 결정될 수 있다.
위의 결과를 통하여 군집추출을 적용하여 전체데이터의 3.4% 만으로 이루어진 샘플데이터와의 정확도 차이는 각각 76.58%과 76.38%로 거의 차이를 보이지 않고 있음을 알 수 있다. 하지만 계산시간은 각각 5.
본 논문에서는 전체 데이터를 이용한 학습모형과 비슷한 정확도를 유지하면서 동시에 컴퓨팅시간을 줄일 수 있는 축소된 학습데이터를 생성하는 통게적 샘플링방법을 제안하였다. 전체데이터의 구조를 단계별로 확인하면서 가장 적절한 통계적 샘플링기법을 객관적으로 결정할 수 있게 하였다. 처음 주어진 데이터에 블록구조가 있으면 군집추출을 수행하고 군집추출이 어려울 경우에는 다음으로 층화변수가 있는지 확인한다.
전체데이터의 컴퓨팅시간이 18.86초인데 비해 샘플데이터의 컴퓨팅시간은 20% 계통추출에서는 평균 컴퓨팅시간이 1.996초로 훨씬 단축되었으며, 50% 계통추출에서도 9.361초로 많이 단축된 결과를 얻었다. 정확도는 계통추출의 샘플크기가 커짐에 따라 전체데이터의 정확도에 근접하고 있음을 알 수 있다.

후속연구

군집추출과 층화추출이 되지 않을 경우에는 데이터의 주기성을 확인하여 주기성이 발견되지 않으면 샘플수준을 결정하면서 계통추출을 수행한다. 군집추출, 층화추출, 그리고 계통추출이 모두 어려운 경우에는 마지막으로 일반적으로 기계학습에서 사용되는 단순임의추출을 적용하면 될 것이다. 그러므로 데이터의 수집과 사전처리 단계부터 본 논문에서 제안하는 데이터의 블록구조, 층화변수, 주기성 등을 고려한다면 다양한 기계학습 작업에서 컴퓨팅시간 단축을 위한 통계적 샘플링방법을 기대할 수 있을 것이다.
군집추출, 층화추출, 그리고 계통추출이 모두 어려운 경우에는 마지막으로 일반적으로 기계학습에서 사용되는 단순임의추출을 적용하면 될 것이다. 그러므로 데이터의 수집과 사전처리 단계부터 본 논문에서 제안하는 데이터의 블록구조, 층화변수, 주기성 등을 고려한다면 다양한 기계학습 작업에서 컴퓨팅시간 단축을 위한 통계적 샘플링방법을 기대할 수 있을 것이다. 좀 더 발전된 샘플링 전략으로 층화, 군집, 계통추출 등 기존의 통계적 샘플링기법을 결합한 하이브리드 샘플링기법에 대한 연구도 고려한다.
선행연구들[18],[19]과 본 논문의 실험결과에 의하면 군집추출에 의한 실험결과에서 가장 좋은 성과를 얻었으며 다음으로 층화추출, 계통추출의 순이었다. 따라서 본 논문에서 제안하는 방법에 의해 데이터의 블록구조를 확인하여 우선적으로 군집추출을 고려하고 이것이 만족되지 않을 경우 층화변수의 사용 가능성 여부에 의한 층화추출을 그리고 마지막 단계로 데이터의 주기성을 파악하여 계통추출을 적용할 수 있을 것이다. 물론 군집, 층화, 계통추출이 모두 어려울 경우에는 기존의 단순임의추출을 사용하면 된다.
그러므로 데이터의 수집과 사전처리 단계부터 본 논문에서 제안하는 데이터의 블록구조, 층화변수, 주기성 등을 고려한다면 다양한 기계학습 작업에서 컴퓨팅시간 단축을 위한 통계적 샘플링방법을 기대할 수 있을 것이다. 좀 더 발전된 샘플링 전략으로 층화, 군집, 계통추출 등 기존의 통계적 샘플링기법을 결합한 하이브리드 샘플링기법에 대한 연구도 고려한다. 이를 통해 작은 샘플데이터만으로도 전체데이터를 분석한 정확도에 매우 근접하는 결과를 기대할 수 있게 된다.

핵심어	질문	논문에서 추출한 답변
	샘플링 방법 중 비확률추출은 무엇인가?	샘플링은 크게 비확률추출(non-probability sampling)과 확률추출(probability sampling)의 2가지 방법으로 나뉜다. 비확률추출은 분석가의 주관적 기준에 의해 샘플을 선정하는 방법이다. 즉, 분석가의 지식과 경험을 통하여 모집단을 가장 잘 나타낸다고 판단되는 개체들을 주관적으로 선정하는 샘플링이다.
	컴퓨팅시간은 무엇에 비례하여 커지는가?	기계학습에서 모형의 정확도와 컴퓨팅시간은 중요하게 다루어지는 부분이다. 일반적으로 모형을 구축하는 데 사용되는 컴퓨팅시간은 분석에 사용되는 데이터의 크기에 비례하여 커진다. 따라서 컴퓨팅시간 단축을 위하여 분석에 사용되는 데이터의 크기를 줄이는 샘플링전략이 필요하다.
	기계학습은 어떤 방법론인가?	기계학습(machine learning)은 관측된 과거의 데이터로부터 학습을 통하여 예측모형을 구축하고, 이를 바탕으로 앞으로 발생되는 여러 문제들에 대하여 최적의 의사결정을 이끌어 내는 방법론이다[1],[2]. 사전에 데이터의 정규성(normality assumption) 가정이 필요한 통계적 분석기법에 비해 대부분의 기계학습 알고리즘은 데이터에 대한 사전가정이 필요하지 않은 유연성 때문에 최근에 전통적인 통계학 분야에서도 사용되고 있다[3],[4],[5],[6].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

기계학습 알고리즘의 컴퓨팅시간 단축을 위한 새로운 통계적 샘플링 기법
A New Statistical Sampling Method for Reducing Computing time of Machine Learning Algorithms 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (27)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

기계학습 알고리즘의 컴퓨팅시간 단축을 위한 새로운 통계적 샘플링 기법 A New Statistical Sampling Method for Reducing Computing time of Machine Learning Algorithms 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (27)

이 논문을 인용한 문헌

저자의 다른 논문 :

전성해 (35)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

기계학습 알고리즘의 컴퓨팅시간 단축을 위한 새로운 통계적 샘플링 기법
A New Statistical Sampling Method for Reducing Computing time of Machine Learning Algorithms 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper