최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.6 no.10, 2017년, pp.487 - 492
Clustering is a technique which is used to measure similarities between data in big data analysis and data mining field. Among various clustering methods, k-Modes algorithm is representatively used for categorical data. To increase the performance of iterative-centric tasks such as k-Modes, a distri...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
k-Means는 무엇인가? | k-Means는 양적인 속성값을 갖는 데이터를 대상으로 데이터 객체 간 거리를 유클리드 거리1)로 정의하고 클러스터의 평균을 계산하고 비유사도 함수의 값이 최소화되는 방향으로 클러스터를 구성하는 방식이다. 그러나 k-Means는 양적인 속성값 즉 연속적 데이터에만 적용이 가능한 한계가 있다. | |
하둡의 단점은 무엇인가? | 그러나 하둡은 처리과정에서 중간에 발생하는 데이터에 대한 읽기와 저장이 메모리와 디스크를 동시에 사용하기 때문에 디스크 I/O가 많이 발생하고 중간 데이터가 다른 노드로 복제되면서 네트워크 I/O 또한 크게 발생하는 문제가 있다. 따라서 분석 대상 데이터의 인메모리 처리를 기본으로 하여 보다 빠르고 지연 속도가 낮은 분석이 가능한 스파크[6]가 새로운 플랫폼이 대안으로 대두되었다. | |
스파크 어떤 객체 개념을 도입했는가? | 최근 빅데이터를 처리하기 위한 범용적 분산 고성능 클러스터링 플랫폼 주목 받고 있는 스파크는 하둡의 맵리듀스 작업에서 성능의 병목현상으로 지목되던 디스크 I/O 비용을 최소화하고 데이터 분석 작업에 용이한 인메모리 컴퓨팅 기반의 범용적 데이터 분산처리 시스템이다. 또한, RDD라는 데이터 집합의 추상화 객체 개념을 도입하여 대용량 데이터에 대한 다양한 연산 작업이 가능하도록 한 것이 특징이다. RDD는 실제 물리적인 디스크에 저장된 데이터가 아닌 데이터 집합을 추상화하여 하나의 객체로 표현한다. |
Z. Huang, "A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining," In Research Issues on Data Mining and Knowledge Discovery, pp.281-297, 1997.
Y. Sun, Q. Zhu, and Z. Chen, "An Iterative initial points refinement algorithm for categorical data clustering," Pattern Recognition Letters, Vol.23, pp.875-884, 2002.
P. S. Bradley and U. M. Fayyad, "Refining Initial Points for K-Means Clustering," Proceedings of the 15th International Conference on Machine Learning (ICML98), San Francisco, Morgan Kaufmann, 1998.
S. S. Khan, "A. Ahmad, Cluster center initialization algorithm for Kmeans clustering," Pattern Recognition Letters, Vol.25, No.11, pp.1293-1302, 2004.
S. S. Khan and S. Kant, "Computation of Initial Modes for K-modes Clustering Algorithm using Evidence Accumulation," IJCAI-07, pp.2784-2789, 2007.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.