CODEDRAGON ㆍDevelopment/Big Data, R, ...
k-평균 군집화(k-means clustering)
· ≒ k-평균 클러스터링
· 사전에 결정된 군집 수 K에 기초하여 전체 데이터를 상대적으로 유사한 K개의 군집으로 구분하는 방법입니다.
· 상호배반적인 K개의 군집을 형성합니다.
· 군집의 수 K를 사전에 결정해야 합니다.
· 모집단 또는 범주에 대한 사전 정보가 없을 때 주어진 관측값들 사이의 거리를 측정하고 유사성을 이용하여 분석합니다.
· 전체 데이터를 여러 개의 집단으로 그룹화함으로써 각 집단의 성격을 파악할 수 있고 데이터 전체의 구조를 이해하기 위한 방법입니다.
· 새로운 데이터와 기존 데이터 간의 유클리디안 거리가 최소가 되도록 클러스터링합니다. 기존 데이터를 기준점으로 하여 유클리디안 거리 측정 거리가 최소화되도록 k개의 군집들로 클러스터링하는 방식입니다.
· 데이터들을 k개의 클러스터로 군집하게 됩니다. 각 클러스터와 거리 차이의 분산을 최소화하도록 그룹화합니다.
· 각 클러스터의 중심값에서 중심과의 거리를 비교합니다.
· 각 클러스터 간의 거리 차이의 분산을 최소화합니다.
K-means 알고리즘은 데이터 집합에서 평균을 정의하고 계산할 수 있으면 사용할 수 있습니다.
https://en.wikipedia.org/wiki/K-means_clustering
'Development > Big Data, R, ...' 카테고리의 다른 글
R Code, 분석 알고리즘, pdf (0) | 2015.03.28 |
---|---|
Error-.onLoad가 loadNamespace()에서 'rJava'때문에 실패했습니다(rJava 로드 실패) - RStudio Error (2) | 2015.03.08 |
R 다운로드 (0) | 2015.03.03 |
R - 빅데이터 분석환경, 통계계산 및 그래픽을 위한 프로그래밍 언어 (0) | 2015.03.01 |
R 응용분야 (0) | 2014.12.25 |