k-평균 군집화(k-means clustering)

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

k-평균 군집화(k-means clustering)

·         k-평균 클러스터링

·         사전에 결정된 군집 K 기초하여 전체 데이터를 상대적으로 유사한 K개의 군집으로 구분하는 방법입니다.

·         상호배반적인 K개의 군집을 형성합니다.

·         군집의 K 사전에 결정해야 합니다.

 

·         모집단 또는 범주에 대한 사전 정보가 없을 주어진 관측값들 사이의 거리를 측정하고 유사성을 이용하여 분석합니다.

·         전체 데이터를 여러 개의 집단으로 룹화함으로써 집단의 성격을 파악할 있고 데이터 전체의 구조를 이해하기 위한 방법입니다.

·         새로운 데이터와 기존 데이터 간의 유클리디안 거리가 최소가 되도록 클러스터링합니다. 기존 데이터를 기준점으로 하여 유클리디안 거리 측정 거리가 최소화되도록 k개의 군집들로 클러스터링하는 방식입니다.

·         데이터들을 k개의 클러스터로 군집하게 됩니다. 클러스터와 거리 차이의 분산을 최소화하도록 그룹화합니다.

·         클러스터의 중심값에서 중심과의 거리를 비교합니다.

·         클러스터 간의 거리 차이의 분산을 최소화합니다.

K-means 알고리즘은 데이터 집합에서 평균을 정의하고 계산할 있으면 사용할 있습니다.

 

 

 

https://en.wikipedia.org/wiki/K-means_clustering