Qué es
Se trata, fundamentalmente, de resolver el siguiente problema: Dado un conjunto de individuos (de N elementos) caracterizados por la información de n variables Xj , (j = 1,2,..., n), nos planteamos el reto de ser capaces de clasificarlos de manera que los individuos pertenecientes a un grupo (cluster) (y siempre con respecto a la información disponible) sean tan similares entre sí como sea posible, siendo los distintos grupos entre ellos tan disimilares como sea posible.
Con el análisis cluster se pretende encontrar un conjunto de grupos a los que ir asignando los distintos individuos por algún criterio de homogeneidad. Por lo tanto, se hace imprescindible definir una medida de similitud o bien de divergencia para ir clasificando a los individuos en unos u otros grupos.
Para qué sirve
Clasificar grupos de consumidores respecto a sus preferencias en nuevos productos
Clasificar las entidades bancarias donde sería más rentable invertir
Clasificar las estrellas del cosmos en función de su luminosidad
Identificar si hay grupos de municipios en una determinada comunidad con una tendencia similar en el consumo de agua con el fin de identificar buenas prácticas para la sostenibilidad y zonas problemáticas por alto consumo.
Métodos Jerárquicos
En los métodos jerárquicos los individuos no se particionan en clusters de una sola vez, sino que se van haciendo particiones sucesivas a " distintos niveles de agregación o agrupamiento ".
Fundamentalmente, los métodos jerárquicos suelen subdividirse en métodos aglomerativos (ascendentes), que van sucesivamente fusionando grupos en cada paso; y métodos divisivos (descendentes), que van desglosando en grupos cada vez más pequeños el conjunto total de datos.
Métodos No Jerárquicos
Diseñados para clasificar individuos (no son válidos para variables) en una clasificación de K clusters, donde K se especifica a priori o bien se determina como una parte del proceso.
La idea central de la mayoría de estos procedimientos es elegir alguna partición inicial de individuos y después intercambiar los miembros de estos clusters para obtener una partición mejor.
Los diversos algoritmos existentes se diferencian sobre todo en lo que se entiende por una partición mejor y en los métodos que deben usarse para conseguir mejoras. Tales algoritmos empiezan con un punto inicial y generan una secuencia de movimientos de un punto a otro hasta que se encuentra un óptimo local de la función objetivo.
Algoritmos No Jerárquicos - K-Means
K-means es un algoritmo de clasificación no supervisada (clusterización) que agrupa objetos en k grupos basándose en sus características. El agrupamiento se realiza minimizando la suma de distancias entre cada objeto y el centroide de su grupo o cluster. Se suele usar la distancia cuadrática.
El algoritmo más común utiliza una técnica de refinamiento iterativo. Debido a su ubicuidad a menudo se llama el algoritmo k-medias, también se le conoce como algoritmo de Lloyd.
Dado un conjunto inicial de k centroides m1(1),…,mk(1) (ver más abajo), el algoritmo continúa alternando entre dos pasos.
Premisas teóricas K-Means
• Tamaño mínimo de la muestra: se recomiendan cinco observaciones para cada variable independiente, pero hay estudios que sugieren un ratio de 20 observaciones por cada variable independiente.
• Tamaño muestral de los grupos: no debe haber grandes diferencias entre los grupos.
• El análisis discriminante es una técnica robusta y aunque no se cumplan estas dos condiciones funciona bien, pero puede ser buena idea utilizar otra técnica si no se cumplen:
• Distribución Normal multivariante.
• Matrices de covarianza iguales.
Ref:
Práctica 8 | Estadística (ugr.es)
UGR.es, Capítulo 4 Métodos no Jerárquicos de Análisis Clúster.
UV.es, INTRODUCCIÓN AL ANÁLISIS CLUSTER
kmeans (unioviedo.es)
The Machine Learning Algorithms Used in Self-Driving Cars - KDnuggets