PCA: ANÁLISIS DE COMPONENTES PRINCIPALES
#SLICEofDATA Tu porción diaria de Data Analytics en solo 15 minutos
El Análisis de Componentes Principales (PCA) es una técnica estadística de síntesis de la información, o reducción de la dimensión (número de variables).
Es decir, ante un banco de datos con muchas variables, el objetivo será reducirlas a un menor número perdiendo la menor cantidad de información posible.
El análisis de componentes principales se utiliza muy frecuentemente como un primer acercamiento en una serie de análisis. Puede utilizar el análisis de componentes principales para reducir el número de variables y evitar la multicolinealidad, o cuando tenga demasiados predictores en relación con el número de observaciones.
1. COMPROBAR SI ES NECESARIO
Se puede justificar la factorización o agrupación en componentes principales si la correlación entre las variables analizadas es lo suficientemente grande.
· Test de Bartlett: La prueba de Bartlett se utiliza para probar la hipótesis nula, H0 que todas las varianzas de una población k son iguales, frente a la hipótesis alternativa de que al menos dos son diferentes.
H0: la matriz de coeficientes de correlación es igual que la matriz identidad.
Resultado: p_value <= nivel significación | p_value > nivel significación
· Índice de KMO (Kaiser-Meyer-Olkin): Compara los valores de las correlaciones entre las variables y sus correlaciones parciales. Utilizaremos la correlación parcial para medir la relación entre dos variables eliminando el efecto del resto.
Resultado: KMO << 1 | KMO = 1
2. OBTENCIÓN DE VALORES Y VECTORES PROPIOS
De la matriz de covarianzas muestral o de la matriz de coeficientes de correlación que se obtienen a partir de la matriz de datos.
· Matriz de Correlación o Covarianza?
A diferencia del coeficiente de correlación, la covarianza no es estandarizada. Por lo tanto, los valores de covarianza pueden encontrarse entre infinito negativo e infinito positivo y puede ser difícil interpretarlos. Para interpretar más fácilmente la relación lineal entre cada par de elementos o variables, utilice la matriz de correlación.
3. DECIDIR CUANTOS COMPONENTES PRINCIPALES UTILIZAREMOS
Determinar las influencias que tienen más sentido para sus datos. Esta decisión es en parte arbitraria, suele basarse en la proporción de la varianza explicada por los factores, el conocimiento del tema y lo razonable de la solución.
· Grafica Sedimentación (Scree plot): El gráfico de sedimentación se obtiene al representar en ordenadas las raíces características y en abscisas los números de las componentes principales correspondientes a cada raíz característica en orden decreciente.
· Método Kaiser: Factores con autovalor superior a 1
· Análisis de la Comunalidad : Expresa la proporción de varianza de la variable extraída o explicada con m factores. Si el número de factores es igual al número de variables la comunalidad será igual a 1.
• Análisis descriptivos: ≈ 80% varianza.
• Otros análisis: >= 90% varianza.
4. EVALUAR CON MÚLTIPLES ROTACIONES
Conviene interpretar los factores utilizando nuestro conocimiento de los datos.
Johnson y Wichern sugieren la rotación varimax.
· Rotación Ortogonal: Al rotar los ejes nos ofrece una perspectiva diferente. El objetivo es obtener un patrón de cargas de factores más simple de interpretar que el original.
Ejemplo rotación Varimax:
Ref: http://www.uoc.edu/in3/emath/docs/Componentes_principales.pdf
NIST/SEMATECH e-Handbook of Statistical Methods. Available online
Interpretar todos los estadísticos y gráficas para Análisis de elementos - Minitab
Analisis de componentes Christian Francisco Sanchez Pantigoso “18/11/2019”
Johnson, R.A. and Wichern, D.W. 1998. Applied multivariate statistical analysis. 5th edition. Practice Hall. Texas.