REGRESIÓN LINEAL

#SLICEofDATA Tu porción diaria de Data Analytics en solo 15 minutos

May 24, 2022

Para que sirve una Regresión Lineal

Un análisis de regresión genera una ecuación para describir la relación estadística entre uno o más predictores y la variable de respuesta y para predecir nuevas observaciones.

Podemos predecir nuevas observaciones.

En que consiste una Regresión Lineal

La regresión lineal generalmente utiliza el método de estimación de mínimos cuadrados ordinarios, del cual se obtiene la ecuación al minimizar la suma de los residuos al cuadrado.

Formulación

La verdadera recta de regresión poblacional suele ser desconocida, pero teniendo acceso a un conjunto de observaciones, podemos calcular un modelo aproximado, teniendo en cuenta que distintos conjuntos de datos pueden tender a generar rectas de regresión ligeramente distintas. Por tanto, en la práctica, β0 y β1 son desconocidos, por lo que para poder obtener una predicción de la variable respuesta, tenemos que obtener una estimación de los mismos utilizando los datos de entrenamiento:

Para:

Las ecuaciones que minimizan el RSS son:

Interpretación

Los resultados de la regresión identifican la dirección, el tamaño y la significancia estadística de la relación entre un predictor y una respuesta.

El signo de cada coeficiente indica la dirección de la relación.
Los coeficientes representan el cambio medio en la respuesta para una unidad de cambio en el predictor mientras se mantienen constantes otros predictores incluidos en el modelo.
El valor p de cada coeficiente prueba la hipótesis nula de que el coeficiente es igual a cero (sin efecto). Por lo tanto, los valores p bajos indican que el predictor es una adición significativa al modelo.
La ecuación predice nuevas observaciones dados los valores predictores especificados.

Evaluación

R para profesionales de los datos: una introducción

El valor p de cada término evalúa la hipótesis nula de que el coeficiente es igual a cero (no hay efecto). Un valor p bajo (< 0,05) indica que se puede rechazar la hipótesis nula. En otras palabras, es probable que un predictor que tenga un valor p bajo sea una adición significativa al modelo porque los cambios en el valor del predictor se relacionan con cambios en la variable de respuesta.

Por el contrario, un valor p más grande (insignificante) sugiere que los cambios en el predictor no están asociados con cambios en la respuesta.

La definición de R-cuadrado es bastante sencilla: es el porcentaje de la variación en la variable de respuesta que es explicado por un modelo lineal. Es decir:

R-cuadrado = Variación explicada / variación total

El R-cuadrado siempre está entre 0 y 100%:

0% indica que el modelo no explica ninguna porción de la variabilidad de los datos de respuesta en torno a su media.
100% indica que el modelo explica toda la variabilidad de los datos de respuesta en torno a su media.

En general, cuanto mayor es el R-cuadrado, mejor se ajusta el modelo a los datos. Sin embargo, hay condiciones importantes con respecto a esta pauta de las que hablaré más adelante.

Regresión Lineal SIMPLE

La regresión lineal simple examina la relación lineal entre dos variables continuas: una respuesta (Y) y un predictor (X). Cuando las dos variables están relacionadas, es posible predecir un valor de respuesta a partir de un valor predictor con una exactitud mayor que la asociada únicamente a las probabilidades.

La regresión proporciona la línea que "mejor" se ajusta a los datos. Esta línea se puede utilizar después para:

Examinar cómo cambia la variable de respuesta a medida que cambia la variable predictora.
Predecir el valor de una variable de respuesta (Y) para cualquier variable predictora (X).

Regresión Lineal MÚLTIPLE

La regresión lineal múltiple examina las relaciones lineales entre una respuesta continua y dos o más predictores.

Si el número de predictores es grande, antes de ajustar un modelo de regresión con todos los predictores, se deberían utilizar las técnicas de selección de modelo paso a paso o de los mejores subconjuntos para excluir los predictores que no estén asociados con las respuestas.

Continuará con: Cuatro casos de uso

Ref: Linear regression (archive.org)

Tipos de análisis de regresión - Minitab

Fórmulas básicas en la regresión lineal simple (uca.edu.sv)

https://github.com/CristinaGil/Estadistica_machine_learning_R

Cómo Interpretar los Resultados del Análisis de Regresión: Valores P y Coeficientes (minitab.com)

Análisis de Regresión: ¿Cómo Puedo Interpretar el R-cuadrado y Evaluar la Bondad de Ajuste? (minitab.com)

SLICEofDATA