Todos los ejmplos de análisis que hemos visto hasta la fecha han sido sobre comparaciones de medias, es decir de cómo diferentes tratamientos estrictamente categóricos, afectan el valor más probable de ser observado. Categóricos pueden considerarse variables como:
Ninguna de estas variables, como tal, puede considerarse con un valor numérico, por lo que sus efectos sólo pueden ser estimados para los grupos experimentales. Las variables contínuas, a diferencia de las categóricas, sí pueden tener valores numéricos, de modo que es posible estimar valores numéricos para sus efecos. Ejemplos de variables contínuas son:
Como es de esperarse, las variables contínuas también pueden representarse como categóricas. Por ejemplo se puede comparar la velocidad de crecimiento de una especie de crutáceo a dos o tres temperaturas. Cuando el número de valores de temperatura es lo suficientemente grande, sin embargo, resulta más interesante estimar por ejemplo, cómo cambia la velocidad de crecimiento con el el cambio de temperatura, como en una ecuación lineal:
\[\begin{equation} \mathrm{Crecimiento} = \mathrm{Intercepto} + \mathrm{Tasa} \times \mathrm{Temperatura} \tag{1.1} \end{equation}\]
Donde no hay ningún tipo de restricción sobre el valor que \(\mathrm{Tasa}\) pueda tomar, es decir puede ir desde \(-\infty\) hasta \(+ \infty\). La regresión lineal, tiene como objetivo, justamente ese, estimar el valor de \(\mathrm{Tasa}\) para cualquier par de variables numéricas \(x\) y \(y\). De manera más general en estadística, la ecuación (1.1) puede ser representada como:
\[\begin{equation} y(x) = \beta_0 + \beta_1 x + \epsilon_i \tag{1.2} \end{equation}\]
Donde el término aditional \(\epsilon_i\) representa el error, o la diferencia entre la línea recta y las observaciones \(y_i\) (los residuales).
Al igual que en ANOVA, puede existir cualquier número de variables \(x\) de tal modo que \(y\) puede ser una función \(y(x_1, x_2, \dots, x_n)\), siempre y cuando existan grados de libertad suficientes de \(y\), y existan observaciones de \(x\) para cada todas y cada una de las \(y\).
La base de datos cars
de cualquier instalación de R es ya, un ejemplo clásico de una relación lineal entre dos variables aleatorias, la cual muestra con 50 observaciones la distancia recorrida por un auto hasta alcanzar una velocidad de 0 km/h mientras viaja a una velocidad establecida (figura 2.1).
Una regresión lineal que represente a la distancia de frenado como función de la velocidad, estimaría dos parámetros, \(\beta_0\) y \(\beta_1\) (ecuación (1.2)). \(\beta_0\) corresponde al intercepto, que es el valor de \(y\) cuando \(x=0\), y el segundo es \(\beta_1\), el cambio de unidades de \(y\) por unidad de cambio de \(x\), o la pendiente de la recta:
Para estimar estos parámetros en R, utilizamos la función lm
, poniendo atención a la variable dependiente (lado izquierdo, dist
) e independiente (lado derecho, speed
):
data(cars)
m1 <- lm(dist ~ speed, cars)
summary(m1)
##
## Call:
## lm(formula = dist ~ speed, data = cars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -29.069 -9.525 -2.272 9.215 43.201
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -17.5791 6.7584 -2.601 0.0123 *
## speed 3.9324 0.4155 9.464 1.49e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438
## F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12
El significado de los coeficientes en la columna Estimate
es el descrito arriba, sin embargo, estos adquieren implicaciones adicionales en estadística. Por ejemplo, podemos que que el intercepto tiene un valor de -17.59, lo cual es, en términos del fenómeno físico, falso, pues en este caso sólo es relevante para los datos analizados, en decir para velocidades de 5-25 km/h, con el (los) automóvil(es) utilizado(s) en esas mediciones. El parámetro \(\beta_1\) para speed, es un poco más generalizable, y quiere decir que en promedio, por cada km/h adicioanl de velocidad, necesitamos 3.93m más para frenar por completo el automóvil. Las estimaciones de significancia estadística indican qué tan probable es que \(\beta_{0, 1} = 0\), es decir, qué tan probable es que el efecto de \(x\) sobre \(y\) sea 0
Una medida muy importante en regresión lineal es \(R^2\), que indica qué tan cerca pasa la línea. dibujada por la ecuación, de los datos observados. Veamos por ejemplo, que en la figura 2.2, la línea de regresión pasa por en medio de la nube de puntos, y la mayoría de estos se encuentran a una distancia determinada de la línea. \(R^2\) es justamente una medida de la distancia promedio de los puntos a la línea tal que:
En R, el valor de \(R^2\) lo encontramos en la penúltima línea del summary
, en análisis de cars
, tenemos:
Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438
dos valores de \(R^2\), y como es de esperarse, es mejor confiar en el método más conservador de la \(R^2\) ajustada. En el caso de cars
, la velocidad explica una buena parte de la distancia de frenado.
El proceso de una regresión lineal involucra tres estimaciones secuenciales:
A continuación se describe el proceso para cada uno de los pasos
Comenzaremos por definir las variables aleatorias independiente como \(X\) y la variable independiente como \(Y\), de modo que esta será tratada como una función de \(X\) (\(Y(X)\)). De cada una de estas variables, que representan muestras de una población, las medias corresponden a \(E(Y) = \bar{Y}\) y \(E(X) = \bar{X}\). Estas últimas serán utilizadas para calcular:
Y con estas últimas se obtendrán las sumas (operador \(\sum\)):
Una vez obtenidas estas sumas, las utilizaremos para estimar \(\beta_1\):
\[\begin{equation} \beta_1 = \frac{\sum xy}{\sum x^2} \tag{3.1} \end{equation}\]
Estimar \(\beta_0\) es más sencillo, pues utilizamos el valor estimado de \(\beta_1\):
\[\begin{equation} a = \bar{Y} - \beta_1 \bar{X} \tag{3.2} \end{equation}\]
El valor de \(R^2\) expresa la proporción de varianza explicada por la regresión lineal, de modo que se obtiene de restar el conciente de la suma de cuadrados del error y la suma de cuadrados totales de la unidad (varianza total):
\[\begin{equation} R^2 = 1 - \frac{SS_{Error}}{SS_{Totales}} \end{equation}\]
\(SS_{Error}\) es la varianza de los residuales, es decir, la variabilidad que la regresión no logró explicar, y \(SS_{Totales}\) es la varianza cruda:
\[\begin{equation} SS_{Error} = \sum y^2 - \beta_0 \sum y - \beta_1 \sum x y \tag{3.3} \end{equation}\]
\[\begin{equation} SS_{Total} = \sum y^2 - \frac{\left( \sum y \right)^2}{n} \tag{3.4} \end{equation}\]
Este último paso nos permitirá, en el caso de la regresión simple, poner a prueba las hipótesis nulas:
O sea que se trata de rechazar la hipótesis de que la variable \(x\) no tiene un efecto sobre los valores de \(y\). Para entender esto, podemos ver
\[ y(x) = \beta_0 + \beta_1 x\] que si ambos coeficientes \(\beta_0 = 0\) y \(\beta_1 = 0\), no hay ningún cambio de \(y\) con respecto de \(x\), pues \(0 \times x =0\), para todos los valores posibles de \(x\), por lo que \(y(x)\) formará una línea horizontal
Para poner a prueba \(H_0\) y \(H_1\), entonces, necesitamos estimar la probabilidad de que estas tengan un valor de \(0\), utilizando al igual que en ANOVA el estadístico \(F\). Para estimar este último necesitamos:
Estas \(SS\) serán utilizadas para calcular sus respectivas medias de cuadrados (\(MS\)), el dividirlas por sus grados de libertad, los totales y de la regresión:
Finalmente:
\[\begin{equation} F = \frac{MS_{Regresión}}{MS_{Residuales}} \end{equation}\]
El resto de la prueba de hipótesis transcurre tal como en ANOVA. La implementación en R asume que \(\beta_0\) y \(\beta_1\) tienen una distribución \(t\), por lo que este es el estadístico reportado (columna t value
arriba). la prueba de hipótesis para este estadístico se basa en otros cálculos, pero las conclusiones e interpretación son las mismas.
Se ha expuesto aquí cuál es la diferencia esencial entre regresión, correlación y ANOVA. Las primeras dos establecen si existe una relación lineal (no causal) entre las variables independientes y dependientes. La regresión, a diferencia de la correlación sirve para medir la tasa de cambio de una con respecto de la otra y, mientras que ambas sirven para medir el grado de dependencia. ANOVA, en contraste, sirve como prueba de hipótesis de no diferencias entre grupos de datos, lo cual se hace por medio de cálculos muy similares a la regresión lineal. Para cerrar, la hipótesis que se rechaza en regresión lineal es que la relación entre las variables es horizontal.
Dirígete a classroom para hacer la actividad correspondiente a este módulo.