1 Introducción

Todos los ejmplos de análisis que hemos visto hasta la fecha han sido sobre comparaciones de medias, es decir de cómo diferentes tratamientos estrictamente categóricos, afectan el valor más probable de ser observado. Categóricos pueden considerarse variables como:

  1. Diferentes fertilizantes
  2. Diferentes tipos de suelo
  3. Diferentes medicamentos
  4. Diferentes especies de organismos

Ninguna de estas variables, como tal, puede considerarse con un valor numérico, por lo que sus efectos sólo pueden ser estimados para los grupos experimentales. Las variables contínuas, a diferencia de las categóricas, sí pueden tener valores numéricos, de modo que es posible estimar valores numéricos para sus efecos. Ejemplos de variables contínuas son:

  1. Temperatura
  2. Dosis de medicamento
  3. Concentración de contaminantes en el agua

Como es de esperarse, las variables contínuas también pueden representarse como categóricas. Por ejemplo se puede comparar la velocidad de crecimiento de una especie de crutáceo a dos o tres temperaturas. Cuando el número de valores de temperatura es lo suficientemente grande, sin embargo, resulta más interesante estimar por ejemplo, cómo cambia la velocidad de crecimiento con el el cambio de temperatura, como en una ecuación lineal:

\[\begin{equation} \mathrm{Crecimiento} = \mathrm{Intercepto} + \mathrm{Tasa} \times \mathrm{Temperatura} \tag{1.1} \end{equation}\]

Donde no hay ningún tipo de restricción sobre el valor que \(\mathrm{Tasa}\) pueda tomar, es decir puede ir desde \(-\infty\) hasta \(+ \infty\). La regresión lineal, tiene como objetivo, justamente ese, estimar el valor de \(\mathrm{Tasa}\) para cualquier par de variables numéricas \(x\) y \(y\). De manera más general en estadística, la ecuación (1.1) puede ser representada como:

\[\begin{equation} y(x) = \beta_0 + \beta_1 x + \epsilon_i \tag{1.2} \end{equation}\]

Donde el término aditional \(\epsilon_i\) representa el error, o la diferencia entre la línea recta y las observaciones \(y_i\) (los residuales).

Al igual que en ANOVA, puede existir cualquier número de variables \(x\) de tal modo que \(y\) puede ser una función \(y(x_1, x_2, \dots, x_n)\), siempre y cuando existan grados de libertad suficientes de \(y\), y existan observaciones de \(x\) para cada todas y cada una de las \(y\).

2 Ejemplos de diseños experimentales con factores contínuos

La base de datos cars de cualquier instalación de R es ya, un ejemplo clásico de una relación lineal entre dos variables aleatorias, la cual muestra con 50 observaciones la distancia recorrida por un auto hasta alcanzar una velocidad de 0 km/h mientras viaja a una velocidad establecida (figura 2.1).

Relacion entre velocidad y distancia recorrida de frenado en `cars`.

Figure 2.1: Relacion entre velocidad y distancia recorrida de frenado en cars.

Una regresión lineal que represente a la distancia de frenado como función de la velocidad, estimaría dos parámetros, \(\beta_0\) y \(\beta_1\) (ecuación (1.2)). \(\beta_0\) corresponde al intercepto, que es el valor de \(y\) cuando \(x=0\), y el segundo es \(\beta_1\), el cambio de unidades de \(y\) por unidad de cambio de \(x\), o la pendiente de la recta:

Recta de regresión entre velocidad y distancia de frenado en `cars`.

Figure 2.2: Recta de regresión entre velocidad y distancia de frenado en cars.

Para estimar estos parámetros en R, utilizamos la función lm, poniendo atención a la variable dependiente (lado izquierdo, dist) e independiente (lado derecho, speed):

data(cars)

m1 <- lm(dist ~ speed, cars)
summary(m1)
## 
## Call:
## lm(formula = dist ~ speed, data = cars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -29.069  -9.525  -2.272   9.215  43.201 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -17.5791     6.7584  -2.601   0.0123 *  
## speed         3.9324     0.4155   9.464 1.49e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared:  0.6511, Adjusted R-squared:  0.6438 
## F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12

El significado de los coeficientes en la columna Estimate es el descrito arriba, sin embargo, estos adquieren implicaciones adicionales en estadística. Por ejemplo, podemos que que el intercepto tiene un valor de -17.59, lo cual es, en términos del fenómeno físico, falso, pues en este caso sólo es relevante para los datos analizados, en decir para velocidades de 5-25 km/h, con el (los) automóvil(es) utilizado(s) en esas mediciones. El parámetro \(\beta_1\) para speed, es un poco más generalizable, y quiere decir que en promedio, por cada km/h adicioanl de velocidad, necesitamos 3.93m más para frenar por completo el automóvil. Las estimaciones de significancia estadística indican qué tan probable es que \(\beta_{0, 1} = 0\), es decir, qué tan probable es que el efecto de \(x\) sobre \(y\) sea 0

2.1 Varianza explicada en regresión lineal

Una medida muy importante en regresión lineal es \(R^2\), que indica qué tan cerca pasa la línea. dibujada por la ecuación, de los datos observados. Veamos por ejemplo, que en la figura 2.2, la línea de regresión pasa por en medio de la nube de puntos, y la mayoría de estos se encuentran a una distancia determinada de la línea. \(R^2\) es justamente una medida de la distancia promedio de los puntos a la línea tal que:

  1. \(R^2 = 0\) indica que la variable independente no explica a la variable dependiente
  2. \(R^2 = 1\) indica que la variable dependiente explica perfectamente a la variable dependiente

En R, el valor de \(R^2\) lo encontramos en la penúltima línea del summary, en análisis de cars, tenemos:

Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438

dos valores de \(R^2\), y como es de esperarse, es mejor confiar en el método más conservador de la \(R^2\) ajustada. En el caso de cars, la velocidad explica una buena parte de la distancia de frenado.

3 ¿Cómo se hace una regresión lineal?

El proceso de una regresión lineal involucra tres estimaciones secuenciales:

  1. Coeficientes de regresión \(\beta_0\) y \(\beta_1\)
  2. \(R^2\)
  3. Significancia estadística

A continuación se describe el proceso para cada uno de los pasos

3.1 Estimación de los coeficientes de regresión

Comenzaremos por definir las variables aleatorias independiente como \(X\) y la variable independiente como \(Y\), de modo que esta será tratada como una función de \(X\) (\(Y(X)\)). De cada una de estas variables, que representan muestras de una población, las medias corresponden a \(E(Y) = \bar{Y}\) y \(E(X) = \bar{X}\). Estas últimas serán utilizadas para calcular:

  • \(x_i = X_i - \bar{X}\)
  • \(y_i = Y_i - \bar{X}\)

Y con estas últimas se obtendrán las sumas (operador \(\sum\)):

  • \(\sum_{i = 1}^n x_i = \sum x = x_1 + x_2 + \dots + x_n\)
  • \(\sum_{i = 1}^n y_i = \sum y = y_1 + y_2 + \dots + y_n\)
  • \(\sum_{i = 1}^n x_i y_i = \sum xy = x_1 \times y_1 + x_2 \times y_2 + \dots + x_n \times y_n\)
  • \(\sum_{i = 1}^n x_i^2 = \sum x^2 = x_1^2 + x_2^2 + \dots + x_n^2\)
  • \(\sum_{i = 1}^n y_i^2 = \sum y^2 = y_1^2 + y_2^2 + \dots + y_n^2\)

Una vez obtenidas estas sumas, las utilizaremos para estimar \(\beta_1\):

\[\begin{equation} \beta_1 = \frac{\sum xy}{\sum x^2} \tag{3.1} \end{equation}\]

Estimar \(\beta_0\) es más sencillo, pues utilizamos el valor estimado de \(\beta_1\):

\[\begin{equation} a = \bar{Y} - \beta_1 \bar{X} \tag{3.2} \end{equation}\]

3.2 Estimación del coeficiente de determinación (\(R^2\))

El valor de \(R^2\) expresa la proporción de varianza explicada por la regresión lineal, de modo que se obtiene de restar el conciente de la suma de cuadrados del error y la suma de cuadrados totales de la unidad (varianza total):

\[\begin{equation} R^2 = 1 - \frac{SS_{Error}}{SS_{Totales}} \end{equation}\]

\(SS_{Error}\) es la varianza de los residuales, es decir, la variabilidad que la regresión no logró explicar, y \(SS_{Totales}\) es la varianza cruda:

\[\begin{equation} SS_{Error} = \sum y^2 - \beta_0 \sum y - \beta_1 \sum x y \tag{3.3} \end{equation}\]

\[\begin{equation} SS_{Total} = \sum y^2 - \frac{\left( \sum y \right)^2}{n} \tag{3.4} \end{equation}\]

3.3 Estimación de significancia estadística

Este último paso nos permitirá, en el caso de la regresión simple, poner a prueba las hipótesis nulas:

  1. \(H_0\): \(\beta_0 = 0\)
  2. \(H_1\): \(\beta_1 = 0\)

O sea que se trata de rechazar la hipótesis de que la variable \(x\) no tiene un efecto sobre los valores de \(y\). Para entender esto, podemos ver

\[ y(x) = \beta_0 + \beta_1 x\] que si ambos coeficientes \(\beta_0 = 0\) y \(\beta_1 = 0\), no hay ningún cambio de \(y\) con respecto de \(x\), pues \(0 \times x =0\), para todos los valores posibles de \(x\), por lo que \(y(x)\) formará una línea horizontal

Para poner a prueba \(H_0\) y \(H_1\), entonces, necesitamos estimar la probabilidad de que estas tengan un valor de \(0\), utilizando al igual que en ANOVA el estadístico \(F\). Para estimar este último necesitamos:

  • La suma de cuadrados totales: \(SS_{Total} = \sum \left( Y_i - \bar{Y} \right) = \sum y^2\)
  • La suma de cuadrados de la regresión: \(SS_{Regresion} = b \sum xy\)
  • La suma de cuadrados de los residuales (alternativa): \(SS_{Residuales} = SS_{Totales} - SS_{Regresión}\)

Estas \(SS\) serán utilizadas para calcular sus respectivas medias de cuadrados (\(MS\)), el dividirlas por sus grados de libertad, los totales y de la regresión:

  • \(MS_{Totales} = \frac{SS_{Totales}}{DF_{Totales}}\); \(DF_{Totales} = n-1\)
  • \(MS_{Regresión} = \frac{SS_{Regresión}}{DF_{Regresión}}\); \(DF_{Regresión} = 1\) (en regresión simple; sería 2, si hubiera dos variables \(X\))
  • \(MS_{Residuales} = \frac{SS_{Residuales}}{DF_{Residuales}}\); \(DF_{Residuales} = DF_{Totales} - DF_{Regresión} = n-2\)

Finalmente:

\[\begin{equation} F = \frac{MS_{Regresión}}{MS_{Residuales}} \end{equation}\]

El resto de la prueba de hipótesis transcurre tal como en ANOVA. La implementación en R asume que \(\beta_0\) y \(\beta_1\) tienen una distribución \(t\), por lo que este es el estadístico reportado (columna t value arriba). la prueba de hipótesis para este estadístico se basa en otros cálculos, pero las conclusiones e interpretación son las mismas.

4 Discusión

Se ha expuesto aquí cuál es la diferencia esencial entre regresión, correlación y ANOVA. Las primeras dos establecen si existe una relación lineal (no causal) entre las variables independientes y dependientes. La regresión, a diferencia de la correlación sirve para medir la tasa de cambio de una con respecto de la otra y, mientras que ambas sirven para medir el grado de dependencia. ANOVA, en contraste, sirve como prueba de hipótesis de no diferencias entre grupos de datos, lo cual se hace por medio de cálculos muy similares a la regresión lineal. Para cerrar, la hipótesis que se rechaza en regresión lineal es que la relación entre las variables es horizontal.

5 Aplicación del conocimiento

Dirígete a classroom para hacer la actividad correspondiente a este módulo.

Regresar al índice del curso