El análisis de covarianza, también llamado ANCOVA, es un modelo que para combinar variables independientes contínuas con categóricas, de modo que se requiere para ello de un experimento, cuando menos, de dos vías. ANCOVA también puede ser visto como un modelo híbrido entre ANOVA y regresión lineal. Ejemplos de dieños con variables contínuas y categóricas son:
Medición del crecimiento de animales de producción de diferentes razas bajo regímenes nutricionales con diferentes concentraciones de proteínas.
Producción de alfalfa en dos tipos de suelo (categórica) con diferentes frecuencia de riego (contínua).
Reclutamiento de larvas de dos especies de tricópteros (categórica) en función del hidroperiodo (categórica) y seis niveles de densidad poblacional (contínua).
Cuando de ajusta un modelo ANCOVA existen muchas posibilidades de interacciones entre las variables contínuas y categóricas. Los diferentes tipos de interacciones dependen de los efectos que los tratamientos categóricos y contínuos tengan sobre la variable de respuesta. Para entender esto, recordemos cómo es un modelo lineal simple:
\[\begin{equation} y(x) = \beta_0 + \beta_1 x \tag{1.1} \end{equation}\]
En el caso de sólo tener datos contínuos para explicar el comportamiento de \(y(x)\), sólo se estiman \(\beta_0\) y \(\beta_1\). Sin embargo en ANCOVA, se puede estimar los coeficientes \(\beta_{0, i}\) y/o \(\beta_{1, i}\) para cada tratamiento categórico \(i\). En otras palabras, los tratamientos categóricos pueden afectar el intercepto (\(\beta_0\)), la pendiente (\(\beta_1\)) o ambos. Cuando las variables categóricas sólo afectan el intercepto se interpreta que no hay interacción entre la variable categórica y la contínua (el efecto de la variable contínua no depende de la presencia de la categórica). Cuando las pendientes \(\beta_1\) son diferentes (incluso por el signo), hay interacciones entre los factores contínuos y categóricos. A continuación se muestra la representación gráfica.
Caso 1 Los tratamientos sólo afecta el intercepto \(\beta_0\), es decir, solo hay efecto aditivo
Matemáticamente el modelo corresponde a:
\[ y(x_1, A) = \beta_{0, A}+ \beta_1 x_1 \] \[ y(x_2, B) = \beta_{0, B} + \beta_1 x_1 \] Y en R, este modelo se especifica como:
y ~ x1 + x2
Caso 2 Los tratamientos sólo afectan la pendiente, es decir sólo hay interacción
Matemáticamente:
\[ y(x_1, A) = \beta_0 + \beta_{1, A} x_1 \] \[ y(x_1, B) = \beta_0 + \beta_{1, B} x_1 \] En R
y ~ x1 : x2
Caso 3 Los tratamientos afectan la pendiente y al intercepto, es decir hay interacción y efecto aditivo
Matemáticamente:
\[ y(x1, A) = \beta_{0, A} + \beta_{1, A} x_1 \] \[ y(x_1, B) = \beta_{0, B} + \beta_{1, B} x_1 \] En R
y ~ x1 * x2
Nota que en este último caso, x1 * x2 = x1 + x2 + x1 : x2
, lo cual es una peculiaridad de R que resulta en la estimación de un intercepto global, y otro para el primer tratamiento de referencia (\(A\)), sin embargo, en términos prácticos es enteramente equivalente a tener una línea regresión para el grupo de datos \(A\) y otra para el grupo de datos \(B\). Para forzar a que R imprima sólo los coeficientes \(\beta_{0 (A, B)}\) y\(\beta_{1(A, B)}\) se debe ajustar un modelo de intercepto aleatorio:
y ~ 0 + x2 + x2:x1
que como se mencionó es idéntico estadísticamente, pero los efectos se evaluarán en relación a los interceptos de cada tratamiento.