El modelo estadístico para comparar los efectos de un factor con varios niveles categóricos se llama ANOVA de una vía. Al decir efecto nos referimos a la capacidad del factor de alterar el valor de la variable de respuesta:
Existen variaciones de este modelo que nos ayudan a hacer las comparaciones entre tratamientos cuando tenemos diferentes bloques. Por lo pronto, en esta sección se muestra el proceso para hacer un análisis de varianza de una vía sin bloques.
El análisis de varianza forma parte de un tipo de análisis estadístico conocidos como modelos lineales, pues, de manera general, se usan para estimar el efecto de una variable independiente sobre la media de una variable dependiente (picos más altos en la figura 1.1). El ANOVA en específico se utiliza para probar las hipótesis estadísticas de no-diferencias entre tratamientos experimentales con niveles categóricos.
Como toda representación matemática o estadística de un fenómeno, el primero de los supuestos de ANOVA es que la variable de respuesta (dependiente), tiene una distribución estadística con varianza homogénea, como la distribución normal. Para entender esto, veamos la fórmula de esta:
\[ \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)}{2 \sigma^2}} \] donde \(\mu\) es la media de la muestra \(X\) y \(\sigma^2\) es su varianza. El resto de los parámetros \(\pi\) y \(e\) son constantes cuyos valores puedes encontrar en muchas otras fuentes. Si utilizamos \(\mu = 0\) y \(\sigma^2 = 1\), la distribución normal para valores de \(x = -3, \dots, 3\) es:
Aquí la línea vertical roja representa el promedio aritmético (\(\mu\)), y las líneas azules representan el valor de \(x = \mu \pm \sigma^2\), y se puede ver cómo las colas de la distribución normal son simétricas alrededor de \(\mu\). La gráfica además se puede entender de la siguiente manera. Supongamos que \(x\) son los valores de la variable de respuesta de un experimento, y \(y\) muestra la frecuencia relativa de cada valor de \(x\), es decir, la probabilidad de observar cada uno de los posibles valores de \(x\), de aquí que cuando estimamos \(\sigma^2\) se asume que la probabilidad de observar un valor dado de \(x\) disminuye igual de rápido por delante y atrás de \(\mu\).
La distribución mostrada en la figura 1.2 tiene un promedio de \(0\). Pero cuando tenemos una variable \(X\) con distribución normal (varianza homogénea), media \(E(X) = \mu \neq 0\) y hacemos \(X - \mu = X_0\), tendremos que \(E(X_0) = 0\), y \(X_0\) tendrá una distribución normal.
Ahora, llamemos \(\mu_i\) a las medias de los tratamientos con un ANOVA, es decir, promedio de \(X\) del tratamiento \(i\). Si hacemos \(X_i - \mu_i = X_i'\) estaríamos obteniendo la diferencia entre las estimaciones del ANOVA y los datos experimentales, de modo que, por lo visto en el párrafo anterior \(X_i'\) deberá tener una distribución normal. A estas diferencias entre las estimaciones de un modelo estadístico y los datos se les llama residuales.
Es importante entender esto porque podemos hacer los cálculos para un ANOVA con variables con distibuciones asimétricas como la distribución log-normal, lo cual da origen a residuales con distribuciones diferentes de la normal. Existen pruebas diagnósticas de normalidad y homogeneidad de varianza para las variables de respuesta y los residuales para verificar que se cumple con los supuestos de homogeneidad de varianza y normalidad de residuales respectivamente, y asegurarnos de que las pruebas de hipótesis con ANOVA sean confiables.
Hacer un análisis de varianza requiere de una serie de cálculos en secuencia, por lo que puede ser un poco confuso. A continuación se describen los cálculos necesarios para hacer un ANOVA de una vía, es decir para compara las medias de una varible de respuesta en diferentes tratamientos de un sólo factor (p. ej. producción vs dos fertilizantes).
Comenzaremos por describir el significado de algunas abreviaciones que se utilizan tradicionalmente para referirse a los cálculos típicos de un ANOVA de una vía:
\(CM\) Correción de la media Se calcula a partir de todos lo datos de la media como:
\[ CM = \frac{\left ( \sum_{i = 1}^n \sum_{j = i}^{k} y_{ij} \right)^2}{N_{total}} = \frac{\mathrm{Suma\ de\ todas\ las\ observaciones}^2}{\mathrm{Número\ total\ de\ observaciones}}\]
\(SS(Total)\) Suma de cuadrados totales Es la suma de cada observación elevada al cuadrado (antes de hacer la suma), menos \(CM\). Se calcula así:
\[SS(Total) = \sum_{i = 1}^n \sum_{j = 1}^{k} y_{ij}^2 - CM\] \(SST\) Suma de cuadrados de los tratamientos Es similar al paso anterior, pero sólo para las observaciones de cada tratamiento:
\[SST = \sum_{i = 1}^N \frac{T_i^2}{n_i} - CM\] Donde \(T_i\) es la suma de las observaciones de cada tratamiento, por lo que \(T_i^2\) es la suma elevada al cuadrado, y \(n_i\) es el número de observaciones del tratamiento \(i\).
\(SSE\) Suma de cuadrados del error Es la diferencia entre \(SS(Total)\) y \(SST\):
\[SSE = SS(Total) - SST\] \(MST\) Media de cuadrados de los tratamientos El nombre mismo lo dice (media = promedio aritmético):
\[ MST = \frac{SST}{k-1} \] Donde \(k\) es el número de tratamientos, y \(k-1\) son los grados de libertad de los tratamientos.
\(MSE\) Media de cuadrados del error:
\[ MSE = \frac{SSE}{N_{total}-k}\]
\(F\) Estadístico F Es el valor del parámetro de la distribución estadística \(F\) (por Fisher). Se calcula así:
\[ F = \frac{MST}{MSE}\] El valor de \(F\), lo utilizamos para probar \(H_0\) (no hay diferencias entre tratamientos). Para ello podemos utilizar una tabla de valores críticos (valores \(\alpha\)) de significancia estadística. Este último, en el 99% de los casos es \(\alpha = 0.05\), lo que quiere decir que menos del 5% de las observaciones entre tratamientos serán iguales. También vamos a necesitar los grados de libertad por tratamiento \(k-1\), los grados de libertad totales \(N_{total} - k\), y el estadístico \(F\).
Si la curiosidad les gana, la fórmula del modelo estadístico \(F\) y cómo se calcula la probabilidad estadística utilizando \(k-1\) y \(N_{total} - k\), lo pueden checar en Wikipedia.
Como puden ver, hacer un análisis de varianza es relativamente simple, pues consiste simplemente de operaciones aritméticas. Teniendo en cuenta que:
Un análisis de varianza consiste de:
Si \(F^* < F\), podemos decir que hubo diferencias significativas entre los tratamientos, es decir, que los tratamientos experimentales sí afectaron los valores de la variable de respuesta que medimos.
Para este último paso podemos usar aplicaciones web como esta.
En esta clase haremos dos ANOVA de una vía en una hoja de cálculo, como lo hicimos en la clase sincrónica. Para ello completa la actividad correspondiente a este módulo en Classroom.