1 Introducción

La correlación sirve principalmente para medir la asociación lineal entre dos variables, o la proporción de la varianza de una variable explicada por otra. A diferencia de análisis previos en correlación no hay una distinción entre variable dependiente e independiente, por lo que los resultados son idénticos si se cambia \(x\) por \(y\) y viceversa. A pesar de que la correlación, es un análisis simple tiene muchas aplicaciones en estadística avanzada y adaptaciones que la hacen apropiada para distintos tipos de datos y relaciones no lineales. Aquí nos centraremos en ver la prueba de correlación de Pearson, la cual asumen que las dos variables son contínuas y están relacionadas de manera estrictamente lineal.

2 Usos y aplicaciones de la correlación

El principal uso que se da a la correlación es la estimación del grado de asociación, el cual es útil para saber si dos variables independientes se predicen una a la otra. Cuando dos variables independientes se predicen mutuamente (están correlacionadas) es imposible distinguir sus respectivos efectos en una regresión lineal múltiple, por lo que, se deben eliminar todas aquellas variables que se predicen mutuamente en un modelo estadístico. La presencia de variables independientes colineales es equivalente a un diseño ANOVA seriamente fuera de balance, por ejemplo cuando en un ANOVA de dos vías con dos factores de dos niveles, sólamente se tienen los datos experimentales para dos combinaciones: factor 1, tratamiento A, con factor 2, tratamiento B2. En un ejemplo tan extremo es evidente que no se puede poner a prueba la hipótesis nula de ninguno de los factores (No existen datos para factor 1, tratamiento B, por ejemplo).

Las pruebas de correlación también se utilizan para medir la dependencia entre observaciones de la variable dependiente. Por ejemplo, en los experimentos de medidas repetidas, las mediciones en \(t_1\) estarán correlacionadas con las mediciones en \(t_2\) y así sucesivamente. De hecho, la correlación dentro de la variable es la principal razón por la cual las mediciones repetidas resultan en pseudo-replicación. Es evidente entonces, que la correlación nos puede ayudar a medir el grado de pseudo-replicación en un caso como el descrito.

2.1 Limitaciones de la correlación de Pearson

Desafortunadamente, la prueba de correlación de Pearson es muy sensible a la naturaleza de la relación entre las variables. La figura 2.1 muestra una serie de relaciones entre \(x\) y \(y\) y los coeficientes de Pearson resultantes. Es evidente que en muchos casos no lineales, \(x\) explica cierta variabilidad de \(y\) (última fila).

Relaciones entre variables con su respectivo coeficiente de correlación de Pearson. Imágen de [Wikipedia](https://en.wikipedia.org/wiki/Pearson_correlation_coefficient)

Figure 2.1: Relaciones entre variables con su respectivo coeficiente de correlación de Pearson. Imágen de Wikipedia

La prueba de correlación de Spearman, soluciona algunos problemas asociados al supuesto de linealidad de la prueba de Pearson, aunque aquí nos centraremos en esta última.

3 La prueba de correlación de Pearson

El resultado de la prueba de correlación de Pearson es el coeficiente de correlación \(r\), cuyos valores pueden ser $ - 1 r 1$. Cuando \(r = 1\) quiere decir que los valores de la variable \(y\) disminuyen con el aumento de los valores de \(x\), y que \(x\) explica el 100% de la varianza de \(y\). En términos geométricos esto quiere decir que los valores de \(x\) y \(y\) graficados forman una línea recta perfecta con una pendiente arbitraria distinta de 0 y de \(\infty\):

Correlaciones con $r = 1$ (izquierda) y $r=-1$ (derecha).

Figure 3.1: Correlaciones con \(r = 1\) (izquierda) y \(r=-1\) (derecha).

Un ejemplo de dos variables sin correlación alguna (\(r=0\)) sería:

Correlación con $r=0$.

Figure 3.2: Correlación con \(r=0\).

Para medir la correlación entre dos variables debemos hacer una serie de cálculos entre \(x\) y \(y\). La fórmula para el coeficiente de correlación es:

\[\begin{equation} r = \frac{\sum xy}{\sqrt{ \sum x^2 \sum y^2}} \tag{3.1} \end{equation}\]

3.1 Estimado \(r\) a mano en R

Comencemos por simular una serie de variables con diferentes grados de correlación:

set.seed(123)
x <- rnorm(1000)
y1 <- x * sample(c(-1, 1), 1) + rnorm(1000, 0, 3)
y2 <- x * sample(c(-1, 1), 1) + rnorm(1000)
y3 <- x * sample(c(-1, 1), 1) + rnorm(1000, 0, 0.1)

Primero generamos la variable \(x\) con una distribución normal, y las variables \(y\), las simulamos a partir de \(x\). Con la función sample seleccionamos al azar el signo de la correlación c(-1, 1), y con rnorm(1000) generamos ruido estadístico con una varianza de 1, 0.5 y 0.1 para añadirle a \(y\) y generar correlaciones menores. Continuemos entonces por clacular los numeradores de la ecuación (3.1):

xy1 <- sum(x * y1)
xy2 <- sum(x * y2)
xy3 <- sum(x * y3)

y los denominadores:

den1 <- sqrt(sum(x^2) * sum(y1^2))
den2 <- sqrt(sum(x^2) * sum(y2^2))
den3 <- sqrt(sum(x^2) * sum(y3^2))

Y ahora sí, obtengamos los cocientes:

xy1/den1
## [1] -0.3108481
xy2/den2
## [1] 0.731327
xy3/den3
## [1] 0.9951911

Estos valores sugieren que \(x\) y \(y_1\) tienen una correlación negativa, relativamente débil, mientras que con \(y_2\) y \(y_3\) son positivas. Esto lo podemos confirmar visualmente:

par(mfrow = c(1, 3))
plot(x, y1); plot(x, y2); plot(x, y3)
Relaciones entre $x$ y $y_{1, 2, 3}$.

Figure 3.3: Relaciones entre \(x\) y \(y_{1, 2, 3}\).

Podemos entonces verificar si nuestros cálculos están bien hechos con la función de R cor.test:

cor.test(x, y1)
## 
##  Pearson's product-moment correlation
## 
## data:  x and y1
## t = -10.319, df = 998, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3654493 -0.2533744
## sample estimates:
##        cor 
## -0.3104905
cor.test(x, y2)
## 
##  Pearson's product-moment correlation
## 
## data:  x and y2
## t = 33.889, df = 998, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7012742 0.7590410
## sample estimates:
##       cor 
## 0.7314674
cor.test(x, y3)
## 
##  Pearson's product-moment correlation
## 
## data:  x and y3
## t = 320.96, df = 998, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9945569 0.9957511
## sample estimates:
##       cor 
## 0.9951909

Podemos ver que los coeficientes que R calcula son ligeramente diferentes, pues tienen una serie de ajustes de varianza, pero, como los tamaños de muestra son grandes, los valores de \(r\) calculados son bastante similares.

Una vez que aprendimos a estimar el coeficiente de correlación \(r\), cabe mencionar que el coeficiente de determinación de una regresión lineal \(r^2\) recibe ese nombre porque efectivamente:

\[ \mathrm{Coeficiente\ de\ determinación} = \mathrm{Coeficiente\ de\ correlación}^2\]

Regresar al índice del curso