La correlación y regresión, en primera instancia, son conceptos difíciles de distinguir, pues ambas hacen referencia a relaciones lineales entre dos variables aleatorias. El concepto de relación lineal quiere decir que los valores de dos variables aleatorias graficadas en el plano euclidiano (intersección perpendicular de dos rectas) formarán, en promedio, una línea aproximadamente recta (figura 1).

Relación lineal entre dos variables aleatorias $x, y$.

Figure 1: Relación lineal entre dos variables aleatorias \(x, y\).

Ambos métodos estadísticos, regresión y correlación, se pueden usar para medir el grado de dependencia entre \(x\) y \(y\), es decir, cuánta variación de \(y\) depende de la variación de \(x\). La principal diferencia, sin embargo radica en que la regresión provee se puede utilizar para medir los cambios de \(y\) con respecto de \(x\). La correlación, en cambio simplemente mide la varianza que \(x\) y \(y\) comparten, independientemente de sus respectivos valores. por lo tanto, la regresión lineal se puede utilizar para generar una función matemática que describe el comportamiento promedio de los datos analizados (figura 2).

Relación lineal entre $x$ y $y$ con la predicción de la función $y(x)$ en azul y los intervalos de confianza asociados.

Figure 2: Relación lineal entre \(x\) y \(y\) con la predicción de la función \(y(x)\) en azul y los intervalos de confianza asociados.

Como se puede observar en ambas figuras, los datos varían alrededor de la línea recta producida por \(y(x)\). Cuanto mayor sea la variación alrededor de dicha línea menor será la correlación entre \(x\) y \(y\) (figura 3).

Diferentes tipos correlaciones entre dos variables aleatorias $x$ y $y$. *Negativa* o *Positiva* indica si $y$ disminuye o aumenta, repectivamente, con respecto de $x$, mientras que *Alta* y *Baja* indican qué tan cerca o lejor de la línea de regresión están los valores de $y$.

Figure 3: Diferentes tipos correlaciones entre dos variables aleatorias \(x\) y \(y\). Negativa o Positiva indica si \(y\) disminuye o aumenta, repectivamente, con respecto de \(x\), mientras que Alta y Baja indican qué tan cerca o lejor de la línea de regresión están los valores de \(y\).

Estos métodos, sus variaciones y aplicaciones son el tema de la presente unidad.

Regresar al índice del curso