La correlación y regresión, en primera instancia, son conceptos difíciles de distinguir, pues ambas hacen referencia a relaciones lineales entre dos variables aleatorias. El concepto de relación lineal quiere decir que los valores de dos variables aleatorias graficadas en el plano euclidiano (intersección perpendicular de dos rectas) formarán, en promedio, una línea aproximadamente recta (figura 1).
Ambos métodos estadísticos, regresión y correlación, se pueden usar para medir el grado de dependencia entre \(x\) y \(y\), es decir, cuánta variación de \(y\) depende de la variación de \(x\). La principal diferencia, sin embargo radica en que la regresión provee se puede utilizar para medir los cambios de \(y\) con respecto de \(x\). La correlación, en cambio simplemente mide la varianza que \(x\) y \(y\) comparten, independientemente de sus respectivos valores. por lo tanto, la regresión lineal se puede utilizar para generar una función matemática que describe el comportamiento promedio de los datos analizados (figura 2).
Como se puede observar en ambas figuras, los datos varían alrededor de la línea recta producida por \(y(x)\). Cuanto mayor sea la variación alrededor de dicha línea menor será la correlación entre \(x\) y \(y\) (figura 3).
Estos métodos, sus variaciones y aplicaciones son el tema de la presente unidad.