Variables correlacion y causalidad
7. La formula de pearson ( profundización)
Profundización: ¿de dónde sale el coeficiente de correlación de Pearson?
Objetivos
- Comprender el coeficiente de correlación de Pearson como una covarianza estandarizada.
- Explicar por qué la fórmula de Pearson queda entre \(-1\) y \(1\).
- Reconocer que, en el contexto escolar y en evaluaciones estandarizadas como PAES, suele ser más importante interpretar \(r\) que calcularlo manualmente con la fórmula completa.
Antes de comenzar
Esta página es de profundización. Su objetivo es entender de dónde nace la fórmula del coeficiente de correlación de Pearson.
En el contexto de educación media, y especialmente en preguntas tipo PAES M2, es mucho más probable que se evalúe la interpretación de \(r\), la lectura de nubes de puntos, la comparación de valores y el análisis crítico de conclusiones, antes que el cálculo manual completo de la fórmula.
La pregunta central
Cuando observamos una nube de puntos, queremos responder preguntas como:
- ¿Las variables tienden a aumentar juntas?
- ¿Cuando una aumenta, la otra tiende a disminuir?
- ¿La relación parece fuerte, débil o casi nula?
El coeficiente de correlación de Pearson busca transformar esa lectura visual en un número entre \(-1\) y \(1\).
Idea general
El coeficiente de correlación de Pearson puede entenderse como:
\[ r=\frac{\text{covarianza entre }x\text{ e }y}{\text{desviación estándar de }x\cdot \text{desviación estándar de }y} \]
Es decir:
\[ r=\frac{s_{xy}}{s_xs_y} \]
Por eso se dice que \(r\) es una covarianza estandarizada.
Primera idea: desviarse respecto de la media
Supongamos que tenemos pares de datos:
\[ (x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n) \]
Para estudiar la relación entre \(x\) e \(y\), no miramos solo los valores originales. Primero observamos cuánto se aleja cada dato de su media:
\[ x_i-\bar{x} \]
\[ y_i-\bar{y} \]
Si \(x_i-\bar{x}\) es positivo, entonces ese valor de \(x\) está sobre el promedio de \(x\).
Si \(x_i-\bar{x}\) es negativo, entonces ese valor de \(x\) está bajo el promedio de \(x\).
Segunda idea: multiplicar desviaciones
La expresión clave es:
\[ (x_i-\bar{x})(y_i-\bar{y}) \]
Este producto permite saber si las dos variables se alejan de sus medias en el mismo sentido o en sentidos opuestos.
| Situación | Producto | Interpretación |
|---|---|---|
| \(x_i\) sobre su media e \(y_i\) sobre su media | \((+)(+)=+\) | Ambas variables están altas respecto de sus promedios. |
| \(x_i\) bajo su media e \(y_i\) bajo su media | \((-)(-)=+\) | Ambas variables están bajas respecto de sus promedios. |
| \(x_i\) sobre su media e \(y_i\) bajo su media | \((+)(-)=-\) | Las variables se mueven en sentidos opuestos. |
| \(x_i\) bajo su media e \(y_i\) sobre su media | \((-)(+)=-\) | Las variables se mueven en sentidos opuestos. |
Si la mayoría de estos productos son positivos, la relación tiende a ser positiva.
Si la mayoría son negativos, la relación tiende a ser negativa.
Covarianza muestral
La covarianza muestral entre \(x\) e \(y\) se puede escribir como:
\[ s_{xy}=\frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y}) \]
La covarianza mide si las variables tienden a moverse juntas o en sentidos opuestos.
- Si \(s_{xy}>0\), las variables tienden a moverse en el mismo sentido.
- Si \(s_{xy}<0\), las variables tienden a moverse en sentidos opuestos.
- Si \(s_{xy}\approx 0\), no se observa una relación lineal clara.
Problema de la covarianza
La covarianza depende de las unidades de medida.
Por ejemplo, si el ingreso se mide en pesos o en miles de pesos, el valor numérico de la covarianza cambia, aunque la relación entre las variables sea la misma.
Por eso necesitamos una medida sin unidades y más fácil de comparar.
Desviaciones estándar
Para quitar el efecto de las unidades, se divide la covarianza por las desviaciones estándar de ambas variables.
La desviación estándar muestral de \(x\) es:
\[ s_x=\sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2} \]
La desviación estándar muestral de \(y\) es:
\[ s_y=\sqrt{\frac{1}{n-1}\sum (y_i-\bar{y})^2} \]
Entonces:
\[ r=\frac{s_{xy}}{s_xs_y} \]
Desarrollo de la fórmula
Partimos desde:
\[ r=\frac{s_{xy}}{s_xs_y} \]
Reemplazamos la covarianza y las desviaciones estándar:
\[ r= \frac{ \frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y}) } { \sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2} \sqrt{\frac{1}{n-1}\sum (y_i-\bar{y})^2} } \]
En el denominador aparece:
\[ \sqrt{\frac{1}{n-1}}\cdot \sqrt{\frac{1}{n-1}}=\frac{1}{n-1} \]
Por lo tanto, el factor \(\frac{1}{n-1}\) aparece arriba y abajo, y se cancela.
Así se obtiene la forma más conocida:
\[ r= \frac{\sum (x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}} \]
Interpretación de la fórmula
La fórmula se puede leer así:
\[ r= \frac{\text{movimiento conjunto de }x\text{ e }y} {\text{dispersión de }x\cdot\text{dispersión de }y} \]
El numerador mide si las variables se desvían juntas de sus medias.
El denominador ajusta el resultado según la dispersión de cada variable.
Por eso \(r\) no tiene unidades y siempre queda entre \(-1\) y \(1\).
Ejemplo guiado con pocos datos
Consideremos los siguientes datos:
| Dato | \(x\) | \(y\) |
|---|---|---|
| A | 1 | 2 |
| B | 2 | 3 |
| C | 3 | 5 |
| D | 4 | 6 |
Calculamos las medias:
\[ \bar{x}=\frac{1+2+3+4}{4}=2{,}5 \]
\[ \bar{y}=\frac{2+3+5+6}{4}=4 \]
| \(x_i\) | \(y_i\) | \(x_i-\bar{x}\) | \(y_i-\bar{y}\) | \((x_i-\bar{x})(y_i-\bar{y})\) | \((x_i-\bar{x})^2\) | \((y_i-\bar{y})^2\) |
|---|---|---|---|---|---|---|
| 1 | 2 | \(-1{,}5\) | \(-2\) | \(3\) | \(2{,}25\) | \(4\) |
| 2 | 3 | \(-0{,}5\) | \(-1\) | \(0{,}5\) | \(0{,}25\) | \(1\) |
| 3 | 5 | \(0{,}5\) | \(1\) | \(0{,}5\) | \(0{,}25\) | \(1\) |
| 4 | 6 | \(1{,}5\) | \(2\) | \(3\) | \(2{,}25\) | \(4\) |
Sumamos las columnas necesarias:
\[ \sum (x_i-\bar{x})(y_i-\bar{y})=3+0{,}5+0{,}5+3=7 \]
\[ \sum (x_i-\bar{x})^2=2{,}25+0{,}25+0{,}25+2{,}25=5 \]
\[ \sum (y_i-\bar{y})^2=4+1+1+4=10 \]
Reemplazamos en la fórmula:
\[ r=\frac{7}{\sqrt{5}\sqrt{10}} \]
\[ r=\frac{7}{\sqrt{50}} \]
\[ r\approx \frac{7}{7{,}07}\approx 0{,}99 \]
El valor de \(r\) es positivo y cercano a \(1\), por lo que existe una relación lineal positiva muy fuerte.
Otra mirada: datos estandarizados
También se puede entender \(r\) usando puntajes estandarizados:
\[ z_x=\frac{x_i-\bar{x}}{s_x} \]
\[ z_y=\frac{y_i-\bar{y}}{s_y} \]
Estos valores indican cuántas desviaciones estándar se aleja cada dato de su media.
Desde esta mirada, \(r\) compara si los valores estandarizados de \(x\) e \(y\) tienden a tener el mismo signo o signos opuestos.
Condición necesaria
El coeficiente de Pearson no está definido si una de las variables no varía.
Por ejemplo, si todos los valores de \(x\) son iguales, entonces \(s_x=0\), y no se puede dividir por cero.
Por eso, para calcular \(r\), ambas variables deben tener variabilidad.
Ejercicio 1
Explica con tus palabras por qué Pearson \(r\) se puede entender como una covarianza estandarizada.
La covarianza mide si dos variables tienden a moverse juntas o en sentidos opuestos, observando los productos \((x_i-\bar{x})(y_i-\bar{y})\).
Sin embargo, la covarianza depende de las unidades de medida. Por ejemplo, puede cambiar si una variable se mide en pesos o en miles de pesos.
Por eso, Pearson divide la covarianza por las desviaciones estándar de ambas variables. Así se obtiene una medida sin unidades y comparable entre distintos contextos.
Respuesta: \(r\) es una covarianza estandarizada porque mide movimiento conjunto, pero ajustado por la dispersión de cada variable.
Ejercicio 2
Un estudiante pregunta por qué en la fórmula final de Pearson no aparece dividido por \(n-1\), aunque la covarianza y las desviaciones estándar muestrales sí usan \(n-1\).
Responde explicando la cancelación.
La covarianza muestral tiene un factor \(\frac{1}{n-1}\):
\[ s_{xy}=\frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y}) \]
Las desviaciones estándar también tienen ese factor dentro de cada raíz:
\[ s_x=\sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2} \]
\[ s_y=\sqrt{\frac{1}{n-1}\sum (y_i-\bar{y})^2} \]
Al multiplicar \(s_xs_y\), aparece:
\[ \sqrt{\frac{1}{n-1}}\cdot \sqrt{\frac{1}{n-1}}=\frac{1}{n-1} \]
Entonces el mismo factor aparece en el numerador y en el denominador, por lo que se cancela.
Respuesta: no aparece porque el factor \(\frac{1}{n-1}\) se cancela al formar el cociente \(\frac{s_{xy}}{s_xs_y}\).
Ejercicio 3
Observa la siguiente afirmación:
“Si \(r=0{,}95\), entonces la relación es positiva fuerte y necesariamente una variable causa a la otra”.
Evalúa la afirmación.
La primera parte de la afirmación es correcta: si \(r=0{,}95\), entonces existe una relación lineal positiva fuerte.
Sin embargo, la segunda parte es incorrecta. Una correlación alta no demuestra causalidad por sí sola.
Para hablar de causalidad se necesita más información, como el diseño del estudio, control de variables externas y una justificación contextual sólida.
Respuesta: \(r=0{,}95\) indica relación lineal positiva fuerte, pero no demuestra causalidad automáticamente.
Ejercicio 4
Supón que en un conjunto de datos todos los valores de \(x\) son iguales, pero los valores de \(y\) cambian.
¿Se puede calcular el coeficiente de correlación de Pearson? Justifica.
No se puede calcular Pearson \(r\) en ese caso.
Si todos los valores de \(x\) son iguales, entonces \(x\) no tiene dispersión. Por lo tanto:
\[ s_x=0 \]
Como la fórmula de Pearson divide por \(s_xs_y\), aparecería una división por cero.
Además, si \(x\) no varía, no tiene sentido estudiar si al cambiar \(x\), \(y\) tiende a aumentar o disminuir.
Respuesta: no se puede calcular, porque la desviación estándar de \(x\) es cero.
Cierre
El coeficiente de correlación de Pearson nace de una idea simple: observar si dos variables se desvían de sus medias en el mismo sentido o en sentidos opuestos.
La covarianza mide ese movimiento conjunto, pero depende de las unidades. Al dividir por las desviaciones estándar de ambas variables, se obtiene una medida estandarizada entre \(-1\) y \(1\).
Por eso, Pearson \(r\) resume la fuerza y el sentido de una relación lineal, pero debe interpretarse siempre en contexto y sin confundir correlación con causalidad.
