7. La formula de pearson ( profundización)

Profundización: ¿de dónde sale el coeficiente de correlación de Pearson?

Objetivos

  • Comprender el coeficiente de correlación de Pearson como una covarianza estandarizada.
  • Explicar por qué la fórmula de Pearson queda entre \(-1\) y \(1\).
  • Reconocer que, en el contexto escolar y en evaluaciones estandarizadas como PAES, suele ser más importante interpretar \(r\) que calcularlo manualmente con la fórmula completa.

Antes de comenzar

Esta página es de profundización. Su objetivo es entender de dónde nace la fórmula del coeficiente de correlación de Pearson.

En el contexto de educación media, y especialmente en preguntas tipo PAES M2, es mucho más probable que se evalúe la interpretación de \(r\), la lectura de nubes de puntos, la comparación de valores y el análisis crítico de conclusiones, antes que el cálculo manual completo de la fórmula.

La pregunta central

Cuando observamos una nube de puntos, queremos responder preguntas como:

  • ¿Las variables tienden a aumentar juntas?
  • ¿Cuando una aumenta, la otra tiende a disminuir?
  • ¿La relación parece fuerte, débil o casi nula?

El coeficiente de correlación de Pearson busca transformar esa lectura visual en un número entre \(-1\) y \(1\).

Idea general

El coeficiente de correlación de Pearson puede entenderse como:

\[ r=\frac{\text{covarianza entre }x\text{ e }y}{\text{desviación estándar de }x\cdot \text{desviación estándar de }y} \]

Es decir:

\[ r=\frac{s_{xy}}{s_xs_y} \]

Por eso se dice que \(r\) es una covarianza estandarizada.

Primera idea: desviarse respecto de la media

Supongamos que tenemos pares de datos:

\[ (x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n) \]

Para estudiar la relación entre \(x\) e \(y\), no miramos solo los valores originales. Primero observamos cuánto se aleja cada dato de su media:

\[ x_i-\bar{x} \]

\[ y_i-\bar{y} \]

Si \(x_i-\bar{x}\) es positivo, entonces ese valor de \(x\) está sobre el promedio de \(x\).

Si \(x_i-\bar{x}\) es negativo, entonces ese valor de \(x\) está bajo el promedio de \(x\).

Segunda idea: multiplicar desviaciones

La expresión clave es:

\[ (x_i-\bar{x})(y_i-\bar{y}) \]

Este producto permite saber si las dos variables se alejan de sus medias en el mismo sentido o en sentidos opuestos.

Situación Producto Interpretación
\(x_i\) sobre su media e \(y_i\) sobre su media \((+)(+)=+\) Ambas variables están altas respecto de sus promedios.
\(x_i\) bajo su media e \(y_i\) bajo su media \((-)(-)=+\) Ambas variables están bajas respecto de sus promedios.
\(x_i\) sobre su media e \(y_i\) bajo su media \((+)(-)=-\) Las variables se mueven en sentidos opuestos.
\(x_i\) bajo su media e \(y_i\) sobre su media \((-)(+)=-\) Las variables se mueven en sentidos opuestos.

Si la mayoría de estos productos son positivos, la relación tiende a ser positiva.

Si la mayoría son negativos, la relación tiende a ser negativa.

Covarianza muestral

La covarianza muestral entre \(x\) e \(y\) se puede escribir como:

\[ s_{xy}=\frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y}) \]

La covarianza mide si las variables tienden a moverse juntas o en sentidos opuestos.

  • Si \(s_{xy}>0\), las variables tienden a moverse en el mismo sentido.
  • Si \(s_{xy}<0\), las variables tienden a moverse en sentidos opuestos.
  • Si \(s_{xy}\approx 0\), no se observa una relación lineal clara.

Problema de la covarianza

La covarianza depende de las unidades de medida.

Por ejemplo, si el ingreso se mide en pesos o en miles de pesos, el valor numérico de la covarianza cambia, aunque la relación entre las variables sea la misma.

Por eso necesitamos una medida sin unidades y más fácil de comparar.

Desviaciones estándar

Para quitar el efecto de las unidades, se divide la covarianza por las desviaciones estándar de ambas variables.

La desviación estándar muestral de \(x\) es:

\[ s_x=\sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2} \]

La desviación estándar muestral de \(y\) es:

\[ s_y=\sqrt{\frac{1}{n-1}\sum (y_i-\bar{y})^2} \]

Entonces:

\[ r=\frac{s_{xy}}{s_xs_y} \]

Desarrollo de la fórmula

Partimos desde:

\[ r=\frac{s_{xy}}{s_xs_y} \]

Reemplazamos la covarianza y las desviaciones estándar:

\[ r= \frac{ \frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y}) } { \sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2} \sqrt{\frac{1}{n-1}\sum (y_i-\bar{y})^2} } \]

En el denominador aparece:

\[ \sqrt{\frac{1}{n-1}}\cdot \sqrt{\frac{1}{n-1}}=\frac{1}{n-1} \]

Por lo tanto, el factor \(\frac{1}{n-1}\) aparece arriba y abajo, y se cancela.

Así se obtiene la forma más conocida:

\[ r= \frac{\sum (x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}} \]

Interpretación de la fórmula

La fórmula se puede leer así:

\[ r= \frac{\text{movimiento conjunto de }x\text{ e }y} {\text{dispersión de }x\cdot\text{dispersión de }y} \]

El numerador mide si las variables se desvían juntas de sus medias.

El denominador ajusta el resultado según la dispersión de cada variable.

Por eso \(r\) no tiene unidades y siempre queda entre \(-1\) y \(1\).

Ejemplo guiado con pocos datos

Consideremos los siguientes datos:

Dato \(x\) \(y\)
A 1 2
B 2 3
C 3 5
D 4 6

Calculamos las medias:

\[ \bar{x}=\frac{1+2+3+4}{4}=2{,}5 \]

\[ \bar{y}=\frac{2+3+5+6}{4}=4 \]

\(x_i\) \(y_i\) \(x_i-\bar{x}\) \(y_i-\bar{y}\) \((x_i-\bar{x})(y_i-\bar{y})\) \((x_i-\bar{x})^2\) \((y_i-\bar{y})^2\)
1 2 \(-1{,}5\) \(-2\) \(3\) \(2{,}25\) \(4\)
2 3 \(-0{,}5\) \(-1\) \(0{,}5\) \(0{,}25\) \(1\)
3 5 \(0{,}5\) \(1\) \(0{,}5\) \(0{,}25\) \(1\)
4 6 \(1{,}5\) \(2\) \(3\) \(2{,}25\) \(4\)

Sumamos las columnas necesarias:

\[ \sum (x_i-\bar{x})(y_i-\bar{y})=3+0{,}5+0{,}5+3=7 \]

\[ \sum (x_i-\bar{x})^2=2{,}25+0{,}25+0{,}25+2{,}25=5 \]

\[ \sum (y_i-\bar{y})^2=4+1+1+4=10 \]

Reemplazamos en la fórmula:

\[ r=\frac{7}{\sqrt{5}\sqrt{10}} \]

\[ r=\frac{7}{\sqrt{50}} \]

\[ r\approx \frac{7}{7{,}07}\approx 0{,}99 \]

El valor de \(r\) es positivo y cercano a \(1\), por lo que existe una relación lineal positiva muy fuerte.

Otra mirada: datos estandarizados

También se puede entender \(r\) usando puntajes estandarizados:

\[ z_x=\frac{x_i-\bar{x}}{s_x} \]

\[ z_y=\frac{y_i-\bar{y}}{s_y} \]

Estos valores indican cuántas desviaciones estándar se aleja cada dato de su media.

Desde esta mirada, \(r\) compara si los valores estandarizados de \(x\) e \(y\) tienden a tener el mismo signo o signos opuestos.

Condición necesaria

El coeficiente de Pearson no está definido si una de las variables no varía.

Por ejemplo, si todos los valores de \(x\) son iguales, entonces \(s_x=0\), y no se puede dividir por cero.

Por eso, para calcular \(r\), ambas variables deben tener variabilidad.

Ejercicio 1

Explica con tus palabras por qué Pearson \(r\) se puede entender como una covarianza estandarizada.

Ejercicio 2

Un estudiante pregunta por qué en la fórmula final de Pearson no aparece dividido por \(n-1\), aunque la covarianza y las desviaciones estándar muestrales sí usan \(n-1\).

Responde explicando la cancelación.

Ejercicio 3

Observa la siguiente afirmación:

“Si \(r=0{,}95\), entonces la relación es positiva fuerte y necesariamente una variable causa a la otra”.

Evalúa la afirmación.

Ejercicio 4

Supón que en un conjunto de datos todos los valores de \(x\) son iguales, pero los valores de \(y\) cambian.

¿Se puede calcular el coeficiente de correlación de Pearson? Justifica.

Cierre

El coeficiente de correlación de Pearson nace de una idea simple: observar si dos variables se desvían de sus medias en el mismo sentido o en sentidos opuestos.

La covarianza mide ese movimiento conjunto, pero depende de las unidades. Al dividir por las desviaciones estándar de ambas variables, se obtiene una medida estandarizada entre \(-1\) y \(1\).

Por eso, Pearson \(r\) resume la fuerza y el sentido de una relación lineal, pero debe interpretarse siempre en contexto y sin confundir correlación con causalidad.