Variables correlacion y causalidad
5. Coeficiente de correlación de Pearson I [sentido del indicador] (PAES M2)
Objetivos
- Comprender que el coeficiente de correlación de Pearson mide el sentido y la fuerza de una relación lineal entre dos variables cuantitativas.
- Interpretar el signo del coeficiente de correlación de Pearson.
- Relacionar el valor de \(r\) con la forma de una nube de puntos.
¿Qué mide el coeficiente de correlación de Pearson?
El coeficiente de correlación de Pearson, representado por la letra \(r\), es un número que permite describir una relación lineal entre dos variables cuantitativas.
Este coeficiente entrega información sobre dos aspectos:
- Sentido de la relación: si la relación lineal es positiva o negativa.
- Fuerza de la relación: qué tan cerca están los puntos de una tendencia lineal.
Rango de valores de \(r\)
El coeficiente de correlación de Pearson siempre cumple:
\[ -1 \leq r \leq 1 \]
| Valor de \(r\) | Interpretación general |
|---|---|
| \(r>0\) | Relación lineal positiva. |
| \(r<0\) | Relación lineal negativa. |
| \(r\approx 0\) | No se observa relación lineal clara. |
| \(r=1\) | Relación lineal positiva perfecta. |
| \(r=-1\) | Relación lineal negativa perfecta. |
Importante
El coeficiente \(r\) mide relación lineal. Si los datos siguen una curva, el valor de \(r\) puede no representar bien la relación, aunque visualmente exista un patrón.
Ejemplo 1: relación positiva y valor de \(r\)
La siguiente nube de puntos relaciona sesiones de preparación semanal con puntaje obtenido.
Los puntos suben hacia la derecha y están bastante cercanos a una tendencia lineal.
Por eso, se espera que el coeficiente \(r\) sea positivo y cercano a \(1\).
Una interpretación adecuada sería:
“Existe una relación lineal positiva fuerte entre las sesiones de preparación semanal y el puntaje obtenido.”
Ejemplo 2: relación negativa y valor de \(r\)
La siguiente nube de puntos relaciona la antigüedad de un computador con su valor estimado de reventa.
Los puntos bajan hacia la derecha y siguen una tendencia lineal clara.
Por eso, se espera que el coeficiente \(r\) sea negativo y cercano a \(-1\).
Una interpretación adecuada sería:
“Existe una relación lineal negativa fuerte entre la antigüedad del computador y su valor estimado.”
Ejemplo 3: relación lineal débil o nula
La siguiente nube de puntos relaciona un código interno asignado a estudiantes con el puntaje obtenido en una evaluación.
Los puntos no muestran una tendencia lineal clara.
Por eso, se espera que el coeficiente \(r\) sea cercano a \(0\).
Una interpretación adecuada sería:
“No se observa una relación lineal clara entre el código interno del estudiante y el puntaje obtenido.”
Cómo interpretar rápidamente el signo de \(r\)
- Si la nube sube hacia la derecha, entonces \(r\) es positivo.
- Si la nube baja hacia la derecha, entonces \(r\) es negativo.
- Si la nube no muestra dirección lineal clara, entonces \(r\) está cerca de \(0\).
Ejemplo 4: comparar valores posibles de \(r\)
Observa los siguientes valores posibles para el coeficiente de correlación:
\[ r=0{,}94 \qquad r=-0{,}91 \qquad r=0{,}08 \]
Según el signo y la cercanía a \(1\), \(-1\) o \(0\), se interpretan así:
| Valor de \(r\) | Interpretación |
|---|---|
| \(0{,}94\) | Relación lineal positiva fuerte. |
| \(-0{,}91\) | Relación lineal negativa fuerte. |
| \(0{,}08\) | Relación lineal muy débil o prácticamente nula. |
El signo indica el sentido de la relación, mientras que la cercanía a \(1\) o \(-1\) indica mayor fuerza lineal.
Error común
No se debe interpretar \(r=0{,}90\) como “90% de causalidad”.
El valor de \(r\) mide asociación lineal entre dos variables, pero no demuestra por sí solo que una variable cause la otra.
Ejercicio 1
En un estudio comunal se registró el porcentaje de hogares con acceso a internet fijo y el porcentaje de estudiantes que declaró usar plataformas educativas al menos tres veces por semana.
| Comuna | Acceso a internet fijo \(x\) (%) | Uso frecuente de plataformas \(y\) (%) |
|---|---|---|
| A | 42 | 31 |
| B | 48 | 36 |
| C | 55 | 43 |
| D | 61 | 50 |
| E | 68 | 56 |
| F | 73 | 64 |
| G | 79 | 69 |
| H | 84 | 76 |
Sin calcular \(r\), responde:
- ¿Qué signo debería tener el coeficiente de correlación de Pearson?
- ¿Esperarías que su valor esté más cerca de \(1\), de \(0\) o de \(-1\)?
- Redacta una interpretación contextualizada evitando afirmar causalidad.
La nube de puntos muestra una tendencia creciente: a mayor porcentaje de hogares con acceso a internet fijo, mayor tiende a ser el porcentaje de estudiantes que usa frecuentemente plataformas educativas.
Por lo tanto, el coeficiente \(r\) debería ser positivo.
Además, los puntos están bastante próximos a una tendencia lineal creciente, por lo que se esperaría que \(r\) esté más cerca de \(1\) que de \(0\).
No corresponde afirmar automáticamente que el acceso a internet fijo causa el uso frecuente de plataformas, porque podrían influir otras variables como nivel socioeconómico, disponibilidad de dispositivos, políticas escolares o acompañamiento familiar.
Respuesta: \(r\) debería ser positivo y cercano a \(1\). En estos datos, las comunas con mayor acceso a internet fijo tienden a presentar mayor uso frecuente de plataformas educativas.
Ejercicio 2
Una empresa analiza la relación entre el tiempo promedio de espera en atención al cliente y el nivel de satisfacción reportado por usuarios en una escala de 1 a 100.
| Sucursal | Tiempo de espera \(x\) en minutos | Satisfacción \(y\) |
|---|---|---|
| A | 4 | 91 |
| B | 6 | 86 |
| C | 9 | 79 |
| D | 11 | 73 |
| E | 14 | 69 |
| F | 18 | 58 |
| G | 21 | 51 |
| H | 25 | 45 |
Selecciona cuál de los siguientes valores podría representar mejor la relación observada y justifica tu elección:
\[ r=0{,}91 \qquad r=-0{,}94 \qquad r=-0{,}18 \qquad r=0{,}06 \]
La relación observada es negativa: al aumentar el tiempo de espera, la satisfacción tiende a disminuir.
Además, los puntos siguen una tendencia descendente bastante clara, por lo que se espera una correlación lineal negativa fuerte.
Entre las opciones, \(r=-0{,}94\) es el valor que mejor representa una relación negativa fuerte.
\(r=0{,}91\) sería positivo, por lo que no corresponde. \(r=-0{,}18\) sería negativo pero débil, y \(r=0{,}06\) indicaría una relación lineal casi nula.
Respuesta: \(r=-0{,}94\), porque la nube muestra una relación lineal negativa fuerte.
Ejercicio 3
Se presentan cuatro valores posibles de \(r\), obtenidos en distintos estudios:
| Estudio | Valor de \(r\) | Variables analizadas |
|---|---|---|
| A | \(0{,}87\) | Horas de preparación y puntaje en una prueba de selección. |
| B | \(-0{,}91\) | Antigüedad de maquinaria y valor de reventa. |
| C | \(0{,}12\) | Código interno de estudiante y promedio semestral. |
| D | \(-0{,}46\) | Tiempo de traslado y horas disponibles para estudio. |
Ordena los estudios desde la relación lineal más débil hasta la más fuerte. Luego indica el sentido de cada relación.
Para comparar la fuerza de la relación lineal no se mira solo el signo, sino la distancia de \(r\) respecto de \(0\). Por eso comparamos valores absolutos:
\[ |0{,}87|=0{,}87,\quad |-0{,}91|=0{,}91,\quad |0{,}12|=0{,}12,\quad |-0{,}46|=0{,}46 \]
Desde la relación lineal más débil hasta la más fuerte:
\[ C,\ D,\ A,\ B \]
El estudio C tiene relación positiva muy débil; el D, negativa moderada; el A, positiva fuerte; y el B, negativa fuerte.
Respuesta: \(C\), \(D\), \(A\), \(B\). Sus sentidos son positivo débil, negativo moderado, positivo fuerte y negativo fuerte, respectivamente.
Ejercicio 4
Una nube de puntos muestra una relación creciente, pero no lineal, entre dos variables. Los datos siguen el siguiente patrón:
Un estudiante afirma: “Como los datos tienen un patrón claro, el coeficiente de Pearson necesariamente debe describir completamente la relación”.
Evalúa la afirmación considerando qué mide el coeficiente \(r\).
La afirmación es incompleta.
Es cierto que los datos muestran un patrón creciente claro: cuando \(x\) aumenta, \(y\) también aumenta.
Sin embargo, el patrón no parece lineal. Los aumentos en \(y\) son cada vez mayores, por lo que la nube se curva hacia arriba.
El coeficiente de Pearson mide principalmente la fuerza de una relación lineal. Por eso, un patrón puede ser claro en sentido general, pero no quedar completamente descrito por \(r\).
En este caso, antes de interpretar \(r\), es necesario observar la nube de puntos y reconocer que el patrón no parece ajustarse bien a una recta.
Respuesta: \(r\) mide relación lineal; estos datos tienen un patrón creciente no lineal, por lo que Pearson no describe completamente la relación.
Ejercicio 5
Un informe entrega los siguientes resultados:
| Relación estudiada | Coeficiente \(r\) | Conclusión propuesta |
|---|---|---|
| Temperatura diaria y consumo de agua potable. | \(0{,}78\) | “La temperatura causa el 78% del consumo de agua”. |
| Distancia al centro de la ciudad y precio del arriendo. | \(-0{,}69\) | “A mayor distancia al centro, el arriendo tiende a ser menor”. |
| Código interno de estudiante y promedio semestral. | \(0{,}04\) | “No se observa una relación lineal clara”. |
Identifica cuál conclusión está mal redactada y corrígela. Luego justifica usando el significado de \(r\).
La conclusión mal redactada es la primera.
El valor \(r=0{,}78\) no significa que la temperatura cause el \(78\%\) del consumo de agua. Tampoco demuestra causalidad por sí solo.
Una redacción más correcta sería:
“En estos datos, se observa una relación lineal positiva relativamente fuerte entre temperatura diaria y consumo de agua potable: a mayor temperatura, mayor tiende a ser el consumo”.
La segunda conclusión es adecuada porque interpreta una relación negativa usando “tiende a”. La tercera también es adecuada porque \(r=0{,}04\) está muy cerca de \(0\), lo que indica ausencia de relación lineal clara.
Respuesta: la conclusión incorrecta es la primera; \(r\) no se interpreta como porcentaje de causalidad.
Ejercicio 6
En una prueba tipo PAES M2 se muestra la siguiente nube de puntos y se pregunta por el signo esperado de \(r\).
¿Cuál de las siguientes afirmaciones es necesariamente falsa?
- El coeficiente \(r\) debería ser negativo.
- Si los puntos están cerca de una recta descendente, \(|r|\) debería ser relativamente grande.
- El coeficiente \(r\) debería estar cerca de \(1\).
- La relación observada es lineal negativa.
La nube de puntos baja hacia la derecha. Por lo tanto, el coeficiente \(r\) debería ser negativo.
Además, como los puntos están cerca de una dirección descendente, la magnitud \(|r|\) debería ser relativamente grande, es decir, \(r\) debería estar cerca de \(-1\), no de \(1\).
La afirmación necesariamente falsa es la 3, porque un valor cercano a \(1\) indica relación lineal positiva fuerte.
Respuesta: la afirmación falsa es la 3.
Ejercicio 7
Un estudiante interpreta \(r=-0{,}82\) diciendo:
“La relación es baja porque el número es menor que cero”.
Corrige la interpretación y explica el error conceptual.
El error consiste en confundir signo con fuerza.
El signo negativo no indica que la relación sea baja; indica que la relación lineal es decreciente.
Para analizar la fuerza, se observa qué tan cerca está \(r\) de \(-1\) o de \(1\). Como \(-0{,}82\) está relativamente cerca de \(-1\), la relación lineal es fuerte.
La interpretación correcta es: \(r=-0{,}82\) indica una relación lineal negativa fuerte.
Respuesta: \(r=-0{,}82\) no es una relación baja; es una relación lineal negativa fuerte.
Cierre
El coeficiente de correlación de Pearson permite resumir el sentido y la fuerza de una relación lineal.
El signo de \(r\) indica si la relación lineal es positiva o negativa, mientras que su cercanía a \(1\) o \(-1\) indica mayor fuerza lineal.
Antes de interpretar \(r\), siempre conviene observar la nube de puntos y recordar que correlación no implica causalidad.