Variables correlacion y causalidad
6. Coeficiente de correlación de Pearson II [cálculo con apoyo tecnológico] (PAES M2)
Objetivos
- Calcular el coeficiente de correlación de Pearson \(r\) usando apoyo tecnológico.
- Organizar datos bivariados en una tabla para analizarlos con planilla de cálculo o calculadora.
- Interpretar el valor obtenido de \(r\) en el contexto de una situación.
¿Por qué usar apoyo tecnológico?
El coeficiente de correlación de Pearson se puede calcular manualmente, pero el procedimiento puede ser largo cuando hay muchos datos.
En estadística aplicada, es común usar herramientas como planillas de cálculo, calculadoras o software estadístico para obtener \(r\) con mayor rapidez y precisión.
Lo importante no es solo obtener el número, sino interpretarlo correctamente.
Datos bivariados
Para calcular el coeficiente de correlación de Pearson se necesitan pares de datos de la forma:
\[ (x_1,y_1), (x_2,y_2), (x_3,y_3), \ldots, (x_n,y_n) \]
Cada par representa una observación de dos variables cuantitativas.
Por ejemplo, si \(x\) representa porcentaje de asistencia e \(y\) representa puntaje, cada estudiante aporta un par \((x,y)\).
Procedimiento con planilla de cálculo
- Escribe los valores de la variable \(x\) en una columna.
- Escribe los valores de la variable \(y\) en una segunda columna.
- Verifica que cada par \((x,y)\) esté en la misma fila.
- Usa la función de correlación de la planilla.
- Interpreta el valor obtenido según su signo y cercanía a \(1\), \(-1\) o \(0\).
En muchas planillas se puede usar una función como:
\[ \text{CORREL(rango\_x; rango\_y)} \]
Importante
El resultado tecnológico debe revisarse en contexto.
Un valor de \(r\) positivo, negativo o cercano a cero debe coincidir con la forma general de la nube de puntos.
Si el valor obtenido contradice completamente el gráfico, conviene revisar si los datos fueron ingresados correctamente.
Ejemplo 1: cálculo e interpretación de \(r\)
La siguiente tabla muestra el porcentaje de asistencia y el puntaje obtenido por ocho estudiantes en una evaluación común.
| Estudiante | Asistencia \(x\) (%) | Puntaje \(y\) |
|---|---|---|
| A | 64 | 498 |
| B | 70 | 525 |
| C | 73 | 540 |
| D | 78 | 568 |
| E | 82 | 584 |
| F | 86 | 610 |
| G | 91 | 638 |
| H | 95 | 655 |
Al ingresar los datos en una planilla y calcular la correlación entre ambas columnas, se obtiene aproximadamente:
\[ r\approx 0{,}997 \]
Este valor es positivo y muy cercano a \(1\).
Por lo tanto, se interpreta como una relación lineal positiva muy fuerte entre el porcentaje de asistencia y el puntaje obtenido.
En contexto, los estudiantes con mayor asistencia tienden a obtener mayores puntajes en este conjunto de datos.
Ejemplo 2: relación negativa
La siguiente tabla muestra el tiempo promedio de espera en atención al cliente y el nivel de satisfacción reportado por usuarios en una escala de 1 a 100.
| Sucursal | Tiempo de espera \(x\) en minutos | Satisfacción \(y\) |
|---|---|---|
| A | 4 | 91 |
| B | 6 | 86 |
| C | 9 | 79 |
| D | 11 | 73 |
| E | 14 | 69 |
| F | 18 | 58 |
| G | 21 | 51 |
| H | 25 | 45 |
Al calcular el coeficiente de correlación con apoyo tecnológico, se obtiene aproximadamente:
\[ r\approx -0{,}99 \]
El valor es negativo y muy cercano a \(-1\).
Por lo tanto, existe una relación lineal negativa muy fuerte: a mayor tiempo de espera, menor tiende a ser el nivel de satisfacción.
Interpretación del valor obtenido
| Valor aproximado de \(r\) | Lectura general |
|---|---|
| \(r\) cercano a \(1\) | Relación lineal positiva fuerte. |
| \(r\) cercano a \(-1\) | Relación lineal negativa fuerte. |
| \(r\) cercano a \(0\) | Relación lineal débil o nula. |
Ejemplo 3: revisar si el resultado tiene sentido
La siguiente tabla relaciona un código interno asignado a estudiantes con el puntaje obtenido en una prueba.
| Estudiante | Código interno \(x\) | Puntaje \(y\) |
|---|---|---|
| A | 101 | 68 |
| B | 104 | 51 |
| C | 109 | 77 |
| D | 113 | 60 |
| E | 118 | 73 |
| F | 122 | 57 |
| G | 127 | 82 |
| H | 131 | 62 |
Al calcular \(r\) con apoyo tecnológico, se obtiene un valor bajo en magnitud.
Esto coincide con la nube de puntos: no se observa una relación lineal clara entre el código interno y el puntaje.
Este ejemplo muestra que el valor de \(r\) debe leerse junto con el contexto. Aunque una planilla entregue un número, no todas las variables tienen una relación estadística relevante.
Error común
No basta con copiar el valor que entrega la herramienta.
En una respuesta completa se debe interpretar el resultado en contexto, mencionando las variables estudiadas, el signo de \(r\), su fuerza aproximada y una advertencia si corresponde.
Ejercicio 1
En una investigación escolar se estudió la relación entre el porcentaje de asistencia a clases y el puntaje obtenido en una prueba común. Los datos fueron ingresados en una planilla de cálculo.
| Estudiante | Asistencia \(x\) (%) | Puntaje \(y\) |
|---|---|---|
| A | 64 | 498 |
| B | 70 | 525 |
| C | 73 | 540 |
| D | 78 | 568 |
| E | 82 | 584 |
| F | 86 | 610 |
| G | 91 | 638 |
| H | 95 | 655 |
Al usar la función de correlación en una planilla, se obtiene:
\[ r\approx 0{,}997 \]
- Interpreta el valor de \(r\) en contexto.
- Explica por qué no basta con escribir solamente “\(r=0{,}997\)”.
- Indica una variable externa que podría influir en la relación observada.
El valor de \(r\) es positivo, por lo que la relación lineal entre asistencia y puntaje tiene sentido positivo.
Además, \(0{,}997\) está muy cerca de \(1\), por lo que la relación lineal es muy fuerte.
En contexto, esto significa que, en este grupo de datos, los estudiantes con mayor porcentaje de asistencia tienden a obtener mayores puntajes.
No basta con escribir solo \(r=0{,}997\), porque el número debe interpretarse según su signo, su cercanía a \(1\), \(-1\) o \(0\), y las variables estudiadas.
Además, no se debe afirmar automáticamente causalidad. Podrían influir variables como conocimientos previos, hábitos de estudio, apoyo familiar, calidad de la preparación o asistencia a talleres.
Respuesta: existe una relación lineal positiva muy fuerte entre asistencia y puntaje, pero el resultado debe interpretarse en contexto y sin afirmar causalidad automática.
Ejercicio 2
Una planilla entrega los siguientes coeficientes de correlación para cuatro estudios distintos.
| Estudio | Variables | Valor de \(r\) |
|---|---|---|
| A | Horas de estudio y puntaje obtenido | \(0{,}86\) |
| B | Tiempo de traslado y tiempo disponible para estudiar | \(-0{,}72\) |
| C | Código interno de estudiante y promedio semestral | \(0{,}03\) |
| D | Tiempo de espera y satisfacción de usuarios | \(-0{,}94\) |
Ordena los estudios desde la relación lineal más débil hasta la más fuerte. Justifica usando el valor absoluto de \(r\).
Para comparar la fuerza de las relaciones lineales, se considera la distancia de \(r\) respecto de \(0\), es decir, el valor absoluto:
\[ |0{,}86|=0{,}86 \]
\[ |-0{,}72|=0{,}72 \]
\[ |0{,}03|=0{,}03 \]
\[ |-0{,}94|=0{,}94 \]
Desde la relación más débil hasta la más fuerte:
\[ C,\ B,\ A,\ D \]
El estudio C es el más débil porque \(r=0{,}03\) está muy cerca de \(0\). El estudio D es el más fuerte porque \(-0{,}94\) está muy cerca de \(-1\).
Respuesta: \(C,\ B,\ A,\ D\).
Ejercicio 3
Un estudiante ingresó en una planilla los datos de dos variables y obtuvo:
\[ r=-0{,}89 \]
Luego escribió la siguiente interpretación:
“La relación es débil porque el resultado es negativo”.
Corrige la interpretación del estudiante y explica el error conceptual.
La interpretación del estudiante es incorrecta porque confunde el signo de \(r\) con la fuerza de la relación.
El signo negativo indica el sentido de la relación: cuando una variable aumenta, la otra tiende a disminuir.
La fuerza se analiza observando qué tan cerca está \(r\) de \(-1\) o de \(1\). Como \(-0{,}89\) está bastante cerca de \(-1\), la relación lineal es fuerte.
La interpretación correcta es que \(r=-0{,}89\) representa una relación lineal negativa fuerte.
Respuesta: no es una relación débil; es una relación lineal negativa fuerte.
Ejercicio 4
En una encuesta se registró la cantidad de horas semanales dedicadas a trabajo remunerado y el promedio de horas de sueño por noche en estudiantes de 4° medio.
| Estudiante | Horas de trabajo semanal \(x\) | Horas de sueño por noche \(y\) |
|---|---|---|
| A | 0 | 8,1 |
| B | 4 | 7,8 |
| C | 6 | 7,4 |
| D | 9 | 7,1 |
| E | 12 | 6,8 |
| F | 15 | 6,2 |
| G | 18 | 6,0 |
| H | 22 | 5,6 |
Con apoyo tecnológico se obtiene:
\[ r\approx -0{,}99 \]
Interpreta este resultado y redacta una conclusión cuidadosa, evitando afirmar causalidad absoluta.
El valor de \(r\) es negativo, por lo que la relación lineal tiene sentido negativo.
Además, \(-0{,}99\) está muy cerca de \(-1\), lo que indica una relación lineal negativa muy fuerte.
En contexto, a mayor cantidad de horas semanales de trabajo remunerado, menor tiende a ser el promedio de horas de sueño por noche.
Sin embargo, esta correlación no demuestra por sí sola que el trabajo sea la única causa de dormir menos. También podrían influir tiempo de traslado, responsabilidades familiares, hábitos personales, salud o carga académica.
Respuesta: existe una relación lineal negativa muy fuerte entre horas de trabajo semanal y horas de sueño, pero no se debe afirmar causalidad absoluta solo con el valor de \(r\).
Ejercicio 5
Un curso calculó el coeficiente de correlación entre dos variables y obtuvo \(r\approx 0\). La nube de puntos, sin embargo, muestra un patrón curvo muy marcado.
¿Es contradictorio que \(r\) sea cercano a \(0\) si visualmente hay un patrón claro? Explica considerando qué mide Pearson.
No necesariamente es contradictorio.
El coeficiente de correlación de Pearson mide principalmente relación lineal, es decir, qué tan bien se aproximan los puntos a una recta creciente o decreciente.
En este caso, los puntos siguen un patrón curvo, no lineal. Por eso, aunque visualmente existe una relación clara entre \(x\) e \(y\), Pearson puede dar un valor cercano a \(0\).
Esto muestra que antes de interpretar \(r\), conviene observar la nube de puntos.
Respuesta: no es contradictorio; \(r\) puede ser cercano a \(0\) porque Pearson mide relación lineal, y el patrón observado es curvo.
Ejercicio 6
Una estudiante calculó \(r\) en una planilla para dos columnas de datos. La nube de puntos era claramente creciente, pero la planilla entregó:
\[ r\approx -0{,}91 \]
Indica dos posibles errores de ingreso o selección de datos que podrían explicar esta contradicción entre el gráfico y el resultado.
Si la nube de puntos es claramente creciente, se esperaría un valor positivo de \(r\). Un resultado negativo fuerte contradice la lectura visual, por lo que conviene revisar el procedimiento.
Posibles errores son:
- Seleccionar una columna incorrecta al usar la función de correlación.
- Ordenar una columna de datos sin ordenar la otra, rompiendo los pares \((x,y)\) originales.
- Ingresar algunos valores con signo incorrecto.
- Copiar un rango incompleto o desplazado en la planilla.
La revisión debe asegurar que cada valor de \(x\) siga emparejado con su correspondiente valor de \(y\).
Respuesta posible: pudo seleccionar rangos incorrectos o haber ordenado solo una columna, alterando los pares de datos.
Ejercicio 7
En una planilla se comparan dos grupos de datos sobre ingreso familiar mensual y gasto mensual en alimentación.
| Grupo | Coeficiente \(r\) | Descripción de la nube |
|---|---|---|
| Grupo A | \(0{,}91\) | Los puntos siguen una tendencia creciente bastante clara. |
| Grupo B | \(0{,}42\) | Los puntos tienden a subir, pero con alta dispersión. |
Compara ambos grupos. ¿Qué grupo permite hacer una predicción lineal más confiable? Justifica sin calcular una recta de regresión.
El Grupo A permite hacer una predicción lineal más confiable que el Grupo B.
Esto se debe a que \(r=0{,}91\) indica una relación lineal positiva fuerte, por lo que los puntos están más próximos a una tendencia lineal.
En cambio, \(r=0{,}42\) indica una relación positiva más débil o moderada, con mayor dispersión. Aunque exista una tendencia creciente, las predicciones basadas en una recta serían menos estables.
Sin embargo, incluso en el Grupo A las predicciones deben entenderse como estimaciones, no como valores exactos.
Respuesta: el Grupo A, porque su correlación lineal es más fuerte y la dispersión es menor.
Cierre
El apoyo tecnológico permite calcular \(r\) de manera rápida, pero el análisis estadístico no termina con el resultado numérico.
Una interpretación completa debe considerar el signo, la fuerza, el contexto, la forma de la nube de puntos y posibles errores de ingreso de datos.