Variables correlacion y causalidad
3. Correlación intuitiva [fuerza y sentido de la relación]
Objetivos
- Reconocer intuitivamente la fuerza de una relación entre dos variables cuantitativas.
- Distinguir entre relaciones fuertes, moderadas, débiles y nulas a partir de una nube de puntos.
- Describir el sentido y la fuerza de una relación usando lenguaje estadístico contextualizado.
¿Qué entendemos por correlación?
La correlación describe cómo se relacionan dos variables cuantitativas.
Antes de calcular un valor numérico, podemos observar una nube de puntos y analizar dos aspectos:
- Sentido: si la relación es positiva, negativa o nula.
- Fuerza: si los puntos siguen una tendencia de manera fuerte, moderada o débil.
Fuerza de la relación
La fuerza de una relación se observa según qué tan cerca están los puntos de una tendencia clara.
| Fuerza | Descripción | Lectura visual |
|---|---|---|
| Fuerte | Los puntos están muy cerca de una misma tendencia. | La nube se ve ordenada y con poca dispersión. |
| Moderada | Los puntos siguen una tendencia, pero con cierta dispersión. | La dirección se reconoce, aunque no todos los puntos están muy alineados. |
| Débil | Los puntos están muy dispersos. | La tendencia existe, pero cuesta verla con claridad. |
| Nula | No se observa una tendencia clara. | Los puntos parecen estar distribuidos sin dirección definida. |
Ejemplo 1: relación positiva fuerte
La siguiente nube de puntos relaciona las horas de entrenamiento semanal con el rendimiento obtenido en una prueba física.
Los puntos suben hacia la derecha y están bastante alineados.
Esto indica una relación positiva fuerte: a mayor cantidad de horas de entrenamiento, mayor tiende a ser el rendimiento.
Ejemplo 2: relación positiva moderada
La siguiente nube de puntos relaciona las horas de preparación semanal con el puntaje obtenido en una evaluación.
La nube muestra una tendencia creciente, pero los puntos no están perfectamente alineados.
Por eso, se puede describir como una relación positiva moderada.
Ejemplo 3: relación negativa fuerte
La siguiente nube de puntos relaciona la antigüedad de un computador con su valor estimado de reventa.
Los puntos bajan hacia la derecha y se mantienen muy cerca de una tendencia clara.
Esto indica una relación negativa fuerte: a mayor antigüedad, menor tiende a ser el valor estimado.
Ejemplo 4: relación débil o casi nula
La siguiente nube de puntos relaciona un código interno asignado a estudiantes con su puntaje en una prueba.
Los puntos están dispersos y no muestran una dirección clara.
Por lo tanto, no parece haber una relación evidente entre el código interno y el puntaje.
Error común
Una relación fuerte no significa que todos los puntos deban estar exactamente sobre una línea.
En datos reales siempre puede existir variación. Lo importante es observar si la nube de puntos sigue una tendencia clara.
Cómo describir una correlación intuitivamente
Una descripción completa debe mencionar:
- Las variables que se están comparando.
- El sentido de la relación: positiva, negativa o nula.
- La fuerza de la relación: fuerte, moderada o débil.
- Una interpretación en contexto.
Por ejemplo: “Entre las horas de entrenamiento y el rendimiento se observa una relación positiva fuerte, porque al aumentar las horas de entrenamiento, el rendimiento tiende a aumentar y los puntos están poco dispersos.”
Ejercicio 1
Una investigadora estudia la relación entre el porcentaje de asistencia a clases y el puntaje obtenido en una prueba final.
| Estudiante | Asistencia \(x\) (%) | Puntaje final \(y\) |
|---|---|---|
| A | 62 | 48 |
| B | 68 | 55 |
| C | 71 | 58 |
| D | 76 | 63 |
| E | 81 | 67 |
| F | 85 | 70 |
| G | 89 | 74 |
| H | 93 | 78 |
| I | 96 | 82 |
| J | 98 | 84 |
Describe el sentido y la fuerza de la relación. Luego escribe una interpretación contextualizada, evitando afirmar causalidad absoluta.
La nube de puntos muestra una tendencia creciente: a mayor porcentaje de asistencia, mayor tiende a ser el puntaje final.
Además, los puntos están bastante próximos a una dirección lineal, por lo que la relación parece fuerte.
Sin embargo, no corresponde afirmar que la asistencia sea la única causa del puntaje, porque pueden influir otros factores como estudio personal, hábitos, evaluaciones previas o apoyo académico.
Respuesta: se observa una relación positiva fuerte. En estos datos, los estudiantes con mayor asistencia tienden a obtener puntajes más altos, aunque eso no demuestra causalidad absoluta.
Ejercicio 2
Dos comunas registraron la relación entre ingreso promedio mensual del hogar y gasto mensual en transporte. Los datos se muestran en las siguientes nubes de puntos.
| Comuna A: ingreso \(x\) | Gasto transporte \(y\) | Comuna B: ingreso \(x\) | Gasto transporte \(y\) |
|---|---|---|---|
| 500 | 62 | 500 | 44 |
| 650 | 68 | 650 | 91 |
| 800 | 75 | 800 | 57 |
| 950 | 82 | 950 | 103 |
| 1100 | 88 | 1100 | 72 |
| 1250 | 96 | 1250 | 118 |
| 1400 | 102 | 1400 | 82 |
| 1550 | 110 | 1550 | 130 |
Ambas comunas podrían mostrar una tendencia positiva. ¿En cuál la relación parece más fuerte? Justifica considerando la dispersión de los puntos.
En ambas comunas se podría observar una tendencia positiva general, porque a mayores ingresos tiende a haber mayor gasto en transporte.
Sin embargo, en la Comuna A los puntos están mucho más cercanos a una tendencia lineal. En la Comuna B los valores alternan entre altos y bajos, generando mayor dispersión.
Por lo tanto, la relación entre ingreso y gasto en transporte parece más fuerte en la Comuna A.
Respuesta: la Comuna A presenta una relación positiva más fuerte, porque sus puntos están menos dispersos y siguen una dirección más clara.
Ejercicio 3
Un estudio compara la cantidad de horas semanales de trabajo remunerado de estudiantes y su promedio de notas.
Una persona concluye: “Trabajar siempre perjudica el rendimiento académico”.
Evalúa la conclusión usando la nube de puntos. Tu respuesta debe distinguir entre tendencia, fuerza de la relación y causalidad.
La nube muestra una relación negativa fuerte: cuando aumentan las horas de trabajo semanal, el promedio de notas tiende a disminuir.
La relación parece fuerte porque los puntos siguen una dirección descendente bastante clara.
Pero la conclusión “trabajar siempre perjudica” es demasiado absoluta. Primero, una tendencia no describe necesariamente todos los casos individuales. Segundo, la nube de puntos no demuestra por sí sola causalidad.
Podrían influir otras variables, como carga familiar, tiempo de traslado, necesidad económica, salud, hábitos de estudio o apoyo escolar.
Respuesta: hay una relación negativa fuerte entre horas de trabajo y promedio, pero no se debe afirmar causalidad absoluta ni usar “siempre”.
Ejercicio 4
Una nube de puntos muestra la relación entre años de experiencia laboral y sueldo mensual. Se detecta un dato atípico:
| Persona | Experiencia \(x\) en años | Sueldo \(y\) en miles de pesos |
|---|---|---|
| A | 1 | 680 |
| B | 2 | 720 |
| C | 3 | 790 |
| D | 4 | 850 |
| E | 5 | 910 |
| F | 6 | 960 |
| G | 7 | 1010 |
| H | 8 | 1060 |
| I | 9 | 2100 |
Analiza cómo cambia la lectura de la relación si se considera el dato de la persona I. ¿Conviene eliminarlo automáticamente? Justifica.
Sin la persona I, los datos muestran una relación positiva fuerte: a mayor experiencia, mayor sueldo, con puntos bastante cercanos a una tendencia lineal.
Al incluir la persona I, aparece un dato muy alejado del patrón general. Ese punto puede aumentar la dispersión y afectar la interpretación de la fuerza de la relación.
No conviene eliminarlo automáticamente. Primero se debe investigar si corresponde a un error de registro o si representa una condición especial, como cargo directivo, comisión, bono, sector laboral distinto o jornada diferente.
Si el dato es válido, debe analizarse como parte del fenómeno o justificarse por separado.
Respuesta: el dato atípico modifica la lectura de la fuerza de la relación, pero no debe eliminarse sin justificación estadística o contextual.
Ejercicio 5
Se estudia la relación entre horas de preparación y puntaje en dos asignaturas distintas.
| Horas de preparación \(x\) | Puntaje en asignatura A | Puntaje en asignatura B |
|---|---|---|
| 1 | 44 | 51 |
| 2 | 50 | 63 |
| 3 | 57 | 55 |
| 4 | 63 | 72 |
| 5 | 69 | 60 |
| 6 | 76 | 81 |
| 7 | 82 | 66 |
| 8 | 88 | 90 |
Sin calcular \(r\), compara la fuerza de la relación entre horas de preparación y puntaje en ambas asignaturas. Explica cuál parece más estable y por qué.
En la asignatura A, los puntajes aumentan de manera bastante regular a medida que aumentan las horas de preparación.
En la asignatura B también hay valores altos cuando aumentan las horas de preparación, pero la variación es mucho mayor: por ejemplo, con \(5\) horas se obtiene \(60\), mientras que con \(4\) horas se obtiene \(72\).
Por eso, la relación parece más fuerte y estable en la asignatura A.
En la asignatura B podría existir una tendencia positiva, pero con mayor dispersión, lo que debilita la relación visual.
Respuesta: la relación es más fuerte en la asignatura A, porque los puntos siguen una tendencia creciente más ordenada y menos dispersa.
Ejercicio 6
Un equipo compara tres estudios distintos. En cada caso se describe la nube de puntos sin entregar todavía el coeficiente de correlación.
| Estudio | Descripción de la nube de puntos |
|---|---|
| A | Los puntos bajan hacia la derecha y están muy cerca de una misma dirección. |
| B | Los puntos suben hacia la derecha, pero con bastante dispersión. |
| C | Los puntos aparecen distribuidos sin una dirección clara. |
Para cada estudio, indica el sentido y la fuerza aproximada de la relación. Luego ordénalos desde la relación más fuerte hasta la más débil.
En el estudio A, los puntos bajan hacia la derecha y están muy cerca de una misma dirección. Por lo tanto, se trata de una relación negativa fuerte.
En el estudio B, los puntos suben hacia la derecha, pero con bastante dispersión. Por lo tanto, se trata de una relación positiva moderada o débil, según qué tan dispersos estén.
En el estudio C, no hay una dirección clara. Por lo tanto, la relación parece nula o muy débil.
Desde la relación más fuerte hasta la más débil, el orden más razonable es:
\[ A,\ B,\ C \]
Respuesta: A es negativa fuerte, B es positiva moderada o débil, C es nula o muy débil. El orden es \(A,\ B,\ C\).
Cierre
La correlación intuitiva permite describir una relación antes de calcular un coeficiente numérico.
Una descripción completa debe indicar el sentido de la relación, su fuerza aproximada y el contexto de las variables.
En las próximas clases se profundizará esta idea usando el coeficiente de correlación de Pearson.
