Variables correlacion y causalidad
4. Correlación no implica causalidad [advertencias e interpretación crítica]
Objetivos
- Distinguir entre relación estadística y relación causal.
- Interpretar críticamente una nube de puntos evitando conclusiones apresuradas.
- Reconocer posibles variables externas que pueden influir en una relación observada.
Relación no significa causa
Cuando dos variables presentan una tendencia en una nube de puntos, decimos que parecen estar relacionadas.
Sin embargo, una relación estadística no permite afirmar automáticamente que una variable cause la otra.
Por ejemplo, si al aumentar \(x\) también aumenta \(y\), eso no significa necesariamente que \(x\) produzca directamente el aumento de \(y\).
Advertencia fundamental
Correlación no implica causalidad.
Esto significa que dos variables pueden moverse juntas sin que una sea la causa directa de la otra.
Para afirmar causalidad se necesita más información, un diseño de estudio adecuado y controlar otros factores que podrían influir.
Tres situaciones posibles
| Situación | Interpretación |
|---|---|
| Una variable puede influir en la otra | Puede existir una relación causal, pero debe justificarse con más evidencia. |
| Puede existir una variable externa | Una tercera variable puede estar afectando a ambas variables observadas. |
| La relación puede ser coincidente | Los datos pueden mostrar una tendencia aparente sin que exista una conexión importante entre las variables. |
Ejemplo 1: plataformas educativas y puntaje
Un colegio observa una relación positiva entre las horas semanales de uso de plataformas educativas y el puntaje obtenido en una evaluación.
Se observa una relación positiva: quienes usan más horas la plataforma tienden a obtener mayores puntajes.
Pero esta información, por sí sola, no demuestra que la plataforma sea la causa directa del mayor puntaje.
También podrían influir variables como conocimientos previos, hábitos de estudio, apoyo familiar, motivación o asistencia a clases.
Una interpretación adecuada sería:
“En estos datos, los estudiantes con mayor uso de plataformas educativas tienden a obtener mayores puntajes”.
Ejemplo 2: paraguas vendidos y accidentes de tránsito
Supongamos que en una ciudad se registra una relación positiva entre la cantidad de paraguas vendidos y la cantidad de accidentes de tránsito.
La nube de puntos muestra que ambas variables aumentan juntas.
Pero sería incorrecto concluir que comprar paraguas causa accidentes.
Una explicación más razonable es que existe una variable externa: la lluvia.
Cuando llueve, pueden aumentar las ventas de paraguas y también los accidentes por calles resbaladizas o menor visibilidad.
Cómo interpretar críticamente una relación
Antes de afirmar que una variable causa otra, conviene preguntarse:
- ¿Tiene sentido contextual que una variable influya en la otra?
- ¿Podría existir una tercera variable que afecte a ambas?
- ¿La relación observada podría deberse a una coincidencia?
- ¿Los datos son suficientes para sostener una conclusión fuerte?
- ¿El estudio compara grupos equivalentes o controla variables externas?
Ejemplo 3: grupos comparables
Un colegio quiere evaluar si una nueva estrategia de estudio mejora los resultados. Para eso compara dos grupos.
| Grupo | Usó la estrategia | Promedio inicial | Promedio final |
|---|---|---|---|
| Grupo A | Sí | 5,8 | 6,3 |
| Grupo B | No | 4,7 | 5,1 |
El Grupo A termina con mayor promedio final, pero también comenzó con mayor promedio inicial.
Por eso, no basta mirar solo el promedio final para afirmar que la estrategia causó mejores resultados.
Una comparación más cuidadosa debe considerar si los grupos eran similares al inicio, si tuvieron el mismo profesor, el mismo tiempo de estudio y condiciones equivalentes.
Error común
Un error frecuente es escribir conclusiones causales solo porque el gráfico muestra una tendencia.
Por ejemplo, si dos variables aumentan juntas, no siempre corresponde decir “\(x\) provoca \(y\)”.
En estadística descriptiva, muchas veces es más correcto decir “se observa una relación entre \(x\) e \(y\)” o “\(y\) tiende a aumentar cuando \(x\) aumenta”.
Ejercicio 1
Un investigador analiza datos de distintas comunas y observa una relación positiva entre el número de cámaras de seguridad instaladas y el número de denuncias registradas durante el año.
| Comuna | Cámaras instaladas \(x\) | Denuncias registradas \(y\) | Población aproximada |
|---|---|---|---|
| A | 18 | 420 | 35 000 |
| B | 24 | 510 | 42 000 |
| C | 35 | 760 | 68 000 |
| D | 42 | 890 | 75 000 |
| E | 55 | 1180 | 102 000 |
| F | 70 | 1490 | 130 000 |
Una persona concluye: “Instalar cámaras aumenta la delincuencia, porque las comunas con más cámaras tienen más denuncias”.
Evalúa la conclusión considerando al menos una variable externa posible.
La conclusión es apresurada. La nube de puntos muestra una relación positiva entre cámaras instaladas y denuncias registradas, pero eso no implica que las cámaras causen más delincuencia.
Una variable externa relevante es la población de cada comuna. Las comunas más grandes pueden tener más cámaras porque tienen más habitantes, más comercio, más tránsito y también más denuncias.
También podría ocurrir una relación inversa en términos explicativos: las comunas con más denuncias podrían instalar más cámaras como respuesta a una situación previa.
Una conclusión más rigurosa sería: en estos datos, las comunas con más cámaras instaladas tienden a registrar más denuncias, pero se requiere controlar variables como población, actividad comercial y nivel previo de denuncias antes de hablar de causalidad.
Respuesta: no se puede afirmar causalidad directa; la población u otras características de la comuna pueden explicar que aumenten simultáneamente las cámaras y las denuncias.
Ejercicio 2
En una muestra de estudiantes de 4° medio se registró el promedio de horas de estudio semanal y el puntaje obtenido en un ensayo. Además, se separó a los estudiantes según si asistieron o no a un taller de preparación.
| Grupo | Horas de estudio \(x\) | Puntaje promedio \(y\) |
|---|---|---|
| Sin taller | 2 | 485 |
| Sin taller | 4 | 520 |
| Sin taller | 6 | 548 |
| Sin taller | 8 | 570 |
| Con taller | 2 | 540 |
| Con taller | 4 | 575 |
| Con taller | 6 | 602 |
| Con taller | 8 | 628 |
Se observa que, en general, a mayor cantidad de horas de estudio, mayor puntaje. ¿Sería correcto concluir que las horas de estudio son la única explicación del puntaje? Fundamenta usando la información del grupo.
No sería correcto concluir que las horas de estudio son la única explicación del puntaje.
La tabla muestra que, para una misma cantidad de horas de estudio, el grupo que asistió al taller obtiene puntajes mayores. Por ejemplo, con \(4\) horas de estudio, el grupo sin taller obtiene \(520\), mientras que el grupo con taller obtiene \(575\).
Esto sugiere que la asistencia al taller podría estar influyendo en el puntaje o, al menos, está asociada con diferencias importantes entre los grupos.
Por lo tanto, aunque existe una relación positiva entre horas de estudio y puntaje, el análisis debe considerar otras variables, como asistencia al taller, conocimientos previos, calidad del estudio o apoyo académico.
Respuesta: no; las horas de estudio se relacionan positivamente con el puntaje, pero el taller aparece como una variable relevante que también debe considerarse.
Ejercicio 3
Un informe afirma que existe una relación positiva entre el consumo promedio de energía eléctrica de una comuna y el número de enfermedades respiratorias registradas.
| Comuna | Consumo eléctrico promedio \(x\) | Casos respiratorios \(y\) | Temperatura media del mes |
|---|---|---|---|
| A | 180 | 92 | 13°C |
| B | 210 | 130 | 11°C |
| C | 235 | 168 | 9°C |
| D | 260 | 210 | 7°C |
| E | 290 | 245 | 6°C |
| F | 315 | 280 | 5°C |
Una conclusión del informe dice: “El mayor consumo eléctrico provoca enfermedades respiratorias”.
Reescribe la conclusión para que sea estadísticamente más correcta y explica qué variable externa podría estar actuando.
La conclusión original es causal y no está justificada solo por los datos.
Una conclusión más correcta sería: “En estos datos, las comunas con mayor consumo eléctrico promedio tienden a registrar más casos de enfermedades respiratorias”.
Una variable externa posible es la temperatura. En los meses o comunas más frías, las personas podrían usar más calefacción eléctrica, y al mismo tiempo podrían aumentar las enfermedades respiratorias.
También podrían influir contaminación, humedad, ventilación de viviendas, densidad poblacional o acceso a atención médica.
Respuesta: debe hablarse de asociación, no de causalidad directa; la temperatura es una posible variable externa que puede influir en ambas variables.
Ejercicio 4
Un equipo de investigación compara dos titulares posibles para presentar sus resultados.
| Titular | Información disponible |
|---|---|
| A: “El uso de plataformas educativas mejora el rendimiento escolar”. | Se observó una relación positiva entre horas de uso de plataformas educativas y puntaje final. |
| B: “Estudiantes con mayor uso de plataformas educativas tienden a obtener mayores puntajes”. | Se observó una relación positiva entre horas de uso de plataformas educativas y puntaje final. |
¿Cuál titular es más adecuado con la información disponible? Justifica considerando causalidad y redacción estadística.
El titular más adecuado es el B.
El titular A afirma causalidad: dice que el uso de plataformas educativas mejora el rendimiento. Esa afirmación requeriría un diseño de estudio que permita sostener causalidad, por ejemplo, controlando variables externas o comparando grupos de manera adecuada.
El titular B describe la asociación observada sin afirmar que una variable cause directamente la otra.
Además, usa la expresión “tienden a”, que es más apropiada para describir una relación estadística.
Respuesta: el titular B es más adecuado, porque describe una relación observada sin afirmar causalidad no demostrada.
Ejercicio 5
Una empresa observa que, en distintos meses, el gasto en publicidad y las ventas aumentan juntos. Sin embargo, los mayores gastos publicitarios ocurrieron en noviembre y diciembre.
| Mes | Gasto en publicidad \(x\) | Ventas \(y\) | Observación contextual |
|---|---|---|---|
| Agosto | 3 | 48 | Mes normal |
| Septiembre | 4 | 55 | Mes normal |
| Octubre | 5 | 61 | Mes normal |
| Noviembre | 8 | 92 | Inicio de campaña de fin de año |
| Diciembre | 10 | 125 | Compras de fin de año |
¿Qué problema tiene concluir que la publicidad explica completamente el aumento de ventas? Propón una interpretación más cuidadosa.
El problema es que noviembre y diciembre tienen condiciones especiales: campaña de fin de año y aumento natural de compras por temporada.
Por lo tanto, las ventas podrían aumentar no solo por la publicidad, sino también por la estacionalidad.
La publicidad y la temporada podrían estar actuando juntas, y con estos datos no es posible separar claramente sus efectos.
Una interpretación más cuidadosa sería: “En estos meses se observa una relación positiva entre gasto publicitario y ventas, pero parte del aumento podría estar asociado a la temporada de fin de año”.
Respuesta: la conclusión es incompleta porque ignora la estacionalidad; no se puede atribuir todo el aumento de ventas únicamente a la publicidad.
Ejercicio 6
Un colegio compara dos grupos de estudiantes para evaluar una nueva estrategia de estudio.
| Grupo | Estrategia nueva | Promedio inicial | Promedio final |
|---|---|---|---|
| Grupo 1 | Sí | 5,8 | 6,3 |
| Grupo 2 | No | 4,6 | 5,0 |
Una persona afirma: “La estrategia nueva causó mejores resultados, porque el grupo que la usó terminó con mayor promedio final”.
Analiza la afirmación. ¿Qué información falta para evaluar mejor la causalidad?
La afirmación es apresurada. El Grupo 1 ya tenía un promedio inicial mayor que el Grupo 2 antes de aplicar o no aplicar la estrategia.
Por eso, el mayor promedio final no puede atribuirse automáticamente a la estrategia nueva.
Para evaluar mejor la causalidad faltaría saber si los grupos eran comparables al inicio, cómo fueron seleccionados, si tuvieron el mismo profesor, la misma cantidad de horas, el mismo nivel de dificultad y condiciones similares.
También sería útil comparar los cambios: el Grupo 1 subió de \(5{,}8\) a \(6{,}3\), es decir, \(0{,}5\); el Grupo 2 subió de \(4{,}6\) a \(5{,}0\), es decir, \(0{,}4\). La diferencia en mejora existe, pero es pequeña y requiere más análisis.
Respuesta: no basta mirar el promedio final; falta controlar diferencias iniciales y condiciones de comparación entre grupos.
Cierre
Una relación estadística permite describir cómo se comportan dos variables en un conjunto de datos, pero no demuestra automáticamente causalidad.
Para interpretar críticamente una relación, es necesario considerar variables externas, posibles explicaciones alternativas, el diseño del estudio y la forma en que se redactan las conclusiones.