Libro sobre ariables correlacion y causalidad

4. Correlación no implica causalidad [advertencias e interpretación crítica]

Objetivos

Distinguir entre relación estadística y relación causal.
Interpretar críticamente una nube de puntos evitando conclusiones apresuradas.
Reconocer posibles variables externas que pueden influir en una relación observada.

Relación no significa causa

Cuando dos variables presentan una tendencia en una nube de puntos, decimos que parecen estar relacionadas.

Sin embargo, una relación estadística no permite afirmar automáticamente que una variable cause la otra.

Por ejemplo, si al aumentar \(x\) también aumenta \(y\), eso no significa necesariamente que \(x\) produzca directamente el aumento de \(y\).

Advertencia fundamental

Correlación no implica causalidad.

Esto significa que dos variables pueden moverse juntas sin que una sea la causa directa de la otra.

Para afirmar causalidad se necesita más información, un diseño de estudio adecuado y controlar otros factores que podrían influir.

Tres situaciones posibles

Situación	Interpretación
Una variable puede influir en la otra	Puede existir una relación causal, pero debe justificarse con más evidencia.
Puede existir una variable externa	Una tercera variable puede estar afectando a ambas variables observadas.
La relación puede ser coincidente	Los datos pueden mostrar una tendencia aparente sin que exista una conexión importante entre las variables.

Ejemplo 1: plataformas educativas y puntaje

Un colegio observa una relación positiva entre las horas semanales de uso de plataformas educativas y el puntaje obtenido en una evaluación.

Se observa una relación positiva: quienes usan más horas la plataforma tienden a obtener mayores puntajes.

Pero esta información, por sí sola, no demuestra que la plataforma sea la causa directa del mayor puntaje.

También podrían influir variables como conocimientos previos, hábitos de estudio, apoyo familiar, motivación o asistencia a clases.

Una interpretación adecuada sería:

“En estos datos, los estudiantes con mayor uso de plataformas educativas tienden a obtener mayores puntajes”.

Ejemplo 2: paraguas vendidos y accidentes de tránsito

Supongamos que en una ciudad se registra una relación positiva entre la cantidad de paraguas vendidos y la cantidad de accidentes de tránsito.

La nube de puntos muestra que ambas variables aumentan juntas.

Pero sería incorrecto concluir que comprar paraguas causa accidentes.

Una explicación más razonable es que existe una variable externa: la lluvia.

Cuando llueve, pueden aumentar las ventas de paraguas y también los accidentes por calles resbaladizas o menor visibilidad.

Cómo interpretar críticamente una relación

Antes de afirmar que una variable causa otra, conviene preguntarse:

¿Tiene sentido contextual que una variable influya en la otra?
¿Podría existir una tercera variable que afecte a ambas?
¿La relación observada podría deberse a una coincidencia?
¿Los datos son suficientes para sostener una conclusión fuerte?
¿El estudio compara grupos equivalentes o controla variables externas?

Ejemplo 3: grupos comparables

Un colegio quiere evaluar si una nueva estrategia de estudio mejora los resultados. Para eso compara dos grupos.

Grupo	Usó la estrategia	Promedio inicial	Promedio final
Grupo A	Sí	5,8	6,3
Grupo B	No	4,7	5,1

El Grupo A termina con mayor promedio final, pero también comenzó con mayor promedio inicial.

Por eso, no basta mirar solo el promedio final para afirmar que la estrategia causó mejores resultados.

Una comparación más cuidadosa debe considerar si los grupos eran similares al inicio, si tuvieron el mismo profesor, el mismo tiempo de estudio y condiciones equivalentes.

Error común

Un error frecuente es escribir conclusiones causales solo porque el gráfico muestra una tendencia.

Por ejemplo, si dos variables aumentan juntas, no siempre corresponde decir “\(x\) provoca \(y\)”.

En estadística descriptiva, muchas veces es más correcto decir “se observa una relación entre \(x\) e \(y\)” o “\(y\) tiende a aumentar cuando \(x\) aumenta”.

Ejercicio 1

Un investigador analiza datos de distintas comunas y observa una relación positiva entre el número de cámaras de seguridad instaladas y el número de denuncias registradas durante el año.

Comuna	Cámaras instaladas \(x\)	Denuncias registradas \(y\)	Población aproximada
A	18	420	35 000
B	24	510	42 000
C	35	760	68 000
D	42	890	75 000
E	55	1180	102 000
F	70	1490	130 000

Una persona concluye: “Instalar cámaras aumenta la delincuencia, porque las comunas con más cámaras tienen más denuncias”.

Evalúa la conclusión considerando al menos una variable externa posible.

Ejercicio 2

En una muestra de estudiantes de 4° medio se registró el promedio de horas de estudio semanal y el puntaje obtenido en un ensayo. Además, se separó a los estudiantes según si asistieron o no a un taller de preparación.

Grupo	Horas de estudio \(x\)	Puntaje promedio \(y\)
Sin taller	2	485
Sin taller	4	520
Sin taller	6	548
Sin taller	8	570
Con taller	2	540
Con taller	4	575
Con taller	6	602
Con taller	8	628

Se observa que, en general, a mayor cantidad de horas de estudio, mayor puntaje. ¿Sería correcto concluir que las horas de estudio son la única explicación del puntaje? Fundamenta usando la información del grupo.

Ejercicio 3

Un informe afirma que existe una relación positiva entre el consumo promedio de energía eléctrica de una comuna y el número de enfermedades respiratorias registradas.

Comuna	Consumo eléctrico promedio \(x\)	Casos respiratorios \(y\)	Temperatura media del mes
A	180	92	13°C
B	210	130	11°C
C	235	168	9°C
D	260	210	7°C
E	290	245	6°C
F	315	280	5°C

Una conclusión del informe dice: “El mayor consumo eléctrico provoca enfermedades respiratorias”.

Reescribe la conclusión para que sea estadísticamente más correcta y explica qué variable externa podría estar actuando.

Ejercicio 4

Un equipo de investigación compara dos titulares posibles para presentar sus resultados.

Titular	Información disponible
A: “El uso de plataformas educativas mejora el rendimiento escolar”.	Se observó una relación positiva entre horas de uso de plataformas educativas y puntaje final.
B: “Estudiantes con mayor uso de plataformas educativas tienden a obtener mayores puntajes”.	Se observó una relación positiva entre horas de uso de plataformas educativas y puntaje final.

¿Cuál titular es más adecuado con la información disponible? Justifica considerando causalidad y redacción estadística.

Ejercicio 5

Una empresa observa que, en distintos meses, el gasto en publicidad y las ventas aumentan juntos. Sin embargo, los mayores gastos publicitarios ocurrieron en noviembre y diciembre.

Mes	Gasto en publicidad \(x\)	Ventas \(y\)	Observación contextual
Agosto	3	48	Mes normal
Septiembre	4	55	Mes normal
Octubre	5	61	Mes normal
Noviembre	8	92	Inicio de campaña de fin de año
Diciembre	10	125	Compras de fin de año

¿Qué problema tiene concluir que la publicidad explica completamente el aumento de ventas? Propón una interpretación más cuidadosa.

Ejercicio 6

Un colegio compara dos grupos de estudiantes para evaluar una nueva estrategia de estudio.

Grupo	Estrategia nueva	Promedio inicial	Promedio final
Grupo 1	Sí	5,8	6,3
Grupo 2	No	4,6	5,0

Una persona afirma: “La estrategia nueva causó mejores resultados, porque el grupo que la usó terminó con mayor promedio final”.

Analiza la afirmación. ¿Qué información falta para evaluar mejor la causalidad?

Cierre

Una relación estadística permite describir cómo se comportan dos variables en un conjunto de datos, pero no demuestra automáticamente causalidad.

Para interpretar críticamente una relación, es necesario considerar variables externas, posibles explicaciones alternativas, el diseño del estudio y la forma en que se redactan las conclusiones.