Variables correlacion y causalidad: Taller de síntesis [datos, correlación y regresión] (PAES M2)

11. Taller de síntesis [datos, correlación y regresión] (PAES M2)

Objetivos

Integrar la lectura de nubes de puntos, coeficiente de correlación y recta de regresión lineal.
Interpretar datos bivariados usando lenguaje estadístico contextualizado.
Resolver preguntas tipo PAES M2 sobre correlación, regresión, predicción e interpretación crítica.

Propósito del taller

En este taller se integran las ideas principales del bloque:

lectura de nubes de puntos,
interpretación del coeficiente de correlación de Pearson \(r\),
uso de una recta de regresión lineal,
predicciones aproximadas,
análisis crítico de conclusiones estadísticas.

Resumen de herramientas

Herramienta	¿Para qué sirve?	Cuidado principal
Nube de puntos	Permite observar visualmente la relación entre dos variables cuantitativas.	No basta mirar solo un punto; se interpreta la tendencia general.
Coeficiente \(r\)	Mide sentido y fuerza de una relación lineal.	No mide causalidad ni detecta bien relaciones no lineales.
Recta de regresión	Modela una tendencia lineal y permite hacer predicciones aproximadas.	Debe usarse con cautela fuera del rango observado.
Interpretación contextual	Permite redactar conclusiones estadísticas con sentido.	Debe considerar unidades, población estudiada y variables externas.

Situación inicial: acompañamiento y avance de proyecto

Un programa escolar registró la cantidad de sesiones de acompañamiento realizadas por distintos equipos y un índice de avance de proyecto en una escala de 0 a 100.

Equipo	Sesiones de acompañamiento \(x\)	Índice de avance \(y\)
A	1	36
B	2	43
C	4	52
D	5	58
E	7	68
F	8	73
G	9	79

Con apoyo tecnológico se obtiene aproximadamente:

\[ r\approx 0{,}99 \]

Una recta de regresión razonable para estos datos es:

\[ \hat{y}=5x+31 \]

El valor de \(r\) indica una relación lineal positiva muy fuerte entre la cantidad de sesiones de acompañamiento y el índice de avance.

La pendiente \(5\) indica que, según el modelo, por cada sesión adicional de acompañamiento, el índice de avance estimado aumenta aproximadamente \(5\) puntos.

Estrategia para resolver preguntas integradas

Observa si la relación parece positiva, negativa o débil.
Interpreta \(r\) según signo y cercanía a \(-1\), \(0\) o \(1\).
Lee la pendiente e intercepto de la recta en contexto.
Si hay predicción, reemplaza \(x\) y verifica si es interpolación o extrapolación.
Redacta la conclusión evitando causalidad no justificada.

Ejercicio 1

Una municipalidad quiere estimar un índice comunal de uso educativo de plataformas digitales, en escala de 0 a 100. Para ello compara dos posibles variables explicativas.

Modelo	Variable explicativa \(x\)	Recta de regresión	Coeficiente \(r\)	Observación contextual
A	Acceso a internet fijo (%)	\(\hat{y}=0{,}72x+8\)	\(0{,}91\)	Mezcla comunas urbanas y rurales.
B	Horas semanales de uso guiado en el colegio	\(\hat{y}=9x+28\)	\(0{,}78\)	Datos de colegios con condiciones tecnológicas similares.

Una autoridad propone usar automáticamente el Modelo A porque tiene mayor \(r\).

Interpreta el valor de \(r\) de ambos modelos.
Interpreta la pendiente de cada recta.
Evalúa si basta con escoger automáticamente el modelo con mayor \(r\).
Indica qué información adicional sería importante antes de tomar una decisión.

Ejercicio 2

Una red de salud comunal ajustó dos modelos para estimar un índice de satisfacción usuaria, en escala de 0 a 100, a partir del tiempo promedio de espera antes de recibir atención.

Modelo	Recta de regresión	Rango observado de espera \(x\)	Coeficiente \(r\)
Modelo A	\(\hat{y}=-4x+96\)	Entre 3 y 12 minutos	\(-0{,}92\)
Modelo B	\(\hat{y}=-2{,}5x+82\)	Entre 10 y 28 minutos	\(-0{,}81\)

Se quiere estimar la satisfacción para una espera promedio de \(20\) minutos.

Calcula la predicción con ambos modelos.
Indica cuál modelo sería más prudente usar para \(x=20\).
Explica por qué no basta con elegir el modelo que tiene \(|r|\) más alto.

Ejercicio 3

En un estudio sobre viviendas se obtuvo la siguiente recta de regresión para estimar un índice de consumo eléctrico mensual, en escala de 0 a 100, según la superficie de la vivienda, medida en decenas de metros cuadrados.

\[ \hat{y}=5x+18 \]

En este modelo, \(x=4\) representa \(40\) m², \(x=8\) representa \(80\) m², y así sucesivamente. Los datos observados corresponden a viviendas entre \(4\) y \(14\) decenas de m². Además, el coeficiente de correlación obtenido fue \(r=0{,}79\).

Interpreta \(r=0{,}79\) en contexto.
Interpreta la pendiente \(5\).
Analiza si tiene sentido práctico interpretar el intercepto \(18\).
Estima el índice de consumo para una vivienda de \(100\) m².

Ejercicio 4

Un informe compara la relación entre horas de sueño y nivel de cansancio reportado en dos grupos de estudiantes.

Grupo	Coeficiente \(r\)	Recta de regresión	Rango observado de \(x\)
Grupo A	\(-0{,}82\)	\(\hat{y}=-0{,}9x+12{,}4\)	Entre 5 y 9 horas de sueño
Grupo B	\(-0{,}41\)	\(\hat{y}=-0{,}4x+9{,}8\)	Entre 4 y 8 horas de sueño

En ambos modelos, \(x\) representa horas de sueño y \(\hat{y}\) representa nivel de cansancio en una escala de 1 a 10.

Compara la fuerza de la relación lineal en ambos grupos.
Interpreta la pendiente del Grupo A.
Estima el nivel de cansancio para un estudiante del Grupo A que duerme \(7\) horas.
Explica por qué sería riesgoso usar el modelo del Grupo A para \(x=3\).

Ejercicio 5

Una organización estudia la relación entre el gasto anual en campañas ambientales y el porcentaje de reciclaje comunal. Se obtiene la siguiente información:

Variable explicativa \(x\)	Variable respuesta \(y\)	Coeficiente \(r\)	Recta de regresión
Gasto anual en campañas ambientales, en millones de pesos	Porcentaje de reciclaje comunal	\(0{,}69\)	\(\hat{y}=2x+10\)

Una autoridad afirma:

“Si aumentamos el gasto en campañas ambientales de 10 a 20 millones, el porcentaje de reciclaje subirá exactamente de 30% a 50%, y esto demuestra que la campaña causa el aumento”.

Evalúa críticamente la afirmación. Debes referirte al cálculo, a la palabra “exactamente” y a la causalidad.

Ejercicio 6

Se quiere elegir una variable para construir un modelo lineal simple que estime el tiempo promedio de traslado diario de estudiantes. Se comparan tres posibles variables explicativas:

Variable explicativa	Coeficiente \(r\) con tiempo de traslado	Observación contextual
Distancia entre hogar y colegio	\(0{,}84\)	Medida directa en kilómetros.
Número de semáforos en la ruta	\(0{,}72\)	Dato aproximado, puede variar según la ruta elegida.
Número de integrantes del hogar	\(0{,}18\)	No tiene una relación contextual clara con el traslado.

¿Cuál variable elegirías para un primer modelo lineal simple? Justifica usando el valor de \(r\), el contexto y la interpretación del modelo.

Ejercicio 7

Un equipo de estudiantes ajustó un modelo lineal para estimar un índice de rendimiento, en escala de 0 a 100, según la cantidad de semanas de preparación antes de una evaluación.

El modelo obtenido fue:

\[ \hat{y}=4{,}5x+38 \]

donde \(x\) representa las semanas de preparación y \(\hat{y}\) representa el índice de rendimiento estimado.

El modelo fue construido con estudiantes que se prepararon entre \(2\) y \(10\) semanas. Además, se obtuvo \(r=0{,}87\).

Un estudiante quiere usar el modelo para estimar el rendimiento de una persona que se preparó durante \(16\) semanas.

Calcula la predicción para \(x=16\).
Clasifica la predicción como interpolación o extrapolación.
Explica por qué un valor alto de \(r\) no basta para asegurar que esta predicción sea confiable.
Propón una conclusión estadísticamente cuidadosa.

Interpretación crítica

Aunque una correlación sea muy fuerte, no debe confundirse con una demostración automática de causalidad.

Además, una recta de regresión entrega predicciones aproximadas. Su uso debe ser cuidadoso, especialmente fuera del rango de datos observados.

Cierre del bloque

En este bloque se estudió cómo analizar la relación entre dos variables cuantitativas.

La nube de puntos permite una primera lectura visual; el coeficiente de correlación de Pearson \(r\) resume el sentido y la fuerza de una relación lineal; y la recta de regresión permite realizar predicciones aproximadas.

Una interpretación estadística completa debe considerar siempre el contexto, las unidades, el rango de los datos y la diferencia entre correlación y causalidad.