Variables correlacion y causalidad
11. Taller de síntesis [datos, correlación y regresión] (PAES M2)
Objetivos
- Integrar la lectura de nubes de puntos, coeficiente de correlación y recta de regresión lineal.
- Interpretar datos bivariados usando lenguaje estadístico contextualizado.
- Resolver preguntas tipo PAES M2 sobre correlación, regresión, predicción e interpretación crítica.
Propósito del taller
En este taller se integran las ideas principales del bloque:
- lectura de nubes de puntos,
- interpretación del coeficiente de correlación de Pearson \(r\),
- uso de una recta de regresión lineal,
- predicciones aproximadas,
- análisis crítico de conclusiones estadísticas.
Resumen de herramientas
| Herramienta | ¿Para qué sirve? | Cuidado principal |
|---|---|---|
| Nube de puntos | Permite observar visualmente la relación entre dos variables cuantitativas. | No basta mirar solo un punto; se interpreta la tendencia general. |
| Coeficiente \(r\) | Mide sentido y fuerza de una relación lineal. | No mide causalidad ni detecta bien relaciones no lineales. |
| Recta de regresión | Modela una tendencia lineal y permite hacer predicciones aproximadas. | Debe usarse con cautela fuera del rango observado. |
| Interpretación contextual | Permite redactar conclusiones estadísticas con sentido. | Debe considerar unidades, población estudiada y variables externas. |
Situación inicial: acompañamiento y avance de proyecto
Un programa escolar registró la cantidad de sesiones de acompañamiento realizadas por distintos equipos y un índice de avance de proyecto en una escala de 0 a 100.
| Equipo | Sesiones de acompañamiento \(x\) | Índice de avance \(y\) |
|---|---|---|
| A | 1 | 36 |
| B | 2 | 43 |
| C | 4 | 52 |
| D | 5 | 58 |
| E | 7 | 68 |
| F | 8 | 73 |
| G | 9 | 79 |
Con apoyo tecnológico se obtiene aproximadamente:
\[ r\approx 0{,}99 \]
Una recta de regresión razonable para estos datos es:
\[ \hat{y}=5x+31 \]
El valor de \(r\) indica una relación lineal positiva muy fuerte entre la cantidad de sesiones de acompañamiento y el índice de avance.
La pendiente \(5\) indica que, según el modelo, por cada sesión adicional de acompañamiento, el índice de avance estimado aumenta aproximadamente \(5\) puntos.
Estrategia para resolver preguntas integradas
- Observa si la relación parece positiva, negativa o débil.
- Interpreta \(r\) según signo y cercanía a \(-1\), \(0\) o \(1\).
- Lee la pendiente e intercepto de la recta en contexto.
- Si hay predicción, reemplaza \(x\) y verifica si es interpolación o extrapolación.
- Redacta la conclusión evitando causalidad no justificada.
Ejercicio 1
Una municipalidad quiere estimar un índice comunal de uso educativo de plataformas digitales, en escala de 0 a 100. Para ello compara dos posibles variables explicativas.
| Modelo | Variable explicativa \(x\) | Recta de regresión | Coeficiente \(r\) | Observación contextual |
|---|---|---|---|---|
| A | Acceso a internet fijo (%) | \(\hat{y}=0{,}72x+8\) | \(0{,}91\) | Mezcla comunas urbanas y rurales. |
| B | Horas semanales de uso guiado en el colegio | \(\hat{y}=9x+28\) | \(0{,}78\) | Datos de colegios con condiciones tecnológicas similares. |
Una autoridad propone usar automáticamente el Modelo A porque tiene mayor \(r\).
- Interpreta el valor de \(r\) de ambos modelos.
- Interpreta la pendiente de cada recta.
- Evalúa si basta con escoger automáticamente el modelo con mayor \(r\).
- Indica qué información adicional sería importante antes de tomar una decisión.
El Modelo A tiene \(r=0{,}91\), lo que indica una relación lineal positiva fuerte entre acceso a internet fijo y uso educativo de plataformas digitales.
El Modelo B tiene \(r=0{,}78\), lo que también indica una relación lineal positiva relativamente fuerte, aunque menor que la del Modelo A.
En el Modelo A, la pendiente \(0{,}72\) indica que, por cada aumento de \(1\) punto porcentual en acceso a internet fijo, el índice estimado de uso educativo aumenta aproximadamente \(0{,}72\) puntos.
En el Modelo B, la pendiente \(9\) indica que, por cada hora semanal adicional de uso guiado en el colegio, el índice estimado aumenta aproximadamente \(9\) puntos.
No basta con escoger automáticamente el Modelo A solo porque tiene mayor \(r\). Aunque su correlación es más alta, mezcla comunas urbanas y rurales, lo que puede introducir diferencias estructurales importantes. El Modelo B tiene menor \(r\), pero se construyó con colegios en condiciones tecnológicas similares, por lo que podría tener una interpretación más controlada para ciertas decisiones educativas.
Antes de decidir, sería importante conocer el tamaño de la muestra, la dispersión de los datos, si hay datos atípicos, el rango de valores de \(x\), la forma de la nube de puntos y si existen variables externas como nivel socioeconómico, disponibilidad de dispositivos, capacitación docente o conectividad real en el colegio.
Respuesta: el Modelo A tiene mayor correlación, pero no necesariamente es automáticamente mejor; la elección debe considerar \(r\), contexto, comparabilidad de los datos y posibles variables externas.
Ejercicio 2
Una red de salud comunal ajustó dos modelos para estimar un índice de satisfacción usuaria, en escala de 0 a 100, a partir del tiempo promedio de espera antes de recibir atención.
| Modelo | Recta de regresión | Rango observado de espera \(x\) | Coeficiente \(r\) |
|---|---|---|---|
| Modelo A | \(\hat{y}=-4x+96\) | Entre 3 y 12 minutos | \(-0{,}92\) |
| Modelo B | \(\hat{y}=-2{,}5x+82\) | Entre 10 y 28 minutos | \(-0{,}81\) |
Se quiere estimar la satisfacción para una espera promedio de \(20\) minutos.
- Calcula la predicción con ambos modelos.
- Indica cuál modelo sería más prudente usar para \(x=20\).
- Explica por qué no basta con elegir el modelo que tiene \(|r|\) más alto.
Con el Modelo A:
\[ \hat{y}=-4\cdot 20+96=-80+96=16 \]
Con el Modelo B:
\[ \hat{y}=-2{,}5\cdot 20+82=-50+82=32 \]
El Modelo A estima \(16\) puntos y el Modelo B estima \(32\) puntos.
Sin embargo, el Modelo A fue construido con esperas entre \(3\) y \(12\) minutos. Usarlo para \(20\) minutos es una extrapolación.
El Modelo B fue construido con esperas entre \(10\) y \(28\) minutos. Como \(20\) está dentro de ese rango, usar el Modelo B corresponde a una interpolación.
Aunque el Modelo A tiene mayor \(|r|\), para \(x=20\) sería más prudente usar el Modelo B, porque predice dentro del rango observado.
Respuesta: Modelo A estima \(16\), Modelo B estima \(32\). Para \(x=20\), conviene usar el Modelo B porque realiza una interpolación.
Ejercicio 3
En un estudio sobre viviendas se obtuvo la siguiente recta de regresión para estimar un índice de consumo eléctrico mensual, en escala de 0 a 100, según la superficie de la vivienda, medida en decenas de metros cuadrados.
\[ \hat{y}=5x+18 \]
En este modelo, \(x=4\) representa \(40\) m², \(x=8\) representa \(80\) m², y así sucesivamente. Los datos observados corresponden a viviendas entre \(4\) y \(14\) decenas de m². Además, el coeficiente de correlación obtenido fue \(r=0{,}79\).
- Interpreta \(r=0{,}79\) en contexto.
- Interpreta la pendiente \(5\).
- Analiza si tiene sentido práctico interpretar el intercepto \(18\).
- Estima el índice de consumo para una vivienda de \(100\) m².
El valor \(r=0{,}79\) indica una relación lineal positiva relativamente fuerte entre la superficie de la vivienda y el índice de consumo eléctrico mensual.
La pendiente \(5\) significa que, según el modelo, por cada aumento de una decena de metros cuadrados, el índice de consumo estimado aumenta aproximadamente \(5\) puntos.
El intercepto \(18\) correspondería al índice estimado cuando \(x=0\), es decir, para una vivienda de \(0\) m². Esa interpretación no tiene sentido práctico y además está fuera del rango observado.
Para una vivienda de \(100\) m², se usa \(x=10\):
\[ \hat{y}=5\cdot 10+18=50+18=68 \]
Como \(x=10\) está dentro del rango observado \([4,14]\), la predicción es una interpolación.
Respuesta: \(r\) indica relación positiva relativamente fuerte; la pendiente indica \(5\) puntos más por cada 10 m²; el intercepto no tiene interpretación práctica clara; para \(100\) m² se estima un índice de \(68\).
Ejercicio 4
Un informe compara la relación entre horas de sueño y nivel de cansancio reportado en dos grupos de estudiantes.
| Grupo | Coeficiente \(r\) | Recta de regresión | Rango observado de \(x\) |
|---|---|---|---|
| Grupo A | \(-0{,}82\) | \(\hat{y}=-0{,}9x+12{,}4\) | Entre 5 y 9 horas de sueño |
| Grupo B | \(-0{,}41\) | \(\hat{y}=-0{,}4x+9{,}8\) | Entre 4 y 8 horas de sueño |
En ambos modelos, \(x\) representa horas de sueño y \(\hat{y}\) representa nivel de cansancio en una escala de 1 a 10.
- Compara la fuerza de la relación lineal en ambos grupos.
- Interpreta la pendiente del Grupo A.
- Estima el nivel de cansancio para un estudiante del Grupo A que duerme \(7\) horas.
- Explica por qué sería riesgoso usar el modelo del Grupo A para \(x=3\).
El Grupo A presenta una relación lineal negativa más fuerte que el Grupo B, porque \(|-0{,}82|=0{,}82\) es mayor que \(|-0{,}41|=0{,}41\).
La pendiente del Grupo A es \(-0{,}9\). Esto significa que, según el modelo, por cada hora adicional de sueño, el nivel de cansancio estimado disminuye aproximadamente \(0{,}9\) puntos.
Para \(x=7\) en el Grupo A:
\[ \hat{y}=-0{,}9\cdot 7+12{,}4=-6{,}3+12{,}4=6{,}1 \]
El nivel de cansancio estimado es \(6{,}1\).
Usar el modelo del Grupo A para \(x=3\) sería riesgoso porque los datos observados estaban entre \(5\) y \(9\) horas de sueño. Por lo tanto, \(x=3\) corresponde a una extrapolación fuera del rango observado.
Respuesta: el Grupo A tiene relación más fuerte; su pendiente indica una baja de \(0{,}9\) puntos de cansancio por hora adicional de sueño; para \(7\) horas se estima \(6{,}1\); usar \(x=3\) sería extrapolación.
Ejercicio 5
Una organización estudia la relación entre el gasto anual en campañas ambientales y el porcentaje de reciclaje comunal. Se obtiene la siguiente información:
| Variable explicativa \(x\) | Variable respuesta \(y\) | Coeficiente \(r\) | Recta de regresión |
|---|---|---|---|
| Gasto anual en campañas ambientales, en millones de pesos | Porcentaje de reciclaje comunal | \(0{,}69\) | \(\hat{y}=2x+10\) |
Una autoridad afirma:
“Si aumentamos el gasto en campañas ambientales de 10 a 20 millones, el porcentaje de reciclaje subirá exactamente de 30% a 50%, y esto demuestra que la campaña causa el aumento”.
Evalúa críticamente la afirmación. Debes referirte al cálculo, a la palabra “exactamente” y a la causalidad.
Usando el modelo:
Para \(x=10\):
\[ \hat{y}=2\cdot 10+10=20+10=30 \]
Para \(x=20\):
\[ \hat{y}=2\cdot 20+10=40+10=50 \]
El cálculo es correcto: el modelo estima \(30\%\) para 10 millones y \(50\%\) para 20 millones.
Sin embargo, la palabra “exactamente” no es adecuada, porque una recta de regresión entrega valores estimados, no resultados seguros.
Además, \(r=0{,}69\) indica una relación lineal positiva moderada a fuerte, pero no demuestra por sí solo causalidad. Podrían influir otras variables, como infraestructura de reciclaje, educación ambiental previa, normativa local, ingresos comunales o disponibilidad de puntos limpios.
Respuesta: el cálculo del modelo es correcto, pero la interpretación es demasiado fuerte; las predicciones son estimadas y la correlación no demuestra causalidad.
Ejercicio 6
Se quiere elegir una variable para construir un modelo lineal simple que estime el tiempo promedio de traslado diario de estudiantes. Se comparan tres posibles variables explicativas:
| Variable explicativa | Coeficiente \(r\) con tiempo de traslado | Observación contextual |
|---|---|---|
| Distancia entre hogar y colegio | \(0{,}84\) | Medida directa en kilómetros. |
| Número de semáforos en la ruta | \(0{,}72\) | Dato aproximado, puede variar según la ruta elegida. |
| Número de integrantes del hogar | \(0{,}18\) | No tiene una relación contextual clara con el traslado. |
¿Cuál variable elegirías para un primer modelo lineal simple? Justifica usando el valor de \(r\), el contexto y la interpretación del modelo.
La variable más recomendable para un primer modelo lineal simple es la distancia entre hogar y colegio.
Primero, tiene el mayor coeficiente de correlación con el tiempo de traslado: \(r=0{,}84\), lo que indica una relación lineal positiva fuerte.
Segundo, tiene sentido contextual directo: mientras mayor es la distancia, mayor tiende a ser el tiempo de traslado.
El número de semáforos también tiene una correlación positiva relativamente fuerte, pero es un dato más variable y depende de la ruta tomada.
El número de integrantes del hogar tiene una correlación baja y no parece tener una relación directa clara con el tiempo de traslado.
Respuesta: elegiría distancia entre hogar y colegio, porque tiene mayor \(r\), sentido contextual directo y una interpretación más clara para un modelo lineal simple.
Ejercicio 7
Un equipo de estudiantes ajustó un modelo lineal para estimar un índice de rendimiento, en escala de 0 a 100, según la cantidad de semanas de preparación antes de una evaluación.
El modelo obtenido fue:
\[ \hat{y}=4{,}5x+38 \]
donde \(x\) representa las semanas de preparación y \(\hat{y}\) representa el índice de rendimiento estimado.
El modelo fue construido con estudiantes que se prepararon entre \(2\) y \(10\) semanas. Además, se obtuvo \(r=0{,}87\).
Un estudiante quiere usar el modelo para estimar el rendimiento de una persona que se preparó durante \(16\) semanas.
- Calcula la predicción para \(x=16\).
- Clasifica la predicción como interpolación o extrapolación.
- Explica por qué un valor alto de \(r\) no basta para asegurar que esta predicción sea confiable.
- Propón una conclusión estadísticamente cuidadosa.
Reemplazamos \(x=16\) en el modelo:
\[ \hat{y}=4{,}5\cdot 16+38 \]
\[ \hat{y}=72+38=110 \]
El modelo estima un índice de \(110\), pero la escala del índice va de \(0\) a \(100\). Esto ya muestra una limitación importante del uso del modelo fuera del rango observado.
Como los datos originales corresponden a estudiantes que se prepararon entre \(2\) y \(10\) semanas, usar \(x=16\) es una extrapolación lejana.
El valor \(r=0{,}87\) indica una relación lineal positiva fuerte dentro de los datos observados. Sin embargo, no garantiza que la relación siga siendo lineal para valores muy alejados del rango usado para construir el modelo.
Una conclusión cuidadosa sería:
“Dentro del rango observado, existe una relación lineal positiva fuerte entre semanas de preparación e índice de rendimiento. Sin embargo, usar el modelo para \(16\) semanas no es confiable, porque corresponde a una extrapolación lejana y produce un valor fuera de la escala del índice”.
Respuesta: \(\hat{y}=110\), pero la predicción no es confiable porque extrapola fuera del rango observado y supera la escala máxima del índice.
Interpretación crítica
Aunque una correlación sea muy fuerte, no debe confundirse con una demostración automática de causalidad.
Además, una recta de regresión entrega predicciones aproximadas. Su uso debe ser cuidadoso, especialmente fuera del rango de datos observados.
Cierre del bloque
En este bloque se estudió cómo analizar la relación entre dos variables cuantitativas.
La nube de puntos permite una primera lectura visual; el coeficiente de correlación de Pearson \(r\) resume el sentido y la fuerza de una relación lineal; y la recta de regresión permite realizar predicciones aproximadas.
Una interpretación estadística completa debe considerar siempre el contexto, las unidades, el rango de los datos y la diferencia entre correlación y causalidad.
