Variables correlacion y causalidad
9. Recta de regresión lineal I [ajuste y predicción] (PAES M2)
Objetivos
- Comprender la recta de regresión lineal como un modelo que resume la tendencia de una nube de puntos.
- Usar una recta de regresión para realizar predicciones aproximadas.
- Distinguir entre interpolación y extrapolación en predicciones con modelos lineales.
¿Qué es una recta de regresión lineal?
Cuando una nube de puntos muestra una tendencia aproximadamente lineal, se puede trazar una recta que represente el comportamiento general de los datos.
Esta recta se llama recta de regresión lineal o recta de ajuste.
Su objetivo no es pasar necesariamente por todos los puntos, sino resumir la tendencia general para interpretar la relación entre dos variables y hacer predicciones aproximadas.
Forma de la recta de regresión
Una recta de regresión lineal se puede escribir como:
\[ \hat{y}=mx+b \]
Donde:
- \(x\) es la variable explicativa o independiente.
- \(\hat{y}\) es el valor estimado o predicho de la variable dependiente.
- \(m\) es la pendiente de la recta.
- \(b\) es el intercepto con el eje \(y\).
Importante
Se usa \(\hat{y}\) y no \(y\) porque la recta entrega un valor estimado, no necesariamente exacto.
En datos reales, los puntos pueden estar cerca de la recta, pero no todos tienen que estar sobre ella.
Ejemplo 1: recta de ajuste y nube de puntos
La siguiente situación relaciona la cantidad de ensayos de práctica realizados durante un mes con un índice de logro en una escala de 0 a 100.
| Estudiante | Ensayos de práctica \(x\) | Índice de logro \(y\) |
|---|---|---|
| A | 1 | 27 |
| B | 2 | 31 |
| C | 4 | 45 |
| D | 6 | 57 |
| E | 8 | 70 |
| F | 9 | 73 |
Una recta que ajusta razonablemente estos datos es:
\[ \hat{y}=6x+20 \]
La recta muestra la tendencia general: a medida que aumenta el número de ensayos de práctica, el índice de logro tiende a aumentar.
El gráfico usa una escala simple: \(x\) va de \(0\) a \(10\) e \(y\) va de \(0\) a \(100\), lo que facilita la lectura visual.
Ejemplo 2: predicción usando la recta
Usando el modelo:
\[ \hat{y}=6x+20 \]
estimemos el índice de logro de un estudiante que realiza \(7\) ensayos de práctica.
Reemplazamos \(x=7\):
\[ \hat{y}=6\cdot 7+20 \]
\[ \hat{y}=42+20=62 \]
Según el modelo, un estudiante que realiza \(7\) ensayos de práctica tendría un índice de logro estimado de \(62\) puntos.
Este valor es una predicción aproximada, no una garantía exacta.
Cómo hacer una predicción con la recta de regresión
- Identifica la ecuación de la recta de regresión.
- Reconoce qué valor de \(x\) se quiere usar.
- Reemplaza ese valor en la ecuación.
- Calcula \(\hat{y}\).
- Interpreta el resultado en el contexto del problema.
Ejemplo 3: valor relativo de un producto usado
La antigüedad de un equipo tecnológico, en años, se relaciona con su valor relativo de reventa en una escala de 0 a 100.
Un modelo lineal para esta situación es:
\[ \hat{y}=-9x+92 \]
donde \(x\) es la antigüedad en años y \(\hat{y}\) es el valor relativo estimado.
Estimemos el valor relativo de un equipo con \(5\) años de antigüedad:
\[ \hat{y}=-9\cdot 5+92 \]
\[ \hat{y}=-45+92=47 \]
El modelo estima que un equipo con \(5\) años de antigüedad tendría un valor relativo aproximado de \(47\) puntos.
Interpolación y extrapolación
| Tipo de predicción | Descripción | Cuidado necesario |
|---|---|---|
| Interpolación | Se predice usando un valor de \(x\) dentro del rango de datos observados. | Suele ser más razonable si el modelo ajusta bien. |
| Extrapolación | Se predice usando un valor de \(x\) fuera del rango de datos observados. | Puede ser riesgosa, porque no sabemos si la tendencia continúa igual. |
Error común
No toda predicción con una recta de regresión es confiable.
Si se usa un valor de \(x\) muy alejado de los datos observados, se está extrapolando y la predicción puede perder sentido.
Ejercicio 1
Una recta de regresión fue obtenida para estimar un índice de preparación PAES M2, en escala de 0 a 100, a partir de las horas semanales de estudio:
\[ \hat{y}=7x+18 \]
donde \(x\) representa las horas semanales de estudio y \(\hat{y}\) el índice de preparación estimado.
Los datos observados correspondieron a estudiantes que estudiaban entre \(1\) y \(9\) horas semanales.
- Estima el índice para un estudiante que estudia \(6\) horas semanales.
- Clasifica la predicción como interpolación o extrapolación.
- Explica por qué el resultado no debe interpretarse como un valor exacto.
Reemplazamos \(x=6\) en la ecuación:
\[ \hat{y}=7\cdot 6+18 \]
\[ \hat{y}=42+18=60 \]
El índice estimado es \(60\) puntos.
Como \(6\) está dentro del rango observado, entre \(1\) y \(9\) horas, esta predicción corresponde a una interpolación.
El resultado no es exacto porque la recta resume una tendencia general. Dos estudiantes que estudian la misma cantidad de horas podrían obtener índices distintos por calidad del estudio, conocimientos previos, asistencia, concentración o dominio de contenidos.
Respuesta: \(\hat{y}=60\). Es una interpolación y debe interpretarse como una estimación aproximada.
Ejercicio 2
Una consultora estudia la relación entre la distancia al centro de una ciudad y un índice de conveniencia de arriendo, medido en escala de 0 a 100. Un modelo lineal obtenido es:
\[ \hat{y}=-6x+88 \]
donde \(x\) representa la distancia al centro en kilómetros y \(\hat{y}\) el índice estimado de conveniencia.
Los datos usados para construir el modelo corresponden a viviendas ubicadas entre \(1\) km y \(9\) km del centro.
- Estima el índice para una vivienda ubicada a \(6\) km del centro.
- Estima el índice para una vivienda ubicada a \(11\) km del centro.
- Compara la confiabilidad de ambas predicciones.
Para \(x=6\):
\[ \hat{y}=-6\cdot 6+88 \]
\[ \hat{y}=-36+88=52 \]
El índice estimado es \(52\).
Para \(x=11\):
\[ \hat{y}=-6\cdot 11+88 \]
\[ \hat{y}=-66+88=22 \]
El índice estimado sería \(22\).
La predicción para \(6\) km es una interpolación, porque está dentro del rango observado \([1,9]\). La predicción para \(11\) km es una extrapolación, porque está fuera del rango observado.
La segunda predicción debe tomarse con mayor cautela, ya que en zonas más alejadas podrían influir otros factores, como conectividad, servicios, seguridad o tipo de vivienda.
Respuesta: para \(6\) km, \(\hat{y}=52\); para \(11\) km, \(\hat{y}=22\). La primera predicción es más confiable porque es interpolación.
Ejercicio 3
Una empresa ajustó una recta de regresión para estimar un índice de ventas mensuales, en escala de 0 a 100, a partir del gasto mensual en publicidad digital, medido en millones de pesos:
\[ \hat{y}=5x+24 \]
Los datos observados corresponden a meses con gastos entre \(2\) y \(10\) millones de pesos.
Una gerencia propone usar el modelo para estimar el índice de ventas si se invierten \(13\) millones.
- Calcula la predicción para \(x=13\).
- Explica por qué esa predicción debe interpretarse con cautela.
- Propón un uso más prudente del modelo.
Reemplazamos \(x=13\):
\[ \hat{y}=5\cdot 13+24 \]
\[ \hat{y}=65+24=89 \]
El modelo estima un índice de ventas de \(89\).
Sin embargo, esta predicción es una extrapolación, porque \(13\) millones está fuera del rango observado \([2,10]\).
Debe interpretarse con cautela porque no sabemos si aumentar la inversión publicitaria mantiene la misma relación lineal. Podrían aparecer límites de demanda, saturación de público o menor efectividad de la campaña.
Un uso más prudente sería aplicar el modelo dentro del rango observado, por ejemplo entre \(2\) y \(10\) millones, o recolectar nuevos datos antes de estimar valores más altos.
Respuesta: \(\hat{y}=89\), pero es una extrapolación y debe interpretarse con cautela.
Ejercicio 4
Una recta de regresión para estimar un índice de comprensión lectora, en escala de 0 a 100, a partir de la cantidad de libros leídos durante el semestre es:
\[ \hat{y}=8x+28 \]
El modelo se obtuvo con estudiantes que leyeron entre \(1\) y \(7\) libros.
Un estudiante afirma:
“Si alguien lee \(9\) libros, entonces obtendrá exactamente \(100\) puntos, porque \(8\cdot 9+28=100\)”.
Analiza la afirmación. Tu respuesta debe referirse al cálculo, al tipo de predicción y al uso de la palabra “exactamente”.
El cálculo aritmético es correcto:
\[ \hat{y}=8\cdot 9+28=72+28=100 \]
Sin embargo, la interpretación no es correcta.
Primero, \(9\) libros está fuera del rango observado, porque el modelo se construyó con estudiantes que leyeron entre \(1\) y \(7\) libros. Por lo tanto, se trata de una extrapolación.
Segundo, una recta de regresión entrega una estimación, no un resultado exacto. Incluso dentro del rango observado, no se puede asegurar que una persona obtendrá exactamente el valor predicho.
Una interpretación más adecuada sería: si se usa el modelo fuera de su rango observado, este estima \(100\) puntos para \(9\) libros, pero esa predicción debe tomarse con cautela.
Respuesta: el cálculo da \(100\), pero es una extrapolación y no corresponde interpretarla como un valor exacto.
Ejercicio 5
En un estudio sobre producción diaria se obtuvo la siguiente recta para estimar un índice de productividad, en escala de 0 a 100, según el número de trabajadores en turno:
\[ \hat{y}=6x+14 \]
Los datos observados fueron de equipos con entre \(3\) y \(11\) trabajadores.
Clasifica cada uso del modelo como interpolación, extrapolación cercana o extrapolación lejana. Justifica.
| Uso del modelo | Clasificación |
|---|---|
| Estimar productividad para \(x=8\) | |
| Estimar productividad para \(x=12\) | |
| Estimar productividad para \(x=2\) | |
| Estimar productividad para \(x=18\) |
El rango observado es de \(3\) a \(11\) trabajadores.
| Uso del modelo | Clasificación | Justificación |
|---|---|---|
| Estimar productividad para \(x=8\) | Interpolación | \(8\) está dentro del rango observado. |
| Estimar productividad para \(x=12\) | Extrapolación cercana | \(12\) está apenas fuera del rango observado. |
| Estimar productividad para \(x=2\) | Extrapolación cercana | \(2\) está fuera del rango observado, pero cercano al límite inferior. |
| Estimar productividad para \(x=18\) | Extrapolación lejana | \(18\) está muy lejos del rango observado. No es necesario que aparezca dentro del gráfico para reconocer que está fuera del rango de datos. |
Las extrapolaciones deben analizarse con cuidado. En equipos mucho más grandes podrían aparecer restricciones de coordinación, espacio o maquinaria que el modelo no considera.
Respuesta: interpolación, extrapolación cercana, extrapolación cercana, extrapolación lejana.
Cierre
La recta de regresión lineal permite representar la tendencia general de una nube de puntos y realizar predicciones aproximadas.
Para que el gráfico sea útil, el contexto y los datos deben permitir una escala legible. Por eso conviene usar rangos claros en los ejes y evitar gráficos saturados.
Al usar una recta de regresión, siempre se debe distinguir entre interpolación y extrapolación, y recordar que \(\hat{y}\) representa un valor estimado.