Libro sobre ariables correlacion y causalidad

9. Recta de regresión lineal I [ajuste y predicción] (PAES M2)

Objetivos

Comprender la recta de regresión lineal como un modelo que resume la tendencia de una nube de puntos.
Usar una recta de regresión para realizar predicciones aproximadas.
Distinguir entre interpolación y extrapolación en predicciones con modelos lineales.

¿Qué es una recta de regresión lineal?

Cuando una nube de puntos muestra una tendencia aproximadamente lineal, se puede trazar una recta que represente el comportamiento general de los datos.

Esta recta se llama recta de regresión lineal o recta de ajuste.

Su objetivo no es pasar necesariamente por todos los puntos, sino resumir la tendencia general para interpretar la relación entre dos variables y hacer predicciones aproximadas.

Forma de la recta de regresión

Una recta de regresión lineal se puede escribir como:

\[ \hat{y}=mx+b \]

Donde:

\(x\) es la variable explicativa o independiente.
\(\hat{y}\) es el valor estimado o predicho de la variable dependiente.
\(m\) es la pendiente de la recta.
\(b\) es el intercepto con el eje \(y\).

Importante

Se usa \(\hat{y}\) y no \(y\) porque la recta entrega un valor estimado, no necesariamente exacto.

En datos reales, los puntos pueden estar cerca de la recta, pero no todos tienen que estar sobre ella.

Ejemplo 1: recta de ajuste y nube de puntos

La siguiente situación relaciona la cantidad de ensayos de práctica realizados durante un mes con un índice de logro en una escala de 0 a 100.

Estudiante	Ensayos de práctica \(x\)	Índice de logro \(y\)
A	1	27
B	2	31
C	4	45
D	6	57
E	8	70
F	9	73

Una recta que ajusta razonablemente estos datos es:

\[ \hat{y}=6x+20 \]

La recta muestra la tendencia general: a medida que aumenta el número de ensayos de práctica, el índice de logro tiende a aumentar.

El gráfico usa una escala simple: \(x\) va de \(0\) a \(10\) e \(y\) va de \(0\) a \(100\), lo que facilita la lectura visual.

Ejemplo 2: predicción usando la recta

Usando el modelo:

\[ \hat{y}=6x+20 \]

estimemos el índice de logro de un estudiante que realiza \(7\) ensayos de práctica.

Reemplazamos \(x=7\):

\[ \hat{y}=6\cdot 7+20 \]

\[ \hat{y}=42+20=62 \]

Según el modelo, un estudiante que realiza \(7\) ensayos de práctica tendría un índice de logro estimado de \(62\) puntos.

Este valor es una predicción aproximada, no una garantía exacta.

Cómo hacer una predicción con la recta de regresión

Identifica la ecuación de la recta de regresión.
Reconoce qué valor de \(x\) se quiere usar.
Reemplaza ese valor en la ecuación.
Calcula \(\hat{y}\).
Interpreta el resultado en el contexto del problema.

Ejemplo 3: valor relativo de un producto usado

La antigüedad de un equipo tecnológico, en años, se relaciona con su valor relativo de reventa en una escala de 0 a 100.

Un modelo lineal para esta situación es:

\[ \hat{y}=-9x+92 \]

donde \(x\) es la antigüedad en años y \(\hat{y}\) es el valor relativo estimado.

Estimemos el valor relativo de un equipo con \(5\) años de antigüedad:

\[ \hat{y}=-9\cdot 5+92 \]

\[ \hat{y}=-45+92=47 \]

El modelo estima que un equipo con \(5\) años de antigüedad tendría un valor relativo aproximado de \(47\) puntos.

Interpolación y extrapolación

Tipo de predicción	Descripción	Cuidado necesario
Interpolación	Se predice usando un valor de \(x\) dentro del rango de datos observados.	Suele ser más razonable si el modelo ajusta bien.
Extrapolación	Se predice usando un valor de \(x\) fuera del rango de datos observados.	Puede ser riesgosa, porque no sabemos si la tendencia continúa igual.

Error común

No toda predicción con una recta de regresión es confiable.

Si se usa un valor de \(x\) muy alejado de los datos observados, se está extrapolando y la predicción puede perder sentido.

Ejercicio 1

Una recta de regresión fue obtenida para estimar un índice de preparación PAES M2, en escala de 0 a 100, a partir de las horas semanales de estudio:

\[ \hat{y}=7x+18 \]

donde \(x\) representa las horas semanales de estudio y \(\hat{y}\) el índice de preparación estimado.

Los datos observados correspondieron a estudiantes que estudiaban entre \(1\) y \(9\) horas semanales.

Estima el índice para un estudiante que estudia \(6\) horas semanales.
Clasifica la predicción como interpolación o extrapolación.
Explica por qué el resultado no debe interpretarse como un valor exacto.

Ejercicio 2

Una consultora estudia la relación entre la distancia al centro de una ciudad y un índice de conveniencia de arriendo, medido en escala de 0 a 100. Un modelo lineal obtenido es:

\[ \hat{y}=-6x+88 \]

donde \(x\) representa la distancia al centro en kilómetros y \(\hat{y}\) el índice estimado de conveniencia.

Los datos usados para construir el modelo corresponden a viviendas ubicadas entre \(1\) km y \(9\) km del centro.

Estima el índice para una vivienda ubicada a \(6\) km del centro.
Estima el índice para una vivienda ubicada a \(11\) km del centro.
Compara la confiabilidad de ambas predicciones.

Ejercicio 3

Una empresa ajustó una recta de regresión para estimar un índice de ventas mensuales, en escala de 0 a 100, a partir del gasto mensual en publicidad digital, medido en millones de pesos:

\[ \hat{y}=5x+24 \]

Los datos observados corresponden a meses con gastos entre \(2\) y \(10\) millones de pesos.

Una gerencia propone usar el modelo para estimar el índice de ventas si se invierten \(13\) millones.

Calcula la predicción para \(x=13\).
Explica por qué esa predicción debe interpretarse con cautela.
Propón un uso más prudente del modelo.

Ejercicio 4

Una recta de regresión para estimar un índice de comprensión lectora, en escala de 0 a 100, a partir de la cantidad de libros leídos durante el semestre es:

\[ \hat{y}=8x+28 \]

El modelo se obtuvo con estudiantes que leyeron entre \(1\) y \(7\) libros.

Un estudiante afirma:

“Si alguien lee \(9\) libros, entonces obtendrá exactamente \(100\) puntos, porque \(8\cdot 9+28=100\)”.

Analiza la afirmación. Tu respuesta debe referirse al cálculo, al tipo de predicción y al uso de la palabra “exactamente”.

Ejercicio 5

En un estudio sobre producción diaria se obtuvo la siguiente recta para estimar un índice de productividad, en escala de 0 a 100, según el número de trabajadores en turno:

\[ \hat{y}=6x+14 \]

Los datos observados fueron de equipos con entre \(3\) y \(11\) trabajadores.

Clasifica cada uso del modelo como interpolación, extrapolación cercana o extrapolación lejana. Justifica.

Uso del modelo	Clasificación
Estimar productividad para \(x=8\)
Estimar productividad para \(x=12\)
Estimar productividad para \(x=2\)
Estimar productividad para \(x=18\)

El rango observado es de \(3\) a \(11\) trabajadores.

Uso del modelo	Clasificación	Justificación
Estimar productividad para \(x=8\)	Interpolación	\(8\) está dentro del rango observado.
Estimar productividad para \(x=12\)	Extrapolación cercana	\(12\) está apenas fuera del rango observado.
Estimar productividad para \(x=2\)	Extrapolación cercana	\(2\) está fuera del rango observado, pero cercano al límite inferior.
Estimar productividad para \(x=18\)	Extrapolación lejana	\(18\) está muy lejos del rango observado. No es necesario que aparezca dentro del gráfico para reconocer que está fuera del rango de datos.

Las extrapolaciones deben analizarse con cuidado. En equipos mucho más grandes podrían aparecer restricciones de coordinación, espacio o maquinaria que el modelo no considera.

Respuesta: interpolación, extrapolación cercana, extrapolación cercana, extrapolación lejana.

Cierre

La recta de regresión lineal permite representar la tendencia general de una nube de puntos y realizar predicciones aproximadas.

Para que el gráfico sea útil, el contexto y los datos deben permitir una escala legible. Por eso conviene usar rangos claros en los ejes y evitar gráficos saturados.

Al usar una recta de regresión, siempre se debe distinguir entre interpolación y extrapolación, y recordar que \(\hat{y}\) representa un valor estimado.