9. Recta de regresión lineal I [ajuste y predicción] (PAES M2)

Objetivos

  • Comprender la recta de regresión lineal como un modelo que resume la tendencia de una nube de puntos.
  • Usar una recta de regresión para realizar predicciones aproximadas.
  • Distinguir entre interpolación y extrapolación en predicciones con modelos lineales.

¿Qué es una recta de regresión lineal?

Cuando una nube de puntos muestra una tendencia aproximadamente lineal, se puede trazar una recta que represente el comportamiento general de los datos.

Esta recta se llama recta de regresión lineal o recta de ajuste.

Su objetivo no es pasar necesariamente por todos los puntos, sino resumir la tendencia general para interpretar la relación entre dos variables y hacer predicciones aproximadas.

Forma de la recta de regresión

Una recta de regresión lineal se puede escribir como:

\[ \hat{y}=mx+b \]

Donde:

  • \(x\) es la variable explicativa o independiente.
  • \(\hat{y}\) es el valor estimado o predicho de la variable dependiente.
  • \(m\) es la pendiente de la recta.
  • \(b\) es el intercepto con el eje \(y\).

Importante

Se usa \(\hat{y}\) y no \(y\) porque la recta entrega un valor estimado, no necesariamente exacto.

En datos reales, los puntos pueden estar cerca de la recta, pero no todos tienen que estar sobre ella.

Ejemplo 1: recta de ajuste y nube de puntos

La siguiente situación relaciona la cantidad de ensayos de práctica realizados durante un mes con un índice de logro en una escala de 0 a 100.

Estudiante Ensayos de práctica \(x\) Índice de logro \(y\)
A 1 27
B 2 31
C 4 45
D 6 57
E 8 70
F 9 73

Una recta que ajusta razonablemente estos datos es:

\[ \hat{y}=6x+20 \]

La recta muestra la tendencia general: a medida que aumenta el número de ensayos de práctica, el índice de logro tiende a aumentar.

El gráfico usa una escala simple: \(x\) va de \(0\) a \(10\) e \(y\) va de \(0\) a \(100\), lo que facilita la lectura visual.

Ejemplo 2: predicción usando la recta

Usando el modelo:

\[ \hat{y}=6x+20 \]

estimemos el índice de logro de un estudiante que realiza \(7\) ensayos de práctica.

Reemplazamos \(x=7\):

\[ \hat{y}=6\cdot 7+20 \]

\[ \hat{y}=42+20=62 \]

Según el modelo, un estudiante que realiza \(7\) ensayos de práctica tendría un índice de logro estimado de \(62\) puntos.

Este valor es una predicción aproximada, no una garantía exacta.

Cómo hacer una predicción con la recta de regresión

  1. Identifica la ecuación de la recta de regresión.
  2. Reconoce qué valor de \(x\) se quiere usar.
  3. Reemplaza ese valor en la ecuación.
  4. Calcula \(\hat{y}\).
  5. Interpreta el resultado en el contexto del problema.

Ejemplo 3: valor relativo de un producto usado

La antigüedad de un equipo tecnológico, en años, se relaciona con su valor relativo de reventa en una escala de 0 a 100.

Un modelo lineal para esta situación es:

\[ \hat{y}=-9x+92 \]

donde \(x\) es la antigüedad en años y \(\hat{y}\) es el valor relativo estimado.

Estimemos el valor relativo de un equipo con \(5\) años de antigüedad:

\[ \hat{y}=-9\cdot 5+92 \]

\[ \hat{y}=-45+92=47 \]

El modelo estima que un equipo con \(5\) años de antigüedad tendría un valor relativo aproximado de \(47\) puntos.

Interpolación y extrapolación

Tipo de predicción Descripción Cuidado necesario
Interpolación Se predice usando un valor de \(x\) dentro del rango de datos observados. Suele ser más razonable si el modelo ajusta bien.
Extrapolación Se predice usando un valor de \(x\) fuera del rango de datos observados. Puede ser riesgosa, porque no sabemos si la tendencia continúa igual.

Error común

No toda predicción con una recta de regresión es confiable.

Si se usa un valor de \(x\) muy alejado de los datos observados, se está extrapolando y la predicción puede perder sentido.

Ejercicio 1

Una recta de regresión fue obtenida para estimar un índice de preparación PAES M2, en escala de 0 a 100, a partir de las horas semanales de estudio:

\[ \hat{y}=7x+18 \]

donde \(x\) representa las horas semanales de estudio y \(\hat{y}\) el índice de preparación estimado.

Los datos observados correspondieron a estudiantes que estudiaban entre \(1\) y \(9\) horas semanales.

  1. Estima el índice para un estudiante que estudia \(6\) horas semanales.
  2. Clasifica la predicción como interpolación o extrapolación.
  3. Explica por qué el resultado no debe interpretarse como un valor exacto.

Ejercicio 2

Una consultora estudia la relación entre la distancia al centro de una ciudad y un índice de conveniencia de arriendo, medido en escala de 0 a 100. Un modelo lineal obtenido es:

\[ \hat{y}=-6x+88 \]

donde \(x\) representa la distancia al centro en kilómetros y \(\hat{y}\) el índice estimado de conveniencia.

Los datos usados para construir el modelo corresponden a viviendas ubicadas entre \(1\) km y \(9\) km del centro.

  1. Estima el índice para una vivienda ubicada a \(6\) km del centro.
  2. Estima el índice para una vivienda ubicada a \(11\) km del centro.
  3. Compara la confiabilidad de ambas predicciones.

Ejercicio 3

Una empresa ajustó una recta de regresión para estimar un índice de ventas mensuales, en escala de 0 a 100, a partir del gasto mensual en publicidad digital, medido en millones de pesos:

\[ \hat{y}=5x+24 \]

Los datos observados corresponden a meses con gastos entre \(2\) y \(10\) millones de pesos.

Una gerencia propone usar el modelo para estimar el índice de ventas si se invierten \(13\) millones.

  1. Calcula la predicción para \(x=13\).
  2. Explica por qué esa predicción debe interpretarse con cautela.
  3. Propón un uso más prudente del modelo.

Ejercicio 4

Una recta de regresión para estimar un índice de comprensión lectora, en escala de 0 a 100, a partir de la cantidad de libros leídos durante el semestre es:

\[ \hat{y}=8x+28 \]

El modelo se obtuvo con estudiantes que leyeron entre \(1\) y \(7\) libros.

Un estudiante afirma:

“Si alguien lee \(9\) libros, entonces obtendrá exactamente \(100\) puntos, porque \(8\cdot 9+28=100\)”.

Analiza la afirmación. Tu respuesta debe referirse al cálculo, al tipo de predicción y al uso de la palabra “exactamente”.

Ejercicio 5

En un estudio sobre producción diaria se obtuvo la siguiente recta para estimar un índice de productividad, en escala de 0 a 100, según el número de trabajadores en turno:

\[ \hat{y}=6x+14 \]

Los datos observados fueron de equipos con entre \(3\) y \(11\) trabajadores.

Clasifica cada uso del modelo como interpolación, extrapolación cercana o extrapolación lejana. Justifica.

Uso del modelo Clasificación
Estimar productividad para \(x=8\)  
Estimar productividad para \(x=12\)  
Estimar productividad para \(x=2\)  
Estimar productividad para \(x=18\)  

Cierre

La recta de regresión lineal permite representar la tendencia general de una nube de puntos y realizar predicciones aproximadas.

Para que el gráfico sea útil, el contexto y los datos deben permitir una escala legible. Por eso conviene usar rangos claros en los ejes y evitar gráficos saturados.

Al usar una recta de regresión, siempre se debe distinguir entre interpolación y extrapolación, y recordar que \(\hat{y}\) representa un valor estimado.