Variables correlacion y causalidad

Sitio: MATEMÁTICAS × Profe Arauco
Curso: Probabilidades y Estadística Descriptiva e Inferencial
Libro: Variables correlacion y causalidad
Imprimido por: Invitado
Día: lunes, 25 de mayo de 2026, 15:16

1. Nube de puntos I [lectura cualitativa de relación]

Objetivos

  • Reconocer una nube de puntos como una representación gráfica de dos variables cuantitativas.
  • Leer cualitativamente si dos variables parecen estar relacionadas.
  • Describir una relación entre variables usando lenguaje estadístico claro y contextualizado.

¿Qué es una nube de puntos?

Una nube de puntos es un gráfico que permite representar datos formados por pares de valores.

Cada punto del gráfico corresponde a una observación de la forma \((x,y)\), donde:

  • \(x\) representa el valor de una variable.
  • \(y\) representa el valor de otra variable.

Este tipo de gráfico se usa para estudiar si entre dos variables existe algún tipo de relación.

Lectura básica de una nube de puntos

Al observar una nube de puntos, conviene fijarse en tres aspectos:

  1. Dirección: si al aumentar una variable, la otra tiende a aumentar o disminuir.
  2. Forma: si los puntos parecen seguir una tendencia aproximadamente lineal o no.
  3. Dispersión: si los puntos están muy agrupados o muy separados entre sí.

Ejemplo 1: sesiones de preparación y puntaje

La siguiente tabla muestra la cantidad de sesiones de preparación realizadas por algunos estudiantes y el puntaje obtenido en una evaluación diagnóstica.

Estudiante Sesiones de preparación Puntaje
A 1 42
B 2 48
C 3 55
D 4 61
E 5 66
F 6 74

En el gráfico se observa que, a medida que aumentan las sesiones de preparación, el puntaje también tiende a aumentar.

Por lo tanto, podemos decir que entre estas variables parece existir una relación creciente.

Error común

No basta con mirar un solo punto para concluir que existe una relación. La lectura debe hacerse observando el comportamiento general de toda la nube de puntos.

Ejemplo 2: días desde una publicación y consultas recibidas

La siguiente nube de puntos relaciona la cantidad de días desde que se publicó un aviso informativo con el número de consultas diarias recibidas.

En este caso, cuando aumentan los días desde la publicación, la cantidad de consultas diarias tiende a disminuir.

Por lo tanto, la nube de puntos muestra una relación decreciente.

Cómo describir una nube de puntos

Una buena descripción debe mencionar las variables y la tendencia observada.

Por ejemplo:

“A medida que aumentan las sesiones de preparación, el puntaje tiende a aumentar.”

Esta descripción es mejor que decir solamente “sube”, porque menciona claramente el contexto de los datos.

Ejercicio 1

Una municipalidad registró, durante ocho semanas, la cantidad de actividades deportivas gratuitas realizadas y la asistencia total de jóvenes.

Semana Actividades deportivas \(x\) Asistencia total \(y\)
1 1 42
2 2 58
3 3 61
4 4 79
5 5 76
6 6 94
7 7 103
8 8 99

Redacta una interpretación estadística de la relación observada. Tu respuesta debe mencionar:

  1. las dos variables;
  2. la tendencia general;
  3. por qué no conviene usar la palabra “siempre”.

Ejercicio 2

La siguiente nube de puntos relaciona el tiempo promedio de traslado al colegio con la cantidad de minutos disponibles para desayunar.

Un estudiante afirma: “Como los puntos bajan, entonces ambas variables disminuyen al mismo tiempo”.

Evalúa la afirmación y corrígela usando el significado de los ejes.

Ejercicio 3

En una encuesta se registró la cantidad de horas semanales dedicadas a redes sociales y el promedio de horas de sueño por noche.

Persona Horas semanales en redes sociales \(x\) Horas de sueño por noche \(y\)
A 4 8,2
B 7 7,8
C 10 7,3
D 13 7,1
E 16 6,7
F 19 6,5
G 22 6,0

Sin calcular ningún coeficiente, responde:

  1. ¿Qué tendencia general parece existir?
  2. Redacta una conclusión cuidadosa, evitando afirmar causalidad.
  3. Menciona una variable externa que podría influir en la relación observada.

Ejercicio 4

Una tienda analizó la relación entre el precio de distintos audífonos y la cantidad de unidades vendidas durante un mes.

Modelo Precio \(x\) Unidades vendidas \(y\)
A 8000 120
B 10000 105
C 12000 98
D 15000 76
E 18000 70
F 22000 52
G 26000 43

Un informe propone la siguiente conclusión:

“Subir el precio de un audífono provoca necesariamente que se vendan menos unidades”.

Reescribe la conclusión para que sea estadísticamente más adecuada y explica qué problema tiene la frase original.

Ejercicio 5

Dos cursos registraron la relación entre horas de preparación semanal y puntaje en una evaluación. Las descripciones de sus nubes de puntos son las siguientes:

Curso Descripción de la nube de puntos
Curso A Los puntos suben hacia la derecha, pero hay bastante dispersión.
Curso B Los puntos suben hacia la derecha y se mantienen cercanos a una misma dirección.

Ambos cursos muestran una relación creciente. ¿En cuál curso la relación parece más clara? Justifica usando la idea de dispersión.

Cierre

Una nube de puntos permite hacer una primera lectura de la relación entre dos variables cuantitativas.

En esta lectura inicial conviene describir la tendencia general, evitar conclusiones absolutas y considerar que puede existir variación entre los puntos.

2. Nube de puntos II [tendencia positiva, negativa o nula]

Objetivos

  • Distinguir tendencias positivas, negativas y nulas en una nube de puntos.
  • Interpretar el sentido de una relación entre dos variables cuantitativas.
  • Describir una tendencia usando lenguaje estadístico claro, contextualizado y cuidadoso.

Sentido de la relación entre dos variables

Cuando observamos una nube de puntos, una de las primeras preguntas es:

¿Qué ocurre con una variable cuando la otra aumenta?

Según el comportamiento general de los puntos, podemos reconocer tres situaciones principales:

  • Tendencia positiva: cuando \(x\) aumenta, \(y\) tiende a aumentar.
  • Tendencia negativa: cuando \(x\) aumenta, \(y\) tiende a disminuir.
  • Tendencia nula: no se observa una dirección clara en los puntos.

Resumen de tendencias

Tipo de tendencia Descripción Lectura general
Positiva Los puntos tienden a subir hacia la derecha. Si \(x\) aumenta, \(y\) tiende a aumentar.
Negativa Los puntos tienden a bajar hacia la derecha. Si \(x\) aumenta, \(y\) tiende a disminuir.
Nula Los puntos no muestran una dirección clara. No se observa una relación evidente entre \(x\) e \(y\).

Ejemplo 1: tendencia positiva

La siguiente nube de puntos relaciona la cantidad de horas de práctica semanal con el puntaje obtenido en una prueba de habilidad.

Los puntos tienden a subir hacia la derecha.

Esto significa que, a mayor cantidad de horas de práctica semanal, mayor tiende a ser el puntaje.

Por lo tanto, se observa una tendencia positiva.

Ejemplo 2: tendencia negativa

La siguiente nube de puntos relaciona la antigüedad de un teléfono, en años, con su precio estimado de venta.

Los puntos tienden a bajar hacia la derecha.

Esto significa que, a mayor antigüedad del teléfono, menor tiende a ser su precio estimado.

Por lo tanto, se observa una tendencia negativa.

Ejemplo 3: tendencia nula

La siguiente nube de puntos relaciona un código interno asignado a estudiantes con el puntaje obtenido en una evaluación.

Los puntos no muestran una dirección clara. No se observa que el puntaje aumente o disminuya sistemáticamente al aumentar el código interno.

Por lo tanto, en este caso se observa una tendencia nula o ausencia de tendencia clara.

Error común

Una nube de puntos puede tener algunos puntos que no siguen exactamente la tendencia general.

Por eso, no se debe decidir la tendencia usando solo un punto aislado. Lo importante es observar el comportamiento global de la nube.

Estrategia para identificar la tendencia

  1. Mira los puntos de izquierda a derecha.
  2. Pregunta qué ocurre con \(y\) cuando \(x\) aumenta.
  3. Identifica si la dirección general es creciente, decreciente o no clara.
  4. Observa si hay puntos que se alejan del patrón general.
  5. Redacta la conclusión usando expresiones como “tiende a”, “en general” o “se observa”.

Ejercicio 1

Una municipalidad estudia la relación entre la inversión mensual en actividades culturales gratuitas y la asistencia total de público durante ocho meses.

Mes Inversión \(x\) en millones de pesos Asistencia \(y\)
1 2 420
2 3 510
3 4 530
4 5 690
5 6 640
6 7 760
7 8 850
8 9 790

Redacta una interpretación completa de la tendencia observada. Tu respuesta debe considerar que no todos los puntos siguen exactamente el mismo comportamiento.

Ejercicio 2

Una empresa analiza la relación entre el precio de distintos planes mensuales y la cantidad de clientes nuevos que contrataron cada plan.

Un analista afirma: “La tendencia es negativa, por lo tanto el último dato debe eliminarse porque está malo”.

Evalúa críticamente la afirmación.

Ejercicio 3

Dos cursos rindieron un diagnóstico y luego una prueba final. En ambos casos se estudió la relación entre puntaje diagnóstico \(x\) y puntaje final \(y\).

Curso Descripción de la nube de puntos
Curso A Los puntos suben hacia la derecha, pero están bastante dispersos.
Curso B Los puntos suben hacia la derecha y están muy cerca de una misma dirección.

Ambos cursos presentan tendencia positiva. ¿En qué curso la tendencia positiva parece más clara? Justifica usando la idea de dispersión.

Ejercicio 4

Un estudio sobre acceso a servicios digitales compara la edad de las personas con la cantidad de trámites digitales realizados durante el último mes.

Escoge la conclusión más defendible según el gráfico y justifica por qué las otras opciones no son adecuadas.

  1. A mayor edad, menor es siempre la cantidad de trámites digitales.
  2. A mayor edad, mayor es siempre la cantidad de trámites digitales.
  3. No se observa una tendencia lineal clara entre edad y trámites digitales realizados.
  4. La edad permite predecir exactamente cuántos trámites digitales hará una persona.

Ejercicio 5

Una organización estudia la relación entre el número de voluntarios disponibles y el tiempo que tarda en completar una campaña de recolección.

Campaña Voluntarios \(x\) Tiempo de ejecución \(y\) en días
A 8 18
B 10 15
C 12 14
D 15 11
E 18 9
F 20 10
G 24 7

Redacta una interpretación completa de la tendencia. Luego explica por qué sería incorrecto afirmar que “cada voluntario adicional reduce exactamente la misma cantidad de días”.

Ejercicio 6

Una noticia afirma:

“Las comunas con mayor número de cámaras de seguridad registran más denuncias. Por lo tanto, las cámaras provocan delincuencia”.

Desde el punto de vista estadístico, analiza la conclusión. Considera que la noticia solo muestra una nube de puntos con tendencia positiva entre número de cámaras y número de denuncias.

Cierre

Identificar una tendencia no consiste solo en decir si una nube “sube” o “baja”. También es necesario observar la dispersión, reconocer puntos que se alejan del patrón general y redactar conclusiones cuidadosas.

Una buena interpretación estadística describe lo que se observa en los datos, sin transformar una tendencia en una regla exacta ni en una afirmación causal automática.

3. Correlación intuitiva [fuerza y sentido de la relación]

Objetivos

  • Reconocer intuitivamente la fuerza de una relación entre dos variables cuantitativas.
  • Distinguir entre relaciones fuertes, moderadas, débiles y nulas a partir de una nube de puntos.
  • Describir el sentido y la fuerza de una relación usando lenguaje estadístico contextualizado.

¿Qué entendemos por correlación?

La correlación describe cómo se relacionan dos variables cuantitativas.

Antes de calcular un valor numérico, podemos observar una nube de puntos y analizar dos aspectos:

  • Sentido: si la relación es positiva, negativa o nula.
  • Fuerza: si los puntos siguen una tendencia de manera fuerte, moderada o débil.

Fuerza de la relación

La fuerza de una relación se observa según qué tan cerca están los puntos de una tendencia clara.

Fuerza Descripción Lectura visual
Fuerte Los puntos están muy cerca de una misma tendencia. La nube se ve ordenada y con poca dispersión.
Moderada Los puntos siguen una tendencia, pero con cierta dispersión. La dirección se reconoce, aunque no todos los puntos están muy alineados.
Débil Los puntos están muy dispersos. La tendencia existe, pero cuesta verla con claridad.
Nula No se observa una tendencia clara. Los puntos parecen estar distribuidos sin dirección definida.

Ejemplo 1: relación positiva fuerte

La siguiente nube de puntos relaciona las horas de entrenamiento semanal con el rendimiento obtenido en una prueba física.

Los puntos suben hacia la derecha y están bastante alineados.

Esto indica una relación positiva fuerte: a mayor cantidad de horas de entrenamiento, mayor tiende a ser el rendimiento.

Ejemplo 2: relación positiva moderada

La siguiente nube de puntos relaciona las horas de preparación semanal con el puntaje obtenido en una evaluación.

La nube muestra una tendencia creciente, pero los puntos no están perfectamente alineados.

Por eso, se puede describir como una relación positiva moderada.

Ejemplo 3: relación negativa fuerte

La siguiente nube de puntos relaciona la antigüedad de un computador con su valor estimado de reventa.

Los puntos bajan hacia la derecha y se mantienen muy cerca de una tendencia clara.

Esto indica una relación negativa fuerte: a mayor antigüedad, menor tiende a ser el valor estimado.

Ejemplo 4: relación débil o casi nula

La siguiente nube de puntos relaciona un código interno asignado a estudiantes con su puntaje en una prueba.

Los puntos están dispersos y no muestran una dirección clara.

Por lo tanto, no parece haber una relación evidente entre el código interno y el puntaje.

Error común

Una relación fuerte no significa que todos los puntos deban estar exactamente sobre una línea.

En datos reales siempre puede existir variación. Lo importante es observar si la nube de puntos sigue una tendencia clara.

Cómo describir una correlación intuitivamente

Una descripción completa debe mencionar:

  1. Las variables que se están comparando.
  2. El sentido de la relación: positiva, negativa o nula.
  3. La fuerza de la relación: fuerte, moderada o débil.
  4. Una interpretación en contexto.

Por ejemplo: “Entre las horas de entrenamiento y el rendimiento se observa una relación positiva fuerte, porque al aumentar las horas de entrenamiento, el rendimiento tiende a aumentar y los puntos están poco dispersos.”

Ejercicio 1

Una investigadora estudia la relación entre el porcentaje de asistencia a clases y el puntaje obtenido en una prueba final.

Estudiante Asistencia \(x\) (%) Puntaje final \(y\)
A 62 48
B 68 55
C 71 58
D 76 63
E 81 67
F 85 70
G 89 74
H 93 78
I 96 82
J 98 84

Describe el sentido y la fuerza de la relación. Luego escribe una interpretación contextualizada, evitando afirmar causalidad absoluta.

Ejercicio 2

Dos comunas registraron la relación entre ingreso promedio mensual del hogar y gasto mensual en transporte. Los datos se muestran en las siguientes nubes de puntos.

Comuna A: ingreso \(x\) Gasto transporte \(y\) Comuna B: ingreso \(x\) Gasto transporte \(y\)
500 62 500 44
650 68 650 91
800 75 800 57
950 82 950 103
1100 88 1100 72
1250 96 1250 118
1400 102 1400 82
1550 110 1550 130

Ambas comunas podrían mostrar una tendencia positiva. ¿En cuál la relación parece más fuerte? Justifica considerando la dispersión de los puntos.

Ejercicio 3

Un estudio compara la cantidad de horas semanales de trabajo remunerado de estudiantes y su promedio de notas.

Una persona concluye: “Trabajar siempre perjudica el rendimiento académico”.

Evalúa la conclusión usando la nube de puntos. Tu respuesta debe distinguir entre tendencia, fuerza de la relación y causalidad.

Ejercicio 4

Una nube de puntos muestra la relación entre años de experiencia laboral y sueldo mensual. Se detecta un dato atípico:

Persona Experiencia \(x\) en años Sueldo \(y\) en miles de pesos
A 1 680
B 2 720
C 3 790
D 4 850
E 5 910
F 6 960
G 7 1010
H 8 1060
I 9 2100

Analiza cómo cambia la lectura de la relación si se considera el dato de la persona I. ¿Conviene eliminarlo automáticamente? Justifica.

Ejercicio 5

Se estudia la relación entre horas de preparación y puntaje en dos asignaturas distintas.

Horas de preparación \(x\) Puntaje en asignatura A Puntaje en asignatura B
1 44 51
2 50 63
3 57 55
4 63 72
5 69 60
6 76 81
7 82 66
8 88 90

Sin calcular \(r\), compara la fuerza de la relación entre horas de preparación y puntaje en ambas asignaturas. Explica cuál parece más estable y por qué.

Ejercicio 6

Un equipo compara tres estudios distintos. En cada caso se describe la nube de puntos sin entregar todavía el coeficiente de correlación.

Estudio Descripción de la nube de puntos
A Los puntos bajan hacia la derecha y están muy cerca de una misma dirección.
B Los puntos suben hacia la derecha, pero con bastante dispersión.
C Los puntos aparecen distribuidos sin una dirección clara.

Para cada estudio, indica el sentido y la fuerza aproximada de la relación. Luego ordénalos desde la relación más fuerte hasta la más débil.

Cierre

La correlación intuitiva permite describir una relación antes de calcular un coeficiente numérico.

Una descripción completa debe indicar el sentido de la relación, su fuerza aproximada y el contexto de las variables.

En las próximas clases se profundizará esta idea usando el coeficiente de correlación de Pearson.

4. Correlación no implica causalidad [advertencias e interpretación crítica]

Objetivos

  • Distinguir entre relación estadística y relación causal.
  • Interpretar críticamente una nube de puntos evitando conclusiones apresuradas.
  • Reconocer posibles variables externas que pueden influir en una relación observada.

Relación no significa causa

Cuando dos variables presentan una tendencia en una nube de puntos, decimos que parecen estar relacionadas.

Sin embargo, una relación estadística no permite afirmar automáticamente que una variable cause la otra.

Por ejemplo, si al aumentar \(x\) también aumenta \(y\), eso no significa necesariamente que \(x\) produzca directamente el aumento de \(y\).

Advertencia fundamental

Correlación no implica causalidad.

Esto significa que dos variables pueden moverse juntas sin que una sea la causa directa de la otra.

Para afirmar causalidad se necesita más información, un diseño de estudio adecuado y controlar otros factores que podrían influir.

Tres situaciones posibles

Situación Interpretación
Una variable puede influir en la otra Puede existir una relación causal, pero debe justificarse con más evidencia.
Puede existir una variable externa Una tercera variable puede estar afectando a ambas variables observadas.
La relación puede ser coincidente Los datos pueden mostrar una tendencia aparente sin que exista una conexión importante entre las variables.

Ejemplo 1: plataformas educativas y puntaje

Un colegio observa una relación positiva entre las horas semanales de uso de plataformas educativas y el puntaje obtenido en una evaluación.

Se observa una relación positiva: quienes usan más horas la plataforma tienden a obtener mayores puntajes.

Pero esta información, por sí sola, no demuestra que la plataforma sea la causa directa del mayor puntaje.

También podrían influir variables como conocimientos previos, hábitos de estudio, apoyo familiar, motivación o asistencia a clases.

Una interpretación adecuada sería:

“En estos datos, los estudiantes con mayor uso de plataformas educativas tienden a obtener mayores puntajes”.

Ejemplo 2: paraguas vendidos y accidentes de tránsito

Supongamos que en una ciudad se registra una relación positiva entre la cantidad de paraguas vendidos y la cantidad de accidentes de tránsito.

La nube de puntos muestra que ambas variables aumentan juntas.

Pero sería incorrecto concluir que comprar paraguas causa accidentes.

Una explicación más razonable es que existe una variable externa: la lluvia.

Cuando llueve, pueden aumentar las ventas de paraguas y también los accidentes por calles resbaladizas o menor visibilidad.

Cómo interpretar críticamente una relación

Antes de afirmar que una variable causa otra, conviene preguntarse:

  1. ¿Tiene sentido contextual que una variable influya en la otra?
  2. ¿Podría existir una tercera variable que afecte a ambas?
  3. ¿La relación observada podría deberse a una coincidencia?
  4. ¿Los datos son suficientes para sostener una conclusión fuerte?
  5. ¿El estudio compara grupos equivalentes o controla variables externas?

Ejemplo 3: grupos comparables

Un colegio quiere evaluar si una nueva estrategia de estudio mejora los resultados. Para eso compara dos grupos.

Grupo Usó la estrategia Promedio inicial Promedio final
Grupo A 5,8 6,3
Grupo B No 4,7 5,1

El Grupo A termina con mayor promedio final, pero también comenzó con mayor promedio inicial.

Por eso, no basta mirar solo el promedio final para afirmar que la estrategia causó mejores resultados.

Una comparación más cuidadosa debe considerar si los grupos eran similares al inicio, si tuvieron el mismo profesor, el mismo tiempo de estudio y condiciones equivalentes.

Error común

Un error frecuente es escribir conclusiones causales solo porque el gráfico muestra una tendencia.

Por ejemplo, si dos variables aumentan juntas, no siempre corresponde decir \(x\) provoca \(y\).

En estadística descriptiva, muchas veces es más correcto decir “se observa una relación entre \(x\) e \(y\) o \(y\) tiende a aumentar cuando \(x\) aumenta”.

Ejercicio 1

Un investigador analiza datos de distintas comunas y observa una relación positiva entre el número de cámaras de seguridad instaladas y el número de denuncias registradas durante el año.

Comuna Cámaras instaladas \(x\) Denuncias registradas \(y\) Población aproximada
A 18 420 35 000
B 24 510 42 000
C 35 760 68 000
D 42 890 75 000
E 55 1180 102 000
F 70 1490 130 000

Una persona concluye: “Instalar cámaras aumenta la delincuencia, porque las comunas con más cámaras tienen más denuncias”.

Evalúa la conclusión considerando al menos una variable externa posible.

Ejercicio 2

En una muestra de estudiantes de 4° medio se registró el promedio de horas de estudio semanal y el puntaje obtenido en un ensayo. Además, se separó a los estudiantes según si asistieron o no a un taller de preparación.

Grupo Horas de estudio \(x\) Puntaje promedio \(y\)
Sin taller 2 485
Sin taller 4 520
Sin taller 6 548
Sin taller 8 570
Con taller 2 540
Con taller 4 575
Con taller 6 602
Con taller 8 628

Se observa que, en general, a mayor cantidad de horas de estudio, mayor puntaje. ¿Sería correcto concluir que las horas de estudio son la única explicación del puntaje? Fundamenta usando la información del grupo.

Ejercicio 3

Un informe afirma que existe una relación positiva entre el consumo promedio de energía eléctrica de una comuna y el número de enfermedades respiratorias registradas.

Comuna Consumo eléctrico promedio \(x\) Casos respiratorios \(y\) Temperatura media del mes
A 180 92 13°C
B 210 130 11°C
C 235 168 9°C
D 260 210 7°C
E 290 245 6°C
F 315 280 5°C

Una conclusión del informe dice: “El mayor consumo eléctrico provoca enfermedades respiratorias”.

Reescribe la conclusión para que sea estadísticamente más correcta y explica qué variable externa podría estar actuando.

Ejercicio 4

Un equipo de investigación compara dos titulares posibles para presentar sus resultados.

Titular Información disponible
A: “El uso de plataformas educativas mejora el rendimiento escolar”. Se observó una relación positiva entre horas de uso de plataformas educativas y puntaje final.
B: “Estudiantes con mayor uso de plataformas educativas tienden a obtener mayores puntajes”. Se observó una relación positiva entre horas de uso de plataformas educativas y puntaje final.

¿Cuál titular es más adecuado con la información disponible? Justifica considerando causalidad y redacción estadística.

Ejercicio 5

Una empresa observa que, en distintos meses, el gasto en publicidad y las ventas aumentan juntos. Sin embargo, los mayores gastos publicitarios ocurrieron en noviembre y diciembre.

Mes Gasto en publicidad \(x\) Ventas \(y\) Observación contextual
Agosto 3 48 Mes normal
Septiembre 4 55 Mes normal
Octubre 5 61 Mes normal
Noviembre 8 92 Inicio de campaña de fin de año
Diciembre 10 125 Compras de fin de año

¿Qué problema tiene concluir que la publicidad explica completamente el aumento de ventas? Propón una interpretación más cuidadosa.

Ejercicio 6

Un colegio compara dos grupos de estudiantes para evaluar una nueva estrategia de estudio.

Grupo Estrategia nueva Promedio inicial Promedio final
Grupo 1 5,8 6,3
Grupo 2 No 4,6 5,0

Una persona afirma: “La estrategia nueva causó mejores resultados, porque el grupo que la usó terminó con mayor promedio final”.

Analiza la afirmación. ¿Qué información falta para evaluar mejor la causalidad?

Cierre

Una relación estadística permite describir cómo se comportan dos variables en un conjunto de datos, pero no demuestra automáticamente causalidad.

Para interpretar críticamente una relación, es necesario considerar variables externas, posibles explicaciones alternativas, el diseño del estudio y la forma en que se redactan las conclusiones.

5. Coeficiente de correlación de Pearson I [sentido del indicador] (PAES M2)

Objetivos

  • Comprender que el coeficiente de correlación de Pearson mide el sentido y la fuerza de una relación lineal entre dos variables cuantitativas.
  • Interpretar el signo del coeficiente de correlación de Pearson.
  • Relacionar el valor de \(r\) con la forma de una nube de puntos.

¿Qué mide el coeficiente de correlación de Pearson?

El coeficiente de correlación de Pearson, representado por la letra \(r\), es un número que permite describir una relación lineal entre dos variables cuantitativas.

Este coeficiente entrega información sobre dos aspectos:

  • Sentido de la relación: si la relación lineal es positiva o negativa.
  • Fuerza de la relación: qué tan cerca están los puntos de una tendencia lineal.

Rango de valores de \(r\)

El coeficiente de correlación de Pearson siempre cumple:

\[ -1 \leq r \leq 1 \]

Valor de \(r\) Interpretación general
\(r>0\) Relación lineal positiva.
\(r<0\) Relación lineal negativa.
\(r\approx 0\) No se observa relación lineal clara.
\(r=1\) Relación lineal positiva perfecta.
\(r=-1\) Relación lineal negativa perfecta.

Importante

El coeficiente \(r\) mide relación lineal. Si los datos siguen una curva, el valor de \(r\) puede no representar bien la relación, aunque visualmente exista un patrón.

Ejemplo 1: relación positiva y valor de \(r\)

La siguiente nube de puntos relaciona sesiones de preparación semanal con puntaje obtenido.

Los puntos suben hacia la derecha y están bastante cercanos a una tendencia lineal.

Por eso, se espera que el coeficiente \(r\) sea positivo y cercano a \(1\).

Una interpretación adecuada sería:

“Existe una relación lineal positiva fuerte entre las sesiones de preparación semanal y el puntaje obtenido.”

Ejemplo 2: relación negativa y valor de \(r\)

La siguiente nube de puntos relaciona la antigüedad de un computador con su valor estimado de reventa.

Los puntos bajan hacia la derecha y siguen una tendencia lineal clara.

Por eso, se espera que el coeficiente \(r\) sea negativo y cercano a \(-1\).

Una interpretación adecuada sería:

“Existe una relación lineal negativa fuerte entre la antigüedad del computador y su valor estimado.”

Ejemplo 3: relación lineal débil o nula

La siguiente nube de puntos relaciona un código interno asignado a estudiantes con el puntaje obtenido en una evaluación.

Los puntos no muestran una tendencia lineal clara.

Por eso, se espera que el coeficiente \(r\) sea cercano a \(0\).

Una interpretación adecuada sería:

“No se observa una relación lineal clara entre el código interno del estudiante y el puntaje obtenido.”

Cómo interpretar rápidamente el signo de \(r\)

  1. Si la nube sube hacia la derecha, entonces \(r\) es positivo.
  2. Si la nube baja hacia la derecha, entonces \(r\) es negativo.
  3. Si la nube no muestra dirección lineal clara, entonces \(r\) está cerca de \(0\).

Ejemplo 4: comparar valores posibles de \(r\)

Observa los siguientes valores posibles para el coeficiente de correlación:

\[ r=0{,}94 \qquad r=-0{,}91 \qquad r=0{,}08 \]

Según el signo y la cercanía a \(1\), \(-1\) o \(0\), se interpretan así:

Valor de \(r\) Interpretación
\(0{,}94\) Relación lineal positiva fuerte.
\(-0{,}91\) Relación lineal negativa fuerte.
\(0{,}08\) Relación lineal muy débil o prácticamente nula.

El signo indica el sentido de la relación, mientras que la cercanía a \(1\) o \(-1\) indica mayor fuerza lineal.

Error común

No se debe interpretar \(r=0{,}90\) como “90% de causalidad”.

El valor de \(r\) mide asociación lineal entre dos variables, pero no demuestra por sí solo que una variable cause la otra.

Ejercicio 1

En un estudio comunal se registró el porcentaje de hogares con acceso a internet fijo y el porcentaje de estudiantes que declaró usar plataformas educativas al menos tres veces por semana.

Comuna Acceso a internet fijo \(x\) (%) Uso frecuente de plataformas \(y\) (%)
A 42 31
B 48 36
C 55 43
D 61 50
E 68 56
F 73 64
G 79 69
H 84 76

Sin calcular \(r\), responde:

  1. ¿Qué signo debería tener el coeficiente de correlación de Pearson?
  2. ¿Esperarías que su valor esté más cerca de \(1\), de \(0\) o de \(-1\)?
  3. Redacta una interpretación contextualizada evitando afirmar causalidad.

Ejercicio 2

Una empresa analiza la relación entre el tiempo promedio de espera en atención al cliente y el nivel de satisfacción reportado por usuarios en una escala de 1 a 100.

Sucursal Tiempo de espera \(x\) en minutos Satisfacción \(y\)
A 4 91
B 6 86
C 9 79
D 11 73
E 14 69
F 18 58
G 21 51
H 25 45

Selecciona cuál de los siguientes valores podría representar mejor la relación observada y justifica tu elección:

\[ r=0{,}91 \qquad r=-0{,}94 \qquad r=-0{,}18 \qquad r=0{,}06 \]

Ejercicio 3

Se presentan cuatro valores posibles de \(r\), obtenidos en distintos estudios:

Estudio Valor de \(r\) Variables analizadas
A \(0{,}87\) Horas de preparación y puntaje en una prueba de selección.
B \(-0{,}91\) Antigüedad de maquinaria y valor de reventa.
C \(0{,}12\) Código interno de estudiante y promedio semestral.
D \(-0{,}46\) Tiempo de traslado y horas disponibles para estudio.

Ordena los estudios desde la relación lineal más débil hasta la más fuerte. Luego indica el sentido de cada relación.

Ejercicio 4

Una nube de puntos muestra una relación creciente, pero no lineal, entre dos variables. Los datos siguen el siguiente patrón:

Un estudiante afirma: “Como los datos tienen un patrón claro, el coeficiente de Pearson necesariamente debe describir completamente la relación”.

Evalúa la afirmación considerando qué mide el coeficiente \(r\).

Ejercicio 5

Un informe entrega los siguientes resultados:

Relación estudiada Coeficiente \(r\) Conclusión propuesta
Temperatura diaria y consumo de agua potable. \(0{,}78\) “La temperatura causa el 78% del consumo de agua”.
Distancia al centro de la ciudad y precio del arriendo. \(-0{,}69\) “A mayor distancia al centro, el arriendo tiende a ser menor”.
Código interno de estudiante y promedio semestral. \(0{,}04\) “No se observa una relación lineal clara”.

Identifica cuál conclusión está mal redactada y corrígela. Luego justifica usando el significado de \(r\).

Ejercicio 6

En una prueba tipo PAES M2 se muestra la siguiente nube de puntos y se pregunta por el signo esperado de \(r\).

¿Cuál de las siguientes afirmaciones es necesariamente falsa?

  1. El coeficiente \(r\) debería ser negativo.
  2. Si los puntos están cerca de una recta descendente, \(|r|\) debería ser relativamente grande.
  3. El coeficiente \(r\) debería estar cerca de \(1\).
  4. La relación observada es lineal negativa.

Ejercicio 7

Un estudiante interpreta \(r=-0{,}82\) diciendo:

“La relación es baja porque el número es menor que cero”.

Corrige la interpretación y explica el error conceptual.

Cierre

El coeficiente de correlación de Pearson permite resumir el sentido y la fuerza de una relación lineal.

El signo de \(r\) indica si la relación lineal es positiva o negativa, mientras que su cercanía a \(1\) o \(-1\) indica mayor fuerza lineal.

Antes de interpretar \(r\), siempre conviene observar la nube de puntos y recordar que correlación no implica causalidad.

6. Coeficiente de correlación de Pearson II [cálculo con apoyo tecnológico] (PAES M2)

Objetivos

  • Calcular el coeficiente de correlación de Pearson \(r\) usando apoyo tecnológico.
  • Organizar datos bivariados en una tabla para analizarlos con planilla de cálculo o calculadora.
  • Interpretar el valor obtenido de \(r\) en el contexto de una situación.

¿Por qué usar apoyo tecnológico?

El coeficiente de correlación de Pearson se puede calcular manualmente, pero el procedimiento puede ser largo cuando hay muchos datos.

En estadística aplicada, es común usar herramientas como planillas de cálculo, calculadoras o software estadístico para obtener \(r\) con mayor rapidez y precisión.

Lo importante no es solo obtener el número, sino interpretarlo correctamente.

Datos bivariados

Para calcular el coeficiente de correlación de Pearson se necesitan pares de datos de la forma:

\[ (x_1,y_1), (x_2,y_2), (x_3,y_3), \ldots, (x_n,y_n) \]

Cada par representa una observación de dos variables cuantitativas.

Por ejemplo, si \(x\) representa porcentaje de asistencia e \(y\) representa puntaje, cada estudiante aporta un par \((x,y)\).

Procedimiento con planilla de cálculo

  1. Escribe los valores de la variable \(x\) en una columna.
  2. Escribe los valores de la variable \(y\) en una segunda columna.
  3. Verifica que cada par \((x,y)\) esté en la misma fila.
  4. Usa la función de correlación de la planilla.
  5. Interpreta el valor obtenido según su signo y cercanía a \(1\), \(-1\) o \(0\).

En muchas planillas se puede usar una función como:

\[ \text{CORREL(rango\_x; rango\_y)} \]

Importante

El resultado tecnológico debe revisarse en contexto.

Un valor de \(r\) positivo, negativo o cercano a cero debe coincidir con la forma general de la nube de puntos.

Si el valor obtenido contradice completamente el gráfico, conviene revisar si los datos fueron ingresados correctamente.

Ejemplo 1: cálculo e interpretación de \(r\)

La siguiente tabla muestra el porcentaje de asistencia y el puntaje obtenido por ocho estudiantes en una evaluación común.

Estudiante Asistencia \(x\) (%) Puntaje \(y\)
A 64 498
B 70 525
C 73 540
D 78 568
E 82 584
F 86 610
G 91 638
H 95 655

Al ingresar los datos en una planilla y calcular la correlación entre ambas columnas, se obtiene aproximadamente:

\[ r\approx 0{,}997 \]

Este valor es positivo y muy cercano a \(1\).

Por lo tanto, se interpreta como una relación lineal positiva muy fuerte entre el porcentaje de asistencia y el puntaje obtenido.

En contexto, los estudiantes con mayor asistencia tienden a obtener mayores puntajes en este conjunto de datos.

Ejemplo 2: relación negativa

La siguiente tabla muestra el tiempo promedio de espera en atención al cliente y el nivel de satisfacción reportado por usuarios en una escala de 1 a 100.

Sucursal Tiempo de espera \(x\) en minutos Satisfacción \(y\)
A 4 91
B 6 86
C 9 79
D 11 73
E 14 69
F 18 58
G 21 51
H 25 45

Al calcular el coeficiente de correlación con apoyo tecnológico, se obtiene aproximadamente:

\[ r\approx -0{,}99 \]

El valor es negativo y muy cercano a \(-1\).

Por lo tanto, existe una relación lineal negativa muy fuerte: a mayor tiempo de espera, menor tiende a ser el nivel de satisfacción.

Interpretación del valor obtenido

Valor aproximado de \(r\) Lectura general
\(r\) cercano a \(1\) Relación lineal positiva fuerte.
\(r\) cercano a \(-1\) Relación lineal negativa fuerte.
\(r\) cercano a \(0\) Relación lineal débil o nula.

Ejemplo 3: revisar si el resultado tiene sentido

La siguiente tabla relaciona un código interno asignado a estudiantes con el puntaje obtenido en una prueba.

Estudiante Código interno \(x\) Puntaje \(y\)
A 101 68
B 104 51
C 109 77
D 113 60
E 118 73
F 122 57
G 127 82
H 131 62

Al calcular \(r\) con apoyo tecnológico, se obtiene un valor bajo en magnitud.

Esto coincide con la nube de puntos: no se observa una relación lineal clara entre el código interno y el puntaje.

Este ejemplo muestra que el valor de \(r\) debe leerse junto con el contexto. Aunque una planilla entregue un número, no todas las variables tienen una relación estadística relevante.

Error común

No basta con copiar el valor que entrega la herramienta.

En una respuesta completa se debe interpretar el resultado en contexto, mencionando las variables estudiadas, el signo de \(r\), su fuerza aproximada y una advertencia si corresponde.

Ejercicio 1

En una investigación escolar se estudió la relación entre el porcentaje de asistencia a clases y el puntaje obtenido en una prueba común. Los datos fueron ingresados en una planilla de cálculo.

Estudiante Asistencia \(x\) (%) Puntaje \(y\)
A 64 498
B 70 525
C 73 540
D 78 568
E 82 584
F 86 610
G 91 638
H 95 655

Al usar la función de correlación en una planilla, se obtiene:

\[ r\approx 0{,}997 \]

  1. Interpreta el valor de \(r\) en contexto.
  2. Explica por qué no basta con escribir solamente “\(r=0{,}997\)”.
  3. Indica una variable externa que podría influir en la relación observada.

Ejercicio 2

Una planilla entrega los siguientes coeficientes de correlación para cuatro estudios distintos.

Estudio Variables Valor de \(r\)
A Horas de estudio y puntaje obtenido \(0{,}86\)
B Tiempo de traslado y tiempo disponible para estudiar \(-0{,}72\)
C Código interno de estudiante y promedio semestral \(0{,}03\)
D Tiempo de espera y satisfacción de usuarios \(-0{,}94\)

Ordena los estudios desde la relación lineal más débil hasta la más fuerte. Justifica usando el valor absoluto de \(r\).

Ejercicio 3

Un estudiante ingresó en una planilla los datos de dos variables y obtuvo:

\[ r=-0{,}89 \]

Luego escribió la siguiente interpretación:

“La relación es débil porque el resultado es negativo”.

Corrige la interpretación del estudiante y explica el error conceptual.

Ejercicio 4

En una encuesta se registró la cantidad de horas semanales dedicadas a trabajo remunerado y el promedio de horas de sueño por noche en estudiantes de 4° medio.

Estudiante Horas de trabajo semanal \(x\) Horas de sueño por noche \(y\)
A 0 8,1
B 4 7,8
C 6 7,4
D 9 7,1
E 12 6,8
F 15 6,2
G 18 6,0
H 22 5,6

Con apoyo tecnológico se obtiene:

\[ r\approx -0{,}99 \]

Interpreta este resultado y redacta una conclusión cuidadosa, evitando afirmar causalidad absoluta.

Ejercicio 5

Un curso calculó el coeficiente de correlación entre dos variables y obtuvo \(r\approx 0\). La nube de puntos, sin embargo, muestra un patrón curvo muy marcado.

¿Es contradictorio que \(r\) sea cercano a \(0\) si visualmente hay un patrón claro? Explica considerando qué mide Pearson.

Ejercicio 6

Una estudiante calculó \(r\) en una planilla para dos columnas de datos. La nube de puntos era claramente creciente, pero la planilla entregó:

\[ r\approx -0{,}91 \]

Indica dos posibles errores de ingreso o selección de datos que podrían explicar esta contradicción entre el gráfico y el resultado.

Ejercicio 7

En una planilla se comparan dos grupos de datos sobre ingreso familiar mensual y gasto mensual en alimentación.

Grupo Coeficiente \(r\) Descripción de la nube
Grupo A \(0{,}91\) Los puntos siguen una tendencia creciente bastante clara.
Grupo B \(0{,}42\) Los puntos tienden a subir, pero con alta dispersión.

Compara ambos grupos. ¿Qué grupo permite hacer una predicción lineal más confiable? Justifica sin calcular una recta de regresión.

Cierre

El apoyo tecnológico permite calcular \(r\) de manera rápida, pero el análisis estadístico no termina con el resultado numérico.

Una interpretación completa debe considerar el signo, la fuerza, el contexto, la forma de la nube de puntos y posibles errores de ingreso de datos.

7. La formula de pearson ( profundización)

Profundización: ¿de dónde sale el coeficiente de correlación de Pearson?

Objetivos

  • Comprender el coeficiente de correlación de Pearson como una covarianza estandarizada.
  • Explicar por qué la fórmula de Pearson queda entre \(-1\) y \(1\).
  • Reconocer que, en el contexto escolar y en evaluaciones estandarizadas como PAES, suele ser más importante interpretar \(r\) que calcularlo manualmente con la fórmula completa.

Antes de comenzar

Esta página es de profundización. Su objetivo es entender de dónde nace la fórmula del coeficiente de correlación de Pearson.

En el contexto de educación media, y especialmente en preguntas tipo PAES M2, es mucho más probable que se evalúe la interpretación de \(r\), la lectura de nubes de puntos, la comparación de valores y el análisis crítico de conclusiones, antes que el cálculo manual completo de la fórmula.

La pregunta central

Cuando observamos una nube de puntos, queremos responder preguntas como:

  • ¿Las variables tienden a aumentar juntas?
  • ¿Cuando una aumenta, la otra tiende a disminuir?
  • ¿La relación parece fuerte, débil o casi nula?

El coeficiente de correlación de Pearson busca transformar esa lectura visual en un número entre \(-1\) y \(1\).

Idea general

El coeficiente de correlación de Pearson puede entenderse como:

\[ r=\frac{\text{covarianza entre }x\text{ e }y}{\text{desviación estándar de }x\cdot \text{desviación estándar de }y} \]

Es decir:

\[ r=\frac{s_{xy}}{s_xs_y} \]

Por eso se dice que \(r\) es una covarianza estandarizada.

Primera idea: desviarse respecto de la media

Supongamos que tenemos pares de datos:

\[ (x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n) \]

Para estudiar la relación entre \(x\) e \(y\), no miramos solo los valores originales. Primero observamos cuánto se aleja cada dato de su media:

\[ x_i-\bar{x} \]

\[ y_i-\bar{y} \]

Si \(x_i-\bar{x}\) es positivo, entonces ese valor de \(x\) está sobre el promedio de \(x\).

Si \(x_i-\bar{x}\) es negativo, entonces ese valor de \(x\) está bajo el promedio de \(x\).

Segunda idea: multiplicar desviaciones

La expresión clave es:

\[ (x_i-\bar{x})(y_i-\bar{y}) \]

Este producto permite saber si las dos variables se alejan de sus medias en el mismo sentido o en sentidos opuestos.

Situación Producto Interpretación
\(x_i\) sobre su media e \(y_i\) sobre su media \((+)(+)=+\) Ambas variables están altas respecto de sus promedios.
\(x_i\) bajo su media e \(y_i\) bajo su media \((-)(-)=+\) Ambas variables están bajas respecto de sus promedios.
\(x_i\) sobre su media e \(y_i\) bajo su media \((+)(-)=-\) Las variables se mueven en sentidos opuestos.
\(x_i\) bajo su media e \(y_i\) sobre su media \((-)(+)=-\) Las variables se mueven en sentidos opuestos.

Si la mayoría de estos productos son positivos, la relación tiende a ser positiva.

Si la mayoría son negativos, la relación tiende a ser negativa.

Covarianza muestral

La covarianza muestral entre \(x\) e \(y\) se puede escribir como:

\[ s_{xy}=\frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y}) \]

La covarianza mide si las variables tienden a moverse juntas o en sentidos opuestos.

  • Si \(s_{xy}>0\), las variables tienden a moverse en el mismo sentido.
  • Si \(s_{xy}<0\), las variables tienden a moverse en sentidos opuestos.
  • Si \(s_{xy}\approx 0\), no se observa una relación lineal clara.

Problema de la covarianza

La covarianza depende de las unidades de medida.

Por ejemplo, si el ingreso se mide en pesos o en miles de pesos, el valor numérico de la covarianza cambia, aunque la relación entre las variables sea la misma.

Por eso necesitamos una medida sin unidades y más fácil de comparar.

Desviaciones estándar

Para quitar el efecto de las unidades, se divide la covarianza por las desviaciones estándar de ambas variables.

La desviación estándar muestral de \(x\) es:

\[ s_x=\sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2} \]

La desviación estándar muestral de \(y\) es:

\[ s_y=\sqrt{\frac{1}{n-1}\sum (y_i-\bar{y})^2} \]

Entonces:

\[ r=\frac{s_{xy}}{s_xs_y} \]

Desarrollo de la fórmula

Partimos desde:

\[ r=\frac{s_{xy}}{s_xs_y} \]

Reemplazamos la covarianza y las desviaciones estándar:

\[ r= \frac{ \frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y}) } { \sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2} \sqrt{\frac{1}{n-1}\sum (y_i-\bar{y})^2} } \]

En el denominador aparece:

\[ \sqrt{\frac{1}{n-1}}\cdot \sqrt{\frac{1}{n-1}}=\frac{1}{n-1} \]

Por lo tanto, el factor \(\frac{1}{n-1}\) aparece arriba y abajo, y se cancela.

Así se obtiene la forma más conocida:

\[ r= \frac{\sum (x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}} \]

Interpretación de la fórmula

La fórmula se puede leer así:

\[ r= \frac{\text{movimiento conjunto de }x\text{ e }y} {\text{dispersión de }x\cdot\text{dispersión de }y} \]

El numerador mide si las variables se desvían juntas de sus medias.

El denominador ajusta el resultado según la dispersión de cada variable.

Por eso \(r\) no tiene unidades y siempre queda entre \(-1\) y \(1\).

Ejemplo guiado con pocos datos

Consideremos los siguientes datos:

Dato \(x\) \(y\)
A 1 2
B 2 3
C 3 5
D 4 6

Calculamos las medias:

\[ \bar{x}=\frac{1+2+3+4}{4}=2{,}5 \]

\[ \bar{y}=\frac{2+3+5+6}{4}=4 \]

\(x_i\) \(y_i\) \(x_i-\bar{x}\) \(y_i-\bar{y}\) \((x_i-\bar{x})(y_i-\bar{y})\) \((x_i-\bar{x})^2\) \((y_i-\bar{y})^2\)
1 2 \(-1{,}5\) \(-2\) \(3\) \(2{,}25\) \(4\)
2 3 \(-0{,}5\) \(-1\) \(0{,}5\) \(0{,}25\) \(1\)
3 5 \(0{,}5\) \(1\) \(0{,}5\) \(0{,}25\) \(1\)
4 6 \(1{,}5\) \(2\) \(3\) \(2{,}25\) \(4\)

Sumamos las columnas necesarias:

\[ \sum (x_i-\bar{x})(y_i-\bar{y})=3+0{,}5+0{,}5+3=7 \]

\[ \sum (x_i-\bar{x})^2=2{,}25+0{,}25+0{,}25+2{,}25=5 \]

\[ \sum (y_i-\bar{y})^2=4+1+1+4=10 \]

Reemplazamos en la fórmula:

\[ r=\frac{7}{\sqrt{5}\sqrt{10}} \]

\[ r=\frac{7}{\sqrt{50}} \]

\[ r\approx \frac{7}{7{,}07}\approx 0{,}99 \]

El valor de \(r\) es positivo y cercano a \(1\), por lo que existe una relación lineal positiva muy fuerte.

Otra mirada: datos estandarizados

También se puede entender \(r\) usando puntajes estandarizados:

\[ z_x=\frac{x_i-\bar{x}}{s_x} \]

\[ z_y=\frac{y_i-\bar{y}}{s_y} \]

Estos valores indican cuántas desviaciones estándar se aleja cada dato de su media.

Desde esta mirada, \(r\) compara si los valores estandarizados de \(x\) e \(y\) tienden a tener el mismo signo o signos opuestos.

Condición necesaria

El coeficiente de Pearson no está definido si una de las variables no varía.

Por ejemplo, si todos los valores de \(x\) son iguales, entonces \(s_x=0\), y no se puede dividir por cero.

Por eso, para calcular \(r\), ambas variables deben tener variabilidad.

Ejercicio 1

Explica con tus palabras por qué Pearson \(r\) se puede entender como una covarianza estandarizada.

Ejercicio 2

Un estudiante pregunta por qué en la fórmula final de Pearson no aparece dividido por \(n-1\), aunque la covarianza y las desviaciones estándar muestrales sí usan \(n-1\).

Responde explicando la cancelación.

Ejercicio 3

Observa la siguiente afirmación:

“Si \(r=0{,}95\), entonces la relación es positiva fuerte y necesariamente una variable causa a la otra”.

Evalúa la afirmación.

Ejercicio 4

Supón que en un conjunto de datos todos los valores de \(x\) son iguales, pero los valores de \(y\) cambian.

¿Se puede calcular el coeficiente de correlación de Pearson? Justifica.

Cierre

El coeficiente de correlación de Pearson nace de una idea simple: observar si dos variables se desvían de sus medias en el mismo sentido o en sentidos opuestos.

La covarianza mide ese movimiento conjunto, pero depende de las unidades. Al dividir por las desviaciones estándar de ambas variables, se obtiene una medida estandarizada entre \(-1\) y \(1\).

Por eso, Pearson \(r\) resume la fuerza y el sentido de una relación lineal, pero debe interpretarse siempre en contexto y sin confundir correlación con causalidad.

8. Interpretación del valor de \(r\) [cercanía a \(-1\), \(0\), \(1\)] (PAES M2)

Objetivos

  • Interpretar valores del coeficiente de correlación de Pearson según su signo y magnitud.
  • Relacionar la cercanía de \(r\) a \(-1\), \(0\) o \(1\) con la fuerza de una relación lineal.
  • Seleccionar interpretaciones correctas de \(r\) en contextos tipo PAES M2.

¿Cómo se interpreta el valor de \(r\)?

El coeficiente de correlación de Pearson \(r\) siempre toma valores entre \(-1\) y \(1\).

Para interpretarlo correctamente, debemos mirar dos aspectos:

  • El signo: indica si la relación lineal es positiva o negativa.
  • La cercanía a \(-1\), \(0\) o \(1\): indica qué tan fuerte o débil es la relación lineal.

Escala de interpretación de \(r\)

\[ -1 \leq r \leq 1 \]

Valor de \(r\) Interpretación general
\(r\) cercano a \(1\) Relación lineal positiva fuerte.
\(r\) cercano a \(-1\) Relación lineal negativa fuerte.
\(r\) cercano a \(0\) Relación lineal débil o nula.
\(r=1\) Relación lineal positiva perfecta.
\(r=-1\) Relación lineal negativa perfecta.
\(r=0\) No hay relación lineal.

Lectura rápida

Para interpretar \(r\), puedes usar esta idea:

  • El signo \(+\) indica que la nube tiende a subir.
  • El signo \(-\) indica que la nube tiende a bajar.
  • Mientras más cerca esté \(r\) de \(1\) o \(-1\), más fuerte es la relación lineal.
  • Mientras más cerca esté \(r\) de \(0\), más débil es la relación lineal.

Ejemplo 1: \(r=0{,}95\)

Supongamos que se analiza la relación entre porcentaje de asistencia a talleres de preparación y puntaje en un ensayo, obteniendo:

\[ r=0{,}95 \]

El valor es positivo, por lo tanto la relación lineal es positiva.

Además, \(0{,}95\) está muy cerca de \(1\), por lo que la relación lineal es fuerte.

Interpretación:

“Existe una relación lineal positiva fuerte entre el porcentaje de asistencia a talleres de preparación y el puntaje en el ensayo”.

Ejemplo 2: \(r=-0{,}88\)

Supongamos que se analiza la relación entre tiempo promedio de espera en una atención y satisfacción usuaria, obteniendo:

\[ r=-0{,}88 \]

El valor es negativo, por lo tanto la relación lineal es negativa.

Además, \(-0{,}88\) está bastante cerca de \(-1\), por lo que la relación lineal es fuerte.

Interpretación:

“Existe una relación lineal negativa fuerte entre el tiempo de espera y la satisfacción usuaria”.

Ejemplo 3: \(r=0{,}12\)

Supongamos que se analiza la relación entre un código interno asignado a estudiantes y el puntaje obtenido en una prueba, obteniendo:

\[ r=0{,}12 \]

El valor es positivo, pero está muy cerca de \(0\).

Por lo tanto, no se observa una relación lineal importante.

Interpretación:

“No se observa una relación lineal clara entre el código interno del estudiante y el puntaje obtenido”.

Error común

No se debe decir que un valor negativo de \(r\) representa una relación débil solo por ser negativo.

Por ejemplo, \(r=-0{,}94\) indica una relación lineal negativa fuerte, porque está muy cerca de \(-1\).

Ejemplo 4: ordenar valores según fuerza lineal

Considera los siguientes valores:

\[ r=0{,}20 \qquad r=-0{,}91 \qquad r=0{,}76 \]

Para comparar la fuerza de la relación lineal, se observa qué tan lejos está cada valor de \(0\). Es decir, se compara \(|r|\).

Valor de \(r\) \(|r|\) Fuerza lineal Sentido
\(0{,}20\) \(0{,}20\) Débil Positivo
\(-0{,}91\) \(0{,}91\) Fuerte Negativo
\(0{,}76\) \(0{,}76\) Moderada a fuerte Positivo

El valor que representa la relación lineal más fuerte es \(-0{,}91\), porque es el que tiene mayor valor absoluto.

Cuidado con la interpretación porcentual

No corresponde interpretar \(r=0{,}80\) como “80% de relación” o “80% de causalidad”.

El valor de \(r\) indica dirección y fuerza de una relación lineal, pero no se interpreta directamente como porcentaje.

Ejercicio 1

Una investigadora analiza cuatro relaciones entre variables cuantitativas y obtiene los siguientes coeficientes de correlación de Pearson:

Estudio Variables Coeficiente \(r\)
A Horas de estudio semanal y puntaje en un ensayo PAES \(0{,}78\)
B Tiempo de traslado diario y tiempo disponible para estudiar \(-0{,}64\)
C Temperatura diaria y venta de bebidas frías \(0{,}91\)
D Código interno de estudiante y promedio semestral \(-0{,}05\)
  1. Ordena las relaciones desde la más débil hasta la más fuerte.
  2. Indica el sentido de cada relación.
  3. Explica por qué no basta con comparar los valores usando el orden habitual de los números reales.

Ejercicio 2

En un informe se estudia la relación entre ingreso familiar mensual y gasto mensual en alimentación. Se obtiene:

\[ r=0{,}68 \]

El informe propone la siguiente interpretación:

“Como \(r=0{,}68\), el ingreso familiar explica el 68% del gasto en alimentación”.

Evalúa la interpretación. Luego redacta una versión estadísticamente más correcta.

Ejercicio 3

Dos grupos de estudiantes presentan los siguientes resultados al relacionar horas de estudio semanal con puntaje en un ensayo.

Grupo Coeficiente \(r\) Descripción del contexto
Grupo A \(0{,}82\) Estudiantes de un mismo curso, con el mismo profesor y la misma evaluación.
Grupo B \(0{,}82\) Estudiantes de tres colegios distintos, con evaluaciones de distinta dificultad.

Ambos grupos tienen el mismo valor de \(r\). ¿Significa eso que la interpretación contextual es exactamente igual en ambos casos? Justifica.

Ejercicio 4

En un estudio sobre comunas se analizaron dos variables:

  • \(x\): porcentaje de hogares con acceso a internet fijo.
  • \(y\): puntaje promedio comunal en una evaluación estandarizada.

Al calcular el coeficiente de correlación de Pearson se obtuvo:

\[ r=0{,}62 \]

Luego, al separar las comunas en urbanas y rurales, se obtuvieron los siguientes resultados:

Grupo de comunas Coeficiente \(r\) Descripción general
Urbanas \(0{,}28\) Alta conectividad en casi todas las comunas, pero puntajes variados.
Rurales \(0{,}74\) Mayor variación en conectividad y una tendencia creciente más clara.

Interpreta los tres valores de \(r\) y explica por qué separar los datos por grupo puede cambiar la lectura de la relación.

Ejercicio 5

Una organización quiere usar una variable para estimar el puntaje promedio comunal en una evaluación. Para ello calcula la correlación de Pearson entre el puntaje promedio y tres posibles variables explicativas.

Variable comparada con el puntaje promedio Coeficiente \(r\) Observación contextual
Porcentaje de asistencia escolar \(0{,}81\) Los datos provienen de comunas con tamaños de matrícula similares.
Ingreso promedio del hogar \(0{,}84\) Los datos mezclan comunas urbanas grandes y comunas rurales pequeñas.
Número de establecimientos educacionales \(0{,}67\) La variable está muy influida por el tamaño de la comuna.

Si el objetivo es elegir una variable para construir un primer modelo lineal simple, ¿basta con escoger automáticamente la variable con mayor valor de \(r\)? Justifica tu respuesta considerando fuerza de la relación y contexto de los datos.

Ejercicio 6

En un estudio sobre comunas se obtuvo \(r=-0{,}74\) entre distancia al centro de la ciudad y precio promedio de arriendo.

Selecciona la interpretación más adecuada:

  1. Como \(r\) es negativo, la relación es débil.
  2. Mientras mayor es la distancia al centro, el precio promedio de arriendo tiende a disminuir.
  3. La distancia al centro causa exactamente una disminución del \(74\%\) en el arriendo.
  4. No existe relación, porque \(r\) no es cercano a \(1\).

Justifica por qué las otras alternativas no son adecuadas.

Ejercicio 7

Se analizó la relación entre años de experiencia laboral y sueldo mensual en una empresa. Con todos los datos se obtuvo \(r=0{,}42\). Al revisar la nube de puntos, se detectó un grupo pequeño de directivos con sueldos muy superiores al resto.

Al calcular nuevamente \(r\) solo para trabajadores no directivos, se obtuvo \(r=0{,}81\).

Interpreta ambos resultados y explica por qué cambió la fuerza de la relación.

Ejercicio 8

Una prueba tipo PAES M2 presenta la siguiente pregunta:

Se sabe que el coeficiente de correlación de Pearson entre dos variables es \(r=-0{,}97\). ¿Cuál de las siguientes nubes de puntos sería más coherente con ese valor?

  1. Una nube muy dispersa, sin dirección clara.
  2. Una nube con puntos cercanos a una recta descendente.
  3. Una nube con puntos cercanos a una recta ascendente.
  4. Una nube con forma de U, simétrica respecto del eje vertical.

Ejercicio 9

Un estudiante compara dos coeficientes:

\[ r_1=-0{,}89 \qquad r_2=0{,}72 \]

Afirma: \(r_2\) representa una relación más fuerte porque \(0{,}72\) es mayor que \(-0{,}89\)”.

¿Es correcta su afirmación? Explica usando el valor absoluto de \(r\).

Cierre

Interpretar \(r\) exige separar el sentido de la fuerza: el signo indica si la relación lineal es positiva o negativa, mientras que \(|r|\) indica qué tan fuerte es.

Además, una interpretación completa debe considerar el contexto, evitar lecturas porcentuales incorrectas y recordar que correlación no implica causalidad.

9. Recta de regresión lineal I [ajuste y predicción] (PAES M2)

Objetivos

  • Comprender la recta de regresión lineal como un modelo que resume la tendencia de una nube de puntos.
  • Usar una recta de regresión para realizar predicciones aproximadas.
  • Distinguir entre interpolación y extrapolación en predicciones con modelos lineales.

¿Qué es una recta de regresión lineal?

Cuando una nube de puntos muestra una tendencia aproximadamente lineal, se puede trazar una recta que represente el comportamiento general de los datos.

Esta recta se llama recta de regresión lineal o recta de ajuste.

Su objetivo no es pasar necesariamente por todos los puntos, sino resumir la tendencia general para interpretar la relación entre dos variables y hacer predicciones aproximadas.

Forma de la recta de regresión

Una recta de regresión lineal se puede escribir como:

\[ \hat{y}=mx+b \]

Donde:

  • \(x\) es la variable explicativa o independiente.
  • \(\hat{y}\) es el valor estimado o predicho de la variable dependiente.
  • \(m\) es la pendiente de la recta.
  • \(b\) es el intercepto con el eje \(y\).

Importante

Se usa \(\hat{y}\) y no \(y\) porque la recta entrega un valor estimado, no necesariamente exacto.

En datos reales, los puntos pueden estar cerca de la recta, pero no todos tienen que estar sobre ella.

Ejemplo 1: recta de ajuste y nube de puntos

La siguiente situación relaciona la cantidad de ensayos de práctica realizados durante un mes con un índice de logro en una escala de 0 a 100.

Estudiante Ensayos de práctica \(x\) Índice de logro \(y\)
A 1 27
B 2 31
C 4 45
D 6 57
E 8 70
F 9 73

Una recta que ajusta razonablemente estos datos es:

\[ \hat{y}=6x+20 \]

La recta muestra la tendencia general: a medida que aumenta el número de ensayos de práctica, el índice de logro tiende a aumentar.

El gráfico usa una escala simple: \(x\) va de \(0\) a \(10\) e \(y\) va de \(0\) a \(100\), lo que facilita la lectura visual.

Ejemplo 2: predicción usando la recta

Usando el modelo:

\[ \hat{y}=6x+20 \]

estimemos el índice de logro de un estudiante que realiza \(7\) ensayos de práctica.

Reemplazamos \(x=7\):

\[ \hat{y}=6\cdot 7+20 \]

\[ \hat{y}=42+20=62 \]

Según el modelo, un estudiante que realiza \(7\) ensayos de práctica tendría un índice de logro estimado de \(62\) puntos.

Este valor es una predicción aproximada, no una garantía exacta.

Cómo hacer una predicción con la recta de regresión

  1. Identifica la ecuación de la recta de regresión.
  2. Reconoce qué valor de \(x\) se quiere usar.
  3. Reemplaza ese valor en la ecuación.
  4. Calcula \(\hat{y}\).
  5. Interpreta el resultado en el contexto del problema.

Ejemplo 3: valor relativo de un producto usado

La antigüedad de un equipo tecnológico, en años, se relaciona con su valor relativo de reventa en una escala de 0 a 100.

Un modelo lineal para esta situación es:

\[ \hat{y}=-9x+92 \]

donde \(x\) es la antigüedad en años y \(\hat{y}\) es el valor relativo estimado.

Estimemos el valor relativo de un equipo con \(5\) años de antigüedad:

\[ \hat{y}=-9\cdot 5+92 \]

\[ \hat{y}=-45+92=47 \]

El modelo estima que un equipo con \(5\) años de antigüedad tendría un valor relativo aproximado de \(47\) puntos.

Interpolación y extrapolación

Tipo de predicción Descripción Cuidado necesario
Interpolación Se predice usando un valor de \(x\) dentro del rango de datos observados. Suele ser más razonable si el modelo ajusta bien.
Extrapolación Se predice usando un valor de \(x\) fuera del rango de datos observados. Puede ser riesgosa, porque no sabemos si la tendencia continúa igual.

Error común

No toda predicción con una recta de regresión es confiable.

Si se usa un valor de \(x\) muy alejado de los datos observados, se está extrapolando y la predicción puede perder sentido.

Ejercicio 1

Una recta de regresión fue obtenida para estimar un índice de preparación PAES M2, en escala de 0 a 100, a partir de las horas semanales de estudio:

\[ \hat{y}=7x+18 \]

donde \(x\) representa las horas semanales de estudio y \(\hat{y}\) el índice de preparación estimado.

Los datos observados correspondieron a estudiantes que estudiaban entre \(1\) y \(9\) horas semanales.

  1. Estima el índice para un estudiante que estudia \(6\) horas semanales.
  2. Clasifica la predicción como interpolación o extrapolación.
  3. Explica por qué el resultado no debe interpretarse como un valor exacto.

Ejercicio 2

Una consultora estudia la relación entre la distancia al centro de una ciudad y un índice de conveniencia de arriendo, medido en escala de 0 a 100. Un modelo lineal obtenido es:

\[ \hat{y}=-6x+88 \]

donde \(x\) representa la distancia al centro en kilómetros y \(\hat{y}\) el índice estimado de conveniencia.

Los datos usados para construir el modelo corresponden a viviendas ubicadas entre \(1\) km y \(9\) km del centro.

  1. Estima el índice para una vivienda ubicada a \(6\) km del centro.
  2. Estima el índice para una vivienda ubicada a \(11\) km del centro.
  3. Compara la confiabilidad de ambas predicciones.

Ejercicio 3

Una empresa ajustó una recta de regresión para estimar un índice de ventas mensuales, en escala de 0 a 100, a partir del gasto mensual en publicidad digital, medido en millones de pesos:

\[ \hat{y}=5x+24 \]

Los datos observados corresponden a meses con gastos entre \(2\) y \(10\) millones de pesos.

Una gerencia propone usar el modelo para estimar el índice de ventas si se invierten \(13\) millones.

  1. Calcula la predicción para \(x=13\).
  2. Explica por qué esa predicción debe interpretarse con cautela.
  3. Propón un uso más prudente del modelo.

Ejercicio 4

Una recta de regresión para estimar un índice de comprensión lectora, en escala de 0 a 100, a partir de la cantidad de libros leídos durante el semestre es:

\[ \hat{y}=8x+28 \]

El modelo se obtuvo con estudiantes que leyeron entre \(1\) y \(7\) libros.

Un estudiante afirma:

“Si alguien lee \(9\) libros, entonces obtendrá exactamente \(100\) puntos, porque \(8\cdot 9+28=100\)”.

Analiza la afirmación. Tu respuesta debe referirse al cálculo, al tipo de predicción y al uso de la palabra “exactamente”.

Ejercicio 5

En un estudio sobre producción diaria se obtuvo la siguiente recta para estimar un índice de productividad, en escala de 0 a 100, según el número de trabajadores en turno:

\[ \hat{y}=6x+14 \]

Los datos observados fueron de equipos con entre \(3\) y \(11\) trabajadores.

Clasifica cada uso del modelo como interpolación, extrapolación cercana o extrapolación lejana. Justifica.

Uso del modelo Clasificación
Estimar productividad para \(x=8\)  
Estimar productividad para \(x=12\)  
Estimar productividad para \(x=2\)  
Estimar productividad para \(x=18\)  

Cierre

La recta de regresión lineal permite representar la tendencia general de una nube de puntos y realizar predicciones aproximadas.

Para que el gráfico sea útil, el contexto y los datos deben permitir una escala legible. Por eso conviene usar rangos claros en los ejes y evitar gráficos saturados.

Al usar una recta de regresión, siempre se debe distinguir entre interpolación y extrapolación, y recordar que \(\hat{y}\) representa un valor estimado.

10. Recta de regresión lineal II [pendiente, intercepto, lectura contextual] (PAES M2)

Objetivos

  • Interpretar la pendiente de una recta de regresión lineal en contexto.
  • Interpretar el intercepto de una recta de regresión lineal cuando tenga sentido en la situación.
  • Analizar una recta de regresión considerando sus unidades y el significado de sus parámetros.

Recordemos la forma de la recta

Una recta de regresión lineal suele escribirse como:

\[ \hat{y}=mx+b \]

En esta expresión:

  • \(m\) es la pendiente.
  • \(b\) es el intercepto con el eje \(y\).
  • \(\hat{y}\) representa el valor estimado de la variable dependiente.

Significado de la pendiente

La pendiente \(m\) indica cuánto cambia aproximadamente \(\hat{y}\) cuando \(x\) aumenta en una unidad.

Valor de \(m\) Lectura general
\(m>0\) La recta es creciente: cuando \(x\) aumenta, \(\hat{y}\) tiende a aumentar.
\(m<0\) La recta es decreciente: cuando \(x\) aumenta, \(\hat{y}\) tiende a disminuir.
\(m=0\) La recta es horizontal: \(\hat{y}\) no cambia al aumentar \(x\).

Significado del intercepto

El intercepto \(b\) corresponde al valor estimado de \(\hat{y}\) cuando \(x=0\).

Sin embargo, no siempre tiene una interpretación realista. Para interpretarlo, hay que preguntarse si \(x=0\) tiene sentido en el contexto del problema.

Cuidado con interpretar el intercepto

El intercepto no siempre representa una situación posible.

Por ejemplo, si una recta relaciona edad y estatura en estudiantes de enseñanza media, \(x=0\) años no pertenece al contexto de esos datos. En ese caso, el intercepto puede formar parte del modelo, pero no necesariamente tiene una interpretación práctica.

Ejemplo 1: pendiente positiva

Una recta de regresión para estimar un índice de avance en un plan de preparación, en escala de 0 a 100, según la cantidad de sesiones semanales de trabajo guiado es:

\[ \hat{y}=7x+18 \]

donde \(x\) representa las sesiones semanales de trabajo guiado y \(\hat{y}\) el índice de avance estimado.

La pendiente es \(m=7\).

Esto significa que, por cada sesión semanal adicional de trabajo guiado, el índice de avance estimado aumenta aproximadamente en \(7\) puntos.

El intercepto es \(b=18\).

En este contexto, representa el índice estimado para una persona con \(0\) sesiones semanales de trabajo guiado, según el modelo. Esta interpretación debe tomarse con cuidado si los datos originales no incluyeron casos con \(0\) sesiones.

Ejemplo 2: pendiente negativa

El valor relativo de reventa de un equipo tecnológico, medido en escala de 0 a 100, se modela mediante la recta:

\[ \hat{y}=-8x+92 \]

donde \(x\) es la antigüedad del equipo en años y \(\hat{y}\) es el valor relativo estimado.

La pendiente es \(m=-8\).

Esto significa que, por cada año adicional de antigüedad, el valor relativo estimado disminuye aproximadamente en \(8\) puntos.

El intercepto es \(b=92\).

En este contexto, representa el valor relativo estimado de un equipo con \(0\) años de antigüedad, es decir, nuevo o recién adquirido, según el modelo.

Ejemplo 3: lectura contextual de una recta

Una empresa estima el costo total de un servicio según la cantidad de horas contratadas mediante el modelo:

\[ \hat{y}=15x+20 \]

donde \(x\) representa las horas contratadas y \(\hat{y}\) representa el costo total estimado en miles de pesos.

La pendiente es \(15\). Esto significa que por cada hora adicional contratada, el costo total estimado aumenta en \(15\) mil pesos.

El intercepto es \(20\). Esto puede interpretarse como un cobro fijo inicial de \(20\) mil pesos, aunque se contraten \(0\) horas.

Por lo tanto, el modelo puede representar una situación con un costo base más un cobro por hora.

Cómo interpretar una recta de regresión

  1. Identifica qué representa \(x\).
  2. Identifica qué representa \(\hat{y}\).
  3. Lee la pendiente \(m\) con sus unidades.
  4. Interpreta el intercepto \(b\) solo si \(x=0\) tiene sentido en el contexto.
  5. Evita interpretar la recta fuera del rango de datos observados sin precaución.

Ejemplo 4: intercepto sin interpretación práctica clara

Se estudia la relación entre superficie de una vivienda y consumo eléctrico mensual. Un modelo obtenido es:

\[ \hat{y}=1{,}4x+35 \]

donde \(x\) es la superficie de la vivienda en metros cuadrados y \(\hat{y}\) es el consumo eléctrico mensual estimado en kWh.

La pendiente \(m=1{,}4\) indica que, según el modelo, por cada metro cuadrado adicional de superficie, el consumo eléctrico mensual estimado aumenta aproximadamente \(1{,}4\) kWh.

El intercepto \(b=35\) correspondería al consumo estimado cuando \(x=0\) m².

Pero una vivienda de \(0\) m² no tiene sentido práctico. Por eso, el intercepto forma parte del modelo, pero no tiene una interpretación realista directa en esta situación.

Error común

No se debe decir solamente “la pendiente es 7” sin indicar qué significa.

Una buena interpretación debe incluir las unidades y el contexto. Por ejemplo: “por cada sesión semanal adicional de trabajo guiado, el índice estimado aumenta aproximadamente 7 puntos”.

Ejercicio 1

Una recta de regresión para estimar un índice de implementación tecnológica, en escala de 0 a 100, según la cantidad de capacitaciones realizadas por un equipo docente es:

\[ \hat{y}=6x+22 \]

donde \(x\) representa el número de capacitaciones realizadas y \(\hat{y}\) el índice de implementación estimado.

  1. Interpreta la pendiente en contexto.
  2. Interpreta el intercepto, indicando una precaución necesaria.
  3. Calcula el índice estimado para \(x=8\).

Ejercicio 2

Una recta de regresión para estimar un índice de satisfacción de usuarios, en escala de 0 a 100, según el tiempo de espera en atención es:

\[ \hat{y}=-5x+92 \]

donde \(x\) representa el tiempo de espera en minutos y \(\hat{y}\) el índice de satisfacción estimado.

  1. Interpreta la pendiente en contexto.
  2. Interpreta el intercepto en contexto.
  3. Estima el índice de satisfacción para un tiempo de espera de \(8\) minutos.

Ejercicio 3

Una empresa modela un índice de costo de producción, en escala de 0 a 100, mediante la recta:

\[ \hat{y}=4x+18 \]

donde \(x\) representa la cantidad de lotes producidos y \(\hat{y}\) representa el índice de costo estimado.

  1. ¿Qué representa la pendiente \(4\)?
  2. ¿Qué representa el intercepto \(18\)?
  3. ¿Por qué este modelo puede representar una situación con costo fijo y costo variable?

Ejercicio 4

Se ajustó una recta de regresión para estimar el consumo eléctrico mensual de viviendas según su superficie:

\[ \hat{y}=1{,}4x+35 \]

donde \(x\) representa la superficie de la vivienda en metros cuadrados y \(\hat{y}\) representa el consumo eléctrico mensual estimado en kWh.

Los datos observados corresponden a viviendas entre \(35\) m² y \(140\) m².

Un estudiante interpreta:

“El intercepto \(35\) significa que una vivienda de \(0\) m² consume 35 kWh al mes”.

Analiza la interpretación del estudiante.

Ejercicio 5

Dos modelos lineales se proponen para estimar un índice de preparación, en escala de 0 a 100, según la cantidad de sesiones semanales de trabajo guiado.

Modelo Recta de regresión Contexto de los datos
Modelo A \(\hat{y}=8x+24\) Datos de estudiantes que realizaron entre \(1\) y \(7\) sesiones semanales.
Modelo B \(\hat{y}=5x+40\) Datos de estudiantes que realizaron entre \(5\) y \(12\) sesiones semanales.

Una estudiante quiere estimar el índice de preparación de alguien que realiza \(9\) sesiones semanales.

  1. Calcula la estimación con ambos modelos.
  2. Indica cuál modelo sería más prudente usar para \(x=9\), considerando el rango de datos.
  3. Explica por qué no basta con elegir el modelo que entrega el índice más alto.

Ejercicio 6

Una recta de regresión para estimar la cantidad de ventas mensuales de una tienda según el número de visitas a su sitio web es:

\[ \hat{y}=0{,}04x+180 \]

donde \(x\) representa el número de visitas mensuales al sitio web y \(\hat{y}\) representa la cantidad estimada de ventas mensuales.

Un informe interpreta la pendiente así:

“Por cada visita adicional al sitio web, se estiman \(0{,}04\) ventas más”.

La interpretación es correcta, pero poco comunicativa para un informe. Reescríbela usando un aumento de \(1000\) visitas y explica por qué esa versión es más útil.

Cierre

La pendiente y el intercepto de una recta de regresión no son solo números: deben interpretarse en el contexto de las variables estudiadas.

La pendiente indica el cambio estimado en \(\hat{y}\) por cada unidad adicional de \(x\), mientras que el intercepto representa el valor estimado cuando \(x=0\), siempre que esa interpretación tenga sentido.

Al trabajar con gráficos cartesianos, es importante escoger contextos y escalas que permitan una lectura clara de los datos y del modelo.

11. Taller de síntesis [datos, correlación y regresión] (PAES M2)

Objetivos

  • Integrar la lectura de nubes de puntos, coeficiente de correlación y recta de regresión lineal.
  • Interpretar datos bivariados usando lenguaje estadístico contextualizado.
  • Resolver preguntas tipo PAES M2 sobre correlación, regresión, predicción e interpretación crítica.

Propósito del taller

En este taller se integran las ideas principales del bloque:

  • lectura de nubes de puntos,
  • interpretación del coeficiente de correlación de Pearson \(r\),
  • uso de una recta de regresión lineal,
  • predicciones aproximadas,
  • análisis crítico de conclusiones estadísticas.

Resumen de herramientas

Herramienta ¿Para qué sirve? Cuidado principal
Nube de puntos Permite observar visualmente la relación entre dos variables cuantitativas. No basta mirar solo un punto; se interpreta la tendencia general.
Coeficiente \(r\) Mide sentido y fuerza de una relación lineal. No mide causalidad ni detecta bien relaciones no lineales.
Recta de regresión Modela una tendencia lineal y permite hacer predicciones aproximadas. Debe usarse con cautela fuera del rango observado.
Interpretación contextual Permite redactar conclusiones estadísticas con sentido. Debe considerar unidades, población estudiada y variables externas.

Situación inicial: acompañamiento y avance de proyecto

Un programa escolar registró la cantidad de sesiones de acompañamiento realizadas por distintos equipos y un índice de avance de proyecto en una escala de 0 a 100.

Equipo Sesiones de acompañamiento \(x\) Índice de avance \(y\)
A 1 36
B 2 43
C 4 52
D 5 58
E 7 68
F 8 73
G 9 79

Con apoyo tecnológico se obtiene aproximadamente:

\[ r\approx 0{,}99 \]

Una recta de regresión razonable para estos datos es:

\[ \hat{y}=5x+31 \]

El valor de \(r\) indica una relación lineal positiva muy fuerte entre la cantidad de sesiones de acompañamiento y el índice de avance.

La pendiente \(5\) indica que, según el modelo, por cada sesión adicional de acompañamiento, el índice de avance estimado aumenta aproximadamente \(5\) puntos.

Estrategia para resolver preguntas integradas

  1. Observa si la relación parece positiva, negativa o débil.
  2. Interpreta \(r\) según signo y cercanía a \(-1\), \(0\) o \(1\).
  3. Lee la pendiente e intercepto de la recta en contexto.
  4. Si hay predicción, reemplaza \(x\) y verifica si es interpolación o extrapolación.
  5. Redacta la conclusión evitando causalidad no justificada.

Ejercicio 1

Una municipalidad quiere estimar un índice comunal de uso educativo de plataformas digitales, en escala de 0 a 100. Para ello compara dos posibles variables explicativas.

Modelo Variable explicativa \(x\) Recta de regresión Coeficiente \(r\) Observación contextual
A Acceso a internet fijo (%) \(\hat{y}=0{,}72x+8\) \(0{,}91\) Mezcla comunas urbanas y rurales.
B Horas semanales de uso guiado en el colegio \(\hat{y}=9x+28\) \(0{,}78\) Datos de colegios con condiciones tecnológicas similares.

Una autoridad propone usar automáticamente el Modelo A porque tiene mayor \(r\).

  1. Interpreta el valor de \(r\) de ambos modelos.
  2. Interpreta la pendiente de cada recta.
  3. Evalúa si basta con escoger automáticamente el modelo con mayor \(r\).
  4. Indica qué información adicional sería importante antes de tomar una decisión.

Ejercicio 2

Una red de salud comunal ajustó dos modelos para estimar un índice de satisfacción usuaria, en escala de 0 a 100, a partir del tiempo promedio de espera antes de recibir atención.

Modelo Recta de regresión Rango observado de espera \(x\) Coeficiente \(r\)
Modelo A \(\hat{y}=-4x+96\) Entre 3 y 12 minutos \(-0{,}92\)
Modelo B \(\hat{y}=-2{,}5x+82\) Entre 10 y 28 minutos \(-0{,}81\)

Se quiere estimar la satisfacción para una espera promedio de \(20\) minutos.

  1. Calcula la predicción con ambos modelos.
  2. Indica cuál modelo sería más prudente usar para \(x=20\).
  3. Explica por qué no basta con elegir el modelo que tiene \(|r|\) más alto.

Ejercicio 3

En un estudio sobre viviendas se obtuvo la siguiente recta de regresión para estimar un índice de consumo eléctrico mensual, en escala de 0 a 100, según la superficie de la vivienda, medida en decenas de metros cuadrados.

\[ \hat{y}=5x+18 \]

En este modelo, \(x=4\) representa \(40\) m², \(x=8\) representa \(80\) m², y así sucesivamente. Los datos observados corresponden a viviendas entre \(4\) y \(14\) decenas de m². Además, el coeficiente de correlación obtenido fue \(r=0{,}79\).

  1. Interpreta \(r=0{,}79\) en contexto.
  2. Interpreta la pendiente \(5\).
  3. Analiza si tiene sentido práctico interpretar el intercepto \(18\).
  4. Estima el índice de consumo para una vivienda de \(100\) m².

Ejercicio 4

Un informe compara la relación entre horas de sueño y nivel de cansancio reportado en dos grupos de estudiantes.

Grupo Coeficiente \(r\) Recta de regresión Rango observado de \(x\)
Grupo A \(-0{,}82\) \(\hat{y}=-0{,}9x+12{,}4\) Entre 5 y 9 horas de sueño
Grupo B \(-0{,}41\) \(\hat{y}=-0{,}4x+9{,}8\) Entre 4 y 8 horas de sueño

En ambos modelos, \(x\) representa horas de sueño y \(\hat{y}\) representa nivel de cansancio en una escala de 1 a 10.

  1. Compara la fuerza de la relación lineal en ambos grupos.
  2. Interpreta la pendiente del Grupo A.
  3. Estima el nivel de cansancio para un estudiante del Grupo A que duerme \(7\) horas.
  4. Explica por qué sería riesgoso usar el modelo del Grupo A para \(x=3\).

Ejercicio 5

Una organización estudia la relación entre el gasto anual en campañas ambientales y el porcentaje de reciclaje comunal. Se obtiene la siguiente información:

Variable explicativa \(x\) Variable respuesta \(y\) Coeficiente \(r\) Recta de regresión
Gasto anual en campañas ambientales, en millones de pesos Porcentaje de reciclaje comunal \(0{,}69\) \(\hat{y}=2x+10\)

Una autoridad afirma:

“Si aumentamos el gasto en campañas ambientales de 10 a 20 millones, el porcentaje de reciclaje subirá exactamente de 30% a 50%, y esto demuestra que la campaña causa el aumento”.

Evalúa críticamente la afirmación. Debes referirte al cálculo, a la palabra “exactamente” y a la causalidad.

Ejercicio 6

Se quiere elegir una variable para construir un modelo lineal simple que estime el tiempo promedio de traslado diario de estudiantes. Se comparan tres posibles variables explicativas:

Variable explicativa Coeficiente \(r\) con tiempo de traslado Observación contextual
Distancia entre hogar y colegio \(0{,}84\) Medida directa en kilómetros.
Número de semáforos en la ruta \(0{,}72\) Dato aproximado, puede variar según la ruta elegida.
Número de integrantes del hogar \(0{,}18\) No tiene una relación contextual clara con el traslado.

¿Cuál variable elegirías para un primer modelo lineal simple? Justifica usando el valor de \(r\), el contexto y la interpretación del modelo.

Ejercicio 7

Un equipo de estudiantes ajustó un modelo lineal para estimar un índice de rendimiento, en escala de 0 a 100, según la cantidad de semanas de preparación antes de una evaluación.

El modelo obtenido fue:

\[ \hat{y}=4{,}5x+38 \]

donde \(x\) representa las semanas de preparación y \(\hat{y}\) representa el índice de rendimiento estimado.

El modelo fue construido con estudiantes que se prepararon entre \(2\) y \(10\) semanas. Además, se obtuvo \(r=0{,}87\).

Un estudiante quiere usar el modelo para estimar el rendimiento de una persona que se preparó durante \(16\) semanas.

  1. Calcula la predicción para \(x=16\).
  2. Clasifica la predicción como interpolación o extrapolación.
  3. Explica por qué un valor alto de \(r\) no basta para asegurar que esta predicción sea confiable.
  4. Propón una conclusión estadísticamente cuidadosa.

Interpretación crítica

Aunque una correlación sea muy fuerte, no debe confundirse con una demostración automática de causalidad.

Además, una recta de regresión entrega predicciones aproximadas. Su uso debe ser cuidadoso, especialmente fuera del rango de datos observados.

Cierre del bloque

En este bloque se estudió cómo analizar la relación entre dos variables cuantitativas.

La nube de puntos permite una primera lectura visual; el coeficiente de correlación de Pearson \(r\) resume el sentido y la fuerza de una relación lineal; y la recta de regresión permite realizar predicciones aproximadas.

Una interpretación estadística completa debe considerar siempre el contexto, las unidades, el rango de los datos y la diferencia entre correlación y causalidad.