Variables correlacion y causalidad
| Sitio: | MATEMÁTICAS × Profe Arauco |
| Curso: | Probabilidades y Estadística Descriptiva e Inferencial |
| Libro: | Variables correlacion y causalidad |
| Imprimido por: | Invitado |
| Día: | lunes, 25 de mayo de 2026, 15:16 |
Tabla de contenidos
- 1. Nube de puntos I [lectura cualitativa de relación]
- 2. Nube de puntos II [tendencia positiva, negativa o nula]
- 3. Correlación intuitiva [fuerza y sentido de la relación]
- 4. Correlación no implica causalidad [advertencias e interpretación crítica]
- 5. Coeficiente de correlación de Pearson I [sentido del indicador] (PAES M2)
- 6. Coeficiente de correlación de Pearson II [cálculo con apoyo tecnológico] (PAES M2)
- 7. La formula de pearson ( profundización)
- 8. Interpretación del valor de \(r\) [cercanía a \(-1\), \(0\), \(1\)] (PAES M2)
- 9. Recta de regresión lineal I [ajuste y predicción] (PAES M2)
- 10. Recta de regresión lineal II [pendiente, intercepto, lectura contextual] (PAES M2)
- 11. Taller de síntesis [datos, correlación y regresión] (PAES M2)
1. Nube de puntos I [lectura cualitativa de relación]
Objetivos
- Reconocer una nube de puntos como una representación gráfica de dos variables cuantitativas.
- Leer cualitativamente si dos variables parecen estar relacionadas.
- Describir una relación entre variables usando lenguaje estadístico claro y contextualizado.
¿Qué es una nube de puntos?
Una nube de puntos es un gráfico que permite representar datos formados por pares de valores.
Cada punto del gráfico corresponde a una observación de la forma \((x,y)\), donde:
- \(x\) representa el valor de una variable.
- \(y\) representa el valor de otra variable.
Este tipo de gráfico se usa para estudiar si entre dos variables existe algún tipo de relación.
Lectura básica de una nube de puntos
Al observar una nube de puntos, conviene fijarse en tres aspectos:
- Dirección: si al aumentar una variable, la otra tiende a aumentar o disminuir.
- Forma: si los puntos parecen seguir una tendencia aproximadamente lineal o no.
- Dispersión: si los puntos están muy agrupados o muy separados entre sí.
Ejemplo 1: sesiones de preparación y puntaje
La siguiente tabla muestra la cantidad de sesiones de preparación realizadas por algunos estudiantes y el puntaje obtenido en una evaluación diagnóstica.
| Estudiante | Sesiones de preparación | Puntaje |
|---|---|---|
| A | 1 | 42 |
| B | 2 | 48 |
| C | 3 | 55 |
| D | 4 | 61 |
| E | 5 | 66 |
| F | 6 | 74 |
En el gráfico se observa que, a medida que aumentan las sesiones de preparación, el puntaje también tiende a aumentar.
Por lo tanto, podemos decir que entre estas variables parece existir una relación creciente.
Error común
No basta con mirar un solo punto para concluir que existe una relación. La lectura debe hacerse observando el comportamiento general de toda la nube de puntos.
Ejemplo 2: días desde una publicación y consultas recibidas
La siguiente nube de puntos relaciona la cantidad de días desde que se publicó un aviso informativo con el número de consultas diarias recibidas.
En este caso, cuando aumentan los días desde la publicación, la cantidad de consultas diarias tiende a disminuir.
Por lo tanto, la nube de puntos muestra una relación decreciente.
Cómo describir una nube de puntos
Una buena descripción debe mencionar las variables y la tendencia observada.
Por ejemplo:
“A medida que aumentan las sesiones de preparación, el puntaje tiende a aumentar.”
Esta descripción es mejor que decir solamente “sube”, porque menciona claramente el contexto de los datos.
Ejercicio 1
Una municipalidad registró, durante ocho semanas, la cantidad de actividades deportivas gratuitas realizadas y la asistencia total de jóvenes.
| Semana | Actividades deportivas \(x\) | Asistencia total \(y\) |
|---|---|---|
| 1 | 1 | 42 |
| 2 | 2 | 58 |
| 3 | 3 | 61 |
| 4 | 4 | 79 |
| 5 | 5 | 76 |
| 6 | 6 | 94 |
| 7 | 7 | 103 |
| 8 | 8 | 99 |
Redacta una interpretación estadística de la relación observada. Tu respuesta debe mencionar:
- las dos variables;
- la tendencia general;
- por qué no conviene usar la palabra “siempre”.
Las variables estudiadas son la cantidad de actividades deportivas gratuitas y la asistencia total de jóvenes.
En general, cuando aumenta el número de actividades deportivas, la asistencia total tiende a aumentar.
Sin embargo, no se debe decir que la asistencia aumenta siempre, porque hay semanas que no siguen exactamente ese comportamiento. Por ejemplo, al pasar de \(4\) a \(5\) actividades, la asistencia baja de \(79\) a \(76\), y al pasar de \(7\) a \(8\), baja de \(103\) a \(99\).
Por eso, la interpretación debe hablar de una tendencia general y no de una regla exacta.
Respuesta: existe una tendencia creciente entre actividades deportivas y asistencia total, pero con variación en los datos.
Ejercicio 2
La siguiente nube de puntos relaciona el tiempo promedio de traslado al colegio con la cantidad de minutos disponibles para desayunar.
Un estudiante afirma: “Como los puntos bajan, entonces ambas variables disminuyen al mismo tiempo”.
Evalúa la afirmación y corrígela usando el significado de los ejes.
La afirmación no está bien formulada.
En el eje \(x\), el tiempo de traslado aumenta cuando avanzamos hacia la derecha. Por lo tanto, no es correcto decir que ambas variables disminuyen al mismo tiempo.
Lo que ocurre es que, cuando aumenta el tiempo de traslado, disminuye el tiempo disponible para desayunar.
La interpretación correcta debe relacionar el aumento de una variable con la disminución de la otra.
Respuesta: no es correcta; la relación es decreciente porque a mayor tiempo de traslado, menor tiende a ser el tiempo disponible para desayunar.
Ejercicio 3
En una encuesta se registró la cantidad de horas semanales dedicadas a redes sociales y el promedio de horas de sueño por noche.
| Persona | Horas semanales en redes sociales \(x\) | Horas de sueño por noche \(y\) |
|---|---|---|
| A | 4 | 8,2 |
| B | 7 | 7,8 |
| C | 10 | 7,3 |
| D | 13 | 7,1 |
| E | 16 | 6,7 |
| F | 19 | 6,5 |
| G | 22 | 6,0 |
Sin calcular ningún coeficiente, responde:
- ¿Qué tendencia general parece existir?
- Redacta una conclusión cuidadosa, evitando afirmar causalidad.
- Menciona una variable externa que podría influir en la relación observada.
Al aumentar las horas semanales dedicadas a redes sociales, las horas de sueño por noche tienden a disminuir.
Por lo tanto, la tendencia observada es decreciente.
Una conclusión cuidadosa sería: “En estos datos, las personas que reportan más horas semanales en redes sociales tienden a dormir menos horas por noche”.
No corresponde afirmar automáticamente que usar redes sociales causa dormir menos, porque podrían influir otras variables.
Por ejemplo, podrían influir la carga académica, horarios familiares, estrés, trabajo remunerado, uso de videojuegos, actividades extracurriculares o hábitos de sueño.
Respuesta: la tendencia parece decreciente, pero no basta para afirmar causalidad.
Ejercicio 4
Una tienda analizó la relación entre el precio de distintos audífonos y la cantidad de unidades vendidas durante un mes.
| Modelo | Precio \(x\) | Unidades vendidas \(y\) |
|---|---|---|
| A | 8000 | 120 |
| B | 10000 | 105 |
| C | 12000 | 98 |
| D | 15000 | 76 |
| E | 18000 | 70 |
| F | 22000 | 52 |
| G | 26000 | 43 |
Un informe propone la siguiente conclusión:
“Subir el precio de un audífono provoca necesariamente que se vendan menos unidades”.
Reescribe la conclusión para que sea estadísticamente más adecuada y explica qué problema tiene la frase original.
La frase original es demasiado fuerte porque usa la palabra “provoca” y afirma una causalidad necesaria.
Con los datos disponibles solo podemos describir una relación observada entre las variables, no demostrar automáticamente una causa.
Una conclusión más adecuada sería:
“En estos datos, los audífonos de mayor precio tienden a vender menos unidades durante el mes observado”.
También podrían influir otras variables, como marca, calidad, promociones, disponibilidad, diseño o reputación del producto.
Respuesta: se observa una relación decreciente entre precio y unidades vendidas, pero no corresponde afirmar causalidad necesaria solo con estos datos.
Ejercicio 5
Dos cursos registraron la relación entre horas de preparación semanal y puntaje en una evaluación. Las descripciones de sus nubes de puntos son las siguientes:
| Curso | Descripción de la nube de puntos |
|---|---|
| Curso A | Los puntos suben hacia la derecha, pero hay bastante dispersión. |
| Curso B | Los puntos suben hacia la derecha y se mantienen cercanos a una misma dirección. |
Ambos cursos muestran una relación creciente. ¿En cuál curso la relación parece más clara? Justifica usando la idea de dispersión.
En ambos cursos la relación parece creciente, porque los puntos suben hacia la derecha.
Sin embargo, en el Curso B la relación parece más clara, porque los puntos están menos dispersos y siguen una dirección más definida.
En el Curso A, aunque hay tendencia creciente, la mayor dispersión indica que los puntajes varían más para cantidades similares de horas de preparación.
Por lo tanto, la nube del Curso B permite reconocer con mayor claridad la relación entre las variables.
Respuesta: la relación parece más clara en el Curso B, porque presenta menor dispersión.
Cierre
Una nube de puntos permite hacer una primera lectura de la relación entre dos variables cuantitativas.
En esta lectura inicial conviene describir la tendencia general, evitar conclusiones absolutas y considerar que puede existir variación entre los puntos.
2. Nube de puntos II [tendencia positiva, negativa o nula]
Objetivos
- Distinguir tendencias positivas, negativas y nulas en una nube de puntos.
- Interpretar el sentido de una relación entre dos variables cuantitativas.
- Describir una tendencia usando lenguaje estadístico claro, contextualizado y cuidadoso.
Sentido de la relación entre dos variables
Cuando observamos una nube de puntos, una de las primeras preguntas es:
¿Qué ocurre con una variable cuando la otra aumenta?
Según el comportamiento general de los puntos, podemos reconocer tres situaciones principales:
- Tendencia positiva: cuando \(x\) aumenta, \(y\) tiende a aumentar.
- Tendencia negativa: cuando \(x\) aumenta, \(y\) tiende a disminuir.
- Tendencia nula: no se observa una dirección clara en los puntos.
Resumen de tendencias
| Tipo de tendencia | Descripción | Lectura general |
|---|---|---|
| Positiva | Los puntos tienden a subir hacia la derecha. | Si \(x\) aumenta, \(y\) tiende a aumentar. |
| Negativa | Los puntos tienden a bajar hacia la derecha. | Si \(x\) aumenta, \(y\) tiende a disminuir. |
| Nula | Los puntos no muestran una dirección clara. | No se observa una relación evidente entre \(x\) e \(y\). |
Ejemplo 1: tendencia positiva
La siguiente nube de puntos relaciona la cantidad de horas de práctica semanal con el puntaje obtenido en una prueba de habilidad.
Los puntos tienden a subir hacia la derecha.
Esto significa que, a mayor cantidad de horas de práctica semanal, mayor tiende a ser el puntaje.
Por lo tanto, se observa una tendencia positiva.
Ejemplo 2: tendencia negativa
La siguiente nube de puntos relaciona la antigüedad de un teléfono, en años, con su precio estimado de venta.
Los puntos tienden a bajar hacia la derecha.
Esto significa que, a mayor antigüedad del teléfono, menor tiende a ser su precio estimado.
Por lo tanto, se observa una tendencia negativa.
Ejemplo 3: tendencia nula
La siguiente nube de puntos relaciona un código interno asignado a estudiantes con el puntaje obtenido en una evaluación.
Los puntos no muestran una dirección clara. No se observa que el puntaje aumente o disminuya sistemáticamente al aumentar el código interno.
Por lo tanto, en este caso se observa una tendencia nula o ausencia de tendencia clara.
Error común
Una nube de puntos puede tener algunos puntos que no siguen exactamente la tendencia general.
Por eso, no se debe decidir la tendencia usando solo un punto aislado. Lo importante es observar el comportamiento global de la nube.
Estrategia para identificar la tendencia
- Mira los puntos de izquierda a derecha.
- Pregunta qué ocurre con \(y\) cuando \(x\) aumenta.
- Identifica si la dirección general es creciente, decreciente o no clara.
- Observa si hay puntos que se alejan del patrón general.
- Redacta la conclusión usando expresiones como “tiende a”, “en general” o “se observa”.
Ejercicio 1
Una municipalidad estudia la relación entre la inversión mensual en actividades culturales gratuitas y la asistencia total de público durante ocho meses.
| Mes | Inversión \(x\) en millones de pesos | Asistencia \(y\) |
|---|---|---|
| 1 | 2 | 420 |
| 2 | 3 | 510 |
| 3 | 4 | 530 |
| 4 | 5 | 690 |
| 5 | 6 | 640 |
| 6 | 7 | 760 |
| 7 | 8 | 850 |
| 8 | 9 | 790 |
Redacta una interpretación completa de la tendencia observada. Tu respuesta debe considerar que no todos los puntos siguen exactamente el mismo comportamiento.
En general, cuando aumenta la inversión mensual, también tiende a aumentar la asistencia total.
Sin embargo, la relación no es perfectamente creciente. Por ejemplo, al pasar de \(5\) a \(6\) millones, la asistencia baja de \(690\) a \(640\), y al pasar de \(8\) a \(9\) millones, baja de \(850\) a \(790\).
Por eso, no sería correcto decir que cada aumento en inversión produce siempre un aumento en asistencia.
La interpretación más adecuada es que existe una tendencia positiva general con cierta dispersión.
Respuesta: se observa una tendencia positiva, pero no perfecta; a mayor inversión, la asistencia tiende a ser mayor, aunque hay variaciones entre meses.
Ejercicio 2
Una empresa analiza la relación entre el precio de distintos planes mensuales y la cantidad de clientes nuevos que contrataron cada plan.
Un analista afirma: “La tendencia es negativa, por lo tanto el último dato debe eliminarse porque está malo”.
Evalúa críticamente la afirmación.
La nube muestra una tendencia negativa general: a mayor precio del plan, menor tiende a ser la cantidad de clientes nuevos.
Sin embargo, el último punto \((22000,910)\) se aleja de esa tendencia. Eso no significa automáticamente que el dato esté malo.
Podría tratarse de un plan especial, una promoción, una mejor cobertura, mayor prestigio de marca u otra característica no representada solo por el precio.
Eliminar un dato requiere una justificación, como error de registro o evidencia de que no pertenece a la misma población de estudio.
Respuesta: la tendencia general es negativa, pero no se debe eliminar el último dato solo porque no sigue la tendencia; primero hay que investigar su contexto.
Ejercicio 3
Dos cursos rindieron un diagnóstico y luego una prueba final. En ambos casos se estudió la relación entre puntaje diagnóstico \(x\) y puntaje final \(y\).
| Curso | Descripción de la nube de puntos |
|---|---|
| Curso A | Los puntos suben hacia la derecha, pero están bastante dispersos. |
| Curso B | Los puntos suben hacia la derecha y están muy cerca de una misma dirección. |
Ambos cursos presentan tendencia positiva. ¿En qué curso la tendencia positiva parece más clara? Justifica usando la idea de dispersión.
En ambos cursos la tendencia es positiva, porque los puntos suben hacia la derecha.
Sin embargo, en el Curso B los puntos están más cercanos a una misma dirección, por lo que la tendencia positiva es más clara.
En el Curso A la mayor dispersión indica que, aunque hay una tendencia creciente, los datos varían más respecto de esa tendencia.
Respuesta: la tendencia positiva parece más clara en el Curso B, porque sus puntos están menos dispersos.
Ejercicio 4
Un estudio sobre acceso a servicios digitales compara la edad de las personas con la cantidad de trámites digitales realizados durante el último mes.
Escoge la conclusión más defendible según el gráfico y justifica por qué las otras opciones no son adecuadas.
- A mayor edad, menor es siempre la cantidad de trámites digitales.
- A mayor edad, mayor es siempre la cantidad de trámites digitales.
- No se observa una tendencia lineal clara entre edad y trámites digitales realizados.
- La edad permite predecir exactamente cuántos trámites digitales hará una persona.
La alternativa más defendible es la 3.
Los puntos no suben ni bajan de manera clara al avanzar hacia la derecha. Hay personas de distintas edades con valores altos y bajos de trámites digitales.
Las alternativas 1 y 2 no son adecuadas porque usan “siempre”, lo cual no se sostiene con el gráfico.
La alternativa 4 tampoco es adecuada, porque una nube de puntos no permite predecir exactamente el comportamiento de una persona.
Respuesta: la alternativa correcta es 3; no se observa una tendencia lineal clara.
Ejercicio 5
Una organización estudia la relación entre el número de voluntarios disponibles y el tiempo que tarda en completar una campaña de recolección.
| Campaña | Voluntarios \(x\) | Tiempo de ejecución \(y\) en días |
|---|---|---|
| A | 8 | 18 |
| B | 10 | 15 |
| C | 12 | 14 |
| D | 15 | 11 |
| E | 18 | 9 |
| F | 20 | 10 |
| G | 24 | 7 |
Redacta una interpretación completa de la tendencia. Luego explica por qué sería incorrecto afirmar que “cada voluntario adicional reduce exactamente la misma cantidad de días”.
La relación observada es decreciente: cuando aumenta la cantidad de voluntarios disponibles, el tiempo de ejecución de la campaña tiende a disminuir.
Sin embargo, los cambios no son constantes. Por ejemplo, al pasar de \(18\) a \(20\) voluntarios, el tiempo aumenta de \(9\) a \(10\) días, lo que no sigue perfectamente la tendencia general.
Además, la nube de puntos describe una tendencia, no una regla exacta para cada caso particular.
Respuesta: se observa una tendencia negativa general; más voluntarios tienden a asociarse con menor tiempo de ejecución, pero no con una disminución exacta e igual en todos los casos.
Ejercicio 6
Una noticia afirma:
“Las comunas con mayor número de cámaras de seguridad registran más denuncias. Por lo tanto, las cámaras provocan delincuencia”.
Desde el punto de vista estadístico, analiza la conclusión. Considera que la noticia solo muestra una nube de puntos con tendencia positiva entre número de cámaras y número de denuncias.
La conclusión es apresurada.
Una tendencia positiva entre número de cámaras y número de denuncias indica que ambas variables tienden a aumentar juntas, pero no demuestra que una cause la otra.
Podría ocurrir que las comunas con más denuncias instalen más cámaras, o que comunas más pobladas tengan al mismo tiempo más cámaras y más denuncias.
También podría influir el nivel de urbanización, la población flotante, la actividad comercial o la capacidad de registrar delitos.
Una conclusión más cuidadosa sería: “se observa una relación positiva entre el número de cámaras y el número de denuncias, pero se requiere más información para hablar de causalidad”.
Respuesta: la conclusión no es válida solo con la nube de puntos; tendencia positiva no implica causalidad.
Cierre
Identificar una tendencia no consiste solo en decir si una nube “sube” o “baja”. También es necesario observar la dispersión, reconocer puntos que se alejan del patrón general y redactar conclusiones cuidadosas.
Una buena interpretación estadística describe lo que se observa en los datos, sin transformar una tendencia en una regla exacta ni en una afirmación causal automática.
3. Correlación intuitiva [fuerza y sentido de la relación]
Objetivos
- Reconocer intuitivamente la fuerza de una relación entre dos variables cuantitativas.
- Distinguir entre relaciones fuertes, moderadas, débiles y nulas a partir de una nube de puntos.
- Describir el sentido y la fuerza de una relación usando lenguaje estadístico contextualizado.
¿Qué entendemos por correlación?
La correlación describe cómo se relacionan dos variables cuantitativas.
Antes de calcular un valor numérico, podemos observar una nube de puntos y analizar dos aspectos:
- Sentido: si la relación es positiva, negativa o nula.
- Fuerza: si los puntos siguen una tendencia de manera fuerte, moderada o débil.
Fuerza de la relación
La fuerza de una relación se observa según qué tan cerca están los puntos de una tendencia clara.
| Fuerza | Descripción | Lectura visual |
|---|---|---|
| Fuerte | Los puntos están muy cerca de una misma tendencia. | La nube se ve ordenada y con poca dispersión. |
| Moderada | Los puntos siguen una tendencia, pero con cierta dispersión. | La dirección se reconoce, aunque no todos los puntos están muy alineados. |
| Débil | Los puntos están muy dispersos. | La tendencia existe, pero cuesta verla con claridad. |
| Nula | No se observa una tendencia clara. | Los puntos parecen estar distribuidos sin dirección definida. |
Ejemplo 1: relación positiva fuerte
La siguiente nube de puntos relaciona las horas de entrenamiento semanal con el rendimiento obtenido en una prueba física.
Los puntos suben hacia la derecha y están bastante alineados.
Esto indica una relación positiva fuerte: a mayor cantidad de horas de entrenamiento, mayor tiende a ser el rendimiento.
Ejemplo 2: relación positiva moderada
La siguiente nube de puntos relaciona las horas de preparación semanal con el puntaje obtenido en una evaluación.
La nube muestra una tendencia creciente, pero los puntos no están perfectamente alineados.
Por eso, se puede describir como una relación positiva moderada.
Ejemplo 3: relación negativa fuerte
La siguiente nube de puntos relaciona la antigüedad de un computador con su valor estimado de reventa.
Los puntos bajan hacia la derecha y se mantienen muy cerca de una tendencia clara.
Esto indica una relación negativa fuerte: a mayor antigüedad, menor tiende a ser el valor estimado.
Ejemplo 4: relación débil o casi nula
La siguiente nube de puntos relaciona un código interno asignado a estudiantes con su puntaje en una prueba.
Los puntos están dispersos y no muestran una dirección clara.
Por lo tanto, no parece haber una relación evidente entre el código interno y el puntaje.
Error común
Una relación fuerte no significa que todos los puntos deban estar exactamente sobre una línea.
En datos reales siempre puede existir variación. Lo importante es observar si la nube de puntos sigue una tendencia clara.
Cómo describir una correlación intuitivamente
Una descripción completa debe mencionar:
- Las variables que se están comparando.
- El sentido de la relación: positiva, negativa o nula.
- La fuerza de la relación: fuerte, moderada o débil.
- Una interpretación en contexto.
Por ejemplo: “Entre las horas de entrenamiento y el rendimiento se observa una relación positiva fuerte, porque al aumentar las horas de entrenamiento, el rendimiento tiende a aumentar y los puntos están poco dispersos.”
Ejercicio 1
Una investigadora estudia la relación entre el porcentaje de asistencia a clases y el puntaje obtenido en una prueba final.
| Estudiante | Asistencia \(x\) (%) | Puntaje final \(y\) |
|---|---|---|
| A | 62 | 48 |
| B | 68 | 55 |
| C | 71 | 58 |
| D | 76 | 63 |
| E | 81 | 67 |
| F | 85 | 70 |
| G | 89 | 74 |
| H | 93 | 78 |
| I | 96 | 82 |
| J | 98 | 84 |
Describe el sentido y la fuerza de la relación. Luego escribe una interpretación contextualizada, evitando afirmar causalidad absoluta.
La nube de puntos muestra una tendencia creciente: a mayor porcentaje de asistencia, mayor tiende a ser el puntaje final.
Además, los puntos están bastante próximos a una dirección lineal, por lo que la relación parece fuerte.
Sin embargo, no corresponde afirmar que la asistencia sea la única causa del puntaje, porque pueden influir otros factores como estudio personal, hábitos, evaluaciones previas o apoyo académico.
Respuesta: se observa una relación positiva fuerte. En estos datos, los estudiantes con mayor asistencia tienden a obtener puntajes más altos, aunque eso no demuestra causalidad absoluta.
Ejercicio 2
Dos comunas registraron la relación entre ingreso promedio mensual del hogar y gasto mensual en transporte. Los datos se muestran en las siguientes nubes de puntos.
| Comuna A: ingreso \(x\) | Gasto transporte \(y\) | Comuna B: ingreso \(x\) | Gasto transporte \(y\) |
|---|---|---|---|
| 500 | 62 | 500 | 44 |
| 650 | 68 | 650 | 91 |
| 800 | 75 | 800 | 57 |
| 950 | 82 | 950 | 103 |
| 1100 | 88 | 1100 | 72 |
| 1250 | 96 | 1250 | 118 |
| 1400 | 102 | 1400 | 82 |
| 1550 | 110 | 1550 | 130 |
Ambas comunas podrían mostrar una tendencia positiva. ¿En cuál la relación parece más fuerte? Justifica considerando la dispersión de los puntos.
En ambas comunas se podría observar una tendencia positiva general, porque a mayores ingresos tiende a haber mayor gasto en transporte.
Sin embargo, en la Comuna A los puntos están mucho más cercanos a una tendencia lineal. En la Comuna B los valores alternan entre altos y bajos, generando mayor dispersión.
Por lo tanto, la relación entre ingreso y gasto en transporte parece más fuerte en la Comuna A.
Respuesta: la Comuna A presenta una relación positiva más fuerte, porque sus puntos están menos dispersos y siguen una dirección más clara.
Ejercicio 3
Un estudio compara la cantidad de horas semanales de trabajo remunerado de estudiantes y su promedio de notas.
Una persona concluye: “Trabajar siempre perjudica el rendimiento académico”.
Evalúa la conclusión usando la nube de puntos. Tu respuesta debe distinguir entre tendencia, fuerza de la relación y causalidad.
La nube muestra una relación negativa fuerte: cuando aumentan las horas de trabajo semanal, el promedio de notas tiende a disminuir.
La relación parece fuerte porque los puntos siguen una dirección descendente bastante clara.
Pero la conclusión “trabajar siempre perjudica” es demasiado absoluta. Primero, una tendencia no describe necesariamente todos los casos individuales. Segundo, la nube de puntos no demuestra por sí sola causalidad.
Podrían influir otras variables, como carga familiar, tiempo de traslado, necesidad económica, salud, hábitos de estudio o apoyo escolar.
Respuesta: hay una relación negativa fuerte entre horas de trabajo y promedio, pero no se debe afirmar causalidad absoluta ni usar “siempre”.
Ejercicio 4
Una nube de puntos muestra la relación entre años de experiencia laboral y sueldo mensual. Se detecta un dato atípico:
| Persona | Experiencia \(x\) en años | Sueldo \(y\) en miles de pesos |
|---|---|---|
| A | 1 | 680 |
| B | 2 | 720 |
| C | 3 | 790 |
| D | 4 | 850 |
| E | 5 | 910 |
| F | 6 | 960 |
| G | 7 | 1010 |
| H | 8 | 1060 |
| I | 9 | 2100 |
Analiza cómo cambia la lectura de la relación si se considera el dato de la persona I. ¿Conviene eliminarlo automáticamente? Justifica.
Sin la persona I, los datos muestran una relación positiva fuerte: a mayor experiencia, mayor sueldo, con puntos bastante cercanos a una tendencia lineal.
Al incluir la persona I, aparece un dato muy alejado del patrón general. Ese punto puede aumentar la dispersión y afectar la interpretación de la fuerza de la relación.
No conviene eliminarlo automáticamente. Primero se debe investigar si corresponde a un error de registro o si representa una condición especial, como cargo directivo, comisión, bono, sector laboral distinto o jornada diferente.
Si el dato es válido, debe analizarse como parte del fenómeno o justificarse por separado.
Respuesta: el dato atípico modifica la lectura de la fuerza de la relación, pero no debe eliminarse sin justificación estadística o contextual.
Ejercicio 5
Se estudia la relación entre horas de preparación y puntaje en dos asignaturas distintas.
| Horas de preparación \(x\) | Puntaje en asignatura A | Puntaje en asignatura B |
|---|---|---|
| 1 | 44 | 51 |
| 2 | 50 | 63 |
| 3 | 57 | 55 |
| 4 | 63 | 72 |
| 5 | 69 | 60 |
| 6 | 76 | 81 |
| 7 | 82 | 66 |
| 8 | 88 | 90 |
Sin calcular \(r\), compara la fuerza de la relación entre horas de preparación y puntaje en ambas asignaturas. Explica cuál parece más estable y por qué.
En la asignatura A, los puntajes aumentan de manera bastante regular a medida que aumentan las horas de preparación.
En la asignatura B también hay valores altos cuando aumentan las horas de preparación, pero la variación es mucho mayor: por ejemplo, con \(5\) horas se obtiene \(60\), mientras que con \(4\) horas se obtiene \(72\).
Por eso, la relación parece más fuerte y estable en la asignatura A.
En la asignatura B podría existir una tendencia positiva, pero con mayor dispersión, lo que debilita la relación visual.
Respuesta: la relación es más fuerte en la asignatura A, porque los puntos siguen una tendencia creciente más ordenada y menos dispersa.
Ejercicio 6
Un equipo compara tres estudios distintos. En cada caso se describe la nube de puntos sin entregar todavía el coeficiente de correlación.
| Estudio | Descripción de la nube de puntos |
|---|---|
| A | Los puntos bajan hacia la derecha y están muy cerca de una misma dirección. |
| B | Los puntos suben hacia la derecha, pero con bastante dispersión. |
| C | Los puntos aparecen distribuidos sin una dirección clara. |
Para cada estudio, indica el sentido y la fuerza aproximada de la relación. Luego ordénalos desde la relación más fuerte hasta la más débil.
En el estudio A, los puntos bajan hacia la derecha y están muy cerca de una misma dirección. Por lo tanto, se trata de una relación negativa fuerte.
En el estudio B, los puntos suben hacia la derecha, pero con bastante dispersión. Por lo tanto, se trata de una relación positiva moderada o débil, según qué tan dispersos estén.
En el estudio C, no hay una dirección clara. Por lo tanto, la relación parece nula o muy débil.
Desde la relación más fuerte hasta la más débil, el orden más razonable es:
\[ A,\ B,\ C \]
Respuesta: A es negativa fuerte, B es positiva moderada o débil, C es nula o muy débil. El orden es \(A,\ B,\ C\).
Cierre
La correlación intuitiva permite describir una relación antes de calcular un coeficiente numérico.
Una descripción completa debe indicar el sentido de la relación, su fuerza aproximada y el contexto de las variables.
En las próximas clases se profundizará esta idea usando el coeficiente de correlación de Pearson.
4. Correlación no implica causalidad [advertencias e interpretación crítica]
Objetivos
- Distinguir entre relación estadística y relación causal.
- Interpretar críticamente una nube de puntos evitando conclusiones apresuradas.
- Reconocer posibles variables externas que pueden influir en una relación observada.
Relación no significa causa
Cuando dos variables presentan una tendencia en una nube de puntos, decimos que parecen estar relacionadas.
Sin embargo, una relación estadística no permite afirmar automáticamente que una variable cause la otra.
Por ejemplo, si al aumentar \(x\) también aumenta \(y\), eso no significa necesariamente que \(x\) produzca directamente el aumento de \(y\).
Advertencia fundamental
Correlación no implica causalidad.
Esto significa que dos variables pueden moverse juntas sin que una sea la causa directa de la otra.
Para afirmar causalidad se necesita más información, un diseño de estudio adecuado y controlar otros factores que podrían influir.
Tres situaciones posibles
| Situación | Interpretación |
|---|---|
| Una variable puede influir en la otra | Puede existir una relación causal, pero debe justificarse con más evidencia. |
| Puede existir una variable externa | Una tercera variable puede estar afectando a ambas variables observadas. |
| La relación puede ser coincidente | Los datos pueden mostrar una tendencia aparente sin que exista una conexión importante entre las variables. |
Ejemplo 1: plataformas educativas y puntaje
Un colegio observa una relación positiva entre las horas semanales de uso de plataformas educativas y el puntaje obtenido en una evaluación.
Se observa una relación positiva: quienes usan más horas la plataforma tienden a obtener mayores puntajes.
Pero esta información, por sí sola, no demuestra que la plataforma sea la causa directa del mayor puntaje.
También podrían influir variables como conocimientos previos, hábitos de estudio, apoyo familiar, motivación o asistencia a clases.
Una interpretación adecuada sería:
“En estos datos, los estudiantes con mayor uso de plataformas educativas tienden a obtener mayores puntajes”.
Ejemplo 2: paraguas vendidos y accidentes de tránsito
Supongamos que en una ciudad se registra una relación positiva entre la cantidad de paraguas vendidos y la cantidad de accidentes de tránsito.
La nube de puntos muestra que ambas variables aumentan juntas.
Pero sería incorrecto concluir que comprar paraguas causa accidentes.
Una explicación más razonable es que existe una variable externa: la lluvia.
Cuando llueve, pueden aumentar las ventas de paraguas y también los accidentes por calles resbaladizas o menor visibilidad.
Cómo interpretar críticamente una relación
Antes de afirmar que una variable causa otra, conviene preguntarse:
- ¿Tiene sentido contextual que una variable influya en la otra?
- ¿Podría existir una tercera variable que afecte a ambas?
- ¿La relación observada podría deberse a una coincidencia?
- ¿Los datos son suficientes para sostener una conclusión fuerte?
- ¿El estudio compara grupos equivalentes o controla variables externas?
Ejemplo 3: grupos comparables
Un colegio quiere evaluar si una nueva estrategia de estudio mejora los resultados. Para eso compara dos grupos.
| Grupo | Usó la estrategia | Promedio inicial | Promedio final |
|---|---|---|---|
| Grupo A | Sí | 5,8 | 6,3 |
| Grupo B | No | 4,7 | 5,1 |
El Grupo A termina con mayor promedio final, pero también comenzó con mayor promedio inicial.
Por eso, no basta mirar solo el promedio final para afirmar que la estrategia causó mejores resultados.
Una comparación más cuidadosa debe considerar si los grupos eran similares al inicio, si tuvieron el mismo profesor, el mismo tiempo de estudio y condiciones equivalentes.
Error común
Un error frecuente es escribir conclusiones causales solo porque el gráfico muestra una tendencia.
Por ejemplo, si dos variables aumentan juntas, no siempre corresponde decir “\(x\) provoca \(y\)”.
En estadística descriptiva, muchas veces es más correcto decir “se observa una relación entre \(x\) e \(y\)” o “\(y\) tiende a aumentar cuando \(x\) aumenta”.
Ejercicio 1
Un investigador analiza datos de distintas comunas y observa una relación positiva entre el número de cámaras de seguridad instaladas y el número de denuncias registradas durante el año.
| Comuna | Cámaras instaladas \(x\) | Denuncias registradas \(y\) | Población aproximada |
|---|---|---|---|
| A | 18 | 420 | 35 000 |
| B | 24 | 510 | 42 000 |
| C | 35 | 760 | 68 000 |
| D | 42 | 890 | 75 000 |
| E | 55 | 1180 | 102 000 |
| F | 70 | 1490 | 130 000 |
Una persona concluye: “Instalar cámaras aumenta la delincuencia, porque las comunas con más cámaras tienen más denuncias”.
Evalúa la conclusión considerando al menos una variable externa posible.
La conclusión es apresurada. La nube de puntos muestra una relación positiva entre cámaras instaladas y denuncias registradas, pero eso no implica que las cámaras causen más delincuencia.
Una variable externa relevante es la población de cada comuna. Las comunas más grandes pueden tener más cámaras porque tienen más habitantes, más comercio, más tránsito y también más denuncias.
También podría ocurrir una relación inversa en términos explicativos: las comunas con más denuncias podrían instalar más cámaras como respuesta a una situación previa.
Una conclusión más rigurosa sería: en estos datos, las comunas con más cámaras instaladas tienden a registrar más denuncias, pero se requiere controlar variables como población, actividad comercial y nivel previo de denuncias antes de hablar de causalidad.
Respuesta: no se puede afirmar causalidad directa; la población u otras características de la comuna pueden explicar que aumenten simultáneamente las cámaras y las denuncias.
Ejercicio 2
En una muestra de estudiantes de 4° medio se registró el promedio de horas de estudio semanal y el puntaje obtenido en un ensayo. Además, se separó a los estudiantes según si asistieron o no a un taller de preparación.
| Grupo | Horas de estudio \(x\) | Puntaje promedio \(y\) |
|---|---|---|
| Sin taller | 2 | 485 |
| Sin taller | 4 | 520 |
| Sin taller | 6 | 548 |
| Sin taller | 8 | 570 |
| Con taller | 2 | 540 |
| Con taller | 4 | 575 |
| Con taller | 6 | 602 |
| Con taller | 8 | 628 |
Se observa que, en general, a mayor cantidad de horas de estudio, mayor puntaje. ¿Sería correcto concluir que las horas de estudio son la única explicación del puntaje? Fundamenta usando la información del grupo.
No sería correcto concluir que las horas de estudio son la única explicación del puntaje.
La tabla muestra que, para una misma cantidad de horas de estudio, el grupo que asistió al taller obtiene puntajes mayores. Por ejemplo, con \(4\) horas de estudio, el grupo sin taller obtiene \(520\), mientras que el grupo con taller obtiene \(575\).
Esto sugiere que la asistencia al taller podría estar influyendo en el puntaje o, al menos, está asociada con diferencias importantes entre los grupos.
Por lo tanto, aunque existe una relación positiva entre horas de estudio y puntaje, el análisis debe considerar otras variables, como asistencia al taller, conocimientos previos, calidad del estudio o apoyo académico.
Respuesta: no; las horas de estudio se relacionan positivamente con el puntaje, pero el taller aparece como una variable relevante que también debe considerarse.
Ejercicio 3
Un informe afirma que existe una relación positiva entre el consumo promedio de energía eléctrica de una comuna y el número de enfermedades respiratorias registradas.
| Comuna | Consumo eléctrico promedio \(x\) | Casos respiratorios \(y\) | Temperatura media del mes |
|---|---|---|---|
| A | 180 | 92 | 13°C |
| B | 210 | 130 | 11°C |
| C | 235 | 168 | 9°C |
| D | 260 | 210 | 7°C |
| E | 290 | 245 | 6°C |
| F | 315 | 280 | 5°C |
Una conclusión del informe dice: “El mayor consumo eléctrico provoca enfermedades respiratorias”.
Reescribe la conclusión para que sea estadísticamente más correcta y explica qué variable externa podría estar actuando.
La conclusión original es causal y no está justificada solo por los datos.
Una conclusión más correcta sería: “En estos datos, las comunas con mayor consumo eléctrico promedio tienden a registrar más casos de enfermedades respiratorias”.
Una variable externa posible es la temperatura. En los meses o comunas más frías, las personas podrían usar más calefacción eléctrica, y al mismo tiempo podrían aumentar las enfermedades respiratorias.
También podrían influir contaminación, humedad, ventilación de viviendas, densidad poblacional o acceso a atención médica.
Respuesta: debe hablarse de asociación, no de causalidad directa; la temperatura es una posible variable externa que puede influir en ambas variables.
Ejercicio 4
Un equipo de investigación compara dos titulares posibles para presentar sus resultados.
| Titular | Información disponible |
|---|---|
| A: “El uso de plataformas educativas mejora el rendimiento escolar”. | Se observó una relación positiva entre horas de uso de plataformas educativas y puntaje final. |
| B: “Estudiantes con mayor uso de plataformas educativas tienden a obtener mayores puntajes”. | Se observó una relación positiva entre horas de uso de plataformas educativas y puntaje final. |
¿Cuál titular es más adecuado con la información disponible? Justifica considerando causalidad y redacción estadística.
El titular más adecuado es el B.
El titular A afirma causalidad: dice que el uso de plataformas educativas mejora el rendimiento. Esa afirmación requeriría un diseño de estudio que permita sostener causalidad, por ejemplo, controlando variables externas o comparando grupos de manera adecuada.
El titular B describe la asociación observada sin afirmar que una variable cause directamente la otra.
Además, usa la expresión “tienden a”, que es más apropiada para describir una relación estadística.
Respuesta: el titular B es más adecuado, porque describe una relación observada sin afirmar causalidad no demostrada.
Ejercicio 5
Una empresa observa que, en distintos meses, el gasto en publicidad y las ventas aumentan juntos. Sin embargo, los mayores gastos publicitarios ocurrieron en noviembre y diciembre.
| Mes | Gasto en publicidad \(x\) | Ventas \(y\) | Observación contextual |
|---|---|---|---|
| Agosto | 3 | 48 | Mes normal |
| Septiembre | 4 | 55 | Mes normal |
| Octubre | 5 | 61 | Mes normal |
| Noviembre | 8 | 92 | Inicio de campaña de fin de año |
| Diciembre | 10 | 125 | Compras de fin de año |
¿Qué problema tiene concluir que la publicidad explica completamente el aumento de ventas? Propón una interpretación más cuidadosa.
El problema es que noviembre y diciembre tienen condiciones especiales: campaña de fin de año y aumento natural de compras por temporada.
Por lo tanto, las ventas podrían aumentar no solo por la publicidad, sino también por la estacionalidad.
La publicidad y la temporada podrían estar actuando juntas, y con estos datos no es posible separar claramente sus efectos.
Una interpretación más cuidadosa sería: “En estos meses se observa una relación positiva entre gasto publicitario y ventas, pero parte del aumento podría estar asociado a la temporada de fin de año”.
Respuesta: la conclusión es incompleta porque ignora la estacionalidad; no se puede atribuir todo el aumento de ventas únicamente a la publicidad.
Ejercicio 6
Un colegio compara dos grupos de estudiantes para evaluar una nueva estrategia de estudio.
| Grupo | Estrategia nueva | Promedio inicial | Promedio final |
|---|---|---|---|
| Grupo 1 | Sí | 5,8 | 6,3 |
| Grupo 2 | No | 4,6 | 5,0 |
Una persona afirma: “La estrategia nueva causó mejores resultados, porque el grupo que la usó terminó con mayor promedio final”.
Analiza la afirmación. ¿Qué información falta para evaluar mejor la causalidad?
La afirmación es apresurada. El Grupo 1 ya tenía un promedio inicial mayor que el Grupo 2 antes de aplicar o no aplicar la estrategia.
Por eso, el mayor promedio final no puede atribuirse automáticamente a la estrategia nueva.
Para evaluar mejor la causalidad faltaría saber si los grupos eran comparables al inicio, cómo fueron seleccionados, si tuvieron el mismo profesor, la misma cantidad de horas, el mismo nivel de dificultad y condiciones similares.
También sería útil comparar los cambios: el Grupo 1 subió de \(5{,}8\) a \(6{,}3\), es decir, \(0{,}5\); el Grupo 2 subió de \(4{,}6\) a \(5{,}0\), es decir, \(0{,}4\). La diferencia en mejora existe, pero es pequeña y requiere más análisis.
Respuesta: no basta mirar el promedio final; falta controlar diferencias iniciales y condiciones de comparación entre grupos.
Cierre
Una relación estadística permite describir cómo se comportan dos variables en un conjunto de datos, pero no demuestra automáticamente causalidad.
Para interpretar críticamente una relación, es necesario considerar variables externas, posibles explicaciones alternativas, el diseño del estudio y la forma en que se redactan las conclusiones.
5. Coeficiente de correlación de Pearson I [sentido del indicador] (PAES M2)
Objetivos
- Comprender que el coeficiente de correlación de Pearson mide el sentido y la fuerza de una relación lineal entre dos variables cuantitativas.
- Interpretar el signo del coeficiente de correlación de Pearson.
- Relacionar el valor de \(r\) con la forma de una nube de puntos.
¿Qué mide el coeficiente de correlación de Pearson?
El coeficiente de correlación de Pearson, representado por la letra \(r\), es un número que permite describir una relación lineal entre dos variables cuantitativas.
Este coeficiente entrega información sobre dos aspectos:
- Sentido de la relación: si la relación lineal es positiva o negativa.
- Fuerza de la relación: qué tan cerca están los puntos de una tendencia lineal.
Rango de valores de \(r\)
El coeficiente de correlación de Pearson siempre cumple:
\[ -1 \leq r \leq 1 \]
| Valor de \(r\) | Interpretación general |
|---|---|
| \(r>0\) | Relación lineal positiva. |
| \(r<0\) | Relación lineal negativa. |
| \(r\approx 0\) | No se observa relación lineal clara. |
| \(r=1\) | Relación lineal positiva perfecta. |
| \(r=-1\) | Relación lineal negativa perfecta. |
Importante
El coeficiente \(r\) mide relación lineal. Si los datos siguen una curva, el valor de \(r\) puede no representar bien la relación, aunque visualmente exista un patrón.
Ejemplo 1: relación positiva y valor de \(r\)
La siguiente nube de puntos relaciona sesiones de preparación semanal con puntaje obtenido.
Los puntos suben hacia la derecha y están bastante cercanos a una tendencia lineal.
Por eso, se espera que el coeficiente \(r\) sea positivo y cercano a \(1\).
Una interpretación adecuada sería:
“Existe una relación lineal positiva fuerte entre las sesiones de preparación semanal y el puntaje obtenido.”
Ejemplo 2: relación negativa y valor de \(r\)
La siguiente nube de puntos relaciona la antigüedad de un computador con su valor estimado de reventa.
Los puntos bajan hacia la derecha y siguen una tendencia lineal clara.
Por eso, se espera que el coeficiente \(r\) sea negativo y cercano a \(-1\).
Una interpretación adecuada sería:
“Existe una relación lineal negativa fuerte entre la antigüedad del computador y su valor estimado.”
Ejemplo 3: relación lineal débil o nula
La siguiente nube de puntos relaciona un código interno asignado a estudiantes con el puntaje obtenido en una evaluación.
Los puntos no muestran una tendencia lineal clara.
Por eso, se espera que el coeficiente \(r\) sea cercano a \(0\).
Una interpretación adecuada sería:
“No se observa una relación lineal clara entre el código interno del estudiante y el puntaje obtenido.”
Cómo interpretar rápidamente el signo de \(r\)
- Si la nube sube hacia la derecha, entonces \(r\) es positivo.
- Si la nube baja hacia la derecha, entonces \(r\) es negativo.
- Si la nube no muestra dirección lineal clara, entonces \(r\) está cerca de \(0\).
Ejemplo 4: comparar valores posibles de \(r\)
Observa los siguientes valores posibles para el coeficiente de correlación:
\[ r=0{,}94 \qquad r=-0{,}91 \qquad r=0{,}08 \]
Según el signo y la cercanía a \(1\), \(-1\) o \(0\), se interpretan así:
| Valor de \(r\) | Interpretación |
|---|---|
| \(0{,}94\) | Relación lineal positiva fuerte. |
| \(-0{,}91\) | Relación lineal negativa fuerte. |
| \(0{,}08\) | Relación lineal muy débil o prácticamente nula. |
El signo indica el sentido de la relación, mientras que la cercanía a \(1\) o \(-1\) indica mayor fuerza lineal.
Error común
No se debe interpretar \(r=0{,}90\) como “90% de causalidad”.
El valor de \(r\) mide asociación lineal entre dos variables, pero no demuestra por sí solo que una variable cause la otra.
Ejercicio 1
En un estudio comunal se registró el porcentaje de hogares con acceso a internet fijo y el porcentaje de estudiantes que declaró usar plataformas educativas al menos tres veces por semana.
| Comuna | Acceso a internet fijo \(x\) (%) | Uso frecuente de plataformas \(y\) (%) |
|---|---|---|
| A | 42 | 31 |
| B | 48 | 36 |
| C | 55 | 43 |
| D | 61 | 50 |
| E | 68 | 56 |
| F | 73 | 64 |
| G | 79 | 69 |
| H | 84 | 76 |
Sin calcular \(r\), responde:
- ¿Qué signo debería tener el coeficiente de correlación de Pearson?
- ¿Esperarías que su valor esté más cerca de \(1\), de \(0\) o de \(-1\)?
- Redacta una interpretación contextualizada evitando afirmar causalidad.
La nube de puntos muestra una tendencia creciente: a mayor porcentaje de hogares con acceso a internet fijo, mayor tiende a ser el porcentaje de estudiantes que usa frecuentemente plataformas educativas.
Por lo tanto, el coeficiente \(r\) debería ser positivo.
Además, los puntos están bastante próximos a una tendencia lineal creciente, por lo que se esperaría que \(r\) esté más cerca de \(1\) que de \(0\).
No corresponde afirmar automáticamente que el acceso a internet fijo causa el uso frecuente de plataformas, porque podrían influir otras variables como nivel socioeconómico, disponibilidad de dispositivos, políticas escolares o acompañamiento familiar.
Respuesta: \(r\) debería ser positivo y cercano a \(1\). En estos datos, las comunas con mayor acceso a internet fijo tienden a presentar mayor uso frecuente de plataformas educativas.
Ejercicio 2
Una empresa analiza la relación entre el tiempo promedio de espera en atención al cliente y el nivel de satisfacción reportado por usuarios en una escala de 1 a 100.
| Sucursal | Tiempo de espera \(x\) en minutos | Satisfacción \(y\) |
|---|---|---|
| A | 4 | 91 |
| B | 6 | 86 |
| C | 9 | 79 |
| D | 11 | 73 |
| E | 14 | 69 |
| F | 18 | 58 |
| G | 21 | 51 |
| H | 25 | 45 |
Selecciona cuál de los siguientes valores podría representar mejor la relación observada y justifica tu elección:
\[ r=0{,}91 \qquad r=-0{,}94 \qquad r=-0{,}18 \qquad r=0{,}06 \]
La relación observada es negativa: al aumentar el tiempo de espera, la satisfacción tiende a disminuir.
Además, los puntos siguen una tendencia descendente bastante clara, por lo que se espera una correlación lineal negativa fuerte.
Entre las opciones, \(r=-0{,}94\) es el valor que mejor representa una relación negativa fuerte.
\(r=0{,}91\) sería positivo, por lo que no corresponde. \(r=-0{,}18\) sería negativo pero débil, y \(r=0{,}06\) indicaría una relación lineal casi nula.
Respuesta: \(r=-0{,}94\), porque la nube muestra una relación lineal negativa fuerte.
Ejercicio 3
Se presentan cuatro valores posibles de \(r\), obtenidos en distintos estudios:
| Estudio | Valor de \(r\) | Variables analizadas |
|---|---|---|
| A | \(0{,}87\) | Horas de preparación y puntaje en una prueba de selección. |
| B | \(-0{,}91\) | Antigüedad de maquinaria y valor de reventa. |
| C | \(0{,}12\) | Código interno de estudiante y promedio semestral. |
| D | \(-0{,}46\) | Tiempo de traslado y horas disponibles para estudio. |
Ordena los estudios desde la relación lineal más débil hasta la más fuerte. Luego indica el sentido de cada relación.
Para comparar la fuerza de la relación lineal no se mira solo el signo, sino la distancia de \(r\) respecto de \(0\). Por eso comparamos valores absolutos:
\[ |0{,}87|=0{,}87,\quad |-0{,}91|=0{,}91,\quad |0{,}12|=0{,}12,\quad |-0{,}46|=0{,}46 \]
Desde la relación lineal más débil hasta la más fuerte:
\[ C,\ D,\ A,\ B \]
El estudio C tiene relación positiva muy débil; el D, negativa moderada; el A, positiva fuerte; y el B, negativa fuerte.
Respuesta: \(C\), \(D\), \(A\), \(B\). Sus sentidos son positivo débil, negativo moderado, positivo fuerte y negativo fuerte, respectivamente.
Ejercicio 4
Una nube de puntos muestra una relación creciente, pero no lineal, entre dos variables. Los datos siguen el siguiente patrón:
Un estudiante afirma: “Como los datos tienen un patrón claro, el coeficiente de Pearson necesariamente debe describir completamente la relación”.
Evalúa la afirmación considerando qué mide el coeficiente \(r\).
La afirmación es incompleta.
Es cierto que los datos muestran un patrón creciente claro: cuando \(x\) aumenta, \(y\) también aumenta.
Sin embargo, el patrón no parece lineal. Los aumentos en \(y\) son cada vez mayores, por lo que la nube se curva hacia arriba.
El coeficiente de Pearson mide principalmente la fuerza de una relación lineal. Por eso, un patrón puede ser claro en sentido general, pero no quedar completamente descrito por \(r\).
En este caso, antes de interpretar \(r\), es necesario observar la nube de puntos y reconocer que el patrón no parece ajustarse bien a una recta.
Respuesta: \(r\) mide relación lineal; estos datos tienen un patrón creciente no lineal, por lo que Pearson no describe completamente la relación.
Ejercicio 5
Un informe entrega los siguientes resultados:
| Relación estudiada | Coeficiente \(r\) | Conclusión propuesta |
|---|---|---|
| Temperatura diaria y consumo de agua potable. | \(0{,}78\) | “La temperatura causa el 78% del consumo de agua”. |
| Distancia al centro de la ciudad y precio del arriendo. | \(-0{,}69\) | “A mayor distancia al centro, el arriendo tiende a ser menor”. |
| Código interno de estudiante y promedio semestral. | \(0{,}04\) | “No se observa una relación lineal clara”. |
Identifica cuál conclusión está mal redactada y corrígela. Luego justifica usando el significado de \(r\).
La conclusión mal redactada es la primera.
El valor \(r=0{,}78\) no significa que la temperatura cause el \(78\%\) del consumo de agua. Tampoco demuestra causalidad por sí solo.
Una redacción más correcta sería:
“En estos datos, se observa una relación lineal positiva relativamente fuerte entre temperatura diaria y consumo de agua potable: a mayor temperatura, mayor tiende a ser el consumo”.
La segunda conclusión es adecuada porque interpreta una relación negativa usando “tiende a”. La tercera también es adecuada porque \(r=0{,}04\) está muy cerca de \(0\), lo que indica ausencia de relación lineal clara.
Respuesta: la conclusión incorrecta es la primera; \(r\) no se interpreta como porcentaje de causalidad.
Ejercicio 6
En una prueba tipo PAES M2 se muestra la siguiente nube de puntos y se pregunta por el signo esperado de \(r\).
¿Cuál de las siguientes afirmaciones es necesariamente falsa?
- El coeficiente \(r\) debería ser negativo.
- Si los puntos están cerca de una recta descendente, \(|r|\) debería ser relativamente grande.
- El coeficiente \(r\) debería estar cerca de \(1\).
- La relación observada es lineal negativa.
La nube de puntos baja hacia la derecha. Por lo tanto, el coeficiente \(r\) debería ser negativo.
Además, como los puntos están cerca de una dirección descendente, la magnitud \(|r|\) debería ser relativamente grande, es decir, \(r\) debería estar cerca de \(-1\), no de \(1\).
La afirmación necesariamente falsa es la 3, porque un valor cercano a \(1\) indica relación lineal positiva fuerte.
Respuesta: la afirmación falsa es la 3.
Ejercicio 7
Un estudiante interpreta \(r=-0{,}82\) diciendo:
“La relación es baja porque el número es menor que cero”.
Corrige la interpretación y explica el error conceptual.
El error consiste en confundir signo con fuerza.
El signo negativo no indica que la relación sea baja; indica que la relación lineal es decreciente.
Para analizar la fuerza, se observa qué tan cerca está \(r\) de \(-1\) o de \(1\). Como \(-0{,}82\) está relativamente cerca de \(-1\), la relación lineal es fuerte.
La interpretación correcta es: \(r=-0{,}82\) indica una relación lineal negativa fuerte.
Respuesta: \(r=-0{,}82\) no es una relación baja; es una relación lineal negativa fuerte.
Cierre
El coeficiente de correlación de Pearson permite resumir el sentido y la fuerza de una relación lineal.
El signo de \(r\) indica si la relación lineal es positiva o negativa, mientras que su cercanía a \(1\) o \(-1\) indica mayor fuerza lineal.
Antes de interpretar \(r\), siempre conviene observar la nube de puntos y recordar que correlación no implica causalidad.
6. Coeficiente de correlación de Pearson II [cálculo con apoyo tecnológico] (PAES M2)
Objetivos
- Calcular el coeficiente de correlación de Pearson \(r\) usando apoyo tecnológico.
- Organizar datos bivariados en una tabla para analizarlos con planilla de cálculo o calculadora.
- Interpretar el valor obtenido de \(r\) en el contexto de una situación.
¿Por qué usar apoyo tecnológico?
El coeficiente de correlación de Pearson se puede calcular manualmente, pero el procedimiento puede ser largo cuando hay muchos datos.
En estadística aplicada, es común usar herramientas como planillas de cálculo, calculadoras o software estadístico para obtener \(r\) con mayor rapidez y precisión.
Lo importante no es solo obtener el número, sino interpretarlo correctamente.
Datos bivariados
Para calcular el coeficiente de correlación de Pearson se necesitan pares de datos de la forma:
\[ (x_1,y_1), (x_2,y_2), (x_3,y_3), \ldots, (x_n,y_n) \]
Cada par representa una observación de dos variables cuantitativas.
Por ejemplo, si \(x\) representa porcentaje de asistencia e \(y\) representa puntaje, cada estudiante aporta un par \((x,y)\).
Procedimiento con planilla de cálculo
- Escribe los valores de la variable \(x\) en una columna.
- Escribe los valores de la variable \(y\) en una segunda columna.
- Verifica que cada par \((x,y)\) esté en la misma fila.
- Usa la función de correlación de la planilla.
- Interpreta el valor obtenido según su signo y cercanía a \(1\), \(-1\) o \(0\).
En muchas planillas se puede usar una función como:
\[ \text{CORREL(rango\_x; rango\_y)} \]
Importante
El resultado tecnológico debe revisarse en contexto.
Un valor de \(r\) positivo, negativo o cercano a cero debe coincidir con la forma general de la nube de puntos.
Si el valor obtenido contradice completamente el gráfico, conviene revisar si los datos fueron ingresados correctamente.
Ejemplo 1: cálculo e interpretación de \(r\)
La siguiente tabla muestra el porcentaje de asistencia y el puntaje obtenido por ocho estudiantes en una evaluación común.
| Estudiante | Asistencia \(x\) (%) | Puntaje \(y\) |
|---|---|---|
| A | 64 | 498 |
| B | 70 | 525 |
| C | 73 | 540 |
| D | 78 | 568 |
| E | 82 | 584 |
| F | 86 | 610 |
| G | 91 | 638 |
| H | 95 | 655 |
Al ingresar los datos en una planilla y calcular la correlación entre ambas columnas, se obtiene aproximadamente:
\[ r\approx 0{,}997 \]
Este valor es positivo y muy cercano a \(1\).
Por lo tanto, se interpreta como una relación lineal positiva muy fuerte entre el porcentaje de asistencia y el puntaje obtenido.
En contexto, los estudiantes con mayor asistencia tienden a obtener mayores puntajes en este conjunto de datos.
Ejemplo 2: relación negativa
La siguiente tabla muestra el tiempo promedio de espera en atención al cliente y el nivel de satisfacción reportado por usuarios en una escala de 1 a 100.
| Sucursal | Tiempo de espera \(x\) en minutos | Satisfacción \(y\) |
|---|---|---|
| A | 4 | 91 |
| B | 6 | 86 |
| C | 9 | 79 |
| D | 11 | 73 |
| E | 14 | 69 |
| F | 18 | 58 |
| G | 21 | 51 |
| H | 25 | 45 |
Al calcular el coeficiente de correlación con apoyo tecnológico, se obtiene aproximadamente:
\[ r\approx -0{,}99 \]
El valor es negativo y muy cercano a \(-1\).
Por lo tanto, existe una relación lineal negativa muy fuerte: a mayor tiempo de espera, menor tiende a ser el nivel de satisfacción.
Interpretación del valor obtenido
| Valor aproximado de \(r\) | Lectura general |
|---|---|
| \(r\) cercano a \(1\) | Relación lineal positiva fuerte. |
| \(r\) cercano a \(-1\) | Relación lineal negativa fuerte. |
| \(r\) cercano a \(0\) | Relación lineal débil o nula. |
Ejemplo 3: revisar si el resultado tiene sentido
La siguiente tabla relaciona un código interno asignado a estudiantes con el puntaje obtenido en una prueba.
| Estudiante | Código interno \(x\) | Puntaje \(y\) |
|---|---|---|
| A | 101 | 68 |
| B | 104 | 51 |
| C | 109 | 77 |
| D | 113 | 60 |
| E | 118 | 73 |
| F | 122 | 57 |
| G | 127 | 82 |
| H | 131 | 62 |
Al calcular \(r\) con apoyo tecnológico, se obtiene un valor bajo en magnitud.
Esto coincide con la nube de puntos: no se observa una relación lineal clara entre el código interno y el puntaje.
Este ejemplo muestra que el valor de \(r\) debe leerse junto con el contexto. Aunque una planilla entregue un número, no todas las variables tienen una relación estadística relevante.
Error común
No basta con copiar el valor que entrega la herramienta.
En una respuesta completa se debe interpretar el resultado en contexto, mencionando las variables estudiadas, el signo de \(r\), su fuerza aproximada y una advertencia si corresponde.
Ejercicio 1
En una investigación escolar se estudió la relación entre el porcentaje de asistencia a clases y el puntaje obtenido en una prueba común. Los datos fueron ingresados en una planilla de cálculo.
| Estudiante | Asistencia \(x\) (%) | Puntaje \(y\) |
|---|---|---|
| A | 64 | 498 |
| B | 70 | 525 |
| C | 73 | 540 |
| D | 78 | 568 |
| E | 82 | 584 |
| F | 86 | 610 |
| G | 91 | 638 |
| H | 95 | 655 |
Al usar la función de correlación en una planilla, se obtiene:
\[ r\approx 0{,}997 \]
- Interpreta el valor de \(r\) en contexto.
- Explica por qué no basta con escribir solamente “\(r=0{,}997\)”.
- Indica una variable externa que podría influir en la relación observada.
El valor de \(r\) es positivo, por lo que la relación lineal entre asistencia y puntaje tiene sentido positivo.
Además, \(0{,}997\) está muy cerca de \(1\), por lo que la relación lineal es muy fuerte.
En contexto, esto significa que, en este grupo de datos, los estudiantes con mayor porcentaje de asistencia tienden a obtener mayores puntajes.
No basta con escribir solo \(r=0{,}997\), porque el número debe interpretarse según su signo, su cercanía a \(1\), \(-1\) o \(0\), y las variables estudiadas.
Además, no se debe afirmar automáticamente causalidad. Podrían influir variables como conocimientos previos, hábitos de estudio, apoyo familiar, calidad de la preparación o asistencia a talleres.
Respuesta: existe una relación lineal positiva muy fuerte entre asistencia y puntaje, pero el resultado debe interpretarse en contexto y sin afirmar causalidad automática.
Ejercicio 2
Una planilla entrega los siguientes coeficientes de correlación para cuatro estudios distintos.
| Estudio | Variables | Valor de \(r\) |
|---|---|---|
| A | Horas de estudio y puntaje obtenido | \(0{,}86\) |
| B | Tiempo de traslado y tiempo disponible para estudiar | \(-0{,}72\) |
| C | Código interno de estudiante y promedio semestral | \(0{,}03\) |
| D | Tiempo de espera y satisfacción de usuarios | \(-0{,}94\) |
Ordena los estudios desde la relación lineal más débil hasta la más fuerte. Justifica usando el valor absoluto de \(r\).
Para comparar la fuerza de las relaciones lineales, se considera la distancia de \(r\) respecto de \(0\), es decir, el valor absoluto:
\[ |0{,}86|=0{,}86 \]
\[ |-0{,}72|=0{,}72 \]
\[ |0{,}03|=0{,}03 \]
\[ |-0{,}94|=0{,}94 \]
Desde la relación más débil hasta la más fuerte:
\[ C,\ B,\ A,\ D \]
El estudio C es el más débil porque \(r=0{,}03\) está muy cerca de \(0\). El estudio D es el más fuerte porque \(-0{,}94\) está muy cerca de \(-1\).
Respuesta: \(C,\ B,\ A,\ D\).
Ejercicio 3
Un estudiante ingresó en una planilla los datos de dos variables y obtuvo:
\[ r=-0{,}89 \]
Luego escribió la siguiente interpretación:
“La relación es débil porque el resultado es negativo”.
Corrige la interpretación del estudiante y explica el error conceptual.
La interpretación del estudiante es incorrecta porque confunde el signo de \(r\) con la fuerza de la relación.
El signo negativo indica el sentido de la relación: cuando una variable aumenta, la otra tiende a disminuir.
La fuerza se analiza observando qué tan cerca está \(r\) de \(-1\) o de \(1\). Como \(-0{,}89\) está bastante cerca de \(-1\), la relación lineal es fuerte.
La interpretación correcta es que \(r=-0{,}89\) representa una relación lineal negativa fuerte.
Respuesta: no es una relación débil; es una relación lineal negativa fuerte.
Ejercicio 4
En una encuesta se registró la cantidad de horas semanales dedicadas a trabajo remunerado y el promedio de horas de sueño por noche en estudiantes de 4° medio.
| Estudiante | Horas de trabajo semanal \(x\) | Horas de sueño por noche \(y\) |
|---|---|---|
| A | 0 | 8,1 |
| B | 4 | 7,8 |
| C | 6 | 7,4 |
| D | 9 | 7,1 |
| E | 12 | 6,8 |
| F | 15 | 6,2 |
| G | 18 | 6,0 |
| H | 22 | 5,6 |
Con apoyo tecnológico se obtiene:
\[ r\approx -0{,}99 \]
Interpreta este resultado y redacta una conclusión cuidadosa, evitando afirmar causalidad absoluta.
El valor de \(r\) es negativo, por lo que la relación lineal tiene sentido negativo.
Además, \(-0{,}99\) está muy cerca de \(-1\), lo que indica una relación lineal negativa muy fuerte.
En contexto, a mayor cantidad de horas semanales de trabajo remunerado, menor tiende a ser el promedio de horas de sueño por noche.
Sin embargo, esta correlación no demuestra por sí sola que el trabajo sea la única causa de dormir menos. También podrían influir tiempo de traslado, responsabilidades familiares, hábitos personales, salud o carga académica.
Respuesta: existe una relación lineal negativa muy fuerte entre horas de trabajo semanal y horas de sueño, pero no se debe afirmar causalidad absoluta solo con el valor de \(r\).
Ejercicio 5
Un curso calculó el coeficiente de correlación entre dos variables y obtuvo \(r\approx 0\). La nube de puntos, sin embargo, muestra un patrón curvo muy marcado.
¿Es contradictorio que \(r\) sea cercano a \(0\) si visualmente hay un patrón claro? Explica considerando qué mide Pearson.
No necesariamente es contradictorio.
El coeficiente de correlación de Pearson mide principalmente relación lineal, es decir, qué tan bien se aproximan los puntos a una recta creciente o decreciente.
En este caso, los puntos siguen un patrón curvo, no lineal. Por eso, aunque visualmente existe una relación clara entre \(x\) e \(y\), Pearson puede dar un valor cercano a \(0\).
Esto muestra que antes de interpretar \(r\), conviene observar la nube de puntos.
Respuesta: no es contradictorio; \(r\) puede ser cercano a \(0\) porque Pearson mide relación lineal, y el patrón observado es curvo.
Ejercicio 6
Una estudiante calculó \(r\) en una planilla para dos columnas de datos. La nube de puntos era claramente creciente, pero la planilla entregó:
\[ r\approx -0{,}91 \]
Indica dos posibles errores de ingreso o selección de datos que podrían explicar esta contradicción entre el gráfico y el resultado.
Si la nube de puntos es claramente creciente, se esperaría un valor positivo de \(r\). Un resultado negativo fuerte contradice la lectura visual, por lo que conviene revisar el procedimiento.
Posibles errores son:
- Seleccionar una columna incorrecta al usar la función de correlación.
- Ordenar una columna de datos sin ordenar la otra, rompiendo los pares \((x,y)\) originales.
- Ingresar algunos valores con signo incorrecto.
- Copiar un rango incompleto o desplazado en la planilla.
La revisión debe asegurar que cada valor de \(x\) siga emparejado con su correspondiente valor de \(y\).
Respuesta posible: pudo seleccionar rangos incorrectos o haber ordenado solo una columna, alterando los pares de datos.
Ejercicio 7
En una planilla se comparan dos grupos de datos sobre ingreso familiar mensual y gasto mensual en alimentación.
| Grupo | Coeficiente \(r\) | Descripción de la nube |
|---|---|---|
| Grupo A | \(0{,}91\) | Los puntos siguen una tendencia creciente bastante clara. |
| Grupo B | \(0{,}42\) | Los puntos tienden a subir, pero con alta dispersión. |
Compara ambos grupos. ¿Qué grupo permite hacer una predicción lineal más confiable? Justifica sin calcular una recta de regresión.
El Grupo A permite hacer una predicción lineal más confiable que el Grupo B.
Esto se debe a que \(r=0{,}91\) indica una relación lineal positiva fuerte, por lo que los puntos están más próximos a una tendencia lineal.
En cambio, \(r=0{,}42\) indica una relación positiva más débil o moderada, con mayor dispersión. Aunque exista una tendencia creciente, las predicciones basadas en una recta serían menos estables.
Sin embargo, incluso en el Grupo A las predicciones deben entenderse como estimaciones, no como valores exactos.
Respuesta: el Grupo A, porque su correlación lineal es más fuerte y la dispersión es menor.
Cierre
El apoyo tecnológico permite calcular \(r\) de manera rápida, pero el análisis estadístico no termina con el resultado numérico.
Una interpretación completa debe considerar el signo, la fuerza, el contexto, la forma de la nube de puntos y posibles errores de ingreso de datos.
7. La formula de pearson ( profundización)
Profundización: ¿de dónde sale el coeficiente de correlación de Pearson?
Objetivos
- Comprender el coeficiente de correlación de Pearson como una covarianza estandarizada.
- Explicar por qué la fórmula de Pearson queda entre \(-1\) y \(1\).
- Reconocer que, en el contexto escolar y en evaluaciones estandarizadas como PAES, suele ser más importante interpretar \(r\) que calcularlo manualmente con la fórmula completa.
Antes de comenzar
Esta página es de profundización. Su objetivo es entender de dónde nace la fórmula del coeficiente de correlación de Pearson.
En el contexto de educación media, y especialmente en preguntas tipo PAES M2, es mucho más probable que se evalúe la interpretación de \(r\), la lectura de nubes de puntos, la comparación de valores y el análisis crítico de conclusiones, antes que el cálculo manual completo de la fórmula.
La pregunta central
Cuando observamos una nube de puntos, queremos responder preguntas como:
- ¿Las variables tienden a aumentar juntas?
- ¿Cuando una aumenta, la otra tiende a disminuir?
- ¿La relación parece fuerte, débil o casi nula?
El coeficiente de correlación de Pearson busca transformar esa lectura visual en un número entre \(-1\) y \(1\).
Idea general
El coeficiente de correlación de Pearson puede entenderse como:
\[ r=\frac{\text{covarianza entre }x\text{ e }y}{\text{desviación estándar de }x\cdot \text{desviación estándar de }y} \]
Es decir:
\[ r=\frac{s_{xy}}{s_xs_y} \]
Por eso se dice que \(r\) es una covarianza estandarizada.
Primera idea: desviarse respecto de la media
Supongamos que tenemos pares de datos:
\[ (x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n) \]
Para estudiar la relación entre \(x\) e \(y\), no miramos solo los valores originales. Primero observamos cuánto se aleja cada dato de su media:
\[ x_i-\bar{x} \]
\[ y_i-\bar{y} \]
Si \(x_i-\bar{x}\) es positivo, entonces ese valor de \(x\) está sobre el promedio de \(x\).
Si \(x_i-\bar{x}\) es negativo, entonces ese valor de \(x\) está bajo el promedio de \(x\).
Segunda idea: multiplicar desviaciones
La expresión clave es:
\[ (x_i-\bar{x})(y_i-\bar{y}) \]
Este producto permite saber si las dos variables se alejan de sus medias en el mismo sentido o en sentidos opuestos.
| Situación | Producto | Interpretación |
|---|---|---|
| \(x_i\) sobre su media e \(y_i\) sobre su media | \((+)(+)=+\) | Ambas variables están altas respecto de sus promedios. |
| \(x_i\) bajo su media e \(y_i\) bajo su media | \((-)(-)=+\) | Ambas variables están bajas respecto de sus promedios. |
| \(x_i\) sobre su media e \(y_i\) bajo su media | \((+)(-)=-\) | Las variables se mueven en sentidos opuestos. |
| \(x_i\) bajo su media e \(y_i\) sobre su media | \((-)(+)=-\) | Las variables se mueven en sentidos opuestos. |
Si la mayoría de estos productos son positivos, la relación tiende a ser positiva.
Si la mayoría son negativos, la relación tiende a ser negativa.
Covarianza muestral
La covarianza muestral entre \(x\) e \(y\) se puede escribir como:
\[ s_{xy}=\frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y}) \]
La covarianza mide si las variables tienden a moverse juntas o en sentidos opuestos.
- Si \(s_{xy}>0\), las variables tienden a moverse en el mismo sentido.
- Si \(s_{xy}<0\), las variables tienden a moverse en sentidos opuestos.
- Si \(s_{xy}\approx 0\), no se observa una relación lineal clara.
Problema de la covarianza
La covarianza depende de las unidades de medida.
Por ejemplo, si el ingreso se mide en pesos o en miles de pesos, el valor numérico de la covarianza cambia, aunque la relación entre las variables sea la misma.
Por eso necesitamos una medida sin unidades y más fácil de comparar.
Desviaciones estándar
Para quitar el efecto de las unidades, se divide la covarianza por las desviaciones estándar de ambas variables.
La desviación estándar muestral de \(x\) es:
\[ s_x=\sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2} \]
La desviación estándar muestral de \(y\) es:
\[ s_y=\sqrt{\frac{1}{n-1}\sum (y_i-\bar{y})^2} \]
Entonces:
\[ r=\frac{s_{xy}}{s_xs_y} \]
Desarrollo de la fórmula
Partimos desde:
\[ r=\frac{s_{xy}}{s_xs_y} \]
Reemplazamos la covarianza y las desviaciones estándar:
\[ r= \frac{ \frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y}) } { \sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2} \sqrt{\frac{1}{n-1}\sum (y_i-\bar{y})^2} } \]
En el denominador aparece:
\[ \sqrt{\frac{1}{n-1}}\cdot \sqrt{\frac{1}{n-1}}=\frac{1}{n-1} \]
Por lo tanto, el factor \(\frac{1}{n-1}\) aparece arriba y abajo, y se cancela.
Así se obtiene la forma más conocida:
\[ r= \frac{\sum (x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}} \]
Interpretación de la fórmula
La fórmula se puede leer así:
\[ r= \frac{\text{movimiento conjunto de }x\text{ e }y} {\text{dispersión de }x\cdot\text{dispersión de }y} \]
El numerador mide si las variables se desvían juntas de sus medias.
El denominador ajusta el resultado según la dispersión de cada variable.
Por eso \(r\) no tiene unidades y siempre queda entre \(-1\) y \(1\).
Ejemplo guiado con pocos datos
Consideremos los siguientes datos:
| Dato | \(x\) | \(y\) |
|---|---|---|
| A | 1 | 2 |
| B | 2 | 3 |
| C | 3 | 5 |
| D | 4 | 6 |
Calculamos las medias:
\[ \bar{x}=\frac{1+2+3+4}{4}=2{,}5 \]
\[ \bar{y}=\frac{2+3+5+6}{4}=4 \]
| \(x_i\) | \(y_i\) | \(x_i-\bar{x}\) | \(y_i-\bar{y}\) | \((x_i-\bar{x})(y_i-\bar{y})\) | \((x_i-\bar{x})^2\) | \((y_i-\bar{y})^2\) |
|---|---|---|---|---|---|---|
| 1 | 2 | \(-1{,}5\) | \(-2\) | \(3\) | \(2{,}25\) | \(4\) |
| 2 | 3 | \(-0{,}5\) | \(-1\) | \(0{,}5\) | \(0{,}25\) | \(1\) |
| 3 | 5 | \(0{,}5\) | \(1\) | \(0{,}5\) | \(0{,}25\) | \(1\) |
| 4 | 6 | \(1{,}5\) | \(2\) | \(3\) | \(2{,}25\) | \(4\) |
Sumamos las columnas necesarias:
\[ \sum (x_i-\bar{x})(y_i-\bar{y})=3+0{,}5+0{,}5+3=7 \]
\[ \sum (x_i-\bar{x})^2=2{,}25+0{,}25+0{,}25+2{,}25=5 \]
\[ \sum (y_i-\bar{y})^2=4+1+1+4=10 \]
Reemplazamos en la fórmula:
\[ r=\frac{7}{\sqrt{5}\sqrt{10}} \]
\[ r=\frac{7}{\sqrt{50}} \]
\[ r\approx \frac{7}{7{,}07}\approx 0{,}99 \]
El valor de \(r\) es positivo y cercano a \(1\), por lo que existe una relación lineal positiva muy fuerte.
Otra mirada: datos estandarizados
También se puede entender \(r\) usando puntajes estandarizados:
\[ z_x=\frac{x_i-\bar{x}}{s_x} \]
\[ z_y=\frac{y_i-\bar{y}}{s_y} \]
Estos valores indican cuántas desviaciones estándar se aleja cada dato de su media.
Desde esta mirada, \(r\) compara si los valores estandarizados de \(x\) e \(y\) tienden a tener el mismo signo o signos opuestos.
Condición necesaria
El coeficiente de Pearson no está definido si una de las variables no varía.
Por ejemplo, si todos los valores de \(x\) son iguales, entonces \(s_x=0\), y no se puede dividir por cero.
Por eso, para calcular \(r\), ambas variables deben tener variabilidad.
Ejercicio 1
Explica con tus palabras por qué Pearson \(r\) se puede entender como una covarianza estandarizada.
La covarianza mide si dos variables tienden a moverse juntas o en sentidos opuestos, observando los productos \((x_i-\bar{x})(y_i-\bar{y})\).
Sin embargo, la covarianza depende de las unidades de medida. Por ejemplo, puede cambiar si una variable se mide en pesos o en miles de pesos.
Por eso, Pearson divide la covarianza por las desviaciones estándar de ambas variables. Así se obtiene una medida sin unidades y comparable entre distintos contextos.
Respuesta: \(r\) es una covarianza estandarizada porque mide movimiento conjunto, pero ajustado por la dispersión de cada variable.
Ejercicio 2
Un estudiante pregunta por qué en la fórmula final de Pearson no aparece dividido por \(n-1\), aunque la covarianza y las desviaciones estándar muestrales sí usan \(n-1\).
Responde explicando la cancelación.
La covarianza muestral tiene un factor \(\frac{1}{n-1}\):
\[ s_{xy}=\frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y}) \]
Las desviaciones estándar también tienen ese factor dentro de cada raíz:
\[ s_x=\sqrt{\frac{1}{n-1}\sum (x_i-\bar{x})^2} \]
\[ s_y=\sqrt{\frac{1}{n-1}\sum (y_i-\bar{y})^2} \]
Al multiplicar \(s_xs_y\), aparece:
\[ \sqrt{\frac{1}{n-1}}\cdot \sqrt{\frac{1}{n-1}}=\frac{1}{n-1} \]
Entonces el mismo factor aparece en el numerador y en el denominador, por lo que se cancela.
Respuesta: no aparece porque el factor \(\frac{1}{n-1}\) se cancela al formar el cociente \(\frac{s_{xy}}{s_xs_y}\).
Ejercicio 3
Observa la siguiente afirmación:
“Si \(r=0{,}95\), entonces la relación es positiva fuerte y necesariamente una variable causa a la otra”.
Evalúa la afirmación.
La primera parte de la afirmación es correcta: si \(r=0{,}95\), entonces existe una relación lineal positiva fuerte.
Sin embargo, la segunda parte es incorrecta. Una correlación alta no demuestra causalidad por sí sola.
Para hablar de causalidad se necesita más información, como el diseño del estudio, control de variables externas y una justificación contextual sólida.
Respuesta: \(r=0{,}95\) indica relación lineal positiva fuerte, pero no demuestra causalidad automáticamente.
Ejercicio 4
Supón que en un conjunto de datos todos los valores de \(x\) son iguales, pero los valores de \(y\) cambian.
¿Se puede calcular el coeficiente de correlación de Pearson? Justifica.
No se puede calcular Pearson \(r\) en ese caso.
Si todos los valores de \(x\) son iguales, entonces \(x\) no tiene dispersión. Por lo tanto:
\[ s_x=0 \]
Como la fórmula de Pearson divide por \(s_xs_y\), aparecería una división por cero.
Además, si \(x\) no varía, no tiene sentido estudiar si al cambiar \(x\), \(y\) tiende a aumentar o disminuir.
Respuesta: no se puede calcular, porque la desviación estándar de \(x\) es cero.
Cierre
El coeficiente de correlación de Pearson nace de una idea simple: observar si dos variables se desvían de sus medias en el mismo sentido o en sentidos opuestos.
La covarianza mide ese movimiento conjunto, pero depende de las unidades. Al dividir por las desviaciones estándar de ambas variables, se obtiene una medida estandarizada entre \(-1\) y \(1\).
Por eso, Pearson \(r\) resume la fuerza y el sentido de una relación lineal, pero debe interpretarse siempre en contexto y sin confundir correlación con causalidad.
8. Interpretación del valor de \(r\) [cercanía a \(-1\), \(0\), \(1\)] (PAES M2)
Objetivos
- Interpretar valores del coeficiente de correlación de Pearson según su signo y magnitud.
- Relacionar la cercanía de \(r\) a \(-1\), \(0\) o \(1\) con la fuerza de una relación lineal.
- Seleccionar interpretaciones correctas de \(r\) en contextos tipo PAES M2.
¿Cómo se interpreta el valor de \(r\)?
El coeficiente de correlación de Pearson \(r\) siempre toma valores entre \(-1\) y \(1\).
Para interpretarlo correctamente, debemos mirar dos aspectos:
- El signo: indica si la relación lineal es positiva o negativa.
- La cercanía a \(-1\), \(0\) o \(1\): indica qué tan fuerte o débil es la relación lineal.
Escala de interpretación de \(r\)
\[ -1 \leq r \leq 1 \]
| Valor de \(r\) | Interpretación general |
|---|---|
| \(r\) cercano a \(1\) | Relación lineal positiva fuerte. |
| \(r\) cercano a \(-1\) | Relación lineal negativa fuerte. |
| \(r\) cercano a \(0\) | Relación lineal débil o nula. |
| \(r=1\) | Relación lineal positiva perfecta. |
| \(r=-1\) | Relación lineal negativa perfecta. |
| \(r=0\) | No hay relación lineal. |
Lectura rápida
Para interpretar \(r\), puedes usar esta idea:
- El signo \(+\) indica que la nube tiende a subir.
- El signo \(-\) indica que la nube tiende a bajar.
- Mientras más cerca esté \(r\) de \(1\) o \(-1\), más fuerte es la relación lineal.
- Mientras más cerca esté \(r\) de \(0\), más débil es la relación lineal.
Ejemplo 1: \(r=0{,}95\)
Supongamos que se analiza la relación entre porcentaje de asistencia a talleres de preparación y puntaje en un ensayo, obteniendo:
\[ r=0{,}95 \]
El valor es positivo, por lo tanto la relación lineal es positiva.
Además, \(0{,}95\) está muy cerca de \(1\), por lo que la relación lineal es fuerte.
Interpretación:
“Existe una relación lineal positiva fuerte entre el porcentaje de asistencia a talleres de preparación y el puntaje en el ensayo”.
Ejemplo 2: \(r=-0{,}88\)
Supongamos que se analiza la relación entre tiempo promedio de espera en una atención y satisfacción usuaria, obteniendo:
\[ r=-0{,}88 \]
El valor es negativo, por lo tanto la relación lineal es negativa.
Además, \(-0{,}88\) está bastante cerca de \(-1\), por lo que la relación lineal es fuerte.
Interpretación:
“Existe una relación lineal negativa fuerte entre el tiempo de espera y la satisfacción usuaria”.
Ejemplo 3: \(r=0{,}12\)
Supongamos que se analiza la relación entre un código interno asignado a estudiantes y el puntaje obtenido en una prueba, obteniendo:
\[ r=0{,}12 \]
El valor es positivo, pero está muy cerca de \(0\).
Por lo tanto, no se observa una relación lineal importante.
Interpretación:
“No se observa una relación lineal clara entre el código interno del estudiante y el puntaje obtenido”.
Error común
No se debe decir que un valor negativo de \(r\) representa una relación débil solo por ser negativo.
Por ejemplo, \(r=-0{,}94\) indica una relación lineal negativa fuerte, porque está muy cerca de \(-1\).
Ejemplo 4: ordenar valores según fuerza lineal
Considera los siguientes valores:
\[ r=0{,}20 \qquad r=-0{,}91 \qquad r=0{,}76 \]
Para comparar la fuerza de la relación lineal, se observa qué tan lejos está cada valor de \(0\). Es decir, se compara \(|r|\).
| Valor de \(r\) | \(|r|\) | Fuerza lineal | Sentido |
|---|---|---|---|
| \(0{,}20\) | \(0{,}20\) | Débil | Positivo |
| \(-0{,}91\) | \(0{,}91\) | Fuerte | Negativo |
| \(0{,}76\) | \(0{,}76\) | Moderada a fuerte | Positivo |
El valor que representa la relación lineal más fuerte es \(-0{,}91\), porque es el que tiene mayor valor absoluto.
Cuidado con la interpretación porcentual
No corresponde interpretar \(r=0{,}80\) como “80% de relación” o “80% de causalidad”.
El valor de \(r\) indica dirección y fuerza de una relación lineal, pero no se interpreta directamente como porcentaje.
Ejercicio 1
Una investigadora analiza cuatro relaciones entre variables cuantitativas y obtiene los siguientes coeficientes de correlación de Pearson:
| Estudio | Variables | Coeficiente \(r\) |
|---|---|---|
| A | Horas de estudio semanal y puntaje en un ensayo PAES | \(0{,}78\) |
| B | Tiempo de traslado diario y tiempo disponible para estudiar | \(-0{,}64\) |
| C | Temperatura diaria y venta de bebidas frías | \(0{,}91\) |
| D | Código interno de estudiante y promedio semestral | \(-0{,}05\) |
- Ordena las relaciones desde la más débil hasta la más fuerte.
- Indica el sentido de cada relación.
- Explica por qué no basta con comparar los valores usando el orden habitual de los números reales.
Para comparar la fuerza de una relación lineal se debe observar la cercanía de \(r\) a \(1\) o a \(-1\), no si el número es mayor o menor en la recta numérica.
Comparamos los valores absolutos:
\[ |0{,}78|=0{,}78,\quad |-0{,}64|=0{,}64,\quad |0{,}91|=0{,}91,\quad |-0{,}05|=0{,}05 \]
Desde la relación lineal más débil hasta la más fuerte:
\[ D,\ B,\ A,\ C \]
Los sentidos son:
- D: relación negativa prácticamente nula.
- B: relación negativa moderada.
- A: relación positiva fuerte.
- C: relación positiva muy fuerte.
No basta con comparar los números en orden habitual porque el signo indica sentido, no fuerza. Por ejemplo, \(-0{,}64\) es menor que \(0{,}78\), pero su fuerza se compara mediante \(|r|\).
Respuesta: \(D,\ B,\ A,\ C\). Para comparar fuerza se usa \(|r|\), no el orden usual de los números.
Ejercicio 2
En un informe se estudia la relación entre ingreso familiar mensual y gasto mensual en alimentación. Se obtiene:
\[ r=0{,}68 \]
El informe propone la siguiente interpretación:
“Como \(r=0{,}68\), el ingreso familiar explica el 68% del gasto en alimentación”.
Evalúa la interpretación. Luego redacta una versión estadísticamente más correcta.
La interpretación propuesta no es correcta.
El coeficiente \(r=0{,}68\) no se interpreta directamente como “68% explicado”. El coeficiente de Pearson indica dirección y fuerza de una relación lineal, pero no corresponde leerlo como porcentaje de explicación.
Además, el valor es positivo, por lo que indica que a mayor ingreso familiar, el gasto en alimentación tiende a aumentar. Como \(0{,}68\) está relativamente lejos de \(0\), la relación puede describirse como positiva moderada a fuerte.
Una redacción más correcta sería:
“En estos datos se observa una relación lineal positiva moderada a fuerte entre el ingreso familiar mensual y el gasto mensual en alimentación”.
Si se quisiera hablar de porcentaje de variabilidad explicada en un modelo lineal, habría que analizar \(r^2\), no \(r\) directamente.
Respuesta: la frase es incorrecta porque interpreta \(r\) como porcentaje. Lo correcto es describir una relación lineal positiva moderada a fuerte.
Ejercicio 3
Dos grupos de estudiantes presentan los siguientes resultados al relacionar horas de estudio semanal con puntaje en un ensayo.
| Grupo | Coeficiente \(r\) | Descripción del contexto |
|---|---|---|
| Grupo A | \(0{,}82\) | Estudiantes de un mismo curso, con el mismo profesor y la misma evaluación. |
| Grupo B | \(0{,}82\) | Estudiantes de tres colegios distintos, con evaluaciones de distinta dificultad. |
Ambos grupos tienen el mismo valor de \(r\). ¿Significa eso que la interpretación contextual es exactamente igual en ambos casos? Justifica.
El valor de \(r\) es el mismo en ambos casos, por lo que en los dos grupos existe una relación lineal positiva fuerte entre horas de estudio y puntaje.
Sin embargo, la interpretación contextual no es exactamente igual. En el Grupo A, los estudiantes pertenecen a un mismo curso y rindieron la misma evaluación, por lo que la comparación es más homogénea.
En el Grupo B, los datos provienen de colegios distintos y evaluaciones de distinta dificultad. Eso puede introducir variables externas que afecten los puntajes, como diferencias curriculares, criterios de evaluación, nivel de exigencia o preparación previa.
Por lo tanto, aunque \(r\) tenga el mismo valor, el contexto influye en la confianza y alcance de la interpretación.
Respuesta: no. El valor de \(r\) describe la relación lineal, pero el contexto determina qué tan comparable y defendible es la interpretación.
Ejercicio 4
En un estudio sobre comunas se analizaron dos variables:
- \(x\): porcentaje de hogares con acceso a internet fijo.
- \(y\): puntaje promedio comunal en una evaluación estandarizada.
Al calcular el coeficiente de correlación de Pearson se obtuvo:
\[ r=0{,}62 \]
Luego, al separar las comunas en urbanas y rurales, se obtuvieron los siguientes resultados:
| Grupo de comunas | Coeficiente \(r\) | Descripción general |
|---|---|---|
| Urbanas | \(0{,}28\) | Alta conectividad en casi todas las comunas, pero puntajes variados. |
| Rurales | \(0{,}74\) | Mayor variación en conectividad y una tendencia creciente más clara. |
Interpreta los tres valores de \(r\) y explica por qué separar los datos por grupo puede cambiar la lectura de la relación.
El valor general \(r=0{,}62\) indica una relación lineal positiva moderada a fuerte entre acceso a internet fijo y puntaje promedio comunal.
En las comunas urbanas, \(r=0{,}28\) indica una relación positiva débil. Esto puede deberse a que casi todas tienen alta conectividad, por lo que esa variable varía poco y no permite distinguir claramente diferencias de puntaje.
En las comunas rurales, \(r=0{,}74\) indica una relación positiva relativamente fuerte. Allí la conectividad varía más entre comunas, por lo que la relación con el puntaje aparece con mayor claridad.
Separar los datos por grupo puede cambiar la lectura porque los grupos no siempre se comportan igual. Mezclar comunas urbanas y rurales puede ocultar diferencias internas o combinar realidades distintas.
Respuesta: la relación general es positiva moderada a fuerte; en comunas urbanas es positiva débil y en rurales positiva más fuerte. Separar los grupos permite interpretar mejor el contexto de los datos.
Ejercicio 5
Una organización quiere usar una variable para estimar el puntaje promedio comunal en una evaluación. Para ello calcula la correlación de Pearson entre el puntaje promedio y tres posibles variables explicativas.
| Variable comparada con el puntaje promedio | Coeficiente \(r\) | Observación contextual |
|---|---|---|
| Porcentaje de asistencia escolar | \(0{,}81\) | Los datos provienen de comunas con tamaños de matrícula similares. |
| Ingreso promedio del hogar | \(0{,}84\) | Los datos mezclan comunas urbanas grandes y comunas rurales pequeñas. |
| Número de establecimientos educacionales | \(0{,}67\) | La variable está muy influida por el tamaño de la comuna. |
Si el objetivo es elegir una variable para construir un primer modelo lineal simple, ¿basta con escoger automáticamente la variable con mayor valor de \(r\)? Justifica tu respuesta considerando fuerza de la relación y contexto de los datos.
No basta con escoger automáticamente la variable con mayor valor de \(r\).
El ingreso promedio del hogar tiene el mayor coeficiente, \(r=0{,}84\), por lo que presenta la relación lineal más fuerte entre las tres variables. Sin embargo, la observación contextual indica que mezcla comunas urbanas grandes y comunas rurales pequeñas, lo que puede introducir diferencias estructurales importantes.
La asistencia escolar tiene un coeficiente muy cercano, \(r=0{,}81\), y los datos provienen de comunas con tamaños de matrícula similares. Esto podría hacer que la comparación sea más homogénea y que la interpretación sea más defendible para un primer modelo.
El número de establecimientos tiene una correlación positiva, \(r=0{,}67\), pero su interpretación puede estar afectada por el tamaño de la comuna: comunas más grandes naturalmente tienden a tener más establecimientos.
Por lo tanto, la decisión no debe basarse solo en el mayor \(r\). También debe considerar si los datos son comparables, si hay variables externas relevantes y si la relación tiene sentido en el contexto.
Respuesta: no basta elegir el mayor \(r\); aunque ingreso promedio tiene \(r=0{,}84\), la asistencia escolar podría ser una opción más defendible si se busca un modelo simple con grupos más comparables.
Ejercicio 6
En un estudio sobre comunas se obtuvo \(r=-0{,}74\) entre distancia al centro de la ciudad y precio promedio de arriendo.
Selecciona la interpretación más adecuada:
- Como \(r\) es negativo, la relación es débil.
- Mientras mayor es la distancia al centro, el precio promedio de arriendo tiende a disminuir.
- La distancia al centro causa exactamente una disminución del \(74\%\) en el arriendo.
- No existe relación, porque \(r\) no es cercano a \(1\).
Justifica por qué las otras alternativas no son adecuadas.
La alternativa correcta es la 2.
El valor \(r=-0{,}74\) indica una relación lineal negativa relativamente fuerte: a mayor distancia al centro, el precio promedio de arriendo tiende a disminuir.
La alternativa 1 es incorrecta porque confunde signo con fuerza. Ser negativo no significa ser débil.
La alternativa 3 es incorrecta porque \(r\) no se interpreta como porcentaje de disminución ni demuestra causalidad exacta.
La alternativa 4 es incorrecta porque una relación negativa fuerte se acerca a \(-1\), no a \(1\).
Respuesta: la alternativa correcta es 2.
Ejercicio 7
Se analizó la relación entre años de experiencia laboral y sueldo mensual en una empresa. Con todos los datos se obtuvo \(r=0{,}42\). Al revisar la nube de puntos, se detectó un grupo pequeño de directivos con sueldos muy superiores al resto.
Al calcular nuevamente \(r\) solo para trabajadores no directivos, se obtuvo \(r=0{,}81\).
Interpreta ambos resultados y explica por qué cambió la fuerza de la relación.
Con todos los datos, \(r=0{,}42\) indica una relación lineal positiva moderada o relativamente débil entre experiencia laboral y sueldo mensual.
Al considerar solo trabajadores no directivos, \(r=0{,}81\) indica una relación lineal positiva fuerte.
La diferencia puede explicarse porque los directivos forman un grupo con características distintas: sus sueldos pueden depender no solo de los años de experiencia, sino también del cargo, responsabilidades, bonos o nivel jerárquico.
Al mezclar grupos distintos, aumenta la dispersión y la relación lineal general puede debilitarse. Al analizar un grupo más homogéneo, la tendencia entre experiencia y sueldo se observa con mayor claridad.
Respuesta: \(r\) aumenta al separar un grupo con comportamiento distinto; esto muestra que la composición de la muestra afecta la interpretación de la correlación.
Ejercicio 8
Una prueba tipo PAES M2 presenta la siguiente pregunta:
Se sabe que el coeficiente de correlación de Pearson entre dos variables es \(r=-0{,}97\). ¿Cuál de las siguientes nubes de puntos sería más coherente con ese valor?
- Una nube muy dispersa, sin dirección clara.
- Una nube con puntos cercanos a una recta descendente.
- Una nube con puntos cercanos a una recta ascendente.
- Una nube con forma de U, simétrica respecto del eje vertical.
El valor \(r=-0{,}97\) es negativo y muy cercano a \(-1\). Esto indica una relación lineal negativa muy fuerte.
Por lo tanto, la nube de puntos más coherente es una nube con puntos cercanos a una recta descendente.
La alternativa 1 correspondería a un valor cercano a \(0\). La alternativa 3 correspondería a un valor positivo cercano a \(1\). La alternativa 4 podría mostrar una relación no lineal, pero no necesariamente una correlación lineal fuerte negativa.
Respuesta: la alternativa correcta es 2.
Ejercicio 9
Un estudiante compara dos coeficientes:
\[ r_1=-0{,}89 \qquad r_2=0{,}72 \]
Afirma: “\(r_2\) representa una relación más fuerte porque \(0{,}72\) es mayor que \(-0{,}89\)”.
¿Es correcta su afirmación? Explica usando el valor absoluto de \(r\).
La afirmación no es correcta.
Para comparar la fuerza de dos correlaciones se comparan sus valores absolutos:
\[ |-0{,}89|=0{,}89 \]
\[ |0{,}72|=0{,}72 \]
Como \(0{,}89>0{,}72\), la relación representada por \(r_1=-0{,}89\) es más fuerte que la representada por \(r_2=0{,}72\).
La diferencia es que \(r_1\) representa una relación negativa fuerte, mientras que \(r_2\) representa una relación positiva moderada a fuerte.
Respuesta: no; \(r_1=-0{,}89\) representa la relación más fuerte porque su valor absoluto es mayor.
Cierre
Interpretar \(r\) exige separar el sentido de la fuerza: el signo indica si la relación lineal es positiva o negativa, mientras que \(|r|\) indica qué tan fuerte es.
Además, una interpretación completa debe considerar el contexto, evitar lecturas porcentuales incorrectas y recordar que correlación no implica causalidad.
9. Recta de regresión lineal I [ajuste y predicción] (PAES M2)
Objetivos
- Comprender la recta de regresión lineal como un modelo que resume la tendencia de una nube de puntos.
- Usar una recta de regresión para realizar predicciones aproximadas.
- Distinguir entre interpolación y extrapolación en predicciones con modelos lineales.
¿Qué es una recta de regresión lineal?
Cuando una nube de puntos muestra una tendencia aproximadamente lineal, se puede trazar una recta que represente el comportamiento general de los datos.
Esta recta se llama recta de regresión lineal o recta de ajuste.
Su objetivo no es pasar necesariamente por todos los puntos, sino resumir la tendencia general para interpretar la relación entre dos variables y hacer predicciones aproximadas.
Forma de la recta de regresión
Una recta de regresión lineal se puede escribir como:
\[ \hat{y}=mx+b \]
Donde:
- \(x\) es la variable explicativa o independiente.
- \(\hat{y}\) es el valor estimado o predicho de la variable dependiente.
- \(m\) es la pendiente de la recta.
- \(b\) es el intercepto con el eje \(y\).
Importante
Se usa \(\hat{y}\) y no \(y\) porque la recta entrega un valor estimado, no necesariamente exacto.
En datos reales, los puntos pueden estar cerca de la recta, pero no todos tienen que estar sobre ella.
Ejemplo 1: recta de ajuste y nube de puntos
La siguiente situación relaciona la cantidad de ensayos de práctica realizados durante un mes con un índice de logro en una escala de 0 a 100.
| Estudiante | Ensayos de práctica \(x\) | Índice de logro \(y\) |
|---|---|---|
| A | 1 | 27 |
| B | 2 | 31 |
| C | 4 | 45 |
| D | 6 | 57 |
| E | 8 | 70 |
| F | 9 | 73 |
Una recta que ajusta razonablemente estos datos es:
\[ \hat{y}=6x+20 \]
La recta muestra la tendencia general: a medida que aumenta el número de ensayos de práctica, el índice de logro tiende a aumentar.
El gráfico usa una escala simple: \(x\) va de \(0\) a \(10\) e \(y\) va de \(0\) a \(100\), lo que facilita la lectura visual.
Ejemplo 2: predicción usando la recta
Usando el modelo:
\[ \hat{y}=6x+20 \]
estimemos el índice de logro de un estudiante que realiza \(7\) ensayos de práctica.
Reemplazamos \(x=7\):
\[ \hat{y}=6\cdot 7+20 \]
\[ \hat{y}=42+20=62 \]
Según el modelo, un estudiante que realiza \(7\) ensayos de práctica tendría un índice de logro estimado de \(62\) puntos.
Este valor es una predicción aproximada, no una garantía exacta.
Cómo hacer una predicción con la recta de regresión
- Identifica la ecuación de la recta de regresión.
- Reconoce qué valor de \(x\) se quiere usar.
- Reemplaza ese valor en la ecuación.
- Calcula \(\hat{y}\).
- Interpreta el resultado en el contexto del problema.
Ejemplo 3: valor relativo de un producto usado
La antigüedad de un equipo tecnológico, en años, se relaciona con su valor relativo de reventa en una escala de 0 a 100.
Un modelo lineal para esta situación es:
\[ \hat{y}=-9x+92 \]
donde \(x\) es la antigüedad en años y \(\hat{y}\) es el valor relativo estimado.
Estimemos el valor relativo de un equipo con \(5\) años de antigüedad:
\[ \hat{y}=-9\cdot 5+92 \]
\[ \hat{y}=-45+92=47 \]
El modelo estima que un equipo con \(5\) años de antigüedad tendría un valor relativo aproximado de \(47\) puntos.
Interpolación y extrapolación
| Tipo de predicción | Descripción | Cuidado necesario |
|---|---|---|
| Interpolación | Se predice usando un valor de \(x\) dentro del rango de datos observados. | Suele ser más razonable si el modelo ajusta bien. |
| Extrapolación | Se predice usando un valor de \(x\) fuera del rango de datos observados. | Puede ser riesgosa, porque no sabemos si la tendencia continúa igual. |
Error común
No toda predicción con una recta de regresión es confiable.
Si se usa un valor de \(x\) muy alejado de los datos observados, se está extrapolando y la predicción puede perder sentido.
Ejercicio 1
Una recta de regresión fue obtenida para estimar un índice de preparación PAES M2, en escala de 0 a 100, a partir de las horas semanales de estudio:
\[ \hat{y}=7x+18 \]
donde \(x\) representa las horas semanales de estudio y \(\hat{y}\) el índice de preparación estimado.
Los datos observados correspondieron a estudiantes que estudiaban entre \(1\) y \(9\) horas semanales.
- Estima el índice para un estudiante que estudia \(6\) horas semanales.
- Clasifica la predicción como interpolación o extrapolación.
- Explica por qué el resultado no debe interpretarse como un valor exacto.
Reemplazamos \(x=6\) en la ecuación:
\[ \hat{y}=7\cdot 6+18 \]
\[ \hat{y}=42+18=60 \]
El índice estimado es \(60\) puntos.
Como \(6\) está dentro del rango observado, entre \(1\) y \(9\) horas, esta predicción corresponde a una interpolación.
El resultado no es exacto porque la recta resume una tendencia general. Dos estudiantes que estudian la misma cantidad de horas podrían obtener índices distintos por calidad del estudio, conocimientos previos, asistencia, concentración o dominio de contenidos.
Respuesta: \(\hat{y}=60\). Es una interpolación y debe interpretarse como una estimación aproximada.
Ejercicio 2
Una consultora estudia la relación entre la distancia al centro de una ciudad y un índice de conveniencia de arriendo, medido en escala de 0 a 100. Un modelo lineal obtenido es:
\[ \hat{y}=-6x+88 \]
donde \(x\) representa la distancia al centro en kilómetros y \(\hat{y}\) el índice estimado de conveniencia.
Los datos usados para construir el modelo corresponden a viviendas ubicadas entre \(1\) km y \(9\) km del centro.
- Estima el índice para una vivienda ubicada a \(6\) km del centro.
- Estima el índice para una vivienda ubicada a \(11\) km del centro.
- Compara la confiabilidad de ambas predicciones.
Para \(x=6\):
\[ \hat{y}=-6\cdot 6+88 \]
\[ \hat{y}=-36+88=52 \]
El índice estimado es \(52\).
Para \(x=11\):
\[ \hat{y}=-6\cdot 11+88 \]
\[ \hat{y}=-66+88=22 \]
El índice estimado sería \(22\).
La predicción para \(6\) km es una interpolación, porque está dentro del rango observado \([1,9]\). La predicción para \(11\) km es una extrapolación, porque está fuera del rango observado.
La segunda predicción debe tomarse con mayor cautela, ya que en zonas más alejadas podrían influir otros factores, como conectividad, servicios, seguridad o tipo de vivienda.
Respuesta: para \(6\) km, \(\hat{y}=52\); para \(11\) km, \(\hat{y}=22\). La primera predicción es más confiable porque es interpolación.
Ejercicio 3
Una empresa ajustó una recta de regresión para estimar un índice de ventas mensuales, en escala de 0 a 100, a partir del gasto mensual en publicidad digital, medido en millones de pesos:
\[ \hat{y}=5x+24 \]
Los datos observados corresponden a meses con gastos entre \(2\) y \(10\) millones de pesos.
Una gerencia propone usar el modelo para estimar el índice de ventas si se invierten \(13\) millones.
- Calcula la predicción para \(x=13\).
- Explica por qué esa predicción debe interpretarse con cautela.
- Propón un uso más prudente del modelo.
Reemplazamos \(x=13\):
\[ \hat{y}=5\cdot 13+24 \]
\[ \hat{y}=65+24=89 \]
El modelo estima un índice de ventas de \(89\).
Sin embargo, esta predicción es una extrapolación, porque \(13\) millones está fuera del rango observado \([2,10]\).
Debe interpretarse con cautela porque no sabemos si aumentar la inversión publicitaria mantiene la misma relación lineal. Podrían aparecer límites de demanda, saturación de público o menor efectividad de la campaña.
Un uso más prudente sería aplicar el modelo dentro del rango observado, por ejemplo entre \(2\) y \(10\) millones, o recolectar nuevos datos antes de estimar valores más altos.
Respuesta: \(\hat{y}=89\), pero es una extrapolación y debe interpretarse con cautela.
Ejercicio 4
Una recta de regresión para estimar un índice de comprensión lectora, en escala de 0 a 100, a partir de la cantidad de libros leídos durante el semestre es:
\[ \hat{y}=8x+28 \]
El modelo se obtuvo con estudiantes que leyeron entre \(1\) y \(7\) libros.
Un estudiante afirma:
“Si alguien lee \(9\) libros, entonces obtendrá exactamente \(100\) puntos, porque \(8\cdot 9+28=100\)”.
Analiza la afirmación. Tu respuesta debe referirse al cálculo, al tipo de predicción y al uso de la palabra “exactamente”.
El cálculo aritmético es correcto:
\[ \hat{y}=8\cdot 9+28=72+28=100 \]
Sin embargo, la interpretación no es correcta.
Primero, \(9\) libros está fuera del rango observado, porque el modelo se construyó con estudiantes que leyeron entre \(1\) y \(7\) libros. Por lo tanto, se trata de una extrapolación.
Segundo, una recta de regresión entrega una estimación, no un resultado exacto. Incluso dentro del rango observado, no se puede asegurar que una persona obtendrá exactamente el valor predicho.
Una interpretación más adecuada sería: si se usa el modelo fuera de su rango observado, este estima \(100\) puntos para \(9\) libros, pero esa predicción debe tomarse con cautela.
Respuesta: el cálculo da \(100\), pero es una extrapolación y no corresponde interpretarla como un valor exacto.
Ejercicio 5
En un estudio sobre producción diaria se obtuvo la siguiente recta para estimar un índice de productividad, en escala de 0 a 100, según el número de trabajadores en turno:
\[ \hat{y}=6x+14 \]
Los datos observados fueron de equipos con entre \(3\) y \(11\) trabajadores.
Clasifica cada uso del modelo como interpolación, extrapolación cercana o extrapolación lejana. Justifica.
| Uso del modelo | Clasificación |
|---|---|
| Estimar productividad para \(x=8\) | |
| Estimar productividad para \(x=12\) | |
| Estimar productividad para \(x=2\) | |
| Estimar productividad para \(x=18\) |
El rango observado es de \(3\) a \(11\) trabajadores.
| Uso del modelo | Clasificación | Justificación |
|---|---|---|
| Estimar productividad para \(x=8\) | Interpolación | \(8\) está dentro del rango observado. |
| Estimar productividad para \(x=12\) | Extrapolación cercana | \(12\) está apenas fuera del rango observado. |
| Estimar productividad para \(x=2\) | Extrapolación cercana | \(2\) está fuera del rango observado, pero cercano al límite inferior. |
| Estimar productividad para \(x=18\) | Extrapolación lejana | \(18\) está muy lejos del rango observado. No es necesario que aparezca dentro del gráfico para reconocer que está fuera del rango de datos. |
Las extrapolaciones deben analizarse con cuidado. En equipos mucho más grandes podrían aparecer restricciones de coordinación, espacio o maquinaria que el modelo no considera.
Respuesta: interpolación, extrapolación cercana, extrapolación cercana, extrapolación lejana.
Cierre
La recta de regresión lineal permite representar la tendencia general de una nube de puntos y realizar predicciones aproximadas.
Para que el gráfico sea útil, el contexto y los datos deben permitir una escala legible. Por eso conviene usar rangos claros en los ejes y evitar gráficos saturados.
Al usar una recta de regresión, siempre se debe distinguir entre interpolación y extrapolación, y recordar que \(\hat{y}\) representa un valor estimado.
10. Recta de regresión lineal II [pendiente, intercepto, lectura contextual] (PAES M2)
Objetivos
- Interpretar la pendiente de una recta de regresión lineal en contexto.
- Interpretar el intercepto de una recta de regresión lineal cuando tenga sentido en la situación.
- Analizar una recta de regresión considerando sus unidades y el significado de sus parámetros.
Recordemos la forma de la recta
Una recta de regresión lineal suele escribirse como:
\[ \hat{y}=mx+b \]
En esta expresión:
- \(m\) es la pendiente.
- \(b\) es el intercepto con el eje \(y\).
- \(\hat{y}\) representa el valor estimado de la variable dependiente.
Significado de la pendiente
La pendiente \(m\) indica cuánto cambia aproximadamente \(\hat{y}\) cuando \(x\) aumenta en una unidad.
| Valor de \(m\) | Lectura general |
|---|---|
| \(m>0\) | La recta es creciente: cuando \(x\) aumenta, \(\hat{y}\) tiende a aumentar. |
| \(m<0\) | La recta es decreciente: cuando \(x\) aumenta, \(\hat{y}\) tiende a disminuir. |
| \(m=0\) | La recta es horizontal: \(\hat{y}\) no cambia al aumentar \(x\). |
Significado del intercepto
El intercepto \(b\) corresponde al valor estimado de \(\hat{y}\) cuando \(x=0\).
Sin embargo, no siempre tiene una interpretación realista. Para interpretarlo, hay que preguntarse si \(x=0\) tiene sentido en el contexto del problema.
Cuidado con interpretar el intercepto
El intercepto no siempre representa una situación posible.
Por ejemplo, si una recta relaciona edad y estatura en estudiantes de enseñanza media, \(x=0\) años no pertenece al contexto de esos datos. En ese caso, el intercepto puede formar parte del modelo, pero no necesariamente tiene una interpretación práctica.
Ejemplo 1: pendiente positiva
Una recta de regresión para estimar un índice de avance en un plan de preparación, en escala de 0 a 100, según la cantidad de sesiones semanales de trabajo guiado es:
\[ \hat{y}=7x+18 \]
donde \(x\) representa las sesiones semanales de trabajo guiado y \(\hat{y}\) el índice de avance estimado.
La pendiente es \(m=7\).
Esto significa que, por cada sesión semanal adicional de trabajo guiado, el índice de avance estimado aumenta aproximadamente en \(7\) puntos.
El intercepto es \(b=18\).
En este contexto, representa el índice estimado para una persona con \(0\) sesiones semanales de trabajo guiado, según el modelo. Esta interpretación debe tomarse con cuidado si los datos originales no incluyeron casos con \(0\) sesiones.
Ejemplo 2: pendiente negativa
El valor relativo de reventa de un equipo tecnológico, medido en escala de 0 a 100, se modela mediante la recta:
\[ \hat{y}=-8x+92 \]
donde \(x\) es la antigüedad del equipo en años y \(\hat{y}\) es el valor relativo estimado.
La pendiente es \(m=-8\).
Esto significa que, por cada año adicional de antigüedad, el valor relativo estimado disminuye aproximadamente en \(8\) puntos.
El intercepto es \(b=92\).
En este contexto, representa el valor relativo estimado de un equipo con \(0\) años de antigüedad, es decir, nuevo o recién adquirido, según el modelo.
Ejemplo 3: lectura contextual de una recta
Una empresa estima el costo total de un servicio según la cantidad de horas contratadas mediante el modelo:
\[ \hat{y}=15x+20 \]
donde \(x\) representa las horas contratadas y \(\hat{y}\) representa el costo total estimado en miles de pesos.
La pendiente es \(15\). Esto significa que por cada hora adicional contratada, el costo total estimado aumenta en \(15\) mil pesos.
El intercepto es \(20\). Esto puede interpretarse como un cobro fijo inicial de \(20\) mil pesos, aunque se contraten \(0\) horas.
Por lo tanto, el modelo puede representar una situación con un costo base más un cobro por hora.
Cómo interpretar una recta de regresión
- Identifica qué representa \(x\).
- Identifica qué representa \(\hat{y}\).
- Lee la pendiente \(m\) con sus unidades.
- Interpreta el intercepto \(b\) solo si \(x=0\) tiene sentido en el contexto.
- Evita interpretar la recta fuera del rango de datos observados sin precaución.
Ejemplo 4: intercepto sin interpretación práctica clara
Se estudia la relación entre superficie de una vivienda y consumo eléctrico mensual. Un modelo obtenido es:
\[ \hat{y}=1{,}4x+35 \]
donde \(x\) es la superficie de la vivienda en metros cuadrados y \(\hat{y}\) es el consumo eléctrico mensual estimado en kWh.
La pendiente \(m=1{,}4\) indica que, según el modelo, por cada metro cuadrado adicional de superficie, el consumo eléctrico mensual estimado aumenta aproximadamente \(1{,}4\) kWh.
El intercepto \(b=35\) correspondería al consumo estimado cuando \(x=0\) m².
Pero una vivienda de \(0\) m² no tiene sentido práctico. Por eso, el intercepto forma parte del modelo, pero no tiene una interpretación realista directa en esta situación.
Error común
No se debe decir solamente “la pendiente es 7” sin indicar qué significa.
Una buena interpretación debe incluir las unidades y el contexto. Por ejemplo: “por cada sesión semanal adicional de trabajo guiado, el índice estimado aumenta aproximadamente 7 puntos”.
Ejercicio 1
Una recta de regresión para estimar un índice de implementación tecnológica, en escala de 0 a 100, según la cantidad de capacitaciones realizadas por un equipo docente es:
\[ \hat{y}=6x+22 \]
donde \(x\) representa el número de capacitaciones realizadas y \(\hat{y}\) el índice de implementación estimado.
- Interpreta la pendiente en contexto.
- Interpreta el intercepto, indicando una precaución necesaria.
- Calcula el índice estimado para \(x=8\).
La pendiente es \(m=6\).
Esto significa que, por cada capacitación adicional realizada, el índice de implementación tecnológica estimado aumenta aproximadamente en \(6\) puntos.
El intercepto es \(b=22\). Representa el índice estimado cuando se han realizado \(0\) capacitaciones, según el modelo.
Esta interpretación debe tomarse con cuidado, especialmente si el modelo fue construido solo con equipos que ya habían realizado al menos una capacitación.
Para \(x=8\):
\[ \hat{y}=6\cdot 8+22=48+22=70 \]
Respuesta: la pendiente indica un aumento estimado de \(6\) puntos por capacitación adicional; el intercepto estima el índice cuando \(x=0\); para \(x=8\), \(\hat{y}=70\).
Ejercicio 2
Una recta de regresión para estimar un índice de satisfacción de usuarios, en escala de 0 a 100, según el tiempo de espera en atención es:
\[ \hat{y}=-5x+92 \]
donde \(x\) representa el tiempo de espera en minutos y \(\hat{y}\) el índice de satisfacción estimado.
- Interpreta la pendiente en contexto.
- Interpreta el intercepto en contexto.
- Estima el índice de satisfacción para un tiempo de espera de \(8\) minutos.
La pendiente es \(m=-5\).
Esto significa que, por cada minuto adicional de espera, el índice de satisfacción estimado disminuye aproximadamente en \(5\) puntos.
El intercepto es \(b=92\). Representa el índice de satisfacción estimado si el tiempo de espera fuera \(0\) minutos.
En este contexto, puede interpretarse como la satisfacción estimada en una atención sin espera, según el modelo.
Para \(x=8\):
\[ \hat{y}=-5\cdot 8+92=-40+92=52 \]
Respuesta: la pendiente indica una baja estimada de \(5\) puntos por minuto adicional de espera; el intercepto estima satisfacción sin espera; para \(8\) minutos, \(\hat{y}=52\).
Ejercicio 3
Una empresa modela un índice de costo de producción, en escala de 0 a 100, mediante la recta:
\[ \hat{y}=4x+18 \]
donde \(x\) representa la cantidad de lotes producidos y \(\hat{y}\) representa el índice de costo estimado.
- ¿Qué representa la pendiente \(4\)?
- ¿Qué representa el intercepto \(18\)?
- ¿Por qué este modelo puede representar una situación con costo fijo y costo variable?
La pendiente \(4\) indica que, por cada lote adicional producido, el índice de costo estimado aumenta aproximadamente en \(4\) puntos.
El intercepto \(18\) indica el índice de costo estimado cuando \(x=0\), es decir, cuando no se producen lotes.
Este modelo puede representar una situación con costo fijo y costo variable porque:
- el intercepto \(18\) representa un costo base o inicial;
- la pendiente \(4\) representa el aumento estimado del costo por cada lote adicional producido.
Respuesta: \(4\) es el aumento estimado del índice por lote adicional y \(18\) representa un costo base estimado.
Ejercicio 4
Se ajustó una recta de regresión para estimar el consumo eléctrico mensual de viviendas según su superficie:
\[ \hat{y}=1{,}4x+35 \]
donde \(x\) representa la superficie de la vivienda en metros cuadrados y \(\hat{y}\) representa el consumo eléctrico mensual estimado en kWh.
Los datos observados corresponden a viviendas entre \(35\) m² y \(140\) m².
Un estudiante interpreta:
“El intercepto \(35\) significa que una vivienda de \(0\) m² consume 35 kWh al mes”.
Analiza la interpretación del estudiante.
Matemáticamente, el intercepto corresponde al valor estimado de \(\hat{y}\) cuando \(x=0\).
Sin embargo, en este contexto, \(x=0\) significaría una vivienda de \(0\) m², lo cual no tiene sentido práctico como vivienda real.
Además, el modelo fue construido con viviendas entre \(35\) m² y \(140\) m². Por lo tanto, interpretar el modelo en \(x=0\) implica salir muy lejos del rango observado.
El intercepto forma parte de la ecuación y permite ajustar la recta, pero no necesariamente tiene una interpretación realista en el contexto.
Respuesta: la interpretación no es adecuada; aunque \(35\) es el valor estimado cuando \(x=0\), una vivienda de \(0\) m² no tiene sentido práctico y está fuera del rango observado.
Ejercicio 5
Dos modelos lineales se proponen para estimar un índice de preparación, en escala de 0 a 100, según la cantidad de sesiones semanales de trabajo guiado.
| Modelo | Recta de regresión | Contexto de los datos |
|---|---|---|
| Modelo A | \(\hat{y}=8x+24\) | Datos de estudiantes que realizaron entre \(1\) y \(7\) sesiones semanales. |
| Modelo B | \(\hat{y}=5x+40\) | Datos de estudiantes que realizaron entre \(5\) y \(12\) sesiones semanales. |
Una estudiante quiere estimar el índice de preparación de alguien que realiza \(9\) sesiones semanales.
- Calcula la estimación con ambos modelos.
- Indica cuál modelo sería más prudente usar para \(x=9\), considerando el rango de datos.
- Explica por qué no basta con elegir el modelo que entrega el índice más alto.
Con el Modelo A:
\[ \hat{y}=8\cdot 9+24=72+24=96 \]
Con el Modelo B:
\[ \hat{y}=5\cdot 9+40=45+40=85 \]
El Modelo A entrega \(96\) puntos, mientras que el Modelo B entrega \(85\) puntos.
Sin embargo, el Modelo A fue construido con estudiantes que realizaron entre \(1\) y \(7\) sesiones semanales. Usarlo para \(x=9\) es una extrapolación.
El Modelo B fue construido con estudiantes que realizaron entre \(5\) y \(12\) sesiones semanales. Como \(9\) está dentro de ese rango, usar el Modelo B corresponde a una interpolación.
Por eso, sería más prudente usar el Modelo B, aunque entregue un índice menor. No se debe elegir un modelo solo porque da una predicción más alta, sino considerando si el valor de \(x\) pertenece al rango donde el modelo fue construido.
Respuesta: Modelo A estima \(96\), Modelo B estima \(85\). Para \(x=9\), es más prudente usar el Modelo B porque interpola dentro de su rango observado.
Ejercicio 6
Una recta de regresión para estimar la cantidad de ventas mensuales de una tienda según el número de visitas a su sitio web es:
\[ \hat{y}=0{,}04x+180 \]
donde \(x\) representa el número de visitas mensuales al sitio web y \(\hat{y}\) representa la cantidad estimada de ventas mensuales.
Un informe interpreta la pendiente así:
“Por cada visita adicional al sitio web, se estiman \(0{,}04\) ventas más”.
La interpretación es correcta, pero poco comunicativa para un informe. Reescríbela usando un aumento de \(1000\) visitas y explica por qué esa versión es más útil.
La pendiente \(0{,}04\) indica que por cada visita adicional se estiman \(0{,}04\) ventas más.
Para \(1000\) visitas adicionales:
\[ 0{,}04\cdot 1000=40 \]
Entonces, una interpretación más comunicativa sería:
“Por cada \(1000\) visitas mensuales adicionales al sitio web, el modelo estima aproximadamente \(40\) ventas mensuales adicionales”.
Esta versión es más útil porque \(0{,}04\) ventas por una sola visita es difícil de interpretar en la práctica. En cambio, \(40\) ventas por \(1000\) visitas entrega una lectura más clara para tomar decisiones.
Respuesta: por cada \(1000\) visitas adicionales, el modelo estima \(40\) ventas más; esta escala permite interpretar mejor la pendiente.
Cierre
La pendiente y el intercepto de una recta de regresión no son solo números: deben interpretarse en el contexto de las variables estudiadas.
La pendiente indica el cambio estimado en \(\hat{y}\) por cada unidad adicional de \(x\), mientras que el intercepto representa el valor estimado cuando \(x=0\), siempre que esa interpretación tenga sentido.
Al trabajar con gráficos cartesianos, es importante escoger contextos y escalas que permitan una lectura clara de los datos y del modelo.
11. Taller de síntesis [datos, correlación y regresión] (PAES M2)
Objetivos
- Integrar la lectura de nubes de puntos, coeficiente de correlación y recta de regresión lineal.
- Interpretar datos bivariados usando lenguaje estadístico contextualizado.
- Resolver preguntas tipo PAES M2 sobre correlación, regresión, predicción e interpretación crítica.
Propósito del taller
En este taller se integran las ideas principales del bloque:
- lectura de nubes de puntos,
- interpretación del coeficiente de correlación de Pearson \(r\),
- uso de una recta de regresión lineal,
- predicciones aproximadas,
- análisis crítico de conclusiones estadísticas.
Resumen de herramientas
| Herramienta | ¿Para qué sirve? | Cuidado principal |
|---|---|---|
| Nube de puntos | Permite observar visualmente la relación entre dos variables cuantitativas. | No basta mirar solo un punto; se interpreta la tendencia general. |
| Coeficiente \(r\) | Mide sentido y fuerza de una relación lineal. | No mide causalidad ni detecta bien relaciones no lineales. |
| Recta de regresión | Modela una tendencia lineal y permite hacer predicciones aproximadas. | Debe usarse con cautela fuera del rango observado. |
| Interpretación contextual | Permite redactar conclusiones estadísticas con sentido. | Debe considerar unidades, población estudiada y variables externas. |
Situación inicial: acompañamiento y avance de proyecto
Un programa escolar registró la cantidad de sesiones de acompañamiento realizadas por distintos equipos y un índice de avance de proyecto en una escala de 0 a 100.
| Equipo | Sesiones de acompañamiento \(x\) | Índice de avance \(y\) |
|---|---|---|
| A | 1 | 36 |
| B | 2 | 43 |
| C | 4 | 52 |
| D | 5 | 58 |
| E | 7 | 68 |
| F | 8 | 73 |
| G | 9 | 79 |
Con apoyo tecnológico se obtiene aproximadamente:
\[ r\approx 0{,}99 \]
Una recta de regresión razonable para estos datos es:
\[ \hat{y}=5x+31 \]
El valor de \(r\) indica una relación lineal positiva muy fuerte entre la cantidad de sesiones de acompañamiento y el índice de avance.
La pendiente \(5\) indica que, según el modelo, por cada sesión adicional de acompañamiento, el índice de avance estimado aumenta aproximadamente \(5\) puntos.
Estrategia para resolver preguntas integradas
- Observa si la relación parece positiva, negativa o débil.
- Interpreta \(r\) según signo y cercanía a \(-1\), \(0\) o \(1\).
- Lee la pendiente e intercepto de la recta en contexto.
- Si hay predicción, reemplaza \(x\) y verifica si es interpolación o extrapolación.
- Redacta la conclusión evitando causalidad no justificada.
Ejercicio 1
Una municipalidad quiere estimar un índice comunal de uso educativo de plataformas digitales, en escala de 0 a 100. Para ello compara dos posibles variables explicativas.
| Modelo | Variable explicativa \(x\) | Recta de regresión | Coeficiente \(r\) | Observación contextual |
|---|---|---|---|---|
| A | Acceso a internet fijo (%) | \(\hat{y}=0{,}72x+8\) | \(0{,}91\) | Mezcla comunas urbanas y rurales. |
| B | Horas semanales de uso guiado en el colegio | \(\hat{y}=9x+28\) | \(0{,}78\) | Datos de colegios con condiciones tecnológicas similares. |
Una autoridad propone usar automáticamente el Modelo A porque tiene mayor \(r\).
- Interpreta el valor de \(r\) de ambos modelos.
- Interpreta la pendiente de cada recta.
- Evalúa si basta con escoger automáticamente el modelo con mayor \(r\).
- Indica qué información adicional sería importante antes de tomar una decisión.
El Modelo A tiene \(r=0{,}91\), lo que indica una relación lineal positiva fuerte entre acceso a internet fijo y uso educativo de plataformas digitales.
El Modelo B tiene \(r=0{,}78\), lo que también indica una relación lineal positiva relativamente fuerte, aunque menor que la del Modelo A.
En el Modelo A, la pendiente \(0{,}72\) indica que, por cada aumento de \(1\) punto porcentual en acceso a internet fijo, el índice estimado de uso educativo aumenta aproximadamente \(0{,}72\) puntos.
En el Modelo B, la pendiente \(9\) indica que, por cada hora semanal adicional de uso guiado en el colegio, el índice estimado aumenta aproximadamente \(9\) puntos.
No basta con escoger automáticamente el Modelo A solo porque tiene mayor \(r\). Aunque su correlación es más alta, mezcla comunas urbanas y rurales, lo que puede introducir diferencias estructurales importantes. El Modelo B tiene menor \(r\), pero se construyó con colegios en condiciones tecnológicas similares, por lo que podría tener una interpretación más controlada para ciertas decisiones educativas.
Antes de decidir, sería importante conocer el tamaño de la muestra, la dispersión de los datos, si hay datos atípicos, el rango de valores de \(x\), la forma de la nube de puntos y si existen variables externas como nivel socioeconómico, disponibilidad de dispositivos, capacitación docente o conectividad real en el colegio.
Respuesta: el Modelo A tiene mayor correlación, pero no necesariamente es automáticamente mejor; la elección debe considerar \(r\), contexto, comparabilidad de los datos y posibles variables externas.
Ejercicio 2
Una red de salud comunal ajustó dos modelos para estimar un índice de satisfacción usuaria, en escala de 0 a 100, a partir del tiempo promedio de espera antes de recibir atención.
| Modelo | Recta de regresión | Rango observado de espera \(x\) | Coeficiente \(r\) |
|---|---|---|---|
| Modelo A | \(\hat{y}=-4x+96\) | Entre 3 y 12 minutos | \(-0{,}92\) |
| Modelo B | \(\hat{y}=-2{,}5x+82\) | Entre 10 y 28 minutos | \(-0{,}81\) |
Se quiere estimar la satisfacción para una espera promedio de \(20\) minutos.
- Calcula la predicción con ambos modelos.
- Indica cuál modelo sería más prudente usar para \(x=20\).
- Explica por qué no basta con elegir el modelo que tiene \(|r|\) más alto.
Con el Modelo A:
\[ \hat{y}=-4\cdot 20+96=-80+96=16 \]
Con el Modelo B:
\[ \hat{y}=-2{,}5\cdot 20+82=-50+82=32 \]
El Modelo A estima \(16\) puntos y el Modelo B estima \(32\) puntos.
Sin embargo, el Modelo A fue construido con esperas entre \(3\) y \(12\) minutos. Usarlo para \(20\) minutos es una extrapolación.
El Modelo B fue construido con esperas entre \(10\) y \(28\) minutos. Como \(20\) está dentro de ese rango, usar el Modelo B corresponde a una interpolación.
Aunque el Modelo A tiene mayor \(|r|\), para \(x=20\) sería más prudente usar el Modelo B, porque predice dentro del rango observado.
Respuesta: Modelo A estima \(16\), Modelo B estima \(32\). Para \(x=20\), conviene usar el Modelo B porque realiza una interpolación.
Ejercicio 3
En un estudio sobre viviendas se obtuvo la siguiente recta de regresión para estimar un índice de consumo eléctrico mensual, en escala de 0 a 100, según la superficie de la vivienda, medida en decenas de metros cuadrados.
\[ \hat{y}=5x+18 \]
En este modelo, \(x=4\) representa \(40\) m², \(x=8\) representa \(80\) m², y así sucesivamente. Los datos observados corresponden a viviendas entre \(4\) y \(14\) decenas de m². Además, el coeficiente de correlación obtenido fue \(r=0{,}79\).
- Interpreta \(r=0{,}79\) en contexto.
- Interpreta la pendiente \(5\).
- Analiza si tiene sentido práctico interpretar el intercepto \(18\).
- Estima el índice de consumo para una vivienda de \(100\) m².
El valor \(r=0{,}79\) indica una relación lineal positiva relativamente fuerte entre la superficie de la vivienda y el índice de consumo eléctrico mensual.
La pendiente \(5\) significa que, según el modelo, por cada aumento de una decena de metros cuadrados, el índice de consumo estimado aumenta aproximadamente \(5\) puntos.
El intercepto \(18\) correspondería al índice estimado cuando \(x=0\), es decir, para una vivienda de \(0\) m². Esa interpretación no tiene sentido práctico y además está fuera del rango observado.
Para una vivienda de \(100\) m², se usa \(x=10\):
\[ \hat{y}=5\cdot 10+18=50+18=68 \]
Como \(x=10\) está dentro del rango observado \([4,14]\), la predicción es una interpolación.
Respuesta: \(r\) indica relación positiva relativamente fuerte; la pendiente indica \(5\) puntos más por cada 10 m²; el intercepto no tiene interpretación práctica clara; para \(100\) m² se estima un índice de \(68\).
Ejercicio 4
Un informe compara la relación entre horas de sueño y nivel de cansancio reportado en dos grupos de estudiantes.
| Grupo | Coeficiente \(r\) | Recta de regresión | Rango observado de \(x\) |
|---|---|---|---|
| Grupo A | \(-0{,}82\) | \(\hat{y}=-0{,}9x+12{,}4\) | Entre 5 y 9 horas de sueño |
| Grupo B | \(-0{,}41\) | \(\hat{y}=-0{,}4x+9{,}8\) | Entre 4 y 8 horas de sueño |
En ambos modelos, \(x\) representa horas de sueño y \(\hat{y}\) representa nivel de cansancio en una escala de 1 a 10.
- Compara la fuerza de la relación lineal en ambos grupos.
- Interpreta la pendiente del Grupo A.
- Estima el nivel de cansancio para un estudiante del Grupo A que duerme \(7\) horas.
- Explica por qué sería riesgoso usar el modelo del Grupo A para \(x=3\).
El Grupo A presenta una relación lineal negativa más fuerte que el Grupo B, porque \(|-0{,}82|=0{,}82\) es mayor que \(|-0{,}41|=0{,}41\).
La pendiente del Grupo A es \(-0{,}9\). Esto significa que, según el modelo, por cada hora adicional de sueño, el nivel de cansancio estimado disminuye aproximadamente \(0{,}9\) puntos.
Para \(x=7\) en el Grupo A:
\[ \hat{y}=-0{,}9\cdot 7+12{,}4=-6{,}3+12{,}4=6{,}1 \]
El nivel de cansancio estimado es \(6{,}1\).
Usar el modelo del Grupo A para \(x=3\) sería riesgoso porque los datos observados estaban entre \(5\) y \(9\) horas de sueño. Por lo tanto, \(x=3\) corresponde a una extrapolación fuera del rango observado.
Respuesta: el Grupo A tiene relación más fuerte; su pendiente indica una baja de \(0{,}9\) puntos de cansancio por hora adicional de sueño; para \(7\) horas se estima \(6{,}1\); usar \(x=3\) sería extrapolación.
Ejercicio 5
Una organización estudia la relación entre el gasto anual en campañas ambientales y el porcentaje de reciclaje comunal. Se obtiene la siguiente información:
| Variable explicativa \(x\) | Variable respuesta \(y\) | Coeficiente \(r\) | Recta de regresión |
|---|---|---|---|
| Gasto anual en campañas ambientales, en millones de pesos | Porcentaje de reciclaje comunal | \(0{,}69\) | \(\hat{y}=2x+10\) |
Una autoridad afirma:
“Si aumentamos el gasto en campañas ambientales de 10 a 20 millones, el porcentaje de reciclaje subirá exactamente de 30% a 50%, y esto demuestra que la campaña causa el aumento”.
Evalúa críticamente la afirmación. Debes referirte al cálculo, a la palabra “exactamente” y a la causalidad.
Usando el modelo:
Para \(x=10\):
\[ \hat{y}=2\cdot 10+10=20+10=30 \]
Para \(x=20\):
\[ \hat{y}=2\cdot 20+10=40+10=50 \]
El cálculo es correcto: el modelo estima \(30\%\) para 10 millones y \(50\%\) para 20 millones.
Sin embargo, la palabra “exactamente” no es adecuada, porque una recta de regresión entrega valores estimados, no resultados seguros.
Además, \(r=0{,}69\) indica una relación lineal positiva moderada a fuerte, pero no demuestra por sí solo causalidad. Podrían influir otras variables, como infraestructura de reciclaje, educación ambiental previa, normativa local, ingresos comunales o disponibilidad de puntos limpios.
Respuesta: el cálculo del modelo es correcto, pero la interpretación es demasiado fuerte; las predicciones son estimadas y la correlación no demuestra causalidad.
Ejercicio 6
Se quiere elegir una variable para construir un modelo lineal simple que estime el tiempo promedio de traslado diario de estudiantes. Se comparan tres posibles variables explicativas:
| Variable explicativa | Coeficiente \(r\) con tiempo de traslado | Observación contextual |
|---|---|---|
| Distancia entre hogar y colegio | \(0{,}84\) | Medida directa en kilómetros. |
| Número de semáforos en la ruta | \(0{,}72\) | Dato aproximado, puede variar según la ruta elegida. |
| Número de integrantes del hogar | \(0{,}18\) | No tiene una relación contextual clara con el traslado. |
¿Cuál variable elegirías para un primer modelo lineal simple? Justifica usando el valor de \(r\), el contexto y la interpretación del modelo.
La variable más recomendable para un primer modelo lineal simple es la distancia entre hogar y colegio.
Primero, tiene el mayor coeficiente de correlación con el tiempo de traslado: \(r=0{,}84\), lo que indica una relación lineal positiva fuerte.
Segundo, tiene sentido contextual directo: mientras mayor es la distancia, mayor tiende a ser el tiempo de traslado.
El número de semáforos también tiene una correlación positiva relativamente fuerte, pero es un dato más variable y depende de la ruta tomada.
El número de integrantes del hogar tiene una correlación baja y no parece tener una relación directa clara con el tiempo de traslado.
Respuesta: elegiría distancia entre hogar y colegio, porque tiene mayor \(r\), sentido contextual directo y una interpretación más clara para un modelo lineal simple.
Ejercicio 7
Un equipo de estudiantes ajustó un modelo lineal para estimar un índice de rendimiento, en escala de 0 a 100, según la cantidad de semanas de preparación antes de una evaluación.
El modelo obtenido fue:
\[ \hat{y}=4{,}5x+38 \]
donde \(x\) representa las semanas de preparación y \(\hat{y}\) representa el índice de rendimiento estimado.
El modelo fue construido con estudiantes que se prepararon entre \(2\) y \(10\) semanas. Además, se obtuvo \(r=0{,}87\).
Un estudiante quiere usar el modelo para estimar el rendimiento de una persona que se preparó durante \(16\) semanas.
- Calcula la predicción para \(x=16\).
- Clasifica la predicción como interpolación o extrapolación.
- Explica por qué un valor alto de \(r\) no basta para asegurar que esta predicción sea confiable.
- Propón una conclusión estadísticamente cuidadosa.
Reemplazamos \(x=16\) en el modelo:
\[ \hat{y}=4{,}5\cdot 16+38 \]
\[ \hat{y}=72+38=110 \]
El modelo estima un índice de \(110\), pero la escala del índice va de \(0\) a \(100\). Esto ya muestra una limitación importante del uso del modelo fuera del rango observado.
Como los datos originales corresponden a estudiantes que se prepararon entre \(2\) y \(10\) semanas, usar \(x=16\) es una extrapolación lejana.
El valor \(r=0{,}87\) indica una relación lineal positiva fuerte dentro de los datos observados. Sin embargo, no garantiza que la relación siga siendo lineal para valores muy alejados del rango usado para construir el modelo.
Una conclusión cuidadosa sería:
“Dentro del rango observado, existe una relación lineal positiva fuerte entre semanas de preparación e índice de rendimiento. Sin embargo, usar el modelo para \(16\) semanas no es confiable, porque corresponde a una extrapolación lejana y produce un valor fuera de la escala del índice”.
Respuesta: \(\hat{y}=110\), pero la predicción no es confiable porque extrapola fuera del rango observado y supera la escala máxima del índice.
Interpretación crítica
Aunque una correlación sea muy fuerte, no debe confundirse con una demostración automática de causalidad.
Además, una recta de regresión entrega predicciones aproximadas. Su uso debe ser cuidadoso, especialmente fuera del rango de datos observados.
Cierre del bloque
En este bloque se estudió cómo analizar la relación entre dos variables cuantitativas.
La nube de puntos permite una primera lectura visual; el coeficiente de correlación de Pearson \(r\) resume el sentido y la fuerza de una relación lineal; y la recta de regresión permite realizar predicciones aproximadas.
Una interpretación estadística completa debe considerar siempre el contexto, las unidades, el rango de los datos y la diferencia entre correlación y causalidad.