Variables correlacion y causalidad
8. Interpretación del valor de \(r\) [cercanía a \(-1\), \(0\), \(1\)] (PAES M2)
Objetivos
- Interpretar valores del coeficiente de correlación de Pearson según su signo y magnitud.
- Relacionar la cercanía de \(r\) a \(-1\), \(0\) o \(1\) con la fuerza de una relación lineal.
- Seleccionar interpretaciones correctas de \(r\) en contextos tipo PAES M2.
¿Cómo se interpreta el valor de \(r\)?
El coeficiente de correlación de Pearson \(r\) siempre toma valores entre \(-1\) y \(1\).
Para interpretarlo correctamente, debemos mirar dos aspectos:
- El signo: indica si la relación lineal es positiva o negativa.
- La cercanía a \(-1\), \(0\) o \(1\): indica qué tan fuerte o débil es la relación lineal.
Escala de interpretación de \(r\)
\[ -1 \leq r \leq 1 \]
| Valor de \(r\) | Interpretación general |
|---|---|
| \(r\) cercano a \(1\) | Relación lineal positiva fuerte. |
| \(r\) cercano a \(-1\) | Relación lineal negativa fuerte. |
| \(r\) cercano a \(0\) | Relación lineal débil o nula. |
| \(r=1\) | Relación lineal positiva perfecta. |
| \(r=-1\) | Relación lineal negativa perfecta. |
| \(r=0\) | No hay relación lineal. |
Lectura rápida
Para interpretar \(r\), puedes usar esta idea:
- El signo \(+\) indica que la nube tiende a subir.
- El signo \(-\) indica que la nube tiende a bajar.
- Mientras más cerca esté \(r\) de \(1\) o \(-1\), más fuerte es la relación lineal.
- Mientras más cerca esté \(r\) de \(0\), más débil es la relación lineal.
Ejemplo 1: \(r=0{,}95\)
Supongamos que se analiza la relación entre porcentaje de asistencia a talleres de preparación y puntaje en un ensayo, obteniendo:
\[ r=0{,}95 \]
El valor es positivo, por lo tanto la relación lineal es positiva.
Además, \(0{,}95\) está muy cerca de \(1\), por lo que la relación lineal es fuerte.
Interpretación:
“Existe una relación lineal positiva fuerte entre el porcentaje de asistencia a talleres de preparación y el puntaje en el ensayo”.
Ejemplo 2: \(r=-0{,}88\)
Supongamos que se analiza la relación entre tiempo promedio de espera en una atención y satisfacción usuaria, obteniendo:
\[ r=-0{,}88 \]
El valor es negativo, por lo tanto la relación lineal es negativa.
Además, \(-0{,}88\) está bastante cerca de \(-1\), por lo que la relación lineal es fuerte.
Interpretación:
“Existe una relación lineal negativa fuerte entre el tiempo de espera y la satisfacción usuaria”.
Ejemplo 3: \(r=0{,}12\)
Supongamos que se analiza la relación entre un código interno asignado a estudiantes y el puntaje obtenido en una prueba, obteniendo:
\[ r=0{,}12 \]
El valor es positivo, pero está muy cerca de \(0\).
Por lo tanto, no se observa una relación lineal importante.
Interpretación:
“No se observa una relación lineal clara entre el código interno del estudiante y el puntaje obtenido”.
Error común
No se debe decir que un valor negativo de \(r\) representa una relación débil solo por ser negativo.
Por ejemplo, \(r=-0{,}94\) indica una relación lineal negativa fuerte, porque está muy cerca de \(-1\).
Ejemplo 4: ordenar valores según fuerza lineal
Considera los siguientes valores:
\[ r=0{,}20 \qquad r=-0{,}91 \qquad r=0{,}76 \]
Para comparar la fuerza de la relación lineal, se observa qué tan lejos está cada valor de \(0\). Es decir, se compara \(|r|\).
| Valor de \(r\) | \(|r|\) | Fuerza lineal | Sentido |
|---|---|---|---|
| \(0{,}20\) | \(0{,}20\) | Débil | Positivo |
| \(-0{,}91\) | \(0{,}91\) | Fuerte | Negativo |
| \(0{,}76\) | \(0{,}76\) | Moderada a fuerte | Positivo |
El valor que representa la relación lineal más fuerte es \(-0{,}91\), porque es el que tiene mayor valor absoluto.
Cuidado con la interpretación porcentual
No corresponde interpretar \(r=0{,}80\) como “80% de relación” o “80% de causalidad”.
El valor de \(r\) indica dirección y fuerza de una relación lineal, pero no se interpreta directamente como porcentaje.
Ejercicio 1
Una investigadora analiza cuatro relaciones entre variables cuantitativas y obtiene los siguientes coeficientes de correlación de Pearson:
| Estudio | Variables | Coeficiente \(r\) |
|---|---|---|
| A | Horas de estudio semanal y puntaje en un ensayo PAES | \(0{,}78\) |
| B | Tiempo de traslado diario y tiempo disponible para estudiar | \(-0{,}64\) |
| C | Temperatura diaria y venta de bebidas frías | \(0{,}91\) |
| D | Código interno de estudiante y promedio semestral | \(-0{,}05\) |
- Ordena las relaciones desde la más débil hasta la más fuerte.
- Indica el sentido de cada relación.
- Explica por qué no basta con comparar los valores usando el orden habitual de los números reales.
Para comparar la fuerza de una relación lineal se debe observar la cercanía de \(r\) a \(1\) o a \(-1\), no si el número es mayor o menor en la recta numérica.
Comparamos los valores absolutos:
\[ |0{,}78|=0{,}78,\quad |-0{,}64|=0{,}64,\quad |0{,}91|=0{,}91,\quad |-0{,}05|=0{,}05 \]
Desde la relación lineal más débil hasta la más fuerte:
\[ D,\ B,\ A,\ C \]
Los sentidos son:
- D: relación negativa prácticamente nula.
- B: relación negativa moderada.
- A: relación positiva fuerte.
- C: relación positiva muy fuerte.
No basta con comparar los números en orden habitual porque el signo indica sentido, no fuerza. Por ejemplo, \(-0{,}64\) es menor que \(0{,}78\), pero su fuerza se compara mediante \(|r|\).
Respuesta: \(D,\ B,\ A,\ C\). Para comparar fuerza se usa \(|r|\), no el orden usual de los números.
Ejercicio 2
En un informe se estudia la relación entre ingreso familiar mensual y gasto mensual en alimentación. Se obtiene:
\[ r=0{,}68 \]
El informe propone la siguiente interpretación:
“Como \(r=0{,}68\), el ingreso familiar explica el 68% del gasto en alimentación”.
Evalúa la interpretación. Luego redacta una versión estadísticamente más correcta.
La interpretación propuesta no es correcta.
El coeficiente \(r=0{,}68\) no se interpreta directamente como “68% explicado”. El coeficiente de Pearson indica dirección y fuerza de una relación lineal, pero no corresponde leerlo como porcentaje de explicación.
Además, el valor es positivo, por lo que indica que a mayor ingreso familiar, el gasto en alimentación tiende a aumentar. Como \(0{,}68\) está relativamente lejos de \(0\), la relación puede describirse como positiva moderada a fuerte.
Una redacción más correcta sería:
“En estos datos se observa una relación lineal positiva moderada a fuerte entre el ingreso familiar mensual y el gasto mensual en alimentación”.
Si se quisiera hablar de porcentaje de variabilidad explicada en un modelo lineal, habría que analizar \(r^2\), no \(r\) directamente.
Respuesta: la frase es incorrecta porque interpreta \(r\) como porcentaje. Lo correcto es describir una relación lineal positiva moderada a fuerte.
Ejercicio 3
Dos grupos de estudiantes presentan los siguientes resultados al relacionar horas de estudio semanal con puntaje en un ensayo.
| Grupo | Coeficiente \(r\) | Descripción del contexto |
|---|---|---|
| Grupo A | \(0{,}82\) | Estudiantes de un mismo curso, con el mismo profesor y la misma evaluación. |
| Grupo B | \(0{,}82\) | Estudiantes de tres colegios distintos, con evaluaciones de distinta dificultad. |
Ambos grupos tienen el mismo valor de \(r\). ¿Significa eso que la interpretación contextual es exactamente igual en ambos casos? Justifica.
El valor de \(r\) es el mismo en ambos casos, por lo que en los dos grupos existe una relación lineal positiva fuerte entre horas de estudio y puntaje.
Sin embargo, la interpretación contextual no es exactamente igual. En el Grupo A, los estudiantes pertenecen a un mismo curso y rindieron la misma evaluación, por lo que la comparación es más homogénea.
En el Grupo B, los datos provienen de colegios distintos y evaluaciones de distinta dificultad. Eso puede introducir variables externas que afecten los puntajes, como diferencias curriculares, criterios de evaluación, nivel de exigencia o preparación previa.
Por lo tanto, aunque \(r\) tenga el mismo valor, el contexto influye en la confianza y alcance de la interpretación.
Respuesta: no. El valor de \(r\) describe la relación lineal, pero el contexto determina qué tan comparable y defendible es la interpretación.
Ejercicio 4
En un estudio sobre comunas se analizaron dos variables:
- \(x\): porcentaje de hogares con acceso a internet fijo.
- \(y\): puntaje promedio comunal en una evaluación estandarizada.
Al calcular el coeficiente de correlación de Pearson se obtuvo:
\[ r=0{,}62 \]
Luego, al separar las comunas en urbanas y rurales, se obtuvieron los siguientes resultados:
| Grupo de comunas | Coeficiente \(r\) | Descripción general |
|---|---|---|
| Urbanas | \(0{,}28\) | Alta conectividad en casi todas las comunas, pero puntajes variados. |
| Rurales | \(0{,}74\) | Mayor variación en conectividad y una tendencia creciente más clara. |
Interpreta los tres valores de \(r\) y explica por qué separar los datos por grupo puede cambiar la lectura de la relación.
El valor general \(r=0{,}62\) indica una relación lineal positiva moderada a fuerte entre acceso a internet fijo y puntaje promedio comunal.
En las comunas urbanas, \(r=0{,}28\) indica una relación positiva débil. Esto puede deberse a que casi todas tienen alta conectividad, por lo que esa variable varía poco y no permite distinguir claramente diferencias de puntaje.
En las comunas rurales, \(r=0{,}74\) indica una relación positiva relativamente fuerte. Allí la conectividad varía más entre comunas, por lo que la relación con el puntaje aparece con mayor claridad.
Separar los datos por grupo puede cambiar la lectura porque los grupos no siempre se comportan igual. Mezclar comunas urbanas y rurales puede ocultar diferencias internas o combinar realidades distintas.
Respuesta: la relación general es positiva moderada a fuerte; en comunas urbanas es positiva débil y en rurales positiva más fuerte. Separar los grupos permite interpretar mejor el contexto de los datos.
Ejercicio 5
Una organización quiere usar una variable para estimar el puntaje promedio comunal en una evaluación. Para ello calcula la correlación de Pearson entre el puntaje promedio y tres posibles variables explicativas.
| Variable comparada con el puntaje promedio | Coeficiente \(r\) | Observación contextual |
|---|---|---|
| Porcentaje de asistencia escolar | \(0{,}81\) | Los datos provienen de comunas con tamaños de matrícula similares. |
| Ingreso promedio del hogar | \(0{,}84\) | Los datos mezclan comunas urbanas grandes y comunas rurales pequeñas. |
| Número de establecimientos educacionales | \(0{,}67\) | La variable está muy influida por el tamaño de la comuna. |
Si el objetivo es elegir una variable para construir un primer modelo lineal simple, ¿basta con escoger automáticamente la variable con mayor valor de \(r\)? Justifica tu respuesta considerando fuerza de la relación y contexto de los datos.
No basta con escoger automáticamente la variable con mayor valor de \(r\).
El ingreso promedio del hogar tiene el mayor coeficiente, \(r=0{,}84\), por lo que presenta la relación lineal más fuerte entre las tres variables. Sin embargo, la observación contextual indica que mezcla comunas urbanas grandes y comunas rurales pequeñas, lo que puede introducir diferencias estructurales importantes.
La asistencia escolar tiene un coeficiente muy cercano, \(r=0{,}81\), y los datos provienen de comunas con tamaños de matrícula similares. Esto podría hacer que la comparación sea más homogénea y que la interpretación sea más defendible para un primer modelo.
El número de establecimientos tiene una correlación positiva, \(r=0{,}67\), pero su interpretación puede estar afectada por el tamaño de la comuna: comunas más grandes naturalmente tienden a tener más establecimientos.
Por lo tanto, la decisión no debe basarse solo en el mayor \(r\). También debe considerar si los datos son comparables, si hay variables externas relevantes y si la relación tiene sentido en el contexto.
Respuesta: no basta elegir el mayor \(r\); aunque ingreso promedio tiene \(r=0{,}84\), la asistencia escolar podría ser una opción más defendible si se busca un modelo simple con grupos más comparables.
Ejercicio 6
En un estudio sobre comunas se obtuvo \(r=-0{,}74\) entre distancia al centro de la ciudad y precio promedio de arriendo.
Selecciona la interpretación más adecuada:
- Como \(r\) es negativo, la relación es débil.
- Mientras mayor es la distancia al centro, el precio promedio de arriendo tiende a disminuir.
- La distancia al centro causa exactamente una disminución del \(74\%\) en el arriendo.
- No existe relación, porque \(r\) no es cercano a \(1\).
Justifica por qué las otras alternativas no son adecuadas.
La alternativa correcta es la 2.
El valor \(r=-0{,}74\) indica una relación lineal negativa relativamente fuerte: a mayor distancia al centro, el precio promedio de arriendo tiende a disminuir.
La alternativa 1 es incorrecta porque confunde signo con fuerza. Ser negativo no significa ser débil.
La alternativa 3 es incorrecta porque \(r\) no se interpreta como porcentaje de disminución ni demuestra causalidad exacta.
La alternativa 4 es incorrecta porque una relación negativa fuerte se acerca a \(-1\), no a \(1\).
Respuesta: la alternativa correcta es 2.
Ejercicio 7
Se analizó la relación entre años de experiencia laboral y sueldo mensual en una empresa. Con todos los datos se obtuvo \(r=0{,}42\). Al revisar la nube de puntos, se detectó un grupo pequeño de directivos con sueldos muy superiores al resto.
Al calcular nuevamente \(r\) solo para trabajadores no directivos, se obtuvo \(r=0{,}81\).
Interpreta ambos resultados y explica por qué cambió la fuerza de la relación.
Con todos los datos, \(r=0{,}42\) indica una relación lineal positiva moderada o relativamente débil entre experiencia laboral y sueldo mensual.
Al considerar solo trabajadores no directivos, \(r=0{,}81\) indica una relación lineal positiva fuerte.
La diferencia puede explicarse porque los directivos forman un grupo con características distintas: sus sueldos pueden depender no solo de los años de experiencia, sino también del cargo, responsabilidades, bonos o nivel jerárquico.
Al mezclar grupos distintos, aumenta la dispersión y la relación lineal general puede debilitarse. Al analizar un grupo más homogéneo, la tendencia entre experiencia y sueldo se observa con mayor claridad.
Respuesta: \(r\) aumenta al separar un grupo con comportamiento distinto; esto muestra que la composición de la muestra afecta la interpretación de la correlación.
Ejercicio 8
Una prueba tipo PAES M2 presenta la siguiente pregunta:
Se sabe que el coeficiente de correlación de Pearson entre dos variables es \(r=-0{,}97\). ¿Cuál de las siguientes nubes de puntos sería más coherente con ese valor?
- Una nube muy dispersa, sin dirección clara.
- Una nube con puntos cercanos a una recta descendente.
- Una nube con puntos cercanos a una recta ascendente.
- Una nube con forma de U, simétrica respecto del eje vertical.
El valor \(r=-0{,}97\) es negativo y muy cercano a \(-1\). Esto indica una relación lineal negativa muy fuerte.
Por lo tanto, la nube de puntos más coherente es una nube con puntos cercanos a una recta descendente.
La alternativa 1 correspondería a un valor cercano a \(0\). La alternativa 3 correspondería a un valor positivo cercano a \(1\). La alternativa 4 podría mostrar una relación no lineal, pero no necesariamente una correlación lineal fuerte negativa.
Respuesta: la alternativa correcta es 2.
Ejercicio 9
Un estudiante compara dos coeficientes:
\[ r_1=-0{,}89 \qquad r_2=0{,}72 \]
Afirma: “\(r_2\) representa una relación más fuerte porque \(0{,}72\) es mayor que \(-0{,}89\)”.
¿Es correcta su afirmación? Explica usando el valor absoluto de \(r\).
La afirmación no es correcta.
Para comparar la fuerza de dos correlaciones se comparan sus valores absolutos:
\[ |-0{,}89|=0{,}89 \]
\[ |0{,}72|=0{,}72 \]
Como \(0{,}89>0{,}72\), la relación representada por \(r_1=-0{,}89\) es más fuerte que la representada por \(r_2=0{,}72\).
La diferencia es que \(r_1\) representa una relación negativa fuerte, mientras que \(r_2\) representa una relación positiva moderada a fuerte.
Respuesta: no; \(r_1=-0{,}89\) representa la relación más fuerte porque su valor absoluto es mayor.
Cierre
Interpretar \(r\) exige separar el sentido de la fuerza: el signo indica si la relación lineal es positiva o negativa, mientras que \(|r|\) indica qué tan fuerte es.
Además, una interpretación completa debe considerar el contexto, evitar lecturas porcentuales incorrectas y recordar que correlación no implica causalidad.