Datos , tablas , medidas centrales
10. Sesgo y valores extremos [cuándo la media representa bien y cuándo no] (PAES M1)
Sesgo y valores extremos [cuándo la media representa bien y cuándo no] (PAES M1)
Objetivo de la clase: analizar críticamente la media en distintos conjuntos de datos, reconociendo cuándo representa bien al grupo y cuándo se ve afectada por el sesgo o por valores extremos, en comparación con la mediana y la moda.
Hasta ahora has aprendido a calcular media, mediana y moda. En esta clase el foco cambia: ya no basta con calcular, sino que importa interpretar si una medida realmente describe bien al conjunto.
En particular, estudiaremos qué ocurre cuando los datos son equilibrados y qué pasa cuando aparece sesgo o un valor extremo. Verás que la media puede ser muy útil, pero no siempre representa bien la situación.
- Media: considera todos los datos del conjunto.
- Mediana: representa el valor central una vez ordenados los datos.
- Moda: indica el valor que más se repite.
- Valor extremo: dato muy alejado del resto.
- Sesgo: ocurre cuando la distribución se extiende más hacia un lado que hacia el otro.
La media es sensible a los valores extremos, porque usa todos los datos. La mediana suele resistir mejor esos cambios, porque depende de la posición central. La moda, en cambio, se relaciona con la frecuencia y puede mantenerse igual aunque cambien algunos valores aislados.
- hay uno o pocos valores muy grandes o muy pequeños,
- la mayoría de los datos está concentrada en una zona, pero la media queda lejos de ella,
- la distribución está claramente cargada hacia un lado.
Ejemplo 1: conjunto equilibrado
Considera los datos:
\[ 4,\ 5,\ 5,\ 6,\ 6,\ 7,\ 7 \]
Media:
\[ \bar{x}=\frac{4+5+5+6+6+7+7}{7}=\frac{40}{7}\approx 5{,}71 \]
Mediana: el dato central es \(6\).
Moda: hay dos modas: \(5\) y \(7\).
Interpretación: los datos están bastante equilibrados, por lo que la media y la mediana quedan cercanas. En un conjunto así, la media representa razonablemente bien al grupo.
Ejemplo 2: efecto de un valor extremo alto
Ahora observa:
\[ 4,\ 5,\ 5,\ 6,\ 6,\ 7,\ 20 \]
Media:
\[ \bar{x}=\frac{4+5+5+6+6+7+20}{7}=\frac{53}{7}\approx 7{,}57 \]
Mediana: el dato central sigue siendo \(6\).
Moda: las modas siguen siendo \(5\) y \(6\).
Interpretación: el valor 20 arrastra la media hacia arriba. La mayoría de los datos está entre 4 y 7, pero la media queda en \(7{,}57\), lejos del centro real del grupo. Aquí la mediana representa mejor al conjunto.
Ejemplo 3: efecto de un valor extremo bajo
Considera ahora:
\[ 1,\ 8,\ 8,\ 9,\ 9,\ 10,\ 10 \]
Media:
\[ \bar{x}=\frac{1+8+8+9+9+10+10}{7}=\frac{55}{7}\approx 7{,}86 \]
Mediana: el dato central es \(9\).
Moda: hay varias modas: \(8,\ 9,\ 10\).
Interpretación: el valor 1 baja la media. En cambio, la mediana sigue ubicada en el centro del grupo. Esto muestra otra vez que la media puede dejar de representar bien cuando aparece un valor extremo.
Ejemplo 4: sesgo hacia la derecha
Supongamos el siguiente conjunto:
\[ 2,\ 2,\ 3,\ 3,\ 3,\ 4,\ 10 \]
Media:
\[ \bar{x}=\frac{2+2+3+3+3+4+10}{7}=\frac{27}{7}\approx 3{,}86 \]
Mediana: \(3\).
Moda: \(3\).
Interpretación: la distribución tiene una cola hacia la derecha, porque aparece un valor alto que aleja la media del centro. En una situación así, la media queda mayor que la mediana.
Ejemplo 5: misma media, distinto comportamiento
Observa estos dos conjuntos:
| Conjunto A | Conjunto B |
|---|---|
| \(8,\ 8,\ 8,\ 8,\ 8\) | \(2,\ 5,\ 8,\ 11,\ 14\) |
En ambos casos:
\[ \bar{x}=8 \]
Pero el significado no es el mismo.
En el conjunto A todos los datos coinciden con la media. En el conjunto B la media es 8, pero los datos están mucho más dispersos.
Interpretación: tener la misma media no significa que dos grupos se comporten igual. Por eso, mirar solo el promedio puede ser insuficiente.
En temas como ingresos, precios o tiempos de espera, suele haber valores extremos. Por eso, decir solo “el promedio fue...” puede llevar a conclusiones engañosas. En muchos de esos contextos conviene acompañar la media con la mediana, o incluso preferir la mediana como descriptor principal.
- Que la media sea correcta no significa que sea la mejor descripción del grupo.
- Que la mediana sea más útil en un contexto no significa que la media esté mal calculada.
- Que la moda exista no significa que sea siempre la medida más informativa.
Ejercicios de práctica
- Calcula media, mediana y moda de \(3,\ 4,\ 4,\ 5,\ 5,\ 6,\ 7\). Luego indica si la media representa bien al grupo.
- Calcula media, mediana y moda de \(3,\ 4,\ 4,\ 5,\ 5,\ 6,\ 20\). Luego compara con el ejercicio anterior.
- Explica con tus palabras qué es un valor extremo.
- En el conjunto \(2,\ 2,\ 3,\ 3,\ 4,\ 4,\ 12\), ¿qué medida representa mejor el centro del grupo? Justifica.
- Construye un conjunto de 5 datos en el que la media y la mediana sean muy distintas.
- Construye un conjunto de 5 datos en el que la media represente bien al grupo.
- Compara los conjuntos \(5,\ 5,\ 5,\ 5,\ 5\) y \(1,\ 3,\ 5,\ 7,\ 9\). ¿Qué tienen en común y en qué se diferencian?
- Si en un grupo la mayoría de los datos está cerca de 10, pero hay un dato igual a 100, ¿qué medida central puede verse más afectada?
- En una tienda se registran las ventas diarias: \(20,\ 22,\ 21,\ 19,\ 20,\ 95\). Calcula media y mediana. Luego indica cuál conviene usar para describir un día típico.
- En un curso, las edades son \(14,\ 14,\ 15,\ 15,\ 15,\ 16,\ 30\). Calcula media, mediana y moda. Luego explica cuál describe mejor al grupo.
- Explica qué significa que una distribución esté sesgada hacia la derecha.
- Explica qué significa que dos grupos tengan la misma media, pero no necesariamente el mismo comportamiento.
- \[ \bar{x}=\frac{3+4+4+5+5+6+7}{7}=\frac{34}{7}\approx 4{,}86 \] \[ Me=5,\qquad Mo=4 \text{ y } 5 \] La media representa bastante bien al grupo, porque no hay valores extremos muy alejados.
- \[ \bar{x}=\frac{3+4+4+5+5+6+20}{7}=\frac{47}{7}\approx 6{,}71 \] \[ Me=5,\qquad Mo=4 \text{ y } 5 \] En comparación con el ejercicio anterior, la media sube mucho por efecto del 20, mientras la mediana cambia menos.
- Un valor extremo es un dato que está muy alejado del resto del conjunto y que puede alterar bastante algunas medidas, especialmente la media.
- La mediana representa mejor el centro, porque el 12 empuja la media hacia arriba.
- Una posible respuesta es: \(2,\ 3,\ 3,\ 4,\ 20\). Aquí la media queda mucho más alta que la mediana.
- Una posible respuesta es: \(8,\ 9,\ 10,\ 10,\ 11\). Aquí la media queda cerca del centro real del grupo.
- Ambos conjuntos tienen media 5, pero en el primero no hay variación y en el segundo los datos están más dispersos.
- La media es la medida que más puede verse afectada.
- \[ \bar{x}=\frac{20+22+21+19+20+95}{6}=\frac{197}{6}\approx 32{,}83 \] \[ Me=\frac{20+21}{2}=20{,}5 \] Conviene usar la mediana, porque el 95 distorsiona mucho la media.
- \[ \bar{x}=\frac{14+14+15+15+15+16+30}{7}=\frac{119}{7}=17 \] \[ Me=15,\qquad Mo=15 \] La mediana y la moda describen mejor al grupo, porque la edad 30 eleva demasiado la media.
- Significa que la distribución tiene una cola hacia los valores altos, por lo que suele aparecer algún dato grande que empuja la media hacia arriba.
- Significa que el promedio coincide, pero la forma en que se distribuyen los datos puede ser muy distinta.
Si la media queda lejos de la zona donde está la mayoría de los datos, probablemente no sea la mejor medida para describir al grupo.
Ejercicios tipo PAES
- Un conjunto de datos es \(4,\ 5,\ 5,\ 6,\ 6,\ 7,\ 25\). ¿Cuál afirmación es más adecuada?
- La media representa bien al grupo porque usa todos los datos.
- La mediana puede representar mejor el centro del grupo que la media.
- La moda siempre reemplaza a la mediana.
- La media y la mediana deben ser iguales.
- En un conjunto con fuerte presencia de valores extremos, la medida más sensible a esos cambios es:
- la moda
- la mediana
- la media
- ninguna de las tres
- Dos grupos tienen la misma media. A partir de eso se puede concluir que:
- los dos grupos tienen exactamente los mismos datos
- los dos grupos necesariamente tienen la misma mediana
- los dos grupos pueden ser diferentes aunque compartan la misma media
- los dos grupos tienen la misma moda
- En un curso, los puntajes son \(500,\ 510,\ 520,\ 530,\ 980\). Si se quiere describir el puntaje central del grupo sin dejarse influir demasiado por el valor 980, conviene usar:
- la moda
- la mediana
- la media
- la frecuencia acumulada
- Si una distribución está sesgada hacia la derecha, es esperable que:
- la media tienda a quedar mayor que la mediana
- la media tienda a quedar menor que la mediana
- la moda desaparezca siempre
- la mediana deje de existir
- ¿En cuál de los siguientes contextos la media suele ser un buen resumen?
- tallas de ropa más vendidas
- respuestas a una encuesta de transporte
- puntajes de un grupo equilibrado sin valores extremos notorios
- precios con un valor muy exagerado respecto del resto
- El valor 25 empuja la media hacia arriba, por lo que la mediana puede representar mejor el centro del grupo.
Respuesta correcta: B - La medida más sensible a valores extremos es la media.
Respuesta correcta: C - Compartir la misma media no obliga a que los grupos sean iguales en todo lo demás.
Respuesta correcta: C - Para describir el centro del grupo evitando la influencia del 980, conviene usar la mediana.
Respuesta correcta: B - En una distribución sesgada hacia la derecha, la media suele quedar mayor que la mediana.
Respuesta correcta: A - La media suele ser un buen resumen en grupos equilibrados y sin valores extremos notorios.
Respuesta correcta: C
La media no es “mala” cuando hay valores extremos: simplemente puede dejar de ser el mejor resumen del grupo. En PAES M1 es clave reconocer cuándo una medida central describe bien el contexto y cuándo conviene preferir otra.
