Los datos estan dispersos?
2. Introducción a la Estadística y la Variabilidad
Introducción a la Variabilidad
Variabilidad o Dispersión
La variabilidad, o dispersión, nos indica qué tan "esparcidos" o "alejados" están los datos entre sí o respecto a un valor central. Es un concepto clave en estadística.
La Importancia de Medir la Variabilidad
A menudo, cuando analizamos un conjunto de datos, nos centramos en la media (el promedio) para resumirlo todo en un solo número. Sin embargo, la media por sí sola puede ser muy engañosa. La variabilidad (o dispersión) nos cuenta el resto de la historia: cuán esparcidos o consistentes están los datos. Aquí te explico por qué es un concepto crucial.
1. La media sola puede ser engañosa 🤥
Imagina que calculas la nota promedio de dos cursos de 5 estudiantes y en ambos el promedio final es un 5,5.
- Curso A (baja variabilidad):
Sus promedios de notas son [5.5, 5.0, 6.0, 5.5, 5.5].
El rendimiento es muy consistente y predecible. Sabes qué esperar de ellos. - Curso B (alta variabilidad):
Sus promedios de notas son [2.0, 7.0, 4.5, 7.0, 7.0].
El rendimiento es impredecible y extremo. Tienes estudiantes con serias dificultades y otros que sobresalen.
Sin ver la dispersión, pensarías que ambos cursos son académicamente iguales, perdiendo información crucial para tomar decisiones pedagógicas, como ofrecer apoyo a los estudiantes del curso B que lo necesitan.
2. Mide la consistencia y la confiabilidad 🎯
Una fábrica de tornillos busca que sus productos tengan un diámetro de 5 mm.
- Fábrica A (baja variabilidad): Produce tornillos que miden entre 4.99 mm y 5.01 mm. Casi todos son perfectos, lo que se traduce en clientes satisfechos y cero devoluciones.
- Fábrica B (alta variabilidad): Produce tornillos que miden entre 4.80 mm y 5.20 mm. Muchos no encajarán en su destino, generando pérdidas económicas y dañando la reputación de la marca.
En esta situación, sería deseable la más baja variabilidad posible.
Dos fondos de inversión tienen un retorno promedio anual de un 4%.
- Fondo A (baja variabilidad): Su retorno anual ha oscilado entre el 2% y el 6%.
- Fondo B (alta variabilidad): Su retorno ha fluctuado entre un -10% (pérdida) y un +18% (ganancia).
Nuevamente, ambos fondos promedian el mismo 4% de retorno anual, pero la variabilidad define la experiencia del inversionista. El Fondo A ofrece tranquilidad y previsibilidad a cambio de una rentabilidad positiva, baja pero segura. En cambio, el Fondo B representa la incertidumbre y el riesgo a cambio de la oportunidad de obtener ganancias mayores. La decisión final dependerá siempre del apetito por el riesgo de cada persona.
3. Permite comparaciones justas ⚖️
Vas a contratar un proveedor de internet para tu casa. Ambos prometen 200 Mbps en promedio.
- Proveedor A (baja variabilidad): Tu velocidad casi siempre estará entre 190 y 210 Mbps. Es una conexión estable para tus videollamadas o clases online.
- Proveedor B (alta variabilidad): A veces tendrás 400 Mbps, pero otras veces caerá a 10 Mbps, interrumpiendo tu trabajo justo en el momento más importante.
Si bien la idea de alcanzar 400 Mbps es tentadora, la alta variabilidad del Proveedor B significa que no tienes la seguridad de contar con una buena conexión durante tus clases o reuniones importantes. Para el uso diario, la consistencia del Proveedor A es mucho más valiosa.
4. Ayuda a identificar valores atípicos (outliers) ⚠️
Analizas el tiempo de entrega de tus productos y el promedio es de 3 días, pero la desviación estándar (una medida de variabilidad) es muy alta.
Al revisar los datos en detalle, descubres que el 95% de los pedidos llega en 1-2 días, pero unos pocos tardaron 15 días por una huelga de transporte.
Esos valores atípicos (los de 15 días) inflan artificialmente el promedio y la variabilidad. Sin detectarlos, podrías pensar que tu logística es mala en general, cuando en realidad el problema fue un evento aislado y específico que debes gestionar de forma diferente.
Con la misma media, dos grupos pueden comportarse muy distinto pero si la dispersión difiere entonces se afecta la confiabilidad de las predicciones de cada grupo.
- 📊 Nos ayuda a comparar conjuntos con datos de la misma naturaleza.
- 🎯 Permite detectar si los datos que analizamos son consistentes o muy dispersos.
- ⚠️ Una media sin considerar la variabilidad puede ser engañosa.
✍️ Problema 1: Análisis de Distribución
Observa la siguiente distribución de datos y responde:
12, 15, 18, 18, 20, 21, 21, 21, 25, 30
- Indica la media de la distribución.
- Identifica los valores en los "extremos" de la distribución.
- Identifica el sector donde hay una mayor concentración de datos.
- Media: \(\bar{x} = \frac{12+15+18+18+20+21+21+21+25+30}{10} = 20.1\)
- Los valores en los extremos son 12 y 30.
- La mayor concentración de datos está alrededor del valor 21.
🏀 Problema 2: Rendimiento de Equipos
Dos equipos de baloncesto registran sus puntajes en los últimos 5 partidos:
Equipo A: 85, 90, 88, 92, 80
Equipo B: 75, 105, 80, 95, 85
- Calcula la media de los puntajes de cada equipo.
- Argumenta: ¿qué equipo tiene mayor variabilidad en sus puntajes? ¿Por qué?
- Equipo A: \( \bar{x}_A = \frac{85 + 90 + 88 + 92 + 80}{5} = 87 \)
Equipo B: \( \bar{x}_B = \frac{75 + 105 + 80 + 95 + 85}{5} = 88 \) - El equipo B tiene mayor variabilidad. Aunque su media es similar a la del equipo A, sus puntajes individuales están mucho más dispersos (desde un mínimo de 75 a un máximo de 105), mientras que los puntajes del equipo A son más consistentes pese a ser en promedio un punto mas bajos.
Problema 3: Grupos de estudiantes
Observa los siguientes gráficos de edades de estudiantes en dos grupos:
🟩 Grupo A |
🟧 Grupo B |
- Argumenta: ¿qué grupo de estudiantes presenta una mayor variabilidad en sus puntajes? ¿Por qué?
- El Grupo B tiene mayor variabilidad: Aunque el Grupo A tiene un pico muy alto en la edad 14, la mayoría de sus datos se agrupan cerca de ese valor. Eso significa que hay poca dispersión respecto al promedio, lo que se traduce en una varianza baja.
En cambio, el Grupo B muestra una distribución más pareja entre todas las edades. Como sus datos están más repartidos y hay una mayor cantidad de valores lejanos al centro, la distancia promedio respecto al valor central (la media) es más grande, lo que genera una mayor varianza.