Los datos estan dispersos?
6. Medidas de Dispersión: Rango, Varianza y Desviación Estándar
Medidas de Dispersión: Rango, Varianza y Desviación Estándar
Repaso: ¿Qué es la Dispersión?
La dispersión (o variabilidad) indica qué tan "esparcidos" están los datos alrededor de un valor central (como la media). Alta dispersión significa datos muy alejados; baja dispersión, datos agrupados cerca de la media.
El Rango
El rango es la medida de dispersión más simple, ya que solo considera los valores extremos de un conjunto de datos.
Se calcula como la diferencia entre el valor máximo y el valor mínimo del conjunto de datos.
\( Rango = Valor \, Máximo - Valor \, Mínimo \)
Conjunto 1: {5, 8, 10, 12, 15} → Rango = 15 - 5 = 10
Conjunto 2: {23, 23, 24, 25, 26} → Rango = 26 - 23 = 3
Aunque es fácil de calcular, el rango tiene una gran desventaja: es muy sensible a valores atípicos (outliers). Un solo dato extremo puede cambiar drásticamente el rango y dar una idea equivocada de la dispersión general, ya que ignora cómo se distribuyen todos los demás datos.
La Varianza (\(s^2\) o \(\sigma^2\))
La varianza es una medida mucho más robusta que el rango. Mide la distancia promedio de cada dato respecto a la media, pero elevada al cuadrado. Aunque sus unidades cuadradas (ej. cm²) la hacen difícil de interpretar directamente, es la base para calcular la desviación estándar.
Si simplemente sumáramos las distancias a la media (ej. 2-6 = -4 y 10-6 = 4), los valores negativos y positivos se cancelarían entre sí, y la suma total sería siempre cero. Al elevar cada distancia al cuadrado, convertimos todos los valores en positivos, asegurando que cada distancia contribuya a la medida total de dispersión.
- Calcular la media (\(\bar{x}\)): Sumar todos los datos y dividir por la cantidad de datos
.
- Calcular las desviaciones: Restar la media a cada dato (\(x_i - \bar{x}\)).
- Elevar al cuadrado cada desviación: Calcular \((x_i - \bar{x})^2\).
- Sumar los cuadrados: Obtener la suma de todas las desviaciones al cuadrado: \(\sum(x_i - \bar{x})^2\).
- Dividir para promediar:
- Para una población completa, se divide por n.
- Para una muestra, se divide por n-1 (se conoce como "grados de libertad").
Para conjuntos de datos más grandes, realizar el cálculo paso a paso puede ser desordenado. Usar una tabla es una estrategia muy eficiente para mantener los cálculos organizados y evitar errores.
Calculemos la varianza para los datos: {2, 4, 6, 8, 10}.
Paso 1: Calcular la media.
\(\bar{x} = \frac{2+4+6+8+10}{5} = \frac{30}{5} = 6 \)
Paso 2: Construir la tabla y completar los cálculos.
Dato (\(x_i\)) | Desviación (\(x_i - \bar{x}\)) | Desviación al Cuadrado \((x_i - \bar{x})^2\) |
---|---|---|
2 | 2 - 6 = -4 | (-4)² = 16 |
4 | 4 - 6 = -2 | (-2)² = 4 |
6 | 6 - 6 = 0 | (0)² = 0 |
8 | 8 - 6 = 2 | (2)² = 4 |
10 | 10 - 6 = 4 | (4)² = 16 |
Suma de Cuadrados: | 40 |
Paso 3: Calcular la varianza.
- Varianza Muestral (\(s^2\)): Se divide por n-1.
\(s^2 = \frac{40}{5-1} = \frac{40}{4} = 10\) - Varianza Poblacional (\(\sigma^2\)): Se divide por n.
\(\sigma^2 = \frac{40}{5} = 8\)
Muestra: \( \Large s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1} \)
Población: \( \Large \sigma^2 = \frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n} \)
Donde: \(s^2\) es la varianza muestral, \(\sigma^2\) es la varianza poblacional, \(x_i\) son los datos, \(\bar{x}\) es la media de la muestra, \(\mu\) es la media de la población y \(n\) es el número de datos.
Desviación Típica (o Estándar)
La desviación típica (o estándar) es la medida de dispersión más utilizada y la más intuitiva. Su gran ventaja es que, al ser la raíz cuadrada de la varianza, se expresa en las mismas unidades que los datos originales (ej. cm, kg, notas, etc.).
Si la media de las notas de un curso es 5.5 y la desviación estándar es 0.5, podemos decir que, en promedio, las notas de los estudiantes se "desvían" 0.5 puntos de la media. Esta interpretación directa es mucho más clara que decir "la varianza es 0.25 notas al cuadrado".
Simplemente, es la raíz cuadrada de la varianza correspondiente.
Muestra: \( \Large s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}} \)
Población: \( \Large \sigma = \sqrt{\sigma^2} = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}} \)
Usando las varianzas que calculamos en el ejemplo anterior:
- Desviación Típica Muestral (s): \( s = \sqrt{10} \approx 3.16 \)
- Desviación Típica Poblacional (\(\sigma\)): \( \sigma = \sqrt{8} \approx 2.83 \)
Imagina que un estudio sobre la altura de un curso arroja una media de 170 cm y una desviación estándar de 5 cm.
- ¿Qué significa "5 cm"? No significa que todos los estudiantes midan exactamente 5 cm más o menos que la media. Significa que 5 cm es la desviación "promedio" o esperada. Algunos se desviarán 1 cm, otros 8 cm, pero 5 cm es la medida que mejor representa la dispersión general del grupo.
- ¿Es mucho o poco? El valor de la desviación estándar (5 cm en este caso) se interpreta siempre en contexto. Por sí solo no es "bueno" o "malo". Se vuelve útil al comparar:
- Con otros grupos: Si la desviación estándar del curso del lado es de 2 cm, sabríamos que nuestro curso es más heterogéneo (diverso) en altura.
- Con un objetivo: Si estamos formando un equipo de baloncesto y buscamos jugadores altos y de estatura similar, una desviación de 5 cm podría ser considerada alta para nuestros propósitos.
- Desviación estándar baja: Indica que los datos son muy consistentes y están agrupados cerca de la media.
- Desviación estándar alta: Indica que los datos están mucho más dispersos y son menos predecibles.
Ejercicios y Problemas Propuestos
Calcula el rango de los siguientes conjuntos de datos:
- 50, 60, 70, 80, 90
- 1, 3, 2, 7, 5, 4
- 120, 125, 118, 122, 124
- Rango = 90 - 50 = 40
- Rango = 7 - 1 = 6
- Rango = 125 - 118 = 7
Calcula la varianza muestral (\(s^2\)) de los datos: {3, 5, 7, 9, 11}, paso a paso.
- Media: \(\bar{x} = (3+5+7+9+11)/5 = 7\)
- Desviaciones: -4, -2, 0, 2, 4
- Cuadrados de desviaciones: 16, 4, 0, 4, 16
- Suma de cuadrados: 16 + 4 + 0 + 4 + 16 = 40
- Varianza (muestral): \(s^2 = 40 / (5-1) = 10\)
A partir del resultado del Ejercicio 2, calcula la desviación típica muestral (\(s\)).
La desviación típica es la raíz cuadrada de la varianza.
\(s = \sqrt{10} \approx 3.16\)
Las edades de dos grupos de amigos son:
Grupo A: {18, 19, 20, 21, 22}
Grupo B: {15, 20, 18, 25, 17}
- Calcula la media, el rango, la varianza y la desviación típica (muestral) para cada grupo.
- ¿Qué grupo tiene edades más homogéneas (menos dispersas)? Justifica usando los resultados.
- Grupo A:
- Media \(\bar{x}_A = 20\)
- Rango = 4
- Varianza \(s_A^2 = 2.5\)
- Desviación típica \(s_A \approx 1.58\)
- Media \(\bar{x}_B = 19\)
- Rango = 10
- Varianza \(s_B^2 = 14.5\)
- Desviación típica \(s_B \approx 3.81\)
- El Grupo A tiene edades más homogéneas. Lo sabemos porque tanto su rango (4 vs 10) como su desviación típica (1.58 vs 3.81) son considerablemente menores, lo que indica que las edades están mucho más agrupadas alrededor de la media.
Se mide la longitud (en cm) de 10 tornillos producidos por una máquina:
{5.0, 5.1, 4.9, 5.2, 5.0, 4.8, 5.1, 5.3, 4.9, 5.0}
- Calcula la media, la varianza y la desviación típica (muestral).
- Si se consideran aceptables los tornillos dentro de una desviación típica de la media (x̄ ± s), ¿cuál es el rango de longitudes aceptable?
- ¿Cuántos de los tornillos medidos están dentro de ese rango?
- Media (\(\bar{x}\)): 5.03 cm
Varianza muestral (\(s^2\)): 0.0223
Desviación típica muestral (\(s\)): 0.15 cm - Rango Aceptable:
Se calcula como Media ± 1 Desviación Típica: \(5.03 \pm 0.15\)
El rango aceptable es [4.88 cm, 5.18 cm]. - Conteo de Tornillos:
Al comparar cada medida con el rango [4.88, 5.18], se observa que los tornillos que miden 4.8 cm, 5.2 cm y 5.3 cm están fuera. Por lo tanto, 7 de los 10 tornillos son aceptables.