Medidas de dispersión
2. Varianza desv agrup por intervalos
Varianza y desviación estándar en datos agrupados por intervalos
Objetivo
- Calcular e interpretar la varianza y la desviación estándar en datos agrupados por intervalos, usando la marca de clase como representante de cada intervalo.
- Identificar intervalos, frecuencias y marcas de clase.
- Calcular la media para datos agrupados por intervalos.
- Calcular varianza y desviación estándar en datos agrupados.
- Interpretar la dispersión de los datos respecto de la media.
Datos agrupados por intervalos
Cuando hay muchos datos, estos se pueden organizar en intervalos. En ese caso, no conocemos cada dato exacto, sino cuántos datos hay dentro de cada intervalo.
Para realizar cálculos como media, varianza y desviación estándar, usamos la marca de clase de cada intervalo.
Marca de clase
La marca de clase es el punto medio de un intervalo.
La marca de clase representa aproximadamente a todos los datos que están dentro de ese intervalo.
Ejemplo inicial: marcas de clase
Observa los siguientes intervalos:
| Intervalo | Marca de clase \(x_i\) |
|---|---|
| \([10,20[\) | \(\dfrac{10+20}{2}=15\) |
| \([20,30[\) | \(\dfrac{20+30}{2}=25\) |
| \([30,40[\) | \(\dfrac{30+40}{2}=35\) |
Media en datos agrupados
Para datos agrupados por intervalos, la media se calcula usando las marcas de clase y sus frecuencias.
Donde:
- \(x_i\) es la marca de clase.
- \(f_i\) es la frecuencia del intervalo.
- \(\sum f_i\) es el total de datos.
Varianza en datos agrupados
La varianza mide qué tan alejados están los datos respecto de la media.
En esta página usaremos esta versión dividiendo por el total de datos \(\sum f_i\).
Desviación estándar
La desviación estándar se obtiene calculando la raíz cuadrada de la varianza.
Idea clave
En datos agrupados por intervalos, no se usa cada dato exacto. Se usa la marca de clase \(x_i\) como valor representativo de cada intervalo.
Ejemplo 1: cálculo completo
La siguiente tabla muestra los puntajes obtenidos por un grupo de estudiantes en una evaluación:
| Intervalo de puntajes | Frecuencia \(f_i\) | Marca de clase \(x_i\) | \(f_i\cdot x_i\) |
|---|---|---|---|
| \([10,20[\) | \(2\) | \(15\) | \(30\) |
| \([20,30[\) | \(5\) | \(25\) | \(125\) |
| \([30,40[\) | \(8\) | \(35\) | \(280\) |
| \([40,50[\) | \(5\) | \(45\) | \(225\) |
Primero calculamos el total de datos:
\(\sum f_i=2+5+8+5=20\)
Luego calculamos la suma de los productos \(f_i\cdot x_i\):
\(\sum f_i\cdot x_i=30+125+280+225=660\)
Ahora calculamos la media:
\(\bar{x}=\dfrac{660}{20}=33\)
La media aproximada es \(33\) puntos.
Ejemplo 1: cálculo de la varianza
Usamos la media \(\bar{x}=33\) y completamos la tabla:
| \(x_i\) | \(f_i\) | \(x_i-\bar{x}\) | \((x_i-\bar{x})^2\) | \(f_i\cdot (x_i-\bar{x})^2\) |
|---|---|---|---|---|
| \(15\) | \(2\) | \(15-33=-18\) | \(324\) | \(648\) |
| \(25\) | \(5\) | \(25-33=-8\) | \(64\) | \(320\) |
| \(35\) | \(8\) | \(35-33=2\) | \(4\) | \(32\) |
| \(45\) | \(5\) | \(45-33=12\) | \(144\) | \(720\) |
Sumamos la última columna:
\(\sum f_i\cdot (x_i-\bar{x})^2=648+320+32+720=1720\)
Calculamos la varianza:
\(s^2=\dfrac{1720}{20}=86\)
Calculamos la desviación estándar:
\(s=\sqrt{86}\approx 9{,}27\)
La varianza es \(86\) y la desviación estándar es aproximadamente \(9{,}27\) puntos.
Interpretación del resultado
La media aproximada del grupo es \(33\) puntos.
La desviación estándar aproximada es \(9{,}27\) puntos, lo que significa que los puntajes suelen alejarse alrededor de \(9{,}27\) puntos respecto de la media.
Error frecuente
No se debe calcular la varianza usando directamente los intervalos completos.
Primero se debe calcular la marca de clase de cada intervalo y luego usar esas marcas como representantes de los datos.
Procedimiento resumido
- Calcular la marca de clase de cada intervalo.
- Multiplicar cada marca de clase por su frecuencia.
- Calcular la media con \(\bar{x}=\dfrac{\sum f_i\cdot x_i}{\sum f_i}\).
- Calcular \(x_i-\bar{x}\) para cada intervalo.
- Elevar cada diferencia al cuadrado.
- Multiplicar cada cuadrado por su frecuencia.
- Calcular la varianza con \(s^2=\dfrac{\sum f_i\cdot (x_i-\bar{x})^2}{\sum f_i}\).
- Calcular la desviación estándar con \(s=\sqrt{s^2}\).
Ejemplo 2: tabla más breve
La siguiente tabla muestra tiempos, en minutos, que demora un grupo de estudiantes en resolver una actividad:
| Intervalo | \(f_i\) | \(x_i\) | \(f_i\cdot x_i\) |
|---|---|---|---|
| \([0,10[\) | \(4\) | \(5\) | \(20\) |
| \([10,20[\) | \(6\) | \(15\) | \(90\) |
| \([20,30[\) | \(5\) | \(25\) | \(125\) |
| \([30,40[\) | \(5\) | \(35\) | \(175\) |
\(\sum f_i=20\)
\(\sum f_i\cdot x_i=410\)
\(\bar{x}=\dfrac{410}{20}=20{,}5\)
Ahora completamos la parte necesaria para la varianza:
| \(x_i\) | \(f_i\) | \((x_i-\bar{x})^2\) | \(f_i\cdot (x_i-\bar{x})^2\) |
|---|---|---|---|
| \(5\) | \(4\) | \(240{,}25\) | \(961\) |
| \(15\) | \(6\) | \(30{,}25\) | \(181{,}5\) |
| \(25\) | \(5\) | \(20{,}25\) | \(101{,}25\) |
| \(35\) | \(5\) | \(210{,}25\) | \(1051{,}25\) |
\(\sum f_i\cdot (x_i-\bar{x})^2=2295\)
\(s^2=\dfrac{2295}{20}=114{,}75\)
\(s=\sqrt{114{,}75}\approx 10{,}71\)
La varianza es \(114{,}75\) y la desviación estándar es aproximadamente \(10{,}71\) minutos.
¿Qué significa que la desviación estándar sea grande?
Una desviación estándar grande indica que los datos están más dispersos respecto de la media.
Una desviación estándar pequeña indica que los datos están más concentrados cerca de la media.
Actividad 1
Completa las marcas de clase de la siguiente tabla:
| Intervalo | Frecuencia | Marca de clase |
|---|---|---|
| \([0,20[\) | \(3\) | _____ |
| \([20,40[\) | \(7\) | _____ |
| \([40,60[\) | \(5\) | _____ |
Calculamos cada marca de clase usando el punto medio del intervalo:
\([0,20[\): \(x_i=\dfrac{0+20}{2}=10\)
\([20,40[\): \(x_i=\dfrac{20+40}{2}=30\)
\([40,60[\): \(x_i=\dfrac{40+60}{2}=50\)
Las marcas de clase son \(10\), \(30\) y \(50\).
Actividad 2
Calcula la media para la siguiente tabla:
| Intervalo | \(f_i\) | \(x_i\) |
|---|---|---|
| \([0,10[\) | \(2\) | \(5\) |
| \([10,20[\) | \(6\) | \(15\) |
| \([20,30[\) | \(2\) | \(25\) |
Calculamos el total de datos:
\(\sum f_i=2+6+2=10\)
Calculamos la suma de los productos \(f_i\cdot x_i\):
\(\sum f_i\cdot x_i=2\cdot 5+6\cdot 15+2\cdot 25=10+90+50=150\)
Calculamos la media:
\(\bar{x}=\dfrac{150}{10}=15\)
La media es \(15\).
Actividad 3
Con la media \(\bar{x}=15\), calcula la varianza y la desviación estándar de la tabla anterior.
Usamos \(s^2=\dfrac{\sum f_i\cdot (x_i-\bar{x})^2}{\sum f_i}\).
Para \(x_i=5\): \((5-15)^2=100\), entonces \(2\cdot 100=200\).
Para \(x_i=15\): \((15-15)^2=0\), entonces \(6\cdot 0=0\).
Para \(x_i=25\): \((25-15)^2=100\), entonces \(2\cdot 100=200\).
\(\sum f_i\cdot (x_i-\bar{x})^2=200+0+200=400\)
\(s^2=\dfrac{400}{10}=40\)
\(s=\sqrt{40}\approx 6{,}32\)
La varianza es \(40\) y la desviación estándar es aproximadamente \(6{,}32\).
Actividad 4
Una distribución tiene media \(50\) y la siguiente tabla:
| \(x_i\) | \(f_i\) |
|---|---|
| \(30\) | \(4\) |
| \(50\) | \(8\) |
| \(70\) | \(4\) |
Calcula la varianza y la desviación estándar.
Usamos la media \(\bar{x}=50\).
Para \(x_i=30\): \((30-50)^2=400\), entonces \(4\cdot 400=1600\).
Para \(x_i=50\): \((50-50)^2=0\), entonces \(8\cdot 0=0\).
Para \(x_i=70\): \((70-50)^2=400\), entonces \(4\cdot 400=1600\).
\(\sum f_i=4+8+4=16\)
\(\sum f_i\cdot (x_i-\bar{x})^2=1600+0+1600=3200\)
\(s^2=\dfrac{3200}{16}=200\)
\(s=\sqrt{200}\approx 14{,}14\)
La varianza es \(200\) y la desviación estándar es aproximadamente \(14{,}14\).
Resumen final
| Concepto | Fórmula | Uso |
|---|---|---|
| Marca de clase | \(x_i=\dfrac{L_i+L_s}{2}\) | Representa cada intervalo. |
| Media | \(\bar{x}=\dfrac{\sum f_i\cdot x_i}{\sum f_i}\) | Calcula el promedio aproximado. |
| Varianza | \(s^2=\dfrac{\sum f_i\cdot (x_i-\bar{x})^2}{\sum f_i}\) | Mide la dispersión cuadrática. |
| Desviación estándar | \(s=\sqrt{s^2}\) | Mide la dispersión en la misma unidad de los datos. |