Medidas de dispersión

2. Varianza desv agrup por intervalos

Varianza y desviación estándar en datos agrupados por intervalos

Objetivo

  • Calcular e interpretar la varianza y la desviación estándar en datos agrupados por intervalos, usando la marca de clase como representante de cada intervalo.
    • Identificar intervalos, frecuencias y marcas de clase.
    • Calcular la media para datos agrupados por intervalos.
    • Calcular varianza y desviación estándar en datos agrupados.
    • Interpretar la dispersión de los datos respecto de la media.

Datos agrupados por intervalos

Cuando hay muchos datos, estos se pueden organizar en intervalos. En ese caso, no conocemos cada dato exacto, sino cuántos datos hay dentro de cada intervalo.

Para realizar cálculos como media, varianza y desviación estándar, usamos la marca de clase de cada intervalo.

Marca de clase

La marca de clase es el punto medio de un intervalo.

\(x_i=\dfrac{\text{límite inferior}+\text{límite superior}}{2}\)

La marca de clase representa aproximadamente a todos los datos que están dentro de ese intervalo.

Ejemplo inicial: marcas de clase

Observa los siguientes intervalos:

Intervalo Marca de clase \(x_i\)
\([10,20[\) \(\dfrac{10+20}{2}=15\)
\([20,30[\) \(\dfrac{20+30}{2}=25\)
\([30,40[\) \(\dfrac{30+40}{2}=35\)

Media en datos agrupados

Para datos agrupados por intervalos, la media se calcula usando las marcas de clase y sus frecuencias.

\(\bar{x}=\dfrac{\sum f_i\cdot x_i}{\sum f_i}\)

Donde:

  • \(x_i\) es la marca de clase.
  • \(f_i\) es la frecuencia del intervalo.
  • \(\sum f_i\) es el total de datos.

Varianza en datos agrupados

La varianza mide qué tan alejados están los datos respecto de la media.

\(s^2=\dfrac{\sum f_i\cdot (x_i-\bar{x})^2}{\sum f_i}\)

En esta página usaremos esta versión dividiendo por el total de datos \(\sum f_i\).

Desviación estándar

La desviación estándar se obtiene calculando la raíz cuadrada de la varianza.

\(s=\sqrt{s^2}\)

Idea clave

En datos agrupados por intervalos, no se usa cada dato exacto. Se usa la marca de clase \(x_i\) como valor representativo de cada intervalo.

Ejemplo 1: cálculo completo

La siguiente tabla muestra los puntajes obtenidos por un grupo de estudiantes en una evaluación:

Intervalo de puntajes Frecuencia \(f_i\) Marca de clase \(x_i\) \(f_i\cdot x_i\)
\([10,20[\) \(2\) \(15\) \(30\)
\([20,30[\) \(5\) \(25\) \(125\)
\([30,40[\) \(8\) \(35\) \(280\)
\([40,50[\) \(5\) \(45\) \(225\)

Primero calculamos el total de datos:

\(\sum f_i=2+5+8+5=20\)

Luego calculamos la suma de los productos \(f_i\cdot x_i\):

\(\sum f_i\cdot x_i=30+125+280+225=660\)

Ahora calculamos la media:

\(\bar{x}=\dfrac{660}{20}=33\)

La media aproximada es \(33\) puntos.

Ejemplo 1: cálculo de la varianza

Usamos la media \(\bar{x}=33\) y completamos la tabla:

\(x_i\) \(f_i\) \(x_i-\bar{x}\) \((x_i-\bar{x})^2\) \(f_i\cdot (x_i-\bar{x})^2\)
\(15\) \(2\) \(15-33=-18\) \(324\) \(648\)
\(25\) \(5\) \(25-33=-8\) \(64\) \(320\)
\(35\) \(8\) \(35-33=2\) \(4\) \(32\)
\(45\) \(5\) \(45-33=12\) \(144\) \(720\)

Sumamos la última columna:

\(\sum f_i\cdot (x_i-\bar{x})^2=648+320+32+720=1720\)

Calculamos la varianza:

\(s^2=\dfrac{1720}{20}=86\)

Calculamos la desviación estándar:

\(s=\sqrt{86}\approx 9{,}27\)

La varianza es \(86\) y la desviación estándar es aproximadamente \(9{,}27\) puntos.

Interpretación del resultado

La media aproximada del grupo es \(33\) puntos.

La desviación estándar aproximada es \(9{,}27\) puntos, lo que significa que los puntajes suelen alejarse alrededor de \(9{,}27\) puntos respecto de la media.

Error frecuente

No se debe calcular la varianza usando directamente los intervalos completos.

Primero se debe calcular la marca de clase de cada intervalo y luego usar esas marcas como representantes de los datos.

Procedimiento resumido

  1. Calcular la marca de clase de cada intervalo.
  2. Multiplicar cada marca de clase por su frecuencia.
  3. Calcular la media con \(\bar{x}=\dfrac{\sum f_i\cdot x_i}{\sum f_i}\).
  4. Calcular \(x_i-\bar{x}\) para cada intervalo.
  5. Elevar cada diferencia al cuadrado.
  6. Multiplicar cada cuadrado por su frecuencia.
  7. Calcular la varianza con \(s^2=\dfrac{\sum f_i\cdot (x_i-\bar{x})^2}{\sum f_i}\).
  8. Calcular la desviación estándar con \(s=\sqrt{s^2}\).

Ejemplo 2: tabla más breve

La siguiente tabla muestra tiempos, en minutos, que demora un grupo de estudiantes en resolver una actividad:

Intervalo \(f_i\) \(x_i\) \(f_i\cdot x_i\)
\([0,10[\) \(4\) \(5\) \(20\)
\([10,20[\) \(6\) \(15\) \(90\)
\([20,30[\) \(5\) \(25\) \(125\)
\([30,40[\) \(5\) \(35\) \(175\)

\(\sum f_i=20\)

\(\sum f_i\cdot x_i=410\)

\(\bar{x}=\dfrac{410}{20}=20{,}5\)

Ahora completamos la parte necesaria para la varianza:

\(x_i\) \(f_i\) \((x_i-\bar{x})^2\) \(f_i\cdot (x_i-\bar{x})^2\)
\(5\) \(4\) \(240{,}25\) \(961\)
\(15\) \(6\) \(30{,}25\) \(181{,}5\)
\(25\) \(5\) \(20{,}25\) \(101{,}25\)
\(35\) \(5\) \(210{,}25\) \(1051{,}25\)

\(\sum f_i\cdot (x_i-\bar{x})^2=2295\)

\(s^2=\dfrac{2295}{20}=114{,}75\)

\(s=\sqrt{114{,}75}\approx 10{,}71\)

La varianza es \(114{,}75\) y la desviación estándar es aproximadamente \(10{,}71\) minutos.

¿Qué significa que la desviación estándar sea grande?

Una desviación estándar grande indica que los datos están más dispersos respecto de la media.

Una desviación estándar pequeña indica que los datos están más concentrados cerca de la media.

Actividad 1

Completa las marcas de clase de la siguiente tabla:

Intervalo Frecuencia Marca de clase
\([0,20[\) \(3\) _____
\([20,40[\) \(7\) _____
\([40,60[\) \(5\) _____

Actividad 2

Calcula la media para la siguiente tabla:

Intervalo \(f_i\) \(x_i\)
\([0,10[\) \(2\) \(5\)
\([10,20[\) \(6\) \(15\)
\([20,30[\) \(2\) \(25\)

Actividad 3

Con la media \(\bar{x}=15\), calcula la varianza y la desviación estándar de la tabla anterior.

Actividad 4

Una distribución tiene media \(50\) y la siguiente tabla:

\(x_i\) \(f_i\)
\(30\) \(4\)
\(50\) \(8\)
\(70\) \(4\)

Calcula la varianza y la desviación estándar.

Resumen final

Concepto Fórmula Uso
Marca de clase \(x_i=\dfrac{L_i+L_s}{2}\) Representa cada intervalo.
Media \(\bar{x}=\dfrac{\sum f_i\cdot x_i}{\sum f_i}\) Calcula el promedio aproximado.
Varianza \(s^2=\dfrac{\sum f_i\cdot (x_i-\bar{x})^2}{\sum f_i}\) Mide la dispersión cuadrática.
Desviación estándar \(s=\sqrt{s^2}\) Mide la dispersión en la misma unidad de los datos.