Representación gráfica
9. Criterios de agrupación y taller de construcción de gráficos [Regla de Sturges, intervalos y elección de representación]
Criterios de agrupación y taller de construcción de gráficos [Regla de Sturges, intervalos y elección de representación]
Objetivos: agrupar datos de manera razonable usando la regla de Sturges, construir intervalos de clase y elegir la representación gráfica más adecuada según el tipo de variable y la pregunta que se quiere responder.
Antes trabajaste con gráficos de barras, gráficos circulares, histogramas, polígonos de frecuencias y ojivas. En esta página el foco cambia un poco: antes de graficar, hay que decidir cómo organizar los datos.
Una buena representación no depende solo del dibujo final. También depende de si los datos están bien agrupados, si los intervalos son coherentes y si el gráfico elegido realmente responde a la pregunta que interesa.
Cuando se tiene una lista de muchos datos cuantitativos, una regla útil para estimar cuántos intervalos conviene usar es la regla de Sturges:
\[ k \approx 1 + 3{,}322\log_{10}(n) \]
donde:
- \(k\) es el número aproximado de intervalos,
- \(n\) es la cantidad total de datos.
Luego se calcula el rango:
\[ R = x_{\max} - x_{\min} \]
y después una amplitud aproximada para cada intervalo:
\[ A \approx \frac{R}{k} \]
Finalmente, esa amplitud se ajusta a un valor conveniente y se construyen intervalos que:
- cubran todos los datos,
- no se superpongan,
- mantengan el mismo ancho cuando sea posible.
- Si la variable es cualitativa, suele convenir un gráfico de barras o, si interesa la parte de un total, un gráfico circular.
- Si la variable es cuantitativa discreta con pocos valores distintos, también suele convenir un gráfico de barras.
- Si la variable es cuantitativa continua o hay muchos datos agrupados en intervalos, conviene un histograma.
- Si interesa ver cómo cambian las frecuencias por clase, puede usarse un polígono de frecuencias.
- Si interesa saber cuánto se va acumulando hasta cierto valor, conviene una ojiva.
- No usar la regla de Sturges con variables cualitativas.
- Construir intervalos con huecos o con traslapes.
- Usar gráfico de barras para datos continuos agrupados, cuando corresponde un histograma.
- Creer que la regla de Sturges da una respuesta única y obligatoria: es una orientación, no una ley rígida.
Cuando se estudian tiempos de viaje, puntajes, edades, ingresos, temperaturas o tiempos de espera, muchas veces los datos se recopilan uno a uno y luego se agrupan en intervalos para poder analizarlos mejor. Por eso, antes de graficar, hay una decisión estadística importante: cómo resumir los datos sin distorsionarlos.
Ejemplo 1: agrupar datos con la regla de Sturges
Se registraron los tiempos de traslado, en minutos, de \(24\) estudiantes:
\[ 10,\ 11,\ 14,\ 15,\ 16,\ 18,\ 19,\ 20,\ 21,\ 22,\ 24,\ 24,\ 25,\ 27,\ 28,\ 29,\ 30,\ 32,\ 33,\ 34,\ 35,\ 37,\ 38,\ 39 \]
Paso 1: cantidad de datos
\[ n=24 \]
Paso 2: rango
El menor valor es \(10\) y el mayor es \(39\), entonces:
\[ R=39-10=29 \]
Paso 3: regla de Sturges
\[ k \approx 1+3{,}322\log_{10}(24) \]
\[ k \approx 1+3{,}322(1{,}3802)\approx 5{,}59 \]
Tomamos \(6\) intervalos.
Paso 4: amplitud aproximada
\[ A \approx \frac{29}{6}\approx 4{,}83 \]
Elegimos una amplitud conveniente de \(5\).
Paso 5: construir intervalos y contar frecuencias
| Intervalo | Marca de clase | Frecuencia \(f\) | Frecuencia acumulada \(F\) |
|---|---|---|---|
| \(10{-}14\) | 12 | 3 | 3 |
| \(15{-}19\) | 17 | 4 | 7 |
| \(20{-}24\) | 22 | 5 | 12 |
| \(25{-}29\) | 27 | 4 | 16 |
| \(30{-}34\) | 32 | 4 | 20 |
| \(35{-}39\) | 37 | 4 | 24 |
La regla de Sturges sugirió cerca de \(6\) clases, y la amplitud calculada fue cercana a \(5\). Elegir intervalos de ancho \(5\) permite cubrir todos los datos de forma ordenada y fácil de interpretar.
Ejemplo 2: la misma tabla puede dar lugar a distintos gráficos
Con la tabla del ejemplo anterior se pueden construir distintos gráficos, según lo que se quiera observar.
Histograma
Conviene cuando interesa ver la concentración de datos por intervalos.
Polígono de frecuencias
Conviene cuando interesa seguir visualmente cómo cambian las frecuencias entre clases consecutivas.
Ojiva
Conviene cuando interesa responder preguntas del tipo “¿cuántos datos se acumulan hasta cierto valor?”.
Lecturas posibles:
- el histograma muestra que el intervalo \(20{-}24\) tiene la mayor frecuencia,
- el polígono deja ver rápidamente dónde está el punto más alto,
- la ojiva muestra que hasta 29 minutos se acumulan \(16\) estudiantes, porque al llegar al límite \(30\) la frecuencia acumulada es \(16\).
Ejemplo 3: cuando no conviene agrupar
En una encuesta a \(24\) estudiantes sobre su medio de transporte principal para llegar al liceo se obtuvo:
| Medio de transporte | Frecuencia |
|---|---|
| Micro | 9 |
| A pie | 6 |
| Auto | 5 |
| Bicicleta | 4 |
Aquí la variable es cualitativa, por lo que no tiene sentido aplicar la regla de Sturges. No se trata de agrupar números en intervalos, sino de comparar categorías. Por eso conviene un gráfico de barras. También podría usarse un gráfico circular si interesara resaltar partes de un total.
Resumen: qué conviene usar según el contexto
| Situación | ¿Conviene agrupar? | Gráfico más adecuado | ¿Por qué? |
|---|---|---|---|
| Preferencias por categoría | No | Barras o circular | Se comparan categorías, no intervalos numéricos. |
| Pocos valores discretos | A veces no | Barras | Los valores pueden leerse uno a uno. |
| Muchos datos numéricos continuos | Sí | Histograma | Permite ver concentración y dispersión por intervalos. |
| Frecuencias por clases consecutivas | Sí | Polígono | Ayuda a visualizar cambios de forma continua. |
| Acumulaciones y percentiles | Sí | Ojiva | Permite leer cuántos datos van acumulados hasta cierto valor. |
Taller de práctica
Parte A: agrupar y decidir
Las masas, en kilogramos, de \(20\) mochilas fueron:
\[ 3,\ 4,\ 4,\ 5,\ 5,\ 5,\ 6,\ 6,\ 6,\ 7,\ 7,\ 7,\ 8,\ 8,\ 8,\ 9,\ 9,\ 10,\ 10,\ 11 \]
- ¿Cuántos datos hay?
- ¿Cuál es el rango?
- Aplica la regla de Sturges y estima una cantidad razonable de intervalos.
- Si eliges amplitud \(2\), propone un sistema válido de intervalos.
- Completa una tabla de frecuencias para esos intervalos.
- ¿Qué gráfico conviene más para representar esta información: barras, histograma u ojiva? Justifica.
Parte B: elección de representación
- Para mostrar la proporción de estudiantes que prefieren distintos deportes, ¿qué conviene más: histograma o gráfico circular?
- Para mostrar tiempos de espera agrupados por tramos, ¿qué conviene más: barras o histograma?
- Para saber cuántos pacientes han sido atendidos hasta cierta hora, ¿qué conviene más: polígono u ojiva?
- Para comparar ventas de dos años distintos mes a mes, ¿qué conviene más: barras dobles o gráfico circular?
Parte A
- Hay \(20\) datos.
- El menor valor es \(3\) y el mayor es \(11\), por lo tanto: \[ R=11-3=8 \]
- \[ k \approx 1+3{,}322\log_{10}(20) \] \[ k \approx 1+3{,}322(1{,}3010)\approx 5{,}32 \] Una elección razonable es usar 5 intervalos.
- Un sistema válido con amplitud \(2\) es: \[ 3{-}4,\ 5{-}6,\ 7{-}8,\ 9{-}10,\ 11{-}12 \]
- La tabla de frecuencias queda así:
| Intervalo | Frecuencia \(f\) |
|---|---|
| \(3{-}4\) | 3 |
| \(5{-}6\) | 6 |
| \(7{-}8\) | 6 |
| \(9{-}10\) | 4 |
| \(11{-}12\) | 1 |
- Conviene más un histograma, porque se trata de una variable cuantitativa agrupada en intervalos y se quiere observar cómo se distribuyen las masas.
- Conviene más un gráfico circular si interesa destacar partes de un total. También podrían usarse barras, pero entre las dos opciones dadas, la circular es la más pertinente.
- Conviene más un histograma, porque hay intervalos numéricos continuos o agrupados.
- Conviene más una ojiva, porque la pregunta trata de acumulación hasta cierto momento.
- Convienen más las barras dobles, porque permiten comparar dos conjuntos en las mismas categorías.
Antes de graficar, conviene hacerse tres preguntas: qué tipo de variable tengo, si necesito agrupar los datos y qué quiero leer del gráfico. Elegir bien los intervalos y la representación hace que la interpretación sea mucho más clara.
Ejercicios tipo PAES
Se registraron los tiempos de espera, en minutos, de \(25\) personas en un centro de atención. El menor tiempo fue \(8\) minutos y el mayor fue \(31\) minutos.
Luego de aplicar un criterio de agrupación, se propuso la siguiente tabla:
| Intervalo de tiempo (min) | Frecuencia \(f\) | Frecuencia acumulada \(F\) |
|---|---|---|
| \(8{-}11\) | 3 | 3 |
| \(12{-}15\) | 5 | 8 |
| \(16{-}19\) | 6 | 14 |
| \(20{-}23\) | 4 | 18 |
| \(24{-}27\) | 4 | 22 |
| \(28{-}31\) | 3 | 25 |
- Según la regla de Sturges, \[ k \approx 1+3{,}322\log_{10}(n) \] el número aproximado de intervalos es:
- 4
- 5
- El mismo de la tabla
- 7
- El rango de los datos es:
- \(23\)
- \(24\)
- \(25\)
- \(31\)
- Si se usan \(6\) intervalos, la amplitud aproximada de clase es:
- \(3\)
- \(4\)
- \(5\)
- \(6\)
- ¿Cuál de los siguientes sistemas de intervalos sería el más adecuado para estos datos?
- \(8{-}11,\ 11{-}14,\ 14{-}17,\ 17{-}20,\ 20{-}23,\ 23{-}26\)
- \(8{-}11,\ 12{-}15,\ 16{-}19,\ 20{-}23,\ 24{-}27,\ 28{-}31\)
- \(8{-}12,\ 14{-}18,\ 20{-}24,\ 26{-}30\)
- \(8{-}10,\ 12{-}14,\ 16{-}18,\ 20{-}22,\ 24{-}26,\ 28{-}30\)
- Para representar gráficamente esta tabla y comparar frecuencias por intervalos, el gráfico más adecuado es:
- gráfico circular
- gráfico de barras simples
- histograma
- pictograma
- Si ahora se quisiera responder una pregunta del tipo “¿cuántas personas acumulan un tiempo de espera de hasta \(23\) minutos?”, el gráfico más conveniente sería:
- gráfico circular
- ojiva
- gráfico de barras dobles
- pictograma
- \[ k \approx 1+3{,}322\log_{10}(25) \] Como \(\log_{10}(25)\approx 1{,}398\), \[ k \approx 1+3{,}322\cdot 1{,}398 \approx 5{,}64 \] Esto sugiere usar aproximadamente \(6\) intervalos. Como la tabla propuesta tiene justamente \(6\) intervalos, la alternativa correcta es C: “El mismo de la tabla”.
- \[ R=x_{\max}-x_{\min}=31-8=23 \] Respuesta correcta: A
- \[ A \approx \frac{R}{k}=\frac{23}{6}\approx 3{,}83 \] Una amplitud conveniente es \(4\).
Respuesta correcta: B - El sistema correcto es el que cubre todos los datos, no deja huecos y no presenta traslapes: \(8{-}11,\ 12{-}15,\ 16{-}19,\ 20{-}23,\ 24{-}27,\ 28{-}31\).
Respuesta correcta: B - Como se trata de una variable cuantitativa agrupada en intervalos, el gráfico más adecuado es el histograma.
Respuesta correcta: C - Para leer acumulaciones hasta cierto valor, el gráfico más conveniente es la ojiva. De hecho, según la tabla, hasta \(23\) minutos se acumulan \(18\) personas.
Respuesta correcta: B