Los datos estan dispersos?
2. Organización de Datos en Tablas e Interpretación Gráfica
Organización de Datos en Tablas e Interpretación Gráfica
Importancia de la Organización de Datos
Antes de calcular medidas de dispersión (rango, varianza, desviación estándar), es crucial organizar los datos de manera clara y sistemática. Las tablas son una herramienta esencial para esto. Además, la representación gráfica (histogramas y diagramas de caja) nos da una idea visual rápida de la distribución y dispersión de los datos.
Tipos de Tablas
1. Tabla de Datos Simple (o Lista de Datos)
La forma más básica es listar los datos. Adecuado para conjuntos pequeños.
Ejemplo: Alturas (cm) de 5 estudiantes: 160, 165, 170, 172, 168
Estudiante | Altura (cm) |
---|---|
1 | 160 |
2 | 165 |
3 | 170 |
4 | 172 |
5 | 168 |
2. Tabla de Frecuencias
Para datos repetidos, una tabla de frecuencias es más eficiente. Muestra cada valor único y su *frecuencia* (cuántas veces aparece).
Ejemplo: Edades: 20, 22, 20, 21, 22, 20, 23, 22, 20, 21
Edad | Frecuencia (f) |
---|---|
20 | 4 |
21 | 2 |
22 | 3 |
23 | 1 |
Total | 10 |
Frecuencia Relativa: Frecuencia de un valor dividida por el total. Se expresa como fracción, decimal o porcentaje.
Edad | Frecuencia (f) | Frecuencia Relativa | Frecuencia Relativa (%) |
---|---|---|---|
20 | 4 | 4/10 = 0.4 | 40% |
21 | 2 | 2/10 = 0.2 | 20% |
22 | 3 | 3/10 = 0.3 | 30% |
23 | 1 | 1/10 = 0.1 | 10% |
Total | 10 | 1 | 100% |
3. Tabla de Frecuencias con Datos Agrupados (Intervalos)
Para muchos datos diferentes, o datos continuos, se agrupan en *intervalos* o *clases*.
Ejemplo: Alturas (en cm) de 40 estudiantes (lista omitida por brevedad).
Intervalo de Altura (cm) | Frecuencia (f) |
---|---|
150 - 159 | 5 |
160 - 169 | 12 |
170 - 179 | 15 |
180 - 189 | 8 |
Total | 40 |
Consideraciones al agrupar en intervalos:
- Intervalos del mismo tamaño (amplitud).
- Intervalos no superpuestos.
- Cubrir todos los datos (mínimo a máximo).
- Entre 5 y 15 intervalos (regla práctica: raíz cuadrada del número de datos).
Preparación de Datos para el Cálculo de Medidas de Dispersión
Con los datos en tablas (especialmente de frecuencias), es más fácil calcular las medidas:
- Rango: Valor máximo - valor mínimo (o límites de los intervalos).
- Varianza y Desviación Estándar:
- Datos sin agrupar: Usar la tabla para calcular la media y las desviaciones.
- Datos agrupados: Usar el *punto medio* (marca de clase) de cada intervalo.
Interpretación Visual de la Dispersión: Histogramas y Diagramas de Caja
Histogramas
Un histograma (gráfico de barras "pegadas" para representar continuidad) muestra la distribución de frecuencias de la variable. Permite *estimar* visualmente la media y la desviación estándar.
Estimación de la Media:
- "Punto de equilibrio" del histograma.
- Simétrico: media en el centro.
- Asimétrico (sesgado): media desplazada hacia la "cola".
Estimación de la Desviación Estándar:
- Relacionada con el "ancho" del histograma.
- Ancho y plano: *alta* desviación estándar (datos dispersos).
- Estrecho y alto: *baja* desviación estándar (datos concentrados).
- Regla Empírica (aproximada, solo para distribuciones aproximadamente normales):
- Aprox. 68% de los datos: ±1 desviación estándar de la media.
- Aprox. 95% de los datos: ±2 desviaciones estándar de la media.
- Aprox. 99.7% de los datos: ±3 desviaciones estándar de la media.
Ejemplo: Si el 95% de los datos está entre 50 y 70, la desviación estándar es aproximadamente (70-50)/(2*2) = 5.
Advertencia: La regla empírica es solo una *aproximación* para distribuciones *aproximadamente normales*.
Ejemplos:
Ejemplo 1: Histograma alto y estrecho, centrado en 80. Media ≈ 80, Desviación estándar pequeña.
Ejemplo 2: Histograma sesgado a la izquierda. Media > Mediana. Desviación estándar mayor que si fuera simétrico.
Ejemplo 3: Histograma ancho y plano, de 20 a 80. Media ≈ 50, Desviación estándar grande.
Diagramas de Caja (Boxplots)
Muestran un resumen de cinco números: mínimo, Q1 (primer cuartil), mediana, Q3 (tercer cuartil), máximo, y valores atípicos.
- Mediana: Línea dentro de la caja.
- Cuartiles (Q1 y Q3): Bordes de la caja. El 50% de los datos está *dentro* de la caja.
- Rango Intercuartílico (IQR): Q3 - Q1. Medida de dispersión *resistente, es decir no se ve muy afectado por valores extremos como la desviacion estandar*.
- Bigotes: Líneas desde la caja. Generalmente, hasta el máximo y mínimo de valores, siempre y cuando estos esten a distancia maxima de 1.5 * IQR desde los cuartiles Q1 o Q3 respectivos.
- Valores Atípicos: Puntos individuales fuera de los bigotes, por sobre 1.5 * IQR.
Estimación de la Desviación Estándar (aproximada, solo para distribuciones aproximadamente normales):
\[ \text{Desviación estándar} \approx \frac{IQR}{1.35} \]
Advertencia: Aproximación para distribuciones *aproximadamente normales*.
Ejemplo: Mediana = 60, Q1 = 50, Q3 = 70, Bigotes hasta 40 y 80, valor atípico en 95.
- Mediana ≈ 60.
- IQR = 70 - 50 = 20.
- Si suponemos normalidad, Desviación estándar ≈ 20 / 1.35 ≈ 14.8.
- Valor atípico: 95.
Comparación de Boxplots: Comparar el *ancho de las cajas* (IQR) y la *longitud de los bigotes*. Cajas más anchas y bigotes más largos indican mayor dispersión.
Ejemplo:
📊 Similitudes:
-
Mediana Común:
- Los conjuntos j y k tienen la misma mediana (25), lo que indica una tendencia central similar en estos dos conjuntos de datos.
-
Rango Similar:
- Los conjuntos j y l tienen un rango de 30 unidades (40 - 10 y 55 - 25 respectivamente), lo que indica una dispersión similar en el rango completo de los datos.
-
Rango Intercuartílico (IQR) Igual:
- Tanto j como l tienen un IQR de 15 (30 - 15 y 45 - 30), mostrando una variabilidad similar en el 50% central de sus datos.
-
Bigotes de Longitud Similar:
- Los bigotes del conjunto j y l son simétricos y tienen aproximadamente la misma extensión, indicando una distribución equilibrada de los datos fuera del IQR.
📈 Diferencias:
Característica | j | k | l |
---|---|---|---|
Rango (Máximo - Mínimo) | 30 (10 a 40) | 50 (5 a 55) | 30 (25 a 55) |
Rango Intercuartílico (IQR) | 15 (15 a 30) | 30 (15 a 45) | 15 (30 a 45) |
Asimetría | Relativamente simétrico | Asimetría a la derecha, ya que la mediana está cerca de Q1 | Asimetría a la izquierda, con la mediana más cerca de Q3 |
Concentración de Datos | Datos más bajos (10 a 40) | Datos muy dispersos (5 a 55) | Datos más altos (25 a 55) |
Mediana | 25 | 25 | 40 |
Extremos de Bigotes | Mínimo en 10, Máximo en 40 | Mínimo en 5, Máximo en 55 | Mínimo en 25, Máximo en 55 |
🔍 Resumen de Diferencias:
-
Dispersión:
- k tiene la mayor dispersión general (mayor rango e IQR).
- j y l tienen una dispersión similar en el rango total, pero con diferencias en la tendencia central.
-
Ubicación de la Mediana:
- j y k comparten la misma mediana (25), mientras que l tiene una mediana significativamente más alta (40).
-
Distribución de los Datos:
- j: Datos concentrados en la parte inferior del rango.
- k: Gran dispersión con sesgo hacia la derecha.
- l: Datos concentrados en la parte superior del rango con un sesgo a la izquierda.
🎯 Conclusión:
- Si buscas consistencia, el conjunto j es el más estable.
- Para mayor rango de datos y variabilidad, el conjunto k es el indicado.
- Si prefieres valores más altos en general, el conjunto l es el mejor representante.
Ejercicios y Problemas
Ejercicio 1: Los siguientes datos son calificaciones de 20 estudiantes (escala de 0 a 10):
7, 8, 6, 5, 9, 7, 8, 10, 6, 7, 7, 8, 9, 5, 6, 8, 7, 4, 9, 7
- Organiza los datos en una tabla de frecuencias simple.
- Calcula la frecuencia relativa de cada calificación.
Ejercicio 2: Los siguientes datos son pesos (en kg) de 30 paquetes:
1.2, 1.5, 1.8, 2.1, 1.3, 1.6, 1.9, 2.0, 1.4, 1.7, 1.2, 1.5, 2.3, 1.8, 1.6, 1.4, 1.7, 2.0, 1.9, 1.3, 1.5, 1.8, 2.2, 1.7, 1.4, 1.6, 2.1, 1.9, 1.5, 1.8
- Agrupa los datos en intervalos de ancho 0.2 kg (comenzando en 1.2 kg).
- Construye una tabla de frecuencias con los intervalos.
Ejercicio 3: Observa los siguientes histogramas (descritos):
Histograma A: Simétrico, centrado en 50, la mayoría de los datos entre 40 y 60.
Histograma B: Sesgado a la derecha, con la mayor parte de los datos entre 20 y 40, y una cola larga hasta 80.
Histograma C: Ancho y plano, extendiéndose desde 10 hasta 90.
- ¿Qué histograma tiene la mayor media? ¿La menor?
- ¿Qué histograma tiene la mayor desviación estándar? ¿La menor?
- ¿Cuál histograma se aproxima más a una distribución normal?
Ejercicio 4: Observa los siguientes diagramas de caja (descritos):
Boxplot X: Mediana = 30, Q1 = 25, Q3 = 35, Bigotes hasta 20 y 40, sin valores atípicos.
Boxplot Y: Mediana = 30, Q1 = 20, Q3 = 40, Bigotes hasta 10 y 50, un valor atípico en 60.
- ¿Qué boxplot representa datos con mayor dispersión?
- ¿Cuál boxplot indica la presencia de un valor atípico?
- Estima la desviación estándar para cada boxplot (asumiendo normalidad).
Problema 1: Se realiza una encuesta sobre la cantidad de horas que 50 personas dedican a ver televisión por semana. Los resultados son:
X= horas viendo TV = {1, 2, 2, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9, 10, 10, 10, 11, 11, 11, 12, 12, 13, 13, 13, 15, 16, 17, 18, 20, 21, 23}
- Organiza los datos en una tabla de frecuencias con intervalos de ancho 5 horas ( comenzando en 0 horas).
- ¿Qué porcentaje de personas ve televisión entre 10 y 14 horas por semana?
- ¿Cuál es el intervalo con mayor frecuencia?
Problema 2: Se te presentan los siguientes datos sobre el tiempo de espera en dos consultorios médicos: [Insertar aquí un histograma y un boxplot para cada consultorio, o una descripción detallada de cada uno]. Basándote en la información visual de los gráficos, responde:
Consultorio A



- ¿Qué consultorio tiene, en promedio, tiempos de espera más largos?
- ¿En qué consultorio los tiempos de espera son más variables?
- Si tuvieras prisa, ¿a qué consultorio irías? ¿Por qué?
- ¿Hay indicios de valores atípicos? De ser así, describe en que consiste.
- Un analista afirma que: "Como el consultorio A tiene una menor desviación estándar, entonces es *imposible* que un paciente tenga que esperar más tiempo en el consultorio A que en el consultorio B". ¿Es verdadera o falsa esta afirmación? Justifica tu respuesta.
© 2024 - Material de Apoyo