Los datos estan dispersos?

2. Organización de Datos en Tablas e Interpretación Gráfica

Organización de Datos en Tablas e Interpretación Gráfica

Importancia de la Organización de Datos

Antes de calcular medidas de dispersión (rango, varianza, desviación estándar), es crucial organizar los datos de manera clara y sistemática. Las tablas son una herramienta esencial para esto. Además, la representación gráfica (histogramas y diagramas de caja) nos da una idea visual rápida de la distribución y dispersión de los datos.

Tipos de Tablas

1. Tabla de Datos Simple (o Lista de Datos)

La forma más básica es listar los datos. Adecuado para conjuntos pequeños.

Ejemplo: Alturas (cm) de 5 estudiantes: 160, 165, 170, 172, 168

Estudiante Altura (cm)
1 160
2 165
3 170
4 172
5 168

2. Tabla de Frecuencias

Para datos repetidos, una tabla de frecuencias es más eficiente. Muestra cada valor único y su *frecuencia* (cuántas veces aparece).

Ejemplo: Edades: 20, 22, 20, 21, 22, 20, 23, 22, 20, 21

Edad Frecuencia (f)
20 4
21 2
22 3
23 1
Total 10

Frecuencia Relativa: Frecuencia de un valor dividida por el total. Se expresa como fracción, decimal o porcentaje.

Edad Frecuencia (f) Frecuencia Relativa Frecuencia Relativa (%)
20 4 4/10 = 0.4 40%
21 2 2/10 = 0.2 20%
22 3 3/10 = 0.3 30%
23 1 1/10 = 0.1 10%
Total 10 1 100%

3. Tabla de Frecuencias con Datos Agrupados (Intervalos)

Para muchos datos diferentes, o datos continuos, se agrupan en *intervalos* o *clases*.

Ejemplo: Alturas (en cm) de 40 estudiantes (lista omitida por brevedad).

Intervalo de Altura (cm) Frecuencia (f)
150 - 159 5
160 - 169 12
170 - 179 15
180 - 189 8
Total 40

Consideraciones al agrupar en intervalos:

  • Intervalos del mismo tamaño (amplitud).
  • Intervalos no superpuestos.
  • Cubrir todos los datos (mínimo a máximo).
  • Entre 5 y 15 intervalos (regla práctica: raíz cuadrada del número de datos).

Preparación de Datos para el Cálculo de Medidas de Dispersión

Con los datos en tablas (especialmente de frecuencias), es más fácil calcular las medidas:

  • Rango: Valor máximo - valor mínimo (o límites de los intervalos).
  • Varianza y Desviación Estándar:
    • Datos sin agrupar: Usar la tabla para calcular la media y las desviaciones.
    • Datos agrupados: Usar el *punto medio* (marca de clase) de cada intervalo.

Interpretación Visual de la Dispersión: Histogramas y Diagramas de Caja

Histogramas

Un histograma (gráfico de barras "pegadas" para representar continuidad) muestra la distribución de frecuencias de la variable. Permite *estimar* visualmente la media y la desviación estándar.

Estimación de la Media:

  • "Punto de equilibrio" del histograma.
  • Simétrico: media en el centro.
  • Asimétrico (sesgado): media desplazada hacia la "cola".

Estimación de la Desviación Estándar:

  • Relacionada con el "ancho" del histograma.
    • Ancho y plano: *alta* desviación estándar (datos dispersos).
    • Estrecho y alto: *baja* desviación estándar (datos concentrados).
  • Regla Empírica (aproximada, solo para distribuciones aproximadamente normales):
    • Aprox. 68% de los datos: ±1 desviación estándar de la media.
    • Aprox. 95% de los datos: ±2 desviaciones estándar de la media.
    • Aprox. 99.7% de los datos: ±3 desviaciones estándar de la media.

    Ejemplo: Si el 95% de los datos está entre 50 y 70, la desviación estándar es aproximadamente (70-50)/(2*2) = 5.

    Advertencia: La regla empírica es solo una *aproximación* para distribuciones *aproximadamente normales*.

Ejemplos: 

Ejemplo 1: Histograma alto y estrecho, centrado en 80. Media ≈ 80, Desviación estándar pequeña.

Ejemplo 2: Histograma sesgado a la izquierda. Media > Mediana. Desviación estándar mayor que si fuera simétrico.



Ejemplo 3: Histograma ancho y plano, de 20 a 80. Media ≈ 50, Desviación estándar grande.

Diagramas de Caja (Boxplots)

 

Muestran un resumen de cinco números: mínimo, Q1 (primer cuartil), mediana, Q3 (tercer cuartil), máximo, y valores atípicos.

  • Mediana: Línea dentro de la caja.
  • Cuartiles (Q1 y Q3): Bordes de la caja. El 50% de los datos está *dentro* de la caja.
  • Rango Intercuartílico (IQR): Q3 - Q1. Medida de dispersión *resistente, es decir no se ve muy afectado por valores extremos como la desviacion estandar*.
  • Bigotes: Líneas desde la caja. Generalmente, hasta el máximo y mínimo de valores, siempre y cuando estos esten   a distancia maxima de 1.5 * IQR desde los cuartiles Q1 o Q3 respectivos.
  • Valores Atípicos: Puntos individuales fuera de los bigotes, por sobre 1.5 * IQR.

Estimación de la Desviación Estándar (aproximada, solo para distribuciones aproximadamente normales):

\[ \text{Desviación estándar} \approx \frac{IQR}{1.35} \]

Advertencia: Aproximación para distribuciones *aproximadamente normales*.

Ejemplo: Mediana = 60, Q1 = 50, Q3 = 70, Bigotes hasta 40 y 80, valor atípico en 95.

  • Mediana ≈ 60.
  • IQR = 70 - 50 = 20.
  • Si suponemos normalidad, Desviación estándar ≈ 20 / 1.35 ≈ 14.8.
  • Valor atípico: 95.

Comparación de Boxplots: Comparar el *ancho de las cajas* (IQR) y la *longitud de los bigotes*. Cajas más anchas y bigotes más largos indican mayor dispersión.

Ejemplo: 

 

📊 Similitudes:

  1. Mediana Común:

    • Los conjuntos j y k tienen la misma mediana (25), lo que indica una tendencia central similar en estos dos conjuntos de datos.
  2. Rango Similar:

    • Los conjuntos j y l tienen un rango de 30 unidades (40 - 10 y 55 - 25 respectivamente), lo que indica una dispersión similar en el rango completo de los datos.
  3. Rango Intercuartílico (IQR) Igual:

    • Tanto j como l tienen un IQR de 15 (30 - 15 y 45 - 30), mostrando una variabilidad similar en el 50% central de sus datos.
  4. Bigotes de Longitud Similar:

    • Los bigotes del conjunto j y l son simétricos y tienen aproximadamente la misma extensión, indicando una distribución equilibrada de los datos fuera del IQR.

📈 Diferencias:

Característica j k l
Rango (Máximo - Mínimo) 30 (10 a 40) 50 (5 a 55) 30 (25 a 55)
Rango Intercuartílico (IQR) 15 (15 a 30) 30 (15 a 45) 15 (30 a 45)
Asimetría Relativamente simétrico Asimetría a la derecha, ya que la mediana está cerca de Q1 Asimetría a la izquierda, con la mediana más cerca de Q3
Concentración de Datos Datos más bajos (10 a 40) Datos muy dispersos (5 a 55) Datos más altos (25 a 55)
Mediana 25 25 40
Extremos de Bigotes Mínimo en 10, Máximo en 40 Mínimo en 5, Máximo en 55 Mínimo en 25, Máximo en 55

🔍 Resumen de Diferencias:

  1. Dispersión:

    • k tiene la mayor dispersión general (mayor rango e IQR).
    • j y l tienen una dispersión similar en el rango total, pero con diferencias en la tendencia central.
  2. Ubicación de la Mediana:

    • j y k comparten la misma mediana (25), mientras que l tiene una mediana significativamente más alta (40).
  3. Distribución de los Datos:

    • j: Datos concentrados en la parte inferior del rango.
    • k: Gran dispersión con sesgo hacia la derecha.
    • l: Datos concentrados en la parte superior del rango con un sesgo a la izquierda.

🎯 Conclusión:

  • Si buscas consistencia, el conjunto j es el más estable.
  • Para mayor rango de datos y variabilidad, el conjunto k es el indicado.
  • Si prefieres valores más altos en general, el conjunto l es el mejor representante.

 

Ejercicios y Problemas

Ejercicio 1: Los siguientes datos son calificaciones de 20 estudiantes (escala de 0 a 10):

7, 8, 6, 5, 9, 7, 8, 10, 6, 7, 7, 8, 9, 5, 6, 8, 7, 4, 9, 7

  1. Organiza los datos en una tabla de frecuencias simple.
  2. Calcula la frecuencia relativa de cada calificación.

Ejercicio 2: Los siguientes datos son pesos (en kg) de 30 paquetes:

1.2, 1.5, 1.8, 2.1, 1.3, 1.6, 1.9, 2.0, 1.4, 1.7, 1.2, 1.5, 2.3, 1.8, 1.6, 1.4, 1.7, 2.0, 1.9, 1.3, 1.5, 1.8, 2.2, 1.7, 1.4, 1.6, 2.1, 1.9, 1.5, 1.8

  1. Agrupa los datos en intervalos de ancho 0.2 kg (comenzando en 1.2 kg).
  2. Construye una tabla de frecuencias con los intervalos.

Ejercicio 3: Observa los siguientes histogramas (descritos):

Histograma A: Simétrico, centrado en 50, la mayoría de los datos entre 40 y 60.

Histograma B: Sesgado a la derecha, con la mayor parte de los datos entre 20 y 40, y una cola larga hasta 80.

Histograma C: Ancho y plano, extendiéndose desde 10 hasta 90.

  1. ¿Qué histograma tiene la mayor media? ¿La menor?
  2. ¿Qué histograma tiene la mayor desviación estándar? ¿La menor?
  3. ¿Cuál histograma se aproxima más a una distribución normal?

Ejercicio 4: Observa los siguientes diagramas de caja (descritos):

Boxplot X: Mediana = 30, Q1 = 25, Q3 = 35, Bigotes hasta 20 y 40, sin valores atípicos.

Boxplot Y: Mediana = 30, Q1 = 20, Q3 = 40, Bigotes hasta 10 y 50, un valor atípico en 60.

  1. ¿Qué boxplot representa datos con mayor dispersión?
  2. ¿Cuál boxplot indica la presencia de un valor atípico?
  3. Estima la desviación estándar para cada boxplot (asumiendo normalidad).

Problema 1: Se realiza una encuesta sobre la cantidad de horas que 50 personas dedican a ver televisión por semana. Los resultados son:

X= horas viendo TV = {1, 2, 2, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9, 10, 10, 10, 11, 11, 11, 12, 12, 13, 13, 13, 15, 16, 17, 18, 20, 21, 23}

  1. Organiza los datos en una tabla de frecuencias con intervalos de ancho 5 horas ( comenzando en 0 horas).
  2. ¿Qué porcentaje de personas ve televisión entre 10 y 14 horas por semana?
  3. ¿Cuál es el intervalo con mayor frecuencia?

Problema 2: Se te presentan los siguientes datos sobre el tiempo de espera en dos consultorios médicos: [Insertar aquí un histograma y un boxplot para cada consultorio, o una descripción detallada de cada uno]. Basándote en la información visual de los gráficos, responde:

  Consultorio A
  
 
  Consultorio B
  1.        

  1.  
  2. ¿Qué consultorio tiene, en promedio, tiempos de espera más largos?
  3. ¿En qué consultorio los tiempos de espera son más variables?
  4. Si tuvieras prisa, ¿a qué consultorio irías? ¿Por qué?
  5. ¿Hay indicios de valores atípicos? De ser así, describe en que consiste.
  6. Un analista afirma que: "Como el consultorio A tiene una menor desviación estándar, entonces es *imposible* que un paciente tenga que esperar más tiempo en el consultorio A que en el consultorio B". ¿Es verdadera o falsa esta afirmación? Justifica tu respuesta.

© 2024 - Material de Apoyo