Los datos estan dispersos?

Sitio: PROFEARAUCO.CL
Curso: Media 3
Libro: Los datos estan dispersos?
Imprimido por: Invitado
Día: miércoles, 2 de julio de 2025, 21:54

1. Introducción a la Estadística y la Variabilidad

Introducción a la Estadística y la Variabilidad

¿Qué es la Estadística?

La estadística es la ciencia que recolecta, organiza, analiza, interpreta y presenta datos para obtener conclusiones y tomar decisiones. Es una herramienta fundamental en muchos campos.

Ejemplo 1: Un laboratorio analiza muestras de sangre para determinar la prevalencia de una enfermedad.

Ejemplo 2: Una encuestadora pregunta a personas sobre su intención de voto en las próximas elecciones.


Importancia de la Estadística

La estadística nos ayuda a entender el mundo, identificar patrones y evaluar la incertidumbre, mejorando la toma de decisiones.

Ejemplo 1: Un agricultor usa datos históricos de lluvia para decidir cuándo plantar sus cultivos.

Ejemplo 2: Una compañía de seguros analiza datos de accidentes para calcular las primas de los seguros.


Tipos de Datos

Los datos son la base de la estadística. Se clasifican en:

  • Cualitativos (o Categóricos): Características no numéricas.


    • Nominal: Categorías sin orden inherente.

      Ejemplo 1: Estado civil (soltero, casado, divorciado).

      Ejemplo 2: Marca de un automóvil (Toyota, Ford, Chevrolet).


    • Ordinal: Categorías con un orden significativo.

      Ejemplo 1: Nivel de educación (primaria, secundaria, universitaria).

      Ejemplo 2: Calificación de un servicio (excelente, bueno, regular, malo).


  • Cuantitativos (o Numéricos): Cantidades medibles.


    • Discretos: Valores enteros (generalmente, conteos).

      Ejemplo 1: Número de hijos en una familia.

      Ejemplo 2: Cantidad de errores en un examen.


    • Continuos: Cualquier valor en un rango.

      Ejemplo 1: Peso de una persona.

      Ejemplo 2: Longitud de un tornillo.


    • De Intervalo: Datos cuantitativos donde el cero es arbitrario (no indica ausencia).

      Ejemplo 1: Temperatura en grados Celsius o Fahrenheit (0°C no significa ausencia de temperatura).

      Ejemplo 2: Año de nacimiento.


    • De Razón: Datos cuantitativos donde el cero es absoluto (indica ausencia).

      Ejemplo 1: Ingreso mensual de una persona (0 pesos significa ausencia de ingresos).

      Ejemplo 2: Altura de un edificio (0 metros significa ausencia de altura).


Variabilidad o Dispersión

La variabilidad indica qué tan "esparcidos" están los datos respecto a un valor central.

Ejemplo 1: Edades de dos grupos:

  • Grupo A: 20, 21, 20, 19, 20
  • Grupo B: 5, 60, 15, 40, 20

El Grupo B tiene mayor variabilidad.

Ejemplo 2: Ventas diarias en dos tiendas:

  • Tienda A: $1000, $1050, $950, $1000, $1100
  • Tienda B: $500, $1500, $800, $1200, $1000

La Tienda B tiene mayor variabilidad.


Medidas de Tendencia Central

Dan una idea del "valor típico".

  • Media: Suma de valores dividida por la cantidad. \( \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \)


  • Ejemplo 1: \(Variable \ x = [1,3,5,7]\), media =\( \frac{1+3+5+7}{4} =4 \) 

  • Ejemplo 2\( Variable \ y = [100, 200,600]\), media = \( \frac{100+200+600}{3} =450 \)


  • Mediana: Valor central ordenado.


  • Ejemplo 1 (caso cantidad impar):    \( Variable \ x = [10, 50, 30, 40, 20], \underbrace{ \Rightarrow }_{ordenar} x = [10, 20, 30, 40, 50] \underbrace{ \Rightarrow }_{caso \ Impar \newline valor \newline central} Mediana= 30. \newline \color{brown}{ Nota: \ si \ n=5(Impar) \Rightarrow  valor \ central \Rightarrow  \frac{n}{2} + \frac{1}{2} = \frac{5}{2} + \frac{1}{2} = \frac{6}{2}=3°}  \)


  • Ejemplo 2 (caso cantidad par):    \( Variable \ y = [4, 8, 2, 6], \underbrace{ \Rightarrow }_{ordenar} y = [2, 4, 6, 8] \underbrace{ \Rightarrow }_{caso \ Par \newline promedio \newline centrales} Mediana =\frac{4+6}{2} = 5 \newline \color{brown}{ Nota: \ si \ n=4(par) \Rightarrow valor \ central \Rightarrow \begin{array}{lcr} promedio ( \frac{n}{2} \ ; \ \frac{n}{2}+1) \\ promedio ( \frac{4}{2} \ ; \ \frac{4}{2}+1) \\ promedio (2°; 3°) \end{array}} \)


  • Moda: Valor más frecuente.
  • Ejemplo 1: 2, 2, 3, 4, 5. Moda = 2.

  • Ejemplo 2: 1, 1, 2, 3, 3. Bimodal: 1 y 3.

(*Nota: Esto solo es un repaso.*)


Ejercicios y Problemas

Ejercicio 1: Clasifica los siguientes datos:

  1. Tipo de película favorita (comedia, drama, acción, etc.).
  2. Número de estudiantes ausentes en una clase.
  3. Temperatura máxima diaria en una ciudad.
  4. Nivel de acuerdo con una afirmación (totalmente en desacuerdo, en desacuerdo, neutral, de acuerdo, totalmente de acuerdo).
  5. Cantidad de dinero en una billetera.
  6. Año de fabricación de un auto.
  7. Peso de un paquete de arroz.
  8. Número de habitaciones en una casa.

Ejercicio 2:Observa la siguiente distribución de datos y responde:

          12 15 18 18 20 21 21 21 25 30
        
  1. Indica la media de la distribución.
  2. Identifica los valores que consideras que están en los "extremos" de la distribución.
  3. Identifica el sector donde consideras hay una mayor concentracion de datos.

Ejercicio 3: Para cada uno de los siguientes escenarios, proporciona un ejemplo de cada uno de los tipos de datos que se indican:

  • Cualitativo nominal
  • Cualitativo ordinal
  • Cuantitativo discreto
  • Cuantitativo continuo
  • Cuantitativo de intervalo
  • Cuantitativo de razón

    Los escenarios son:

  1. Escenario 1: Una encuesta en un supermercado.
  2. Escenario 2: El registro de pacientes en un consultorio médico.
  3. Escenario 3: La medición de la calidad del aire en una ciudad.

Problema 1: Dos equipos de baloncesto registran sus puntajes en los últimos 5 partidos:

Equipo A: 85, 90, 88, 92, 80

Equipo B: 75, 105, 80, 95, 85

  1. Calcula la media de los puntajes de cada equipo.
  2. Sin calcular la desviación estándar(pronto la aprenderemos), ¿qué equipo tiene mayor variabilidad en sus puntajes registrados? ¿Por qué?

Problema 2: Se registró el tiempo (en minutos) que tardaron 10 personas en completar una tarea:

25, 30, 28, 32, 27, 29, 31, 26, 33, 29

  1. Calcula la media, mediana y moda de los tiempos.
  2. ¿Qué medida de tendencia central describe mejor el "tiempo típico" para completar la tarea? Justifica.
  3. Si una persona adicional completa la tarea en 60 minutos, ¿cómo afectaría esto a la media, mediana y moda? ¿Cuál sería más afectada?

Problema 3: Se pregunta a un grupo de personas cuántos libros leyeron en el último año. Las respuestas son:

2, 0, 5, 1, 3, 2, 1, 0, 4, 6, 2, 3, 1, 0, 40

  1. Calcula la media, mediana y moda.
  2. ¿Cuál es más representativa de la cantidad de libros que leyó *la mayoría*? Justifica.
  3. ¿Hay valores atípicos? ¿Cómo afectan a la media?

© 2025 - Material de Apoyo para la Unidad de Estadística

2. Organización de Datos en Tablas e Interpretación Gráfica

Organización de Datos en Tablas e Interpretación Gráfica

Importancia de la Organización de Datos

Antes de calcular medidas de dispersión (rango, varianza, desviación estándar), es crucial organizar los datos de manera clara y sistemática. Las tablas son una herramienta esencial para esto. Además, la representación gráfica (histogramas y diagramas de caja) nos da una idea visual rápida de la distribución y dispersión de los datos.

Tipos de Tablas

1. Tabla de Datos Simple (o Lista de Datos)

La forma más básica es listar los datos. Adecuado para conjuntos pequeños.

Ejemplo: Alturas (cm) de 5 estudiantes: 160, 165, 170, 172, 168

Estudiante Altura (cm)
1 160
2 165
3 170
4 172
5 168

2. Tabla de Frecuencias

Para datos repetidos, una tabla de frecuencias es más eficiente. Muestra cada valor único y su *frecuencia* (cuántas veces aparece).

Ejemplo: Edades: 20, 22, 20, 21, 22, 20, 23, 22, 20, 21

Edad Frecuencia (f)
20 4
21 2
22 3
23 1
Total 10

Frecuencia Relativa: Frecuencia de un valor dividida por el total. Se expresa como fracción, decimal o porcentaje.

Edad Frecuencia (f) Frecuencia Relativa Frecuencia Relativa (%)
20 4 4/10 = 0.4 40%
21 2 2/10 = 0.2 20%
22 3 3/10 = 0.3 30%
23 1 1/10 = 0.1 10%
Total 10 1 100%

3. Tabla de Frecuencias con Datos Agrupados (Intervalos)

Para muchos datos diferentes, o datos continuos, se agrupan en *intervalos* o *clases*.

Ejemplo: Alturas (en cm) de 40 estudiantes (lista omitida por brevedad).

Intervalo de Altura (cm) Frecuencia (f)
150 - 159 5
160 - 169 12
170 - 179 15
180 - 189 8
Total 40

Consideraciones al agrupar en intervalos:

  • Intervalos del mismo tamaño (amplitud).
  • Intervalos no superpuestos.
  • Cubrir todos los datos (mínimo a máximo).
  • Entre 5 y 15 intervalos (regla práctica: raíz cuadrada del número de datos).

Preparación de Datos para el Cálculo de Medidas de Dispersión

Con los datos en tablas (especialmente de frecuencias), es más fácil calcular las medidas:

  • Rango: Valor máximo - valor mínimo (o límites de los intervalos).
  • Varianza y Desviación Estándar:
    • Datos sin agrupar: Usar la tabla para calcular la media y las desviaciones.
    • Datos agrupados: Usar el *punto medio* (marca de clase) de cada intervalo.

Interpretación Visual de la Dispersión: Histogramas y Diagramas de Caja

Histogramas

Un histograma (gráfico de barras "pegadas" para representar continuidad) muestra la distribución de frecuencias de la variable. Permite *estimar* visualmente la media y la desviación estándar.

Estimación de la Media:

  • "Punto de equilibrio" del histograma.
  • Simétrico: media en el centro.
  • Asimétrico (sesgado): media desplazada hacia la "cola".

Estimación de la Desviación Estándar:

  • Relacionada con el "ancho" del histograma.
    • Ancho y plano: *alta* desviación estándar (datos dispersos).
    • Estrecho y alto: *baja* desviación estándar (datos concentrados).
  • Regla Empírica (aproximada, solo para distribuciones aproximadamente normales):
    • Aprox. 68% de los datos: ±1 desviación estándar de la media.
    • Aprox. 95% de los datos: ±2 desviaciones estándar de la media.
    • Aprox. 99.7% de los datos: ±3 desviaciones estándar de la media.

    Ejemplo: Si el 95% de los datos está entre 50 y 70, la desviación estándar es aproximadamente (70-50)/(2*2) = 5.

    Advertencia: La regla empírica es solo una *aproximación* para distribuciones *aproximadamente normales*.

Ejemplos: 

Ejemplo 1: Histograma alto y estrecho, centrado en 80. Media ≈ 80, Desviación estándar pequeña.

Ejemplo 2: Histograma sesgado a la izquierda. Media > Mediana. Desviación estándar mayor que si fuera simétrico.



Ejemplo 3: Histograma ancho y plano, de 20 a 80. Media ≈ 50, Desviación estándar grande.

Diagramas de Caja (Boxplots)

 

Muestran un resumen de cinco números: mínimo, Q1 (primer cuartil), mediana, Q3 (tercer cuartil), máximo, y valores atípicos.

  • Mediana: Línea dentro de la caja.
  • Cuartiles (Q1 y Q3): Bordes de la caja. El 50% de los datos está *dentro* de la caja.
  • Rango Intercuartílico (IQR): Q3 - Q1. Medida de dispersión *resistente, es decir no se ve muy afectado por valores extremos como la desviacion estandar*.
  • Bigotes: Líneas desde la caja. Generalmente, hasta el máximo y mínimo de valores, siempre y cuando estos esten   a distancia maxima de 1.5 * IQR desde los cuartiles Q1 o Q3 respectivos.
  • Valores Atípicos: Puntos individuales fuera de los bigotes, por sobre 1.5 * IQR.

Estimación de la Desviación Estándar (aproximada, solo para distribuciones aproximadamente normales):

\[ \text{Desviación estándar} \approx \frac{IQR}{1.35} \]

Advertencia: Aproximación para distribuciones *aproximadamente normales*.

Ejemplo: Mediana = 60, Q1 = 50, Q3 = 70, Bigotes hasta 40 y 80, valor atípico en 95.

  • Mediana ≈ 60.
  • IQR = 70 - 50 = 20.
  • Si suponemos normalidad, Desviación estándar ≈ 20 / 1.35 ≈ 14.8.
  • Valor atípico: 95.

Comparación de Boxplots: Comparar el *ancho de las cajas* (IQR) y la *longitud de los bigotes*. Cajas más anchas y bigotes más largos indican mayor dispersión.

Ejemplo: 

 

📊 Similitudes:

  1. Mediana Común:

    • Los conjuntos j y k tienen la misma mediana (25), lo que indica una tendencia central similar en estos dos conjuntos de datos.
  2. Rango Similar:

    • Los conjuntos j y l tienen un rango de 30 unidades (40 - 10 y 55 - 25 respectivamente), lo que indica una dispersión similar en el rango completo de los datos.
  3. Rango Intercuartílico (IQR) Igual:

    • Tanto j como l tienen un IQR de 15 (30 - 15 y 45 - 30), mostrando una variabilidad similar en el 50% central de sus datos.
  4. Bigotes de Longitud Similar:

    • Los bigotes del conjunto j y l son simétricos y tienen aproximadamente la misma extensión, indicando una distribución equilibrada de los datos fuera del IQR.

📈 Diferencias:

Característica j k l
Rango (Máximo - Mínimo) 30 (10 a 40) 50 (5 a 55) 30 (25 a 55)
Rango Intercuartílico (IQR) 15 (15 a 30) 30 (15 a 45) 15 (30 a 45)
Asimetría Relativamente simétrico Asimetría a la derecha, ya que la mediana está cerca de Q1 Asimetría a la izquierda, con la mediana más cerca de Q3
Concentración de Datos Datos más bajos (10 a 40) Datos muy dispersos (5 a 55) Datos más altos (25 a 55)
Mediana 25 25 40
Extremos de Bigotes Mínimo en 10, Máximo en 40 Mínimo en 5, Máximo en 55 Mínimo en 25, Máximo en 55

🔍 Resumen de Diferencias:

  1. Dispersión:

    • k tiene la mayor dispersión general (mayor rango e IQR).
    • j y l tienen una dispersión similar en el rango total, pero con diferencias en la tendencia central.
  2. Ubicación de la Mediana:

    • j y k comparten la misma mediana (25), mientras que l tiene una mediana significativamente más alta (40).
  3. Distribución de los Datos:

    • j: Datos concentrados en la parte inferior del rango.
    • k: Gran dispersión con sesgo hacia la derecha.
    • l: Datos concentrados en la parte superior del rango con un sesgo a la izquierda.

🎯 Conclusión:

  • Si buscas consistencia, el conjunto j es el más estable.
  • Para mayor rango de datos y variabilidad, el conjunto k es el indicado.
  • Si prefieres valores más altos en general, el conjunto l es el mejor representante.

 

Ejercicios y Problemas

Ejercicio 1: Los siguientes datos son calificaciones de 20 estudiantes (escala de 0 a 10):

7, 8, 6, 5, 9, 7, 8, 10, 6, 7, 7, 8, 9, 5, 6, 8, 7, 4, 9, 7

  1. Organiza los datos en una tabla de frecuencias simple.
  2. Calcula la frecuencia relativa de cada calificación.

Ejercicio 2: Los siguientes datos son pesos (en kg) de 30 paquetes:

1.2, 1.5, 1.8, 2.1, 1.3, 1.6, 1.9, 2.0, 1.4, 1.7, 1.2, 1.5, 2.3, 1.8, 1.6, 1.4, 1.7, 2.0, 1.9, 1.3, 1.5, 1.8, 2.2, 1.7, 1.4, 1.6, 2.1, 1.9, 1.5, 1.8

  1. Agrupa los datos en intervalos de ancho 0.2 kg (comenzando en 1.2 kg).
  2. Construye una tabla de frecuencias con los intervalos.

Ejercicio 3: Observa los siguientes histogramas (descritos):

Histograma A: Simétrico, centrado en 50, la mayoría de los datos entre 40 y 60.

Histograma B: Sesgado a la derecha, con la mayor parte de los datos entre 20 y 40, y una cola larga hasta 80.

Histograma C: Ancho y plano, extendiéndose desde 10 hasta 90.

  1. ¿Qué histograma tiene la mayor media? ¿La menor?
  2. ¿Qué histograma tiene la mayor desviación estándar? ¿La menor?
  3. ¿Cuál histograma se aproxima más a una distribución normal?

Ejercicio 4: Observa los siguientes diagramas de caja (descritos):

Boxplot X: Mediana = 30, Q1 = 25, Q3 = 35, Bigotes hasta 20 y 40, sin valores atípicos.

Boxplot Y: Mediana = 30, Q1 = 20, Q3 = 40, Bigotes hasta 10 y 50, un valor atípico en 60.

  1. ¿Qué boxplot representa datos con mayor dispersión?
  2. ¿Cuál boxplot indica la presencia de un valor atípico?
  3. Estima la desviación estándar para cada boxplot (asumiendo normalidad).

Problema 1: Se realiza una encuesta sobre la cantidad de horas que 50 personas dedican a ver televisión por semana. Los resultados son:

X= horas viendo TV = {1, 2, 2, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9, 10, 10, 10, 11, 11, 11, 12, 12, 13, 13, 13, 15, 16, 17, 18, 20, 21, 23}

  1. Organiza los datos en una tabla de frecuencias con intervalos de ancho 5 horas ( comenzando en 0 horas).
  2. ¿Qué porcentaje de personas ve televisión entre 10 y 14 horas por semana?
  3. ¿Cuál es el intervalo con mayor frecuencia?

Problema 2: Se te presentan los siguientes datos sobre el tiempo de espera en dos consultorios médicos: [Insertar aquí un histograma y un boxplot para cada consultorio, o una descripción detallada de cada uno]. Basándote en la información visual de los gráficos, responde:

  Consultorio A
  
 
  Consultorio B
  1.        

  1.  
  2. ¿Qué consultorio tiene, en promedio, tiempos de espera más largos?
  3. ¿En qué consultorio los tiempos de espera son más variables?
  4. Si tuvieras prisa, ¿a qué consultorio irías? ¿Por qué?
  5. ¿Hay indicios de valores atípicos? De ser así, describe en que consiste.
  6. Un analista afirma que: "Como el consultorio A tiene una menor desviación estándar, entonces es *imposible* que un paciente tenga que esperar más tiempo en el consultorio A que en el consultorio B". ¿Es verdadera o falsa esta afirmación? Justifica tu respuesta.

© 2024 - Material de Apoyo

3. Medidas de Dispersión: Rango, Varianza y Desviación Estándar

Medidas de Dispersión: Rango, Varianza y Desviación Estándar

Repaso: ¿Qué es la Dispersión?

La dispersión (o variabilidad) indica qué tan "esparcidos" están los datos alrededor de un valor central (como la media). Alta dispersión significa datos muy alejados; baja dispersión, datos agrupados cerca de la media.

El Rango

Definición y Fórmula

El rango es la medida de dispersión más simple: la diferencia entre el valor máximo y el mínimo.

Fórmula:

\[ \Large  \color{blue}{\boxed{Rango = Valor Máximo - Valor Mínimo }} \]

Ejemplos

Ejemplo 1: Datos: 5, 8, 10, 12, 15. Rango = 15 - 5 = 10

Ejemplo 2: Datos: 23, 23, 24, 25, 26. Rango = 26 - 23 = 3

Ventajas y Desventajas

  • Ventajas: Fácil de calcular y entender. Da una idea rápida de la extensión total.
  • Desventajas: Muy sensible a valores extremos. No usa toda la información. No indica la distribución.

La Varianza

Concepto

La varianza es una medida de dispersión que indica qué tan lejos están los datos de la media *al cuadrado*. Es un paso intermedio para calcular la desviación estándar, y aunque no es tan intuitiva de interpretar directamente como la desviación estándar, es fundamental en muchos cálculos estadísticos más avanzados.

Cálculo Paso a Paso (Manual)

Ejemplo: Datos: 2, 4, 6, 8, 10

  1. Calcular la media (\(\bar{x}\)): \[ \bar{x} = \frac{2 + 4 + 6 + 8 + 10}{5} = 6 \]
  2. Calcular las desviaciones (restar la media a cada dato):
    • 2 - 6 = -4
    • 4 - 6 = -2
    • 6 - 6 = 0
    • 8 - 6 = 2
    • 10 - 6 = 4
  3. Elevar al cuadrado cada desviación:
    • (-4)² = 16
    • (-2)² = 4
    • (0)² = 0
    • (2)² = 4
    • (4)² = 16
  4. Sumar los cuadrados de las desviaciones: 16 + 4 + 0 + 4 + 16 = 40
  5. Dividir por n (población) o n-1 (muestra):
    • Muestra (n-1): 40 / (5-1) = 10 (Varianza muestral, \(s^2\))
    • Población ( n ): 40 / 5 = 8 (Varianza poblacional, \(\sigma^2\))



En la practica usamos tablas 

En la práctica, para calcular la varianza de un conjunto de datos de manera más organizada y eficiente, se recomienda utilizar una tabla. Esta tabla nos permitirá visualizar claramente cada paso del proceso, desde el cálculo de la media hasta la obtención de la varianza final


Ejemplo anterior:

Datos: 2, 4, 6, 8, 10

1°. Calculamos la media (x̄)
  • Sumamos todos los datos: 2 + 4 + 6 + 8 + 10 = 30
  • Dividimos la suma por el número total de datos (5): 30 / 5 = 6
  • La media (x̄) es 6
2°. Llenamos la primera columna (xi)

Anotamos cada uno de los datos originales en la primera columna:

xi Media (x̄) xi - x̄ (xi - x̄)²
2
4
6
8
10

3°. Llenamos la segunda columna (Media x̄)(columna opcional)

Escribimos la media (6) en cada fila de la segunda columna:

xi Media (x̄) xi - x̄ (xi - x̄)²
2 6
4 6
6 6
8 6
10 6

4°. Llenamos la tercera columna (xi - x̄)

Restamos la media (6) a cada dato (xi) y anotamos los resultados en la tercera columna:

xi Media (x̄) xi - x̄ (xi - x̄)²
2 6 -4
4 6 -2
6 6 0
8 6 2
10 6 4

5°. Llenamos la cuarta columna ((xi - x̄)²)

Elevamos al cuadrado cada valor de la tercera columna y lo anotamos en la cuarta columna:

xi Media (x̄) xi - x̄ (xi - x̄)²
2 6 -4 16
4 6 -2 4
6 6 0 0
8 6 2 4
10 6 4 16

6°. Sumamos los cuadrados de las desviaciones

Sumamos todos los valores de la cuarta columna: 16 + 4 + 0 + 4 + 16 = 40

xi Media (x̄) xi - x̄ (xi - x̄)²
2 6 -4 16
4 6 -2 4
6 6 0 0
8 6 2 4
10 6 4 16
40

7. Dividimos por n (población) o n-1 (muestra)

Muestra (n-1): 40 / (5 - 1) = 10 (Varianza muestral, s²)

Población ( n ): 40 / 5 = 8 (Varianza poblacional, σ²)



Fórmula (Muestra):

\[ \Large \color{blue}{\boxed{    s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}         }} \]

Fórmula (Población): 

\[ \Large \color{blue}{\boxed{     \sigma^2 = \frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}         }} \]

Donde:

  • \(s^2\) es la varianza muestral.
  • \(\sigma^2\) es la varianza poblacional.
  • \(x_i\) son los valores individuales.
  • \(\bar{x}\) es la media muestral.
  • \(\mu\) es la media poblacional.
  • \(n\) es el número de datos.
  • \(\sum\) es "suma de".

Interpretación

  • Una varianza de 0 indica que todos los datos son idénticos a la media.
  • Cuanto mayor sea la varianza, mayor será la dispersión de los datos.
  • La varianza por sí sola no es tan fácil de interpretar directamente como la desviación estándar, porque está en unidades cuadradas.

Desviación Típica (o Estándar)

Concepto y Relación con la Varianza

La desviación típica (o estándar) es la raíz cuadrada de la varianza. Es la medida de dispersión más utilizada porque es más fácil de interpretar que la varianza, ya que está en las mismas unidades que los datos originales.

Cálculo

Simplemente se calcula la raíz cuadrada de la varianza:

Fórmula (Muestra): \[ \Large \color{blue}{\boxed{ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}} }} \]

Fórmula (Población): \[ \Large \color{blue}{\boxed{ \sigma = \sqrt{\sigma^2} = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}} }} \]

Ejemplo (continuación del anterior):

  • Si usamos la varianza muestral (10): \( s = \sqrt{10} \approx 3.16 \)
  • Si usamos la varianza poblacional (8): \( \sigma = \sqrt{8} \approx 2.83 \)

Uso de Calculadora

Las calculadoras y hojas de cálculo tienen funciones para calcular la desviación estándar directamente: `STDEV.S` (muestra) o `STDEV.P` (población) en hojas de cálculo, o las teclas `s` o `σ` en calculadoras.

Interpretación

Ejemplo: Si la media de las alturas es 170 cm y la desviación estándar es 5 cm, significa que, en promedio, las alturas se desvían aproximadamente 5 cm de la media.

  • Desviación estándar baja: Datos agrupados cerca de la media.
  • Desviación estándar alta: Datos más dispersos.

Ejercicios y Problemas

Ejercicio 1: Calcula el rango de los siguientes conjuntos de datos:

  1. 50, 60, 70, 80, 90
  2. 1, 3, 2, 7, 5, 4
  3. 120, 125, 118, 122, 124

Ejercicio 2: Calcula la varianza (muestral) de los siguientes datos, paso a paso (manualmente): 3, 5, 7, 9, 11

Ejercicio 3: Calcula la desviación típica (muestral) de los datos del Ejercicio 2. Comprueba tu resultado usando una calculadora o software.

Problema 1: Las edades de dos grupos de amigos son:

Grupo A: 18, 19, 20, 21, 22

Grupo B: 15, 20, 18, 25, 17

  1. Calcula la media, el rango, la varianza y la desviación típica (muestral) para cada grupo.
  2. ¿Qué grupo tiene edades más homogéneas (menos dispersas)? ¿Cómo lo sabes?

Problema 2: Se mide la longitud (en cm) de 10 tornillos producidos por una máquina:

5.0, 5.1, 4.9, 5.2, 5.0, 4.8, 5.1, 5.3, 4.9, 5.0

  1. Calcula la media, la varianza y la desviación típica (muestral) de las longitudes.
  2. Si la longitud ideal es 5.0 cm, y se consideran aceptables los tornillos con una longitud dentro de una desviación típica de la media, ¿qué rango de longitudes se considera aceptable?
  3. ¿Cuántos de los tornillos medidos están dentro del rango aceptable?

© 2025 - Material de Apoyo

4. Interpretación y Comparación con Medidas de Dispersión

Interpretación y Comparación con Medidas de Dispersión

Repaso: Medidas de Dispersión

Recordemos que las medidas de dispersión (rango, varianza, desviación estándar) nos indican qué tan "esparcidos" o "concentrados" están los datos alrededor de la media. Son fundamentales para comprender la variabilidad de un conjunto de datos.

Interpretación Conjunta de Media y Desviación Estándar

La media y la desviación estándar se interpretan *juntas* para tener una idea completa de la distribución de los datos. La media nos da el "centro" y la desviación estándar nos dice qué tan "anchos" son los datos alrededor de ese centro.

Ejemplo:

  • Conjunto A: Media = 50, Desviación estándar = 5
  • Conjunto B: Media = 50, Desviación estándar = 15

Ambos conjuntos tienen la misma media (50), pero el Conjunto B tiene una desviación estándar mucho mayor. Esto significa que:

  • En el Conjunto A, la mayoría de los datos estarán relativamente cerca de 50 (probablemente entre 45 y 55, o entre 40 y 60, si consideramos dos desviaciones estándar).
  • En el Conjunto B, los datos estarán mucho más dispersos. Es más probable encontrar valores significativamente más alejados de 50 (por ejemplo, valores por debajo de 35 o por encima de 65).

Comparación de Conjuntos de Datos

Podemos usar la media y la desviación estándar para comparar diferentes conjuntos de datos, incluso si tienen unidades diferentes (aunque en ese caso, es mejor usar el coeficiente de variación, que veremos más adelante).

Ejemplo (mismas unidades): Dos clases rinden el mismo examen:

  • Clase X: Media = 75, Desviación estándar = 8
  • Clase Y: Media = 75, Desviación estándar = 3

Conclusión: Ambas clases tienen el mismo promedio, pero la Clase Y tiene notas mucho más homogéneas (menos dispersas) que la Clase X.

Ejemplo (contexto diferente): Edades de dos grupos:

  • Grupo P: Media = 25 años, Desviación estándar = 2 años
  • Grupo Q: Media = 60 años, Desviación estándar = 10 años

Conclusión: Grupo P son más jovenes que el grupo Q, y además las edades del grupo P son mas homogeneas que el grupo Q

Diagramas de Caja y Bigotes (Boxplots) 

Los diagramas de caja y bigotes (boxplots) son una forma visual de representar la dispersión de un conjunto de datos. No vamos a entrar en detalle sobre cómo construirlos, pero es importante saber *interpretarlos*.

Un boxplot muestra:

  • Mediana: Una línea dentro de la caja.
  • Cuartiles (Q1 y Q3): Los bordes de la caja. El 50% de los datos está *dentro* de la caja (entre Q1 y Q3). Este rango se llama *rango intercuartílico* (IQR).
  • "Bigotes": Líneas que se extienden desde la caja hasta los valores máximo y mínimo *dentro de un cierto rango* (generalmente, 1.5 veces el IQR).
  • Valores Atípicos (Outliers): Puntos individuales que se muestran *fuera* de los bigotes. Son valores inusualmente altos o bajos.

Ejemplo:


Lectura de la imagen

  • La mediana está en 60.
  • El primer cuartil (Q1) está en 55.
  • El tercer cuartil (Q3) está en 65.
  • Los "bigotes" se extienden hasta 50 y 70.
  • Hay un punto atípico en 85.

Interpretación:

  • El valor "típico" de los datos es alrededor de 60 (la mediana).
  • El 50% central de los datos está entre 55 y 65.
  • La mayoría de los datos están entre 50 y 70.
  • Hay un valor inusualmente alto (85) que se considera un valor atípico.

Valores Atípicos (Outliers)

Identificación (Regla General)

Una regla general para identificar valores atípicos es la regla del "1.5 veces el IQR":

  1. Calcula el Rango Intercuartílico (IQR) = Q3 - Q1.
  2. Calcula los "límites":
    • Límite inferior = Q1 - 1.5 * IQR
    • Límite superior = Q3 + 1.5 * IQR
  3. Cualquier valor *fuera* de estos límites se considera un valor atípico.

Ejemplo:

Datos: 2, 3, 5, 7, 8, 9, 10, 12, 15, 25

  1. Q1 = 4 (mediana de la primera mitad de los datos)
  2. Q3 = 11 (mediana de la segunda mitad de los datos)
  3. IQR = 11-4=7
  4. Límite inferior: 4 - 1.5 * 7 = -6.5
  5. Límite superior: 11 + 1.5 * 7 = 21.5

El valor 25 es un valor atípico, ya que es mayor que 21.5

Importancia

Los valores atípicos pueden deberse a errores de medición, errores de registro, o pueden ser valores válidos pero inusuales. Es importante identificarlos porque:

  • Pueden distorsionar las medidas de tendencia central (especialmente la media) y las medidas de dispersión.
  • Pueden indicar información importante sobre el proceso o fenómeno que se está estudiando.

No siempre se deben eliminar los valores atípicos. Hay que investigarlos y decidir si se eliminan, se corrigen o se mantienen, según el contexto.

Ejercicios y Problemas

Ejercicio 1: Dados los siguientes conjuntos de datos, interpreta la media y la desviación estándar en términos de la dispersión de los datos:

  1. Conjunto X: Media = 10, Desviación estándar = 2
  2. Conjunto Y: Media = 10, Desviación estándar = 8
  3. Conjunto Z: Media = 100, Desviación estándar = 10

Ejercicio 2: Dados los siguientes boxplots (Diagramas de caja y bigotes)


Boxplot A:


Boxplot B:


  1. ¿Qué boxplot representa datos con mayor dispersión?
  2. ¿Cuál boxplot indica la presencia de un valor atípico?

Ejercicio 3: Para el siguiente conjunto de datos, identifica si hay valores atípicos utilizando la regla del 1.5 * IQR:

1, 3, 5, 7, 8, 9, 10, 12, 14, 30

Problema 1: Dos empresas, A y B, fabrican bombillas. Se prueban muestras de bombillas de cada empresa y se registra su duración (en horas):

Empresa A: Media = 1000 horas, Desviación estándar = 50 horas

Empresa B: Media = 1000 horas, Desviación estándar = 150 horas

  1. ¿Qué empresa produce bombillas con una duración más consistente (menos variable)?
  2. Si quieres comprar bombillas que duren *alrededor* de 1000 horas, ¿qué empresa elegirías? ¿Por qué?
  3. Si necesitas buscar bombillas que duren mas de 1100 horas, ¿qué empresa elegirías? ¿Por qué?

Problema 2: Se registran las alturas (en cm) de los estudiantes de dos clases:

Clase 1: 160, 165, 170, 175, 180

Clase 2: 150, 160, 170, 180, 190

  1. Calcula la media y la desviación estándar (muestral) para cada clase.
  2. ¿Qué clase tiene mayor variabilidad en las alturas?
  3. Si se agrega un estudiante de 200 cm a la Clase 1, ¿cómo afectaría esto a la media y a la desviación estándar? ¿Y si se agrega a la Clase 2?

© 2025 - Material de Apoyo

5. Aplicaciones y Toma de Decisiones con Medidas de Dispersión

Aplicaciones y Toma de Decisiones con Medidas de Dispersión

Repaso: Media y Desviación Estándar

La media nos da un "valor central" o "promedio" de un conjunto de datos. La desviación estándar nos indica qué tan dispersos están los datos alrededor de esa media.

Aplicaciones en Diversos Campos

1. Control de Calidad

En la fabricación de productos, la desviación estándar es crucial para asegurar que los productos cumplan con las especificaciones. Una desviación estándar baja indica que los productos son muy similares entre sí (lo cual suele ser deseable).

Ejemplo: Una fábrica de tornillos quiere que los tornillos tengan una longitud de 5 cm. Si la desviación estándar de las longitudes es muy alta, significa que hay muchos tornillos significativamente más largos o más cortos que 5 cm, lo cual es inaceptable.

2. Finanzas y Riesgo

En finanzas, la desviación estándar se usa como una medida de *riesgo* o *volatilidad*. Una inversión con una desviación estándar alta en sus rendimientos es más riesgosa (pero también tiene el potencial de mayores ganancias o pérdidas).

Ejemplo:

  • Acción A: Rendimiento promedio anual = 8%, Desviación estándar = 2%
  • Acción B: Rendimiento promedio anual = 8%, Desviación estándar = 10%

La Acción B es mucho más volátil que la Acción A. Aunque ambas tienen el mismo rendimiento promedio, los rendimientos de la Acción B varían mucho más de un año a otro.

3. Medicina y Salud

Las medidas de dispersión se usan para analizar datos de salud, como la presión arterial, el colesterol, el peso, etc. Ayudan a identificar valores atípicos (que podrían indicar una enfermedad) y a evaluar la efectividad de tratamientos.

Ejemplo: Si la desviación estándar de la presión arterial en un grupo de pacientes es muy alta, podría indicar que algunos pacientes tienen presión arterial muy alta o muy baja, lo cual requiere atención médica.

4. Educación

En educación, las medidas de dispersión ayudan a comprender la variabilidad en el rendimiento de los estudiantes. Una desviación estándar alta en las calificaciones de un examen podría indicar que el examen fue demasiado difícil o que hay grandes diferencias en el nivel de comprensión de los estudiantes.

Ejemplo: Un profesor que encuentra una alta desviación estándar en las calificaciones de un examen podría decidir revisar el material con más detalle o ajustar su método de enseñanza.

5. Deportes

En deportes, se usan para analizar el rendimiento de los atletas. Por ejemplo, la consistencia en los tiempos de un corredor o en los puntajes de un golfista se puede evaluar con la desviación estándar.

Ejemplo: Un golfista con una baja desviación estándar en sus puntajes es más consistente que un golfista con una alta desviación estándar, incluso si ambos tienen el mismo puntaje promedio.

Limitaciones de las Medidas de Dispersión

  • Sensibilidad a Valores Extremos: El rango y, en menor medida, la desviación estándar, pueden verse muy afectados por valores atípicos.
  • No Describen la Forma de la Distribución: Las medidas de dispersión no nos dicen si la distribución de los datos es simétrica, sesgada, bimodal, etc. Dos conjuntos de datos pueden tener la misma media y desviación estándar, pero tener formas muy diferentes.
  • Interpretación Relativa: La "importancia" de una desviación estándar depende del contexto y de la magnitud de la media. Una desviación estándar de 10 es grande si la media es 20, pero pequeña si la media es 1000. (Para esto sirve el *coeficiente de variación*, que se calcula como Desviación Estándar / Media).

Importancia del Contexto

Siempre es fundamental interpretar las medidas de dispersión *en el contexto* de los datos. No hay reglas universales para decir si una desviación estándar es "alta" o "baja". Depende de lo que se esté midiendo y de las implicaciones prácticas de la variabilidad.

Introducción a la Significancia Estadística (Concepto General)

En estadística, a menudo queremos saber si una diferencia observada entre dos grupos (por ejemplo, en sus medias o desviaciones estándar) es "real" o simplemente se debe al azar. La *significancia estadística* nos ayuda a evaluar esto.

Ejemplo (sin entrar en detalles técnicos): Si comparamos las alturas promedio de hombres y mujeres, es probable que encontremos una diferencia. La pregunta es: ¿Esta diferencia es lo suficientemente grande como para ser considerada "estadísticamente significativa", o podría deberse simplemente a la variación aleatoria dentro de cada grupo?

Nota: No vamos a entrar en cálculos de significancia estadística en esta página, pero es importante que los estudiantes sepan que este concepto existe y que es fundamental en la investigación científica.

Ejercicios y Problemas

Ejercicio 1: Imagina que eres un inversor y tienes que elegir entre dos fondos de inversión. Ambos fondos tienen un rendimiento promedio del 10% anual. El Fondo A tiene una desviación estándar del 5% y el Fondo B tiene una desviación estándar del 15%. ¿Qué fondo elegirías si:

  1. Eres averso al riesgo (prefieres la seguridad).
  2. Estás dispuesto a asumir más riesgo a cambio de la posibilidad de mayores ganancias.

Ejercicio 2: Un profesor califica dos exámenes. En el Examen 1, la media es 70 y la desviación estándar es 10. En el Examen 2, la media es 70 y la desviación estándar es 2. ¿Qué examen tuvo resultados más homogéneos? ¿Qué implicaciones podría tener esto para el profesor?

Problema 1: Una empresa fabrica dos tipos de baterías, A y B. Se prueban muestras de cada tipo y se mide su duración (en horas):

Batería A: Media = 40 horas, Desviación estándar = 5 horas

Batería B: Media = 50 horas, Desviación estándar = 10 horas

  1. ¿Qué tipo de batería dura más, en promedio?
  2. ¿Qué tipo de batería tiene una duración más consistente?
  3. Si necesitas una batería que dure *al menos* 30 horas, ¿cuál elegirías? ¿Por qué?
  4. Si necesitas una batería que dure *alrededor* de 45 horas, ¿cuál elegirías? ¿Por qué?

Problema 2: Se miden las alturas (en cm) de los jugadores de dos equipos de baloncesto:

Equipo X: 190, 192, 195, 198, 200

Equipo Y: 180, 185, 195, 205, 210

  1. Calcula la media y la desviación estándar (muestral) para cada equipo.
  2. ¿Qué equipo tiene jugadores con alturas más similares entre sí?
  3. Un nuevo jugador se une al Equipo X. Su altura es de 220 cm. ¿Cómo afecta esto a la media y a la desviación estándar del Equipo X?

© 2025 - Material de Apoyo

6. Cálculo de Varianza y Desviación Estándar para Datos Agrupados

Cálculo de Varianza y Desviación Estándar para Datos Agrupados

Cálculo de Varianza y Desviación Estándar para Datos Agrupados

Repaso

La varianza (\(s^2\) o \(\sigma^2\)) y la desviación estándar (\(s\) o \(\sigma\)) miden la dispersión. Para datos agrupados, usamos fórmulas específicas.

Marca de Clase (\(x_i\))

Usamos la marca de clase (punto medio) como representante de cada intervalo:

Fórmula: \( x_i = \frac{\text{Límite Inferior} + \text{Límite Superior}}{2} \)

Fórmulas (Datos Agrupados)

Media (muestral): \[ \bar{x} = \frac{\sum f_i \cdot x_i}{n} \]

Varianza (muestra): \[ s^2 = \frac{\sum f_i (x_i - \bar{x})^2}{n-1} \]

Desviación Estándar (muestra): \[ s = \sqrt{s^2} \]

Varianza (población): \[ \sigma^2 = \frac{\sum f_i (x_i - \mu)^2}{n} \]

Desviación Estándar (población): \[ \sigma = \sqrt{\sigma^2} \]

(Ver página anterior para la definición de cada símbolo).

Cálculo Paso a Paso (Ejemplo)

Datos: Alturas (cm) de 40 estudiantes:

Intervalo (cm)Frecuencia (f)
150 - 1595
160 - 16912
170 - 17915
180 - 1898
Total40

Tabla de Cálculo (iremos completándola paso a paso):

Intervalo\(x_i\)\(f_i\)\(f_i \cdot x_i\)\(x_i - \bar{x}\)\((x_i - \bar{x})^2\)\(f_i(x_i - \bar{x})^2\)
150 - 1595
160 - 16912
170 - 17915
180 - 1898
Total40
  1. Calcular la marca de clase (\(x_i\)):

    Completamos la columna \(x_i\) de la tabla:

    Intervalo\(x_i\)\(f_i\)\(f_i \cdot x_i\)\(x_i - \bar{x}\)\((x_i - \bar{x})^2\)\(f_i(x_i - \bar{x})^2\)
    150 - 159154.55
    160 - 169164.512
    170 - 179174.515
    180 - 189184.58
    Total40
  2. Calcular la media ponderada (\(\bar{x}\)):

    Completamos la columna \(f_i \cdot x_i\) y calculamos la media:

    Intervalo\(x_i\)\(f_i\)\(f_i \cdot x_i\)\(x_i - \bar{x}\)\((x_i - \bar{x})^2\)\(f_i(x_i - \bar{x})^2\)
    150 - 159154.55772.5
    160 - 169164.5121974
    170 - 179174.5152617.5
    180 - 189184.581476
    Total406840
    \[ \bar{x} = \frac{6840}{40} = 171 \]
  3. Calcular las desviaciones (\(x_i - \bar{x}\)):

    Completamos la columna \(x_i - \bar{x}\):

    Intervalo\(x_i\)\(f_i\)\(f_i \cdot x_i\)\(x_i - \bar{x}\)\((x_i - \bar{x})^2\)\(f_i(x_i - \bar{x})^2\)
    150 - 159154.55772.5-16.5
    160 - 169164.5121974-6.5
    170 - 179174.5152617.53.5
    180 - 189184.58147613.5
    Total406840
  4. Elevar al cuadrado las desviaciones (\((x_i - \bar{x})^2\)):

    Completamos la columna \((x_i - \bar{x})^2\):

    Intervalo\(x_i\)\(f_i\)\(f_i \cdot x_i\)\(x_i - \bar{x}\)\((x_i - \bar{x})^2\)\(f_i(x_i - \bar{x})^2\)
    150 - 159154.55772.5-16.5272.25
    160 - 169164.5121974-6.542.25
    170 - 179174.5152617.53.512.25
    180 - 189184.58147613.5182.25
    Total406840
  5. Multiplicar por la frecuencia y sumar (\(\sum f_i(x_i - \bar{x})^2\)):

    Completamos la última columna y sumamos:

    Intervalo\(x_i\)\(f_i\)\(f_i \cdot x_i\)\(x_i - \bar{x}\)\((x_i - \bar{x})^2\)\(f_i(x_i - \bar{x})^2\)
    150 - 159154.55772.5-16.5272.251361.25
    160 - 169164.5121974-6.542.25507
    170 - 179174.5152617.53.512.25183.75
    180 - 189184.58147613.5182.251458
    Total4068403510
  6. Dividir por n-1 (muestra) o n (población) para obtener la varianza:

    Usaremos n-1 (muestra):

    Varianza (\(s^2\)) = 3510 / (40 - 1) = 3510 / 39 ≈ 90
  7. Calcular la raíz cuadrada de la varianza para la desviación estándar: Desviación Estándar (\(s\)) = \(\sqrt{90} \approx 9.49\) cm

Resultado: Varianza muestral ≈ 90 cm², Desviación estándar muestral ≈ 9.49 cm.

Uso de Calculadora/Software

Las calculadoras y hojas de cálculo pueden calcular la desviación estándar para datos agrupados, pero es importante entender el proceso manual.

Ejercicios y Problemas

Ejercicio 1: La siguiente tabla muestra la distribución de edades de los empleados de una empresa:

Edad (años)Frecuencia
20 - 2910
30 - 3915
40 - 4912
50 - 598
60 - 695
  1. Completa la tabla con todos los pasos para calcular la varianza y desviación estándar muestrales y calcula estos.

Problema 1: Se realiza un estudio sobre el tiempo (en minutos) que tardan los clientes en ser atendidos en dos sucursales de un banco:

Sucursal A:

Tiempo (min)Frecuencia
0 - 410
5 - 915
10 - 148
15 - 195
20 - 242

Sucursal B:

Tiempo (min)Frecuencia
0 - 45
5 - 910
10 - 1415
15 - 1912
20 - 248
  1. Calcula la media y la desviación estándar (muestral) para cada sucursal, usando una sola tabla para cada sucursal con todos los pasos.
  2. ¿En qué sucursal los tiempos de atención son más consistentes (menos variables)?
  3. ¿En qué sucursal es más probable que un cliente tenga que esperar más de 15 minutos?

© 2024 - Material de Apoyo

7. Coeficiente de Variación

Coeficiente de Variación (CV)

¿Por qué necesitamos otra medida de dispersión?

Hemos visto que la desviación estándar mide la dispersión *absoluta* de los datos alrededor de la media. Pero, ¿qué pasa si queremos comparar la variabilidad entre conjuntos de datos que tienen unidades diferentes o medias muy distintas? Ahí es donde entra en juego el Coeficiente de Variación (CV).

Definición y Fórmula

El Coeficiente de Variación (CV) es una medida de dispersión relativa. Expresa la desviación estándar como un porcentaje de la media. Esto nos permite comparar la variabilidad entre conjuntos de datos que, de otra manera, no serían comparables directamente.

Fórmula (para una muestra):

\[ \Large \color{blue}{\boxed{      CV = \frac{s}{\bar{x}} \times 100\%       }} \]

Fórmula (para una población):

\[ \Large \color{blue}{\boxed{     CV = \frac{\sigma}{\mu} \times 100\%        }} \]

Donde:

  • \(CV\) es el coeficiente de variación.
  • \(s\) es la desviación estándar muestral.
  • \(\bar{x}\) es la media muestral (y \(\bar{x} \neq 0\)).
  • \(\sigma\) es la desviación estándar poblacional.
  • \(\mu\) es la media poblacional (y \(\mu \neq 0\)).

Importante: La media debe ser distinta de cero para que el CV tenga sentido. No se puede dividir por cero.

Interpretación

  • Sin unidades: El CV es adimensional. No tiene unidades de medida, ya que las unidades de la desviación estándar y la media se cancelan. Esto es lo que permite comparar la variabilidad entre conjuntos de datos con diferentes unidades.
  • Dispersión relativa: El CV nos dice qué tan grande es la desviación estándar *en relación con* la media. Un CV del 20% significa que la desviación estándar es el 20% de la media.
  • Valores altos vs. bajos:
    • Un CV *más alto* indica *mayor* dispersión relativa.
    • Un CV *más bajo* indica *menor* dispersión relativa.
  • No hay valores "buenos" o "malos": No existe un umbral universal para interpretar el CV como "alto" o "bajo". Depende *totalmente del contexto*. En algunos campos (como la ingeniería de precisión), un CV del 5% podría considerarse alto. En otros (como las ciencias sociales), un CV del 30% podría considerarse normal.

Ejemplos

Ejemplo 1 (Comparación con diferentes unidades):

Queremos comparar la variabilidad de la altura (en cm) y el peso (en kg) de un grupo de personas:

  • Alturas: Media = 170 cm, Desviación estándar = 10 cm
  • Pesos: Media = 70 kg, Desviación estándar = 14 kg

No podemos comparar directamente las desviaciones estándar (10 cm vs. 14 kg) porque tienen unidades diferentes. Calculamos el CV:

  • CV (Alturas) = (10 cm / 170 cm) * 100% ≈ 5.88%
  • CV (Pesos) = (14 kg / 70 kg) * 100% = 20%

Conclusión: El peso tiene una variabilidad relativa *mucho mayor* que la altura en este grupo.

Ejemplo 2 (Comparación con medias muy diferentes):

Queremos comparar la variabilidad de los ingresos en dos grupos:

  • Grupo A (Estudiantes): Media = $500, Desviación estándar = $100
  • Grupo B (Profesionales): Media = $5000, Desviación estándar = $500

Aunque la desviación estándar del Grupo B es mucho mayor en términos absolutos, calculamos el CV:

  • CV (Grupo A) = ($100 / $500) * 100% = 20%
  • CV (Grupo B) = ($500 / $5000) * 100% = 10%

Conclusión: Los ingresos del Grupo A (estudiantes) tienen una variabilidad relativa *mayor* que los del Grupo B (profesionales).

Ejercicios

Ejercicio 1: Calcula el CV para los siguientes conjuntos de datos:

  1. Media = 60, Desviación estándar = 9
  2. Media = 15, Desviación estándar = 3
  3. Media = 1200, Desviación estándar = 60

Ejercicio 2: Un investigador compara la variabilidad en la duración de dos tipos de bombillas. La bombilla A tiene una duración promedio de 800 horas con una desviación estándar de 80 horas. La bombilla B tiene una duración promedio de 1200 horas con una desviación estándar de 100 horas. ¿Qué tipo de bombilla tiene mayor variabilidad relativa en su duración?

Ejercicio 3: Explica con tus propias palabras por qué el Coeficiente de Variación es útil para comparar la dispersión de conjuntos de datos que tienen diferentes unidades de medida.

© 2024 - Material de Apoyo

8. Coeficiente de Variación con Datos en Tablas

Coeficiente de Variación (CV) con Datos en Tablas

Repaso: Coeficiente de Variación

El Coeficiente de Variación (CV) es una medida de dispersión *relativa*. Expresa la desviación estándar como un porcentaje de la media. Es útil para comparar la variabilidad entre conjuntos de datos con diferentes unidades o medias.

Fórmula: \( CV = \frac{s}{\bar{x}} \times 100\% \) (muestra) o \( CV = \frac{\sigma}{\mu} \times 100\% \) (población)

CV con Datos en Tablas

Cuando los datos están en tablas de frecuencias (simples o con intervalos), calculamos la media (\(\bar{x}\)) y la desviación estándar (\(s\)) como ya aprendimos, y luego aplicamos la fórmula del CV.

Ejemplo 1: Tabla de Frecuencias Simple

Datos: Número de hermanos de un grupo de estudiantes:

Número de HermanosFrecuencia (f)
06
112
27
33
Total28

Pasos:

  1. Calcular la media (\(\bar{x}\)): (Repasa la página 3 si es necesario). \[ \bar{x} = \frac{(0 \times 6) + (1 \times 12) + (2 \times 7) + (3 \times 3)}{28} = \frac{0 + 12 + 14 + 9}{28} = \frac{35}{28} = 1.25 \]
  2. Calcular la desviación estándar (s): (Repasa las páginas 4 y 5 si es necesario). Para este ejemplo, te daremos el resultado: \(s \approx 0.96\)
  3. Calcular el CV: \[ CV = \frac{s}{\bar{x}} \times 100\% = \frac{0.96}{1.25} \times 100\% \approx 76.8\% \]

Interpretación: La desviación estándar del número de hermanos es aproximadamente el 76.8% de la media. Hay una variabilidad relativa alta.

Ejemplo 2: Tabla de Frecuencias con Intervalos

Datos: Tiempos (en minutos) de espera en una fila:

Tiempo (min)Frecuencia (f)
0 - 48
5 - 914
10 - 1410
15 - 196
20 - 242
Total40

(Cálculos de media y desviación estándar omitidos para brevedad, pero se asume que ya se saben calcular de páginas anteriores. Se dan los resultados directamente).

  • Media (\(\bar{x}\)) ≈ 8.75 minutos
  • Desviación estándar (s) ≈ 5.72 minutos

CV = (5.72 / 8.75) * 100% ≈ 65.37%

Interpretación: La desviación estándar del tiempo de espera es aproximadamente el 65.37% de la media. Hay una variabilidad relativa considerable.

Ejercicios

Ejercicio 1: La siguiente tabla muestra la distribución de puntajes en una prueba:

PuntajeFrecuencia
50 - 595
60 - 6910
70 - 7915
80 - 8912
90 - 998
  1. Calcula la media y la desviación estándar (muestral) de los puntajes.
  2. Calcula el coeficiente de variación.
  3. Interpreta el resultado del CV.

Ejercicio 2: Compara la variabilidad relativa de los tiempos de atención en las dos sucursales del banco del Problema 1 de la página 5 (usando los resultados que ya calculaste).

Problema 1 Se tienen datos sobre los ingresos anuales de dos grupos de personas:

  • Grupo X (Trabajadores a tiempo parcial): Media = $10,000, Desviación estándar = $2,000
  • Grupo Y (Trabajadores a tiempo completo): Media = $40,000, Desviación estándar = $4,000
  1. Calcula el CV para cada grupo.
  2. ¿Qué grupo tiene mayor dispersión relativa en sus ingresos?
  3. ¿Qué implicaciones prácticas podría tener esta diferencia en la variabilidad relativa?

© 2024 - Material de Apoyo

9. Ejercicios de Selección Múltiple (Parte 1)

Ejercicios de Selección Múltiple (Parte 1)

Ejercicios de Selección Múltiple (Parte 1)

Subunidad 1: Análisis de Datos Estadísticos con Medidas de Dispersión

Instrucciones: Elige la alternativa correcta. Haz clic en "Mostrar/Ocultar Solución" para ver la respuesta y el desarrollo.

Ejercicio 1: ¿Cuál de las siguientes variables es cualitativa nominal?

  1. Número de hijos.
  2. Temperatura corporal.
  3. Marca de automóvil.
  4. Nivel de satisfacción (bajo, medio, alto).
  5. Años de escolaridad.

Ejercicio 2: ¿Cuál de las siguientes variables es cuantitativa continua?

  1. Cantidad de asignaturas aprobadas.
  2. Color de ojos.
  3. Peso de una persona.
  4. Tipo de sangre.
  5. Número de calzado.

Ejercicio 3: ¿Cuál de las siguientes *no* es una medida de tendencia central?

  1. Media.
  2. Mediana.
  3. Moda.
  4. Rango.
  5. Promedio.

Ejercicio 4: Datos: 2, 4, 6, 8, 10. Calcula la media.

  1. 6
  2. 5
  3. 4
  4. 7
  5. 8

Ejercicio 5: Datos: 1, 3, 5, 5, 7. Calcula la mediana.

  1. 3
  2. 4
  3. 5
  4. 4.2
  5. 1

Ejercicio 6: Datos: 2, 2, 4, 5, 5, 5, 6. Calcula la moda.

  1. 2
  2. 4
  3. 4.14
  4. 5
  5. 6

Ejercicio 7: Datos: 3, 7, 1, 9, 5. Calcula el rango.

  1. 3
  2. 9
  3. 6
  4. 8
  5. 5

Ejercicio 8: Datos: 2, 4, 6, 8. Calcula la varianza *muestral*.

  1. 4
  2. 5
  3. 5.33
  4. 20
  5. 16

Ejercicio 9: Datos: 2, 4, 6, 8. Calcula la desviación estándar *muestral*.

  1. 4
  2. 2
  3. 2.58
  4. 5
  5. 6.67

Ejercicio 10: Si un conjunto de datos tiene desviación estándar 0, se puede concluir:

  1. La media es 0.
  2. La mediana es 0.
  3. Todos los datos son iguales entre sí.
  4. Hay un error en el cálculo.
  5. No hay datos.

Ejercicio 11: ¿Cuál describe mejor una distribución con alta desviación estándar?

  1. Datos muy agrupados alrededor de la media.
  2. Datos muy dispersos.
  3. Datos con una mediana muy alta.
  4. Datos con una media muy alta.
  5. Datos con una moda muy alta.

Ejercicio 12: Tabla de frecuencias. X: 1, 2, 3, 4. f: 2, 3, 4, 1. Calcula la media.

  1. 2.5
  2. 2.4
  3. 2
  4. 3
  5. 10

Ejercicio 13: Un valor atípico es, *generalmente*:

  1. Un error de medición.
  2. Un dato muy cercano a la media.
  3. Un dato muy alejado de la mayoría de los demás datos.
  4. La mediana del conjunto de datos.
  5. El valor más frecuente.

Ejercicio 14: Si la media de un conjunto de datos es 10 y la mediana es 12, ¿qué se puede *intuir* sobre la distribución?

  1. Es perfectamente simétrica.
  2. Está sesgada a la derecha.
  3. Está sesgada a la izquierda.
  4. No se puede intuir nada sin más información.
  5. La desviación estándar es 2.

Ejercicio 15: ¿Cuál de las siguientes afirmaciones sobre la desviación estándar es *siempre* verdadera?

  1. Es igual a la media.
  2. Es mayor que la media.
  3. Es menor que la media.
  4. Es un valor no negativo.
  5. Es igual al rango.

10. Ejercicios de Selección Múltiple (Parte 2)

Ejercicios de Selección Múltiple (Parte 2)

Subunidad 1: Análisis de Datos Estadísticos con Medidas de Dispersión

Ejercicio 16: Datos agrupados: Intervalo [0-9] (marca de clase 4.5, frecuencia 5); Intervalo [10-19] (marca de clase 14.5, frecuencia 10); Intervalo [20-29] (marca de clase 24.5, frecuencia 5). Calcula la media (aproximada).

  1. 14.5
  2. 15
  3. 16
  4. 15.5
  5. 14

Ejercicio 17: Con los datos del Ejercicio 16, calcula la varianza muestral (aproximada).

  1. 50
  2. 75
  3. 56.25
  4. 60.25
  5. 63.42

Ejercicio 18: Con los datos del Ejercicio 16, calcula la desviación estándar muestral (aproximada).

  1. 7.25
  2. 7.5
  3. 7
  4. 8
  5. 52.63

Ejercicio 19: Dos grupos tienen la misma media, pero el Grupo A tiene una desviación estándar mayor que el Grupo B. ¿Qué implica esto?

  1. Los datos del Grupo A están más cerca de la media.
  2. Los datos del Grupo A están más dispersos.
  3. El Grupo A tiene más datos que el Grupo B.
  4. El Grupo B tiene más datos que el Grupo A.
  5. No se puede concluir nada sin más información.

Ejercicio 20: Grupo X: Media = 80, Desviación estándar = 5. Grupo Y: Media = 80, Desviación estándar = 12. ¿Cuál tiene mayor variabilidad *relativa*?

  1. Grupo X.
  2. Grupo Y.
  3. Tienen la misma variabilidad relativa.
  4. No se puede determinar sin el coeficiente de variación.
  5. No se puede determinar sin los datos originales.

Ejercicio 21: Calcula el Coeficiente de Variación (CV) para un conjunto de datos con media = 25 y desviación estándar = 5.

  1. 5%
  2. 20%
  3. 25%
  4. 125%
  5. No se puede calcular.

Ejercicio 22: ¿Para qué es *más útil* el Coeficiente de Variación?

  1. Calcular la media.
  2. Calcular la mediana.
  3. Comparar dispersión entre conjuntos con diferentes unidades o medias.
  4. Determinar si la distribución es normal.
  5. Encontrar valores atípicos.

Ejercicio 23: Boxplot: Mediana = 50, Q1 = 40, Q3 = 60. Estima la desviación estándar (asumiendo normalidad).

  1. 10
  2. 14.8
  3. 20
  4. 7.4
  5. No se puede estimar.

Ejercicio 24: Boxplot A: caja más ancha que Boxplot B. ¿Qué implica?

  1. A tiene menor dispersión que B.
  2. A tiene mayor dispersión que B.
  3. A y B tienen igual dispersión.
  4. A tiene mayor mediana que B.
  5. No se puede comparar la dispersión.

Ejercicio 25: Histograma: alto y estrecho. ¿Qué implica?

  1. Alta desviación estándar.
  2. Baja desviación estándar.
  3. Media alta.
  4. Mediana alta.
  5. No se puede inferir nada.

Ejercicio 26: Datos: 10, 12, 15, 18, 20, 25, 50. ¿Cuál es *probablemente* un valor atípico?

  1. 10
  2. 15
  3. 20
  4. 50
  5. No hay valores atípicos.

Ejercicio 27: Datos: Q1 = 30, Q3 = 40. Un dato se considera atípico si es menor que X o mayor que Y. Calcula X e Y (regla 1.5*IQR).

  1. X = 10, Y = 60
  2. X = 15, Y = 55
  3. X = 20, Y = 50
  4. X = 25, Y=45
  5. X=30, Y= 40

Ejercicio 28: ¿Cuál afirmación sobre valores atípicos es *falsa*?

  1. Pueden distorsionar la media.
  2. Pueden afectar la desviación estándar.
  3. Siempre deben ser eliminados del conjunto de datos.
  4. Pueden indicar errores de medición.
  5. Pueden ser valores válidos pero inusuales.

Ejercicio 29: Dos conjuntos de datos tienen la misma desviación estándar. ¿Se puede afirmar que tienen la misma variabilidad?

  1. Sí, siempre.
  2. No, nunca.
  3. Sí, si tienen la misma media.
  4. Sí, si tienen el mismo rango.
  5. Sí, si tienen el mismo número de datos.

Ejercicio 30: Un histograma sesgado a la izquierda, ¿qué relación tiene entre media y mediana?

  1. Media > Mediana.
  2. Media < Mediana.
  3. Media = Mediana.
  4. No se puede determinar sin los datos.
  5. Media = 2 * Mediana.

11. pregunta abierta

En una encuesta en el mall se pregunto a una muestra de personas su edad 
Intervalo \(x_i\) \(f_i\) \(f_i \cdot x_i\) \(x_i - \bar{x}\) \((x_i - \bar{x})^2\) \(f_i(x_i - \bar{x})^2\)
[20,30[ 4
 [30,40[ 2
[40,50[ 3
[50,60[ 1
Total ---- ---------- -------- ----------

1) completa la tabla

2) determina la media 


3) determina la varianza


4) determina la desviacion estandar