Los datos estan dispersos?

1. Recordemos cosas de la Estadística

¿Qué es la Estadística?

La estadística es la ciencia que recolecta, organiza, analiza, interpreta y presenta datos para obtener conclusiones y tomar decisiones. Es una herramienta fundamental en muchos campos.

🌍 Ejemplos en el mundo real:

  • Un laboratorio analiza muestras de sangre para determinar la prevalencia de una enfermedad en la población.
  • Una encuestadora pregunta a personas sobre su intención de voto para predecir el resultado de las próximas elecciones.
  • Un agricultor usa datos históricos de lluvia para decidir cuándo es el mejor momento para plantar sus cultivos.

Tipos de Datos

Los datos son la materia prima de la estadística. Se clasifican principalmente en dos grandes grupos:

Tipo de Dato Descripción Subtipos y Ejemplos
Cualitativos (o Categóricos) Describen características o cualidades que no pueden ser medidas con números. Nominal: Categorías sin un orden específico (Ej: Estado civil, marca de auto).
Ordinal: Categorías con un orden jerárquico (Ej: Nivel de educación, calificación de un servicio).
Cuantitativos (o Numéricos) Representan cantidades y se pueden medir numéricamente. Discretos: Se pueden contar y toman valores enteros (Ej: Número de hijos, errores en un examen).
Continuos: Pueden tomar cualquier valor dentro de un rango (Ej: Peso, temperatura).
De Intervalo: El cero es una referencia, no indica ausencia (Ej: Temperatura en °C, año de nacimiento).
De Razón: El cero es absoluto e indica ausencia total (Ej: Ingreso mensual, altura de un edificio).

✍️ Ejercicio 1: Clasificación de Datos

Clasifica los siguientes datos:

  1. Tipo de película favorita (comedia, drama, acción, etc.).
  2. Número de estudiantes ausentes en una clase.
  3. Temperatura máxima diaria en una ciudad.
  4. Nivel de acuerdo con una afirmación (totalmente en desacuerdo, en desacuerdo, neutral, de acuerdo, totalmente de acuerdo).
  5. Cantidad de dinero en una billetera.
  6. Año de fabricación de un auto.
  7. Peso de un paquete de arroz.
  8. Número de habitaciones en una casa.

✍️ Ejercicio 2: Creación de Ejemplos

Para cada uno de los siguientes escenarios, proporciona un ejemplo de los tipos de datos indicados (nominal, ordinal, discreto, continuo, de intervalo y de razón):

  1. Escenario 1: Una encuesta en un supermercado.
  2. Escenario 2: El registro de pacientes en un consultorio médico.
  3. Escenario 3: La medición de la calidad del aire en una ciudad.

Medidas de Tendencia Central

Nos entregan un valor "típico" o representativo de un conjunto de datos.

📐 Fórmulas Clave:

  • Media (Promedio): Es la suma de todos los datos dividida por el número total de datos. Se representa como \( \bar{x} \).
    \( \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \)
  • Mediana: Es el valor que se encuentra justo en el centro de los datos, una vez que han sido ordenados de menor a mayor.
  • Moda: Es el valor que aparece con mayor frecuencia en el conjunto de datos. Un conjunto puede ser bimodal (dos modas) o multimodal.

⚠️ ¡Cuidado con los valores atípicos! La media es muy sensible a los valores extremos (muy altos o muy bajos). Un solo dato atípico puede "arrastrar" el promedio y hacer que no sea representativo del conjunto. La mediana, en cambio, es mucho más robusta frente a estos valores.

🧪 Ejemplo: Media (Promedio)

Es el valor que se obtiene al sumar todos los datos y dividirlos por la cantidad total. Su fórmula es: \( \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \)

Caso A: Para el conjunto de datos \( x = [1, 3, 5, 7] \), la media es:

$$\bar{x} = \frac{1+3+5+7}{4} = \frac{16}{4} = 4$$

Caso B: Para el conjunto de datos \( y = [100, 200, 600] \), la media es:

$$\bar{y} = \frac{100+200+600}{3} = \frac{900}{3} = 300$$


🧪 Ejemplo: Mediana (Valor Central)

Es el valor que se encuentra justo en el centro de un conjunto de datos, una vez que estos han sido ordenados de menor a mayor.

Caso Impar: Para el conjunto \( x = [10, 50, 30, 40, 20] \):

  1. Ordenar: \( [10, 20, \textbf{30}, 40, 50] \)
  2. Identificar el centro: Con n=5 datos (un número impar), el valor central es el que está en la tercera posición. La Mediana es 30.

Caso Par: Para el conjunto \( y = [4, 8, 2, 6] \):

  1. Ordenar: \( [2, \textbf{4}, \textbf{6}, 8] \)
  2. Identificar los dos centrales: Con n=4 datos (un número par), los valores centrales son 4 y 6.
  3. Calcular el promedio: Se promedian los dos valores centrales: \( \frac{4+6}{2} = 5 \). La Mediana es 5.

⚠️ Dato importante: ¿Cómo encontrar la posición del dato central?

La forma de identificar el dato central para calcular la mediana depende directamente de si la cantidad total de datos \((n)\) en el grupo es par o impar.

  • Cuando el número de datos \((n)\) es IMPAR:
    Hay un único valor central. La posición de este dato se encuentra con la fórmula: $$ \text{Posición} = \frac{n+1}{2} $$
  • Cuando el número de datos \((n)\) es PAR:
    Hay dos valores en el centro. La mediana será el promedio de los datos que se encuentran en las posiciones: $$ \frac{n}{2} \quad \text{y} \quad \frac{n}{2} + 1 $$

🧪 Ejemplo: Moda (Valor más Frecuente)

Es el valor o los valores que aparecen con mayor frecuencia dentro de un conjunto de datos.

Caso A (Unimodal): En el conjunto \( [2, \textbf{2}, 3, 4, 5] \), el número que más se repite es el 2. Por lo tanto, la Moda es 2.

Caso B (Bimodal): En el conjunto \( [\textbf{1}, \textbf{1}, 2, \textbf{3}, \textbf{3}] \), tanto el 1 como el 3 se repiten dos veces, siendo los más frecuentes. Por lo tanto, es bimodal y sus Modas son 1 y 3.

⏱️ Problema 1: El Efecto de un Valor Atípico

Se registró el tiempo (en minutos) que tardaron 10 personas en completar una tarea:

25, 30, 28, 32, 27, 29, 31, 26, 33, 29
  1. Calcula la media, mediana y moda de los tiempos.
  2. ¿Qué medida de tendencia central describe mejor el "tiempo típico"?
  3. Si una persona adicional completa la tarea en 60 minutos, ¿cómo afectaría esto a la media, mediana y moda? ¿Cuál sería la más afectada?

📚 Problema 2: Representatividad de las Medidas

Se pregunta a un grupo de personas cuántos libros leyeron en el último año. Las respuestas son:

2, 0, 5, 1, 3, 2, 1, 0, 4, 6, 2, 3, 1, 0, 40
  1. Calcula la media, mediana y moda.
  2. ¿Cuál es más representativa de la cantidad de libros que leyó la *mayoría*? Justifica.
  3. ¿Hay valores atípicos? ¿Cómo afectan a la media?