Los datos estan dispersos?
1. Recordemos cosas de la Estadística
¿Qué es la Estadística?
La estadística es la ciencia que recolecta, organiza, analiza, interpreta y presenta datos para obtener conclusiones y tomar decisiones. Es una herramienta fundamental en muchos campos.
🌍 Ejemplos en el mundo real:
- Un laboratorio analiza muestras de sangre para determinar la prevalencia de una enfermedad en la población.
- Una encuestadora pregunta a personas sobre su intención de voto para predecir el resultado de las próximas elecciones.
- Un agricultor usa datos históricos de lluvia para decidir cuándo es el mejor momento para plantar sus cultivos.
Tipos de Datos
Los datos son la materia prima de la estadística. Se clasifican principalmente en dos grandes grupos:
Tipo de Dato | Descripción | Subtipos y Ejemplos |
---|---|---|
Cualitativos (o Categóricos) | Describen características o cualidades que no pueden ser medidas con números. | Nominal: Categorías sin un orden específico (Ej: Estado civil, marca de auto). Ordinal: Categorías con un orden jerárquico (Ej: Nivel de educación, calificación de un servicio). |
Cuantitativos (o Numéricos) | Representan cantidades y se pueden medir numéricamente. | Discretos: Se pueden contar y toman valores enteros (Ej: Número de hijos, errores en un examen). Continuos: Pueden tomar cualquier valor dentro de un rango (Ej: Peso, temperatura). De Intervalo: El cero es una referencia, no indica ausencia (Ej: Temperatura en °C, año de nacimiento). De Razón: El cero es absoluto e indica ausencia total (Ej: Ingreso mensual, altura de un edificio). |
✍️ Ejercicio 1: Clasificación de Datos
Clasifica los siguientes datos:
- Tipo de película favorita (comedia, drama, acción, etc.).
- Número de estudiantes ausentes en una clase.
- Temperatura máxima diaria en una ciudad.
- Nivel de acuerdo con una afirmación (totalmente en desacuerdo, en desacuerdo, neutral, de acuerdo, totalmente de acuerdo).
- Cantidad de dinero en una billetera.
- Año de fabricación de un auto.
- Peso de un paquete de arroz.
- Número de habitaciones en una casa.
- Cualitativo nominal.
- Cuantitativo discreto.
- Cuantitativo continuo (también podría considerarse de intervalo).
- Cualitativo ordinal.
- Cuantitativo de razón (continuo, aunque discreto en la práctica monetaria).
- Cuantitativo de intervalo.
- Cuantitativo de razón (continuo).
- Cuantitativo discreto.
✍️ Ejercicio 2: Creación de Ejemplos
Para cada uno de los siguientes escenarios, proporciona un ejemplo de los tipos de datos indicados (nominal, ordinal, discreto, continuo, de intervalo y de razón):
- Escenario 1: Una encuesta en un supermercado.
- Escenario 2: El registro de pacientes en un consultorio médico.
- Escenario 3: La medición de la calidad del aire en una ciudad.
- Encuesta en un supermercado:
- Nominal: Marca de cereal favorita.
- Ordinal: Nivel de satisfacción (bueno, regular, malo).
- Discreto: Número de artículos comprados.
- Continuo: Peso de las frutas compradas.
- De intervalo: Hora de la compra.
- De razón: Gasto total en la compra.
- Registro de pacientes:
- Nominal: Grupo sanguíneo.
- Ordinal: Nivel de dolor (leve, moderado, severo).
- Discreto: Número de visitas previas.
- Continuo: Temperatura corporal.
- De intervalo: Año de la primera visita.
- De razón: Edad del paciente.
- Medición de calidad del aire:
- Nominal: Tipo de contaminante principal (ej. SO2, CO).
- Ordinal: Nivel de alerta (buena, regular, peligrosa).
- Discreto: Número de días con alta contaminación en un mes.
- Continuo: Concentración de partículas PM2.5 (µg/m³).
- De intervalo: Hora del día en que se registra.
- De razón: Índice de Calidad del Aire (ICA).
Medidas de Tendencia Central
Nos entregan un valor "típico" o representativo de un conjunto de datos.
📐 Fórmulas Clave:
- Media (Promedio): Es la suma de todos los datos dividida por el número total de datos. Se representa como \( \bar{x} \).
\( \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \) - Mediana: Es el valor que se encuentra justo en el centro de los datos, una vez que han sido ordenados de menor a mayor.
- Moda: Es el valor que aparece con mayor frecuencia en el conjunto de datos. Un conjunto puede ser bimodal (dos modas) o multimodal.
⚠️ ¡Cuidado con los valores atípicos! La media es muy sensible a los valores extremos (muy altos o muy bajos). Un solo dato atípico puede "arrastrar" el promedio y hacer que no sea representativo del conjunto. La mediana, en cambio, es mucho más robusta frente a estos valores.
🧪 Ejemplo: Media (Promedio)
Es el valor que se obtiene al sumar todos los datos y dividirlos por la cantidad total. Su fórmula es: \( \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \)
Caso A: Para el conjunto de datos \( x = [1, 3, 5, 7] \), la media es:
$$\bar{x} = \frac{1+3+5+7}{4} = \frac{16}{4} = 4$$
Caso B: Para el conjunto de datos \( y = [100, 200, 600] \), la media es:
$$\bar{y} = \frac{100+200+600}{3} = \frac{900}{3} = 300$$
🧪 Ejemplo: Mediana (Valor Central)
Es el valor que se encuentra justo en el centro de un conjunto de datos, una vez que estos han sido ordenados de menor a mayor.
Caso Impar: Para el conjunto \( x = [10, 50, 30, 40, 20] \):
- Ordenar: \( [10, 20, \textbf{30}, 40, 50] \)
- Identificar el centro: Con n=5 datos (un número impar), el valor central es el que está en la tercera posición. La Mediana es 30.
Caso Par: Para el conjunto \( y = [4, 8, 2, 6] \):
- Ordenar: \( [2, \textbf{4}, \textbf{6}, 8] \)
- Identificar los dos centrales: Con n=4 datos (un número par), los valores centrales son 4 y 6.
- Calcular el promedio: Se promedian los dos valores centrales: \( \frac{4+6}{2} = 5 \). La Mediana es 5.
⚠️ Dato importante: ¿Cómo encontrar la posición del dato central?
La forma de identificar el dato central para calcular la mediana depende directamente de si la cantidad total de datos \((n)\) en el grupo es par o impar.
- Cuando el número de datos \((n)\) es IMPAR:
Hay un único valor central. La posición de este dato se encuentra con la fórmula: $$ \text{Posición} = \frac{n+1}{2} $$ - Cuando el número de datos \((n)\) es PAR:
Hay dos valores en el centro. La mediana será el promedio de los datos que se encuentran en las posiciones: $$ \frac{n}{2} \quad \text{y} \quad \frac{n}{2} + 1 $$
🧪 Ejemplo: Moda (Valor más Frecuente)
Es el valor o los valores que aparecen con mayor frecuencia dentro de un conjunto de datos.
Caso A (Unimodal): En el conjunto \( [2, \textbf{2}, 3, 4, 5] \), el número que más se repite es el 2. Por lo tanto, la Moda es 2.
Caso B (Bimodal): En el conjunto \( [\textbf{1}, \textbf{1}, 2, \textbf{3}, \textbf{3}] \), tanto el 1 como el 3 se repiten dos veces, siendo los más frecuentes. Por lo tanto, es bimodal y sus Modas son 1 y 3.
⏱️ Problema 1: El Efecto de un Valor Atípico
Se registró el tiempo (en minutos) que tardaron 10 personas en completar una tarea:
25, 30, 28, 32, 27, 29, 31, 26, 33, 29
- Calcula la media, mediana y moda de los tiempos.
- ¿Qué medida de tendencia central describe mejor el "tiempo típico"?
- Si una persona adicional completa la tarea en 60 minutos, ¿cómo afectaría esto a la media, mediana y moda? ¿Cuál sería la más afectada?
- Datos originales ordenados: 25, 26, 27, 28, 29, 29, 30, 31, 32, 33.
Media: 29 min.
Mediana: (29 + 29)/2 = 29 min.
Moda: 29 min. - En este caso, las tres medidas son idénticas (29 min), por lo que cualquiera de ellas describe bien el tiempo típico.
- Con el dato extra de 60 minutos:
Nueva Media: \( \approx 31.82 \) min.
Nueva Mediana: 29 min.
Nueva Moda: Sigue siendo 29 min.
La media es, por lejos, la medida más afectada, ya que es sensible a los valores extremos (atípicos).
📚 Problema 2: Representatividad de las Medidas
Se pregunta a un grupo de personas cuántos libros leyeron en el último año. Las respuestas son:
2, 0, 5, 1, 3, 2, 1, 0, 4, 6, 2, 3, 1, 0, 40
- Calcula la media, mediana y moda.
- ¿Cuál es más representativa de la cantidad de libros que leyó la *mayoría*? Justifica.
- ¿Hay valores atípicos? ¿Cómo afectan a la media?
- Datos ordenados: 0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 6, 40.
Media: \( \approx 4.67 \) libros.
Mediana: 2 libros.
Moda (Corrección): Este es un caso trimodal. Los valores más frecuentes son el 0, 1 y 2 (todos aparecen 3 veces). - La mediana (2 libros) es la más representativa. La media (~4.67) se ve muy afectada por el valor extremo de 40, que no es típico de la mayoría del grupo.
- El valor 40 es claramente un valor atípico. "Jala" o sesga la media hacia un valor más alto, haciéndola menos representativa del comportamiento central del grupo.