Descarga el siguiente archivo:
Tienes un CSV con 1.000 registros de sueldos anuales. Tu misión: analizar la distribución, detectar anomalías y clasificarlas.
Carga e inspección inicial del dataset
Antes de hacer cualquier análisis, necesitas entender qué tienes. Carga el CSV
employee_salaries.csv e inspecciónalo.Calcula los estadísticos básicos de la columna
annual_salary_eur y compáralos con la distribución teórica que se usó para generarlos (media ~25.000, desviación ~3.000).¿Distorsionan los valores atípicos alguna medida? ¿Cuál sería más robusta?
El método IQR es robusto y no asume normalidad. Define como outlier cualquier valor fuera del rango [Q1 − 1.5·IQR, Q3 + 1.5·IQR]. Para outliers extremos usa el factor 3.
¿Cuántos outliers detecta cada umbral? ¿Los límites calculados tienen sentido dados la media y desviación teóricas? ¿Qué valores concretos aparecen como extremos?
Haz un resumen de tus conclusiones