Ejercicio Análisis de datos

Descarga el siguiente archivo:

employee_salaries

Tienes un CSV con 1.000 registros de sueldos anuales. Tu misión: analizar la distribución, detectar anomalías y clasificarlas.

Carga e inspección inicial del dataset
Antes de hacer cualquier análisis, necesitas entender qué tienes. Carga el CSV employee_salaries.csv e inspecciónalo.

Calcula los estadísticos básicos de la columna annual_salary_eur y compáralos con la distribución teórica que se usó para generarlos (media ~25.000, desviación ~3.000).
¿Distorsionan los valores atípicos alguna medida? ¿Cuál sería más robusta?

El método IQR es robusto y no asume normalidad. Define como outlier cualquier valor fuera del rango [Q1 − 1.5·IQR, Q3 + 1.5·IQR]. Para outliers extremos usa el factor 3.
¿Cuántos outliers detecta cada umbral? ¿Los límites calculados tienen sentido dados la media y desviación teóricas? ¿Qué valores concretos aparecen como extremos?

Haz un resumen de tus conclusiones

Publicado por

Juan Pablo Fuentes

Formador de programación y bases de datos