Etapas de la ciencia de datos
La ciencia de datos se puede dividir desde el punto de vista de los datos en varias fases clave, que se centran en cómo los datos son recolectados, preparados, analizados y utilizados para generar conocimiento y tomar decisiones. Esta perspectiva organiza el flujo de trabajo en torno a los datos, desde su origen hasta su uso final. A continuación se presenta esta división en diferentes etapas, explicando las actividades principales en cada una de ellas.
1. Recolección de Datos (Data Collection)
Descripción:
Es la primera etapa en la que los datos son adquiridos de diversas fuentes. Estas fuentes pueden ser estructuradas (bases de datos tradicionales), semi-estructuradas (logs, XML, JSON) o no estructuradas (texto, imágenes, videos). En esta fase se determinan qué datos son necesarios para abordar un problema específico o responder a una pregunta de investigación.
Tipos de Recolección:
- Datos Internos: Recolectados dentro de la organización, como datos de ventas, comportamiento de clientes o registros de empleados.
- Datos Externos: Provenientes de fuentes externas como APIs públicas, redes sociales, encuestas, sensores o datos gubernamentales abiertos (open data).
Ejemplo:
Una tienda en línea recopila datos de transacciones de clientes, datos de navegación y datos de reseñas de productos. Estos datos se recogen de forma continua y pueden ser usados posteriormente para análisis de comportamiento de compra.
2. Almacenamiento y Gestión de Datos (Data Storage & Management)
Descripción:
Una vez recolectados, los datos deben ser almacenados de manera adecuada para garantizar su accesibilidad, seguridad y escalabilidad. Las organizaciones eligen sistemas de almacenamiento adecuados para la naturaleza y el volumen de los datos. Aquí entran en juego tecnologías como bases de datos relacionales, sistemas de archivos distribuidos o soluciones en la nube.
Técnicas de Almacenamiento:
- Bases de Datos Relacionales: Utilizadas para almacenar datos estructurados, donde las relaciones entre los datos son clave (SQL).
- Almacenes de Datos (Data Warehouses): Sistemas diseñados para almacenar grandes cantidades de datos históricos con fines de análisis.
- Lagos de Datos (Data Lakes): Ideales para almacenar grandes volúmenes de datos crudos (estructurados y no estructurados) que pueden ser analizados posteriormente.
Ejemplo:
Una empresa puede almacenar sus registros de ventas en una base de datos relacional como PostgreSQL, mientras que almacena grandes cantidades de logs de comportamiento web en un lago de datos usando herramientas como Hadoop o Amazon S3.
3. Preprocesamiento de Datos (Data Preprocessing)
Descripción:
En esta etapa, los datos se limpian y transforman para corregir errores, rellenar valores faltantes, normalizar valores y preparar los datos para el análisis. El preprocesamiento es crucial, ya que la calidad de los datos tiene un impacto directo en los resultados del análisis posterior.
Pasos Principales:
- Limpieza de Datos: Eliminación de duplicados, corrección de errores tipográficos, manejo de valores faltantes y detección de outliers.
- Transformación: Conversión de datos en formatos adecuados para el análisis, como escalar valores o realizar transformaciones logarítmicas.
- Integración de Datos: Fusión de datos de diferentes fuentes o sistemas para obtener un conjunto de datos coherente.
Ejemplo:
Una empresa de telecomunicaciones limpia y transforma los datos de sus clientes, normalizando los registros de llamadas para eliminar inconsistencias en los formatos de tiempo y tratando los valores faltantes en los datos de facturación.
4. Análisis Exploratorio de Datos (Exploratory Data Analysis, EDA)
Descripción:
El análisis exploratorio de datos es una fase en la que se examinan los datos para entender su estructura y detectar patrones iniciales. Se utilizan técnicas estadísticas y visualizaciones para obtener una comprensión profunda de los datos y formular hipótesis para el análisis más detallado.
Técnicas Comunes:
- Estadísticas Descriptivas: Cálculo de medias, medianas, modas, varianzas, y desviaciones estándar para resumir los datos.
- Visualizaciones: Uso de gráficos de barras, histogramas, diagramas de caja y dispersión para observar tendencias, distribuciones y relaciones entre variables.
- Correlación y Covarianza: Medición de relaciones entre variables numéricas.
Ejemplo:
En un análisis exploratorio de datos de ventas, un analista puede detectar que ciertas categorías de productos tienden a tener picos de ventas durante los fines de semana, y que los clientes que compran ciertos productos suelen comprar otros productos relacionados.
5. Modelado de Datos (Data Modeling)
Descripción:
Esta fase consiste en la creación de modelos matemáticos y estadísticos que se utilizan para realizar predicciones o clasificaciones a partir de los datos. El modelado de datos se centra en el uso de algoritmos de aprendizaje automático (machine learning) y otras técnicas predictivas.
Tipos de Modelos:
- Modelos de Clasificación: Utilizados para predecir categorías o clases (por ejemplo, si un cliente abandonará un servicio).
- Modelos de Regresión: Utilizados para predecir valores continuos (como la predicción de ventas futuras).
- Modelos de Clustering: Agrupan datos similares, lo que puede ser útil para segmentación de clientes.
Ejemplo:
Un equipo de ciencia de datos puede desarrollar un modelo de clasificación que prediga si un cliente es propenso a cancelar su suscripción en los próximos tres meses, utilizando el comportamiento pasado y el perfil del cliente como variables de entrada.
6. Validación y Evaluación de Modelos (Model Validation & Evaluation)
Descripción:
Una vez que se ha entrenado un modelo, es fundamental validarlo para garantizar que sea preciso y confiable. En esta fase, los modelos se prueban con datos de prueba y se evalúa su rendimiento utilizando métricas apropiadas.
Métricas Comunes:
- Exactitud (Accuracy): Proporción de predicciones correctas entre todas las predicciones.
- Error Cuadrático Medio (MSE): Promedio de los errores al cuadrado, usado comúnmente en modelos de regresión.
- ROC-AUC: Medida de la capacidad de un modelo de clasificación binaria para distinguir entre clases.
Ejemplo:
Después de entrenar un modelo de machine learning para predecir la probabilidad de impago de préstamos, el equipo valida el modelo en un conjunto de datos que no se utilizó durante el entrenamiento, y utiliza la métrica de AUC para evaluar la precisión de las predicciones.
7. Comunicación y Visualización de Resultados (Data Visualization & Communication)
Descripción:
Una vez que se ha completado el análisis de los datos, es fundamental comunicar los resultados de manera efectiva a los interesados. Esto generalmente se hace a través de informes y visualizaciones interactivas que permiten a los usuarios no técnicos comprender los hallazgos.
Herramientas:
- Gráficos y Dashboards: Herramientas como Tableau, Power BI, Matplotlib o Seaborn se utilizan para crear representaciones visuales que ayuden a comprender mejor los datos y los resultados del análisis.
- Narrativas Basadas en Datos: Los científicos de datos deben ser capaces de contar historias con los datos para contextualizar los resultados y explicar su relevancia para los objetivos empresariales.
Ejemplo:
Un científico de datos puede presentar los resultados de un análisis de segmentación de clientes en un dashboard interactivo que permite a los directivos ver los diferentes grupos de clientes y sus comportamientos de compra.
8. Toma de Decisiones y Acciones (Decision Making & Action)
Descripción:
El objetivo final de la ciencia de datos es habilitar la toma de decisiones basadas en datos. Los insights obtenidos del análisis de datos deben integrarse en la estrategia empresarial o en la toma de decisiones operativas.
Ejemplo:
Una empresa de retail puede utilizar los datos de comportamiento del cliente para personalizar campañas de marketing y ofertas especiales, optimizando la experiencia del cliente y aumentando las ventas.
Sesgos
“Usemos el caso del gobierno de Salta, en Argentina, para ilustrar esta
problemática. Cuando en Argentina estaba por arrancar el debate sobre la
despenalización de la interrupción voluntaria del embarazo a inicios del segundo
trimestre de 2018, el gobierno de Salta anunció el lanzamiento de una plataforma basada en sistemas de IA para detectar embarazos en niñas, adolescentes y mujeres jóvenes. La base de datos de la plataforma reunía datos de más de diez mil niñas, adolescentes y jóvenes en el rango de edad de 10 a 19 años. El algoritmo de predicción del embarazo no estaba configurado a partir de datos relacionados con la educación sexual recibida o los métodos de anti concepción utilizados sino con factores de etnia, discapacidad física o mental, edad, país de origen, nivel de estudios de la jefatura del hogar, número de personas que conforman el hogar, características de la vivienda y acceso a servicios,
entre otros. “El modelo, entonces, replicaba un sesgo, un prejuicio, de asociar el
embarazo a la pobreza, e incluso a una promiscuidad propia de etnias y lugares” (Zuazo 2018, 4). Peor aún, la plataforma reunía exclusivamente datos de mujeres reforzando con ello roles patriarcales de género y colocando la culpa de los embarazos no deseados en las mujeres, niñas y adolescentes.”