Aprendizaje supervisado y no supervisado

El aprendizaje supervisado y el aprendizaje no supervisado son dos tipos principales de paradigmas en el campo del machine learning (ML), que se refieren a la forma en que los algoritmos aprenden de los datos. A continuación te explico ambos conceptos, sus diferencias, casos de uso y ejemplos.

1. Aprendizaje Supervisado

Definición:

El aprendizaje supervisado es un enfoque en el cual el algoritmo aprende a partir de un conjunto de datos etiquetados. Esto significa que los datos de entrada vienen acompañados de etiquetas o respuestas conocidas (variables de salida). El objetivo del algoritmo es aprender la relación entre las entradas y las salidas para poder predecir etiquetas para datos nuevos o no vistos.

Propiedades:

Datos etiquetados: Cada instancia en el conjunto de entrenamiento tiene una etiqueta o resultado conocido.
Función objetivo clara: El algoritmo intenta minimizar el error entre sus predicciones y las etiquetas reales.
Proceso iterativo: El modelo mejora su capacidad de predicción con cada ciclo de entrenamiento.
Tareas principales: Clasificación y regresión.

Ejemplos de Tareas:

Clasificación: Asignar una clase a una entrada (p. ej., detectar si un correo es spam o no).
Regresión: Predecir un valor continuo (p. ej., predecir el precio de una casa basado en sus características).

Casos de Uso:

Clasificación de correos electrónicos: Clasificar correos como «spam» o «no spam» basándose en datos etiquetados de correos anteriores.
Reconocimiento de imágenes: Identificar objetos en una imagen (por ejemplo, clasificar si una imagen contiene un perro o un gato).
Predicción de ventas: Usar datos históricos para predecir ventas futuras.

Ejemplo en Python (Clasificación usando Aprendizaje Supervisado):

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score

# Cargar datos del conjunto de Iris
iris = load_iris()
X = iris.data
y = iris.target

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Crear el modelo de clasificación
clf = RandomForestClassifier()

# Entrenar el modelo con los datos de entrenamiento
clf.fit(X_train, y_train)

# Predecir con los datos de prueba
y_pred = clf.predict(X_test)

# Evaluar precisión
print(f'Precisión del modelo: {accuracy_score(y_test, y_pred)}')

2. Aprendizaje No Supervisado

Definición:

El aprendizaje no supervisado es un enfoque en el cual el algoritmo intenta encontrar patrones ocultos o estructuras en los datos no etiquetados. Aquí, no existen etiquetas ni respuestas conocidas, y el algoritmo debe identificar relaciones, agrupaciones o asociaciones entre las variables de manera autónoma.

Propiedades:

Datos no etiquetados: No existen etiquetas asociadas a los datos de entrada.
Descubrimiento de patrones: El objetivo es identificar estructuras subyacentes sin intervención humana.
Autonomía del modelo: El algoritmo tiene mayor libertad para encontrar patrones y agrupar datos.
Tareas principales: Clustering (agrupamiento) y reducción de dimensionalidad.

Ejemplos de Tareas:

Clustering: Agrupar datos similares en diferentes grupos (p. ej., segmentar clientes según su comportamiento de compra).
Análisis de componentes principales (PCA): Reducir la cantidad de variables (dimensiones) en los datos mientras se mantiene la mayor cantidad de información posible.

Casos de Uso:

Segmentación de clientes: Agrupar clientes en diferentes segmentos según patrones de comportamiento sin etiquetas predefinidas.
Detección de anomalías: Identificar transacciones sospechosas o fraudulentas sin tener ejemplos previos etiquetados.
Compresión de datos: Reducción de las características de los datos (reducción de dimensionalidad) para facilitar el análisis.

Ejemplo en Python (Clustering usando Aprendizaje No Supervisado):

from sklearn.cluster import KMeans
import pandas as pd

# Supongamos que tenemos datos de comportamiento de clientes
datos = pd.DataFrame({'Edad': [23, 45, 31, 35, 22],
                      'Ingresos': [50000, 100000, 70000, 85000, 40000]})

# Aplicar K-Means para segmentar clientes en 2 grupos
kmeans = KMeans(n_clusters=2)
kmeans.fit(datos)

# Mostrar a qué grupo pertenece cada cliente
print(kmeans.labels_)

3. Diferencias Clave entre Aprendizaje Supervisado y No Supervisado

Característica	Aprendizaje Supervisado	Aprendizaje No Supervisado
Datos etiquetados	Sí (con resultados conocidos)	No (no hay etiquetas ni respuestas)
Objetivo	Predecir la etiqueta de salida basada en entradas	Encontrar patrones y estructuras subyacentes
Tareas	Clasificación, regresión	Clustering, reducción de dimensionalidad
Intervención humana	Se requiere intervención humana para etiquetar los datos	No se necesita intervención para etiquetar datos
Evaluación	Comparación de las predicciones con las etiquetas reales	Más difícil de evaluar debido a la ausencia de etiquetas
Ejemplos de Algoritmos	Árboles de decisión, regresión logística, SVM, redes neuronales	K-means, PCA, DBSCAN, autoencoders

4. Casos de Uso para Cada Enfoque