Classify
La pestaña Classify en el Explorer de Weka es el módulo principal para aplicar algoritmos de clasificación y regresión a los datos. En esta sección, puedes construir, evaluar y comparar modelos de predicción supervisados, como árboles de decisión, máquinas de soporte vectorial, redes neuronales y regresión logística.
A continuación, te explico los principales apartados y opciones de la pestaña Classify en Weka, con ejemplos:
1. Seleccionar un Algoritmo de Clasificación o Regresión
En esta sección, puedes elegir el algoritmo que quieres aplicar para clasificar o predecir valores.
- Opciones:
- Al hacer clic en el botón Choose, se abre una lista de algoritmos agrupados por categorías:
- trees: Algoritmos basados en árboles de decisión como J48 (una implementación del algoritmo C4.5).
- bayes: Algoritmos basados en probabilidad, como NaiveBayes.
- functions: Algoritmos que usan funciones matemáticas, como SMO (máquinas de soporte vectorial) o MultilayerPerceptron (redes neuronales).
- lazy: Algoritmos que aplazan la decisión, como IBk (algoritmo k-NN).
- rules: Algoritmos basados en reglas como PART.
- meta: Métodos como Bagging, Boosting y Stacking.
- regression: Métodos para la regresión como LinearRegression.
- Al hacer clic en el botón Choose, se abre una lista de algoritmos agrupados por categorías:
- Ejemplo:
- Si quieres aplicar un árbol de decisión para predecir la calidad del vino, seleccionas trees > J48.
2. Configurar el Algoritmo
Una vez seleccionado el algoritmo, puedes configurarlo haciendo clic en el nombre del algoritmo en la ventana principal.
- Opciones:
- Cada algoritmo tiene diferentes parámetros que puedes ajustar.
- Por ejemplo, en J48 puedes ajustar la profundidad del árbol, tamaño mínimo de los nodos, y si quieres podar el árbol o no.
- Otros algoritmos tienen parámetros como el número de vecinos en k-NN o el valor de C en las máquinas de soporte vectorial (SVM).
- Ejemplo:
- Si has seleccionado J48, podrías cambiar el parámetro de confidenceFactor (que controla la poda) a 0.25 para hacer el árbol más compacto.
3. Evaluar el Modelo
Esta sección te permite elegir cómo evaluar el rendimiento del modelo. Hay varias opciones disponibles:
- Opciones:
- Use training set: Evalúa el modelo en el mismo conjunto de datos de entrenamiento.
- Supplied test set: Permite evaluar el modelo en un conjunto de datos de prueba diferente.
- Cross-validation: Realiza una validación cruzada k-fold, donde el conjunto de datos se divide en k partes. El modelo se entrena con k-1 partes y se evalúa en la parte restante. Se repite el proceso k veces.
- Percentage split: Divide el conjunto de datos en dos partes, usando un porcentaje para entrenamiento y otro para evaluación.
- Ejemplo:
- Puedes seleccionar Cross-validation con 10 folds para obtener una evaluación más robusta del modelo. Esto implica que el dataset se dividirá en 10 partes, y el modelo será entrenado 10 veces con diferentes particiones.
4. Clasificar Nuevos Datos
Si tienes un conjunto de datos nuevo y quieres usar el modelo entrenado para hacer predicciones, puedes cargar los nuevos datos aquí.
- Opciones:
- More options: Permite generar predicciones para cada instancia.
- Output predictions: Muestra las predicciones generadas por el modelo para cada instancia en el conjunto de datos.
- Store predictions for visualization: Almacena las predicciones para que puedan ser visualizadas más adelante.
- Ejemplo:
- Después de entrenar un modelo de árbol de decisión con J48, podrías cargar un nuevo conjunto de datos de vinos y usar el modelo entrenado para predecir la
quality
de los vinos en ese nuevo conjunto.
- Después de entrenar un modelo de árbol de decisión con J48, podrías cargar un nuevo conjunto de datos de vinos y usar el modelo entrenado para predecir la
5. Resultados de la Evaluación
Después de ejecutar el algoritmo, los resultados de la evaluación se muestran en esta sección. Aquí puedes ver métricas de rendimiento y estadísticas sobre el modelo.
- Opciones:
- Summary: Muestra un resumen de los resultados, incluyendo la matriz de confusión, la precisión (accuracy), y las medidas de evaluación como TP Rate (tasa de verdaderos positivos), FP Rate (tasa de falsos positivos), Precision, Recall, F-Measure, y ROC Area.
- Detailed accuracy by class: Muestra las métricas de evaluación desglosadas por cada clase (etiqueta de la variable objetivo).
- Confusion matrix: Muestra la matriz de confusión, que detalla cuántas instancias fueron clasificadas correctamente y cuántas fueron mal clasificadas en cada clase.
- Ejemplo:
- Si estás usando un árbol de decisión para predecir la calidad del vino, podrías ver una matriz de confusión que muestra cuántos vinos de cada categoría (por ejemplo,
bueno
,malo
) fueron clasificados correctamente y cuántos fueron clasificados incorrectamente.
- Si estás usando un árbol de decisión para predecir la calidad del vino, podrías ver una matriz de confusión que muestra cuántos vinos de cada categoría (por ejemplo,
6. Visualización de los Resultados
Puedes visualizar los resultados de la clasificación utilizando varias opciones gráficas.
- Opciones:
- Visualize classifier errors: Muestra un gráfico donde puedes visualizar los errores de clasificación del modelo.
- Visualize threshold curve: Permite visualizar la curva de ROC y AUC (Area Under Curve), que es útil para evaluar la capacidad discriminativa del modelo.
- Ejemplo:
- Después de entrenar un modelo, podrías visualizar los errores de clasificación en un gráfico de dispersión. Las instancias clasificadas correctamente se mostrarán con un color diferente al de las instancias clasificadas incorrectamente.
7. Guardar y Cargar Modelos
Después de entrenar un modelo, puedes guardarlo para usarlo más adelante o cargar un modelo previamente guardado.
- Opciones:
- Save model: Guarda el modelo entrenado en un archivo para usarlo posteriormente.
- Load model: Carga un modelo previamente guardado para hacer predicciones o evaluarlo en nuevos datos.
- Ejemplo:
- Si has entrenado un modelo de árbol de decisión con J48, puedes guardar el modelo en un archivo y luego cargarlo más tarde para hacer predicciones con nuevos datos sin necesidad de volver a entrenarlo.
Flujo de Trabajo Ejemplo en la Pestaña Classify:
- Seleccionar el algoritmo: Se selecciona el algoritmo NaiveBayes para predecir la
quality
del vino. - Configurar el algoritmo: No se requiere configuración adicional para NaiveBayes.
- Evaluar el modelo: Se selecciona 10-fold cross-validation para evaluar el modelo de manera robusta.
- Observar los resultados: Después de ejecutar el algoritmo, se observa que la precisión es del 78%, y se visualiza la matriz de confusión.
- Guardar el modelo: El modelo entrenado se guarda en un archivo para futuras predicciones.
https://machinelearningmastery.com/use-classification-machine-learning-algorithms-weka/