Análisis resultados
Cuando aplicas el algoritmo Naive Bayes en Weka utilizando un dataset como Iris
, obtendrás una serie de resultados que te ayudarán a evaluar el rendimiento del modelo. Aquí te detallo qué esperar en los resultados y el significado de cada una de las métricas presentadas.
Interpretación de Resultados
Supongamos que obtienes los siguientes resultados tras aplicar Naive Bayes en el dataset Iris
:
- Correctly Classified Instances: 147 (98%)
- Incorrectly Classified Instances: 3 (2%)
- Kappa Statistic: 0.96
Interpretación:
- El modelo tiene un alto rendimiento, clasificando correctamente el 98% de las instancias, lo que indica que es efectivo.
- Un Kappa de 0.96 sugiere que hay una fuerte concordancia entre las predicciones y las clases reales, indicando que el modelo está proporcionando resultados significativamente mejores que el azar.
Resumen General
- Información del Ejecución
- Esquema: Se utilizó el clasificador Naive Bayes de Weka.
- Conjunto de Datos: Se está trabajando con el conjunto de datos Iris, que contiene 150 instancias y 5 atributos (4 características de las flores y 1 clase).
- Modo de Prueba: Se utilizó la validación cruzada de 10 pliegues, lo que significa que el conjunto de datos se dividió en 10 partes, y el modelo fue entrenado y evaluado 10 veces, cada vez utilizando una parte diferente como conjunto de prueba y el resto como conjunto de entrenamiento.
Detalles del Modelo de Clasificación
- Modelo del Clasificador
- El modelo Naive Bayes utiliza distribuciones normales para estimar las probabilidades de cada clase (Iris-setosa, Iris-versicolor, Iris-virginica) basado en los atributos.
- Para cada atributo (sepallength, sepalwidth, petallength, petalwidth), se presentan:
- Mean (Media): El valor promedio de la característica para cada clase.
- Std. Dev. (Desviación Estándar): Medida de la dispersión de los datos en torno a la media.
- Weight Sum: El número de instancias de cada clase en el conjunto de entrenamiento.
- Precision: Estimación de la precisión de la distribución normal para cada atributo y clase.
Resultados de Validación Cruzada
- Resumen de la Validación Cruzada
- Instancias Correctamente Clasificadas: 144 (96%)
- Instancias Incorrectamente Clasificadas: 6 (4%)
- Kappa Statistic: 0.94, que indica una fuerte concordancia entre la predicción del modelo y la clase real.
- Mean Absolute Error: 0.0342, lo que sugiere que, en promedio, las predicciones del modelo están muy cerca de los valores reales.
- Root Mean Squared Error: 0.155, una medida de la magnitud del error que penaliza más los errores más grandes.
- Relative Absolute Error: 7.6997%, un indicador de qué tan lejos están las predicciones en comparación con la media.
- Root Relative Squared Error: 32.8794%, otra métrica de comparación con la media.
Desglose de Precisión por Clase
- Precisión Detallada por Clase
- Iris-setosa:
- TP Rate (Tasa de Verdaderos Positivos): 1.000, lo que significa que todas las instancias de Iris-setosa fueron clasificadas correctamente.
- Precision: 1.000, indicando que todas las instancias clasificadas como Iris-setosa eran efectivamente de esta clase.
- Iris-versicolor:
- TP Rate: 0.960, 96% de las instancias fueron clasificadas correctamente.
- Precision: 0.923, indica que el 92.3% de las instancias clasificadas como Iris-versicolor eran efectivas.
- Iris-virginica:
- TP Rate: 0.920, el 92% de las instancias fueron clasificadas correctamente.
- Precision: 0.958, lo que significa que el 95.8% de las instancias clasificadas como Iris-virginica eran efectivas.
- Iris-setosa:
Matriz de Confusión
- Matriz de Confusión
- La matriz muestra cómo se clasificaron las instancias:
a b c <-- classified as 50 0 0 | a = Iris-setosa 0 48 2 | b = Iris-versicolor 0 4 46 | c = Iris-virginica
- Iris-setosa: Todas las 50 instancias fueron correctamente clasificadas como setosa.
- Iris-versicolor: 48 instancias fueron correctamente clasificadas como versicolor, mientras que 2 fueron clasificadas incorrectamente como virginica.
- Iris-virginica: 46 instancias fueron correctamente clasificadas como virginica, pero 4 fueron clasificadas incorrectamente como versicolor.
- La matriz muestra cómo se clasificaron las instancias:
Interpretación Final
Los resultados indican que el modelo Naive Bayes aplicado al conjunto de datos Iris es altamente efectivo, con una tasa de clasificación correcta del 96% y una excelente precisión para cada clase. La matriz de confusión revela que el modelo es particularmente bueno para clasificar Iris-setosa, mientras que hay un pequeño número de confusiones entre Iris-versicolor e Iris-virginica. En general, el modelo demuestra que es una buena opción para este tipo de clasificación, y las métricas adicionales sugieren que las predicciones son confiables y precisas.
Este análisis también resalta el hecho de que, aunque Naive Bayes es un modelo simple y basado en suposiciones, puede ser muy efectivo para problemas de clasificación donde las características están distribuidas de manera normal.