Análisis clasificador
Vamos a desglosar la salida del modelo J48 de Weka, que incluye información sobre el esquema, el modelo del clasificador, la evaluación del rendimiento y la matriz de confusión.
1. Información General del Modelo
- Scheme:
weka.classifiers.trees.J48 -C 0.25 -M 2
- Esto indica que se está utilizando el algoritmo de árbol de decisión J48, que es una implementación del algoritmo C4.5. Los parámetros
-C 0.25
y-M 2
especifican:-C 0.25
: La confianza para el proceso de poda del árbol. Un valor de 0.25 significa que el algoritmo permite una cierta cantidad de error antes de decidir si se debe podar un nodo.-M 2
: El número mínimo de instancias en un nodo hoja. Aquí, se requiere al menos 2 instancias para formar un nodo hoja.
- Esto indica que se está utilizando el algoritmo de árbol de decisión J48, que es una implementación del algoritmo C4.5. Los parámetros
- Relation:
weather
- Este es el nombre del conjunto de datos utilizado.
- Instances:
14
- Hay un total de 14 instancias en el conjunto de datos.
- Attributes:
5
- Hay 5 atributos en el conjunto de datos:
- outlook: Condiciones climáticas (e.g., soleado, nublado, lluvioso).
- temperature: Temperatura.
- humidity: Humedad.
- windy: Si hay viento o no.
- play: La clase objetivo (si jugar o no).
- Hay 5 atributos en el conjunto de datos:
- Test mode:
10-fold cross-validation
- El modelo se ha evaluado utilizando validación cruzada de 10 pliegues, lo que implica dividir el conjunto de datos en 10 partes y entrenar el modelo 10 veces, cada vez utilizando 9 partes para entrenar y 1 parte para probar.
2. Modelo del Clasificador
- J48 pruned tree: Se ha construido un árbol de decisión que ha sido podado para evitar el sobreajuste.
Reglas del árbol:
outlook = sunny
- Si la humedad es menor o igual a 75: sí (2 instancias)
- Si la humedad es mayor a 75: no (3 instancias)
outlook = overcast
: sí (4 instancias)outlook = rainy
- Si hay viento (windy = TRUE): no (2 instancias)
- Si no hay viento (windy = FALSE): sí (3 instancias)
- Number of Leaves:
5
- El árbol tiene 5 hojas, que son las decisiones finales en el árbol.
- Size of the tree:
8
- El árbol tiene un total de 8 nodos, incluyendo tanto los nodos internos como las hojas.
- Time taken to build model:
0 seconds
- Indica que el tiempo de construcción del modelo fue muy corto, posiblemente debido al tamaño pequeño del conjunto de datos.
3. Evaluación del Rendimiento
- Correctly Classified Instances:
9
(64.29%)- El modelo clasificó correctamente el 64.29% de las instancias (9 de 14).
- Incorrectly Classified Instances:
5
(35.71%)- El modelo clasificó incorrectamente el 35.71% de las instancias (5 de 14).
- Kappa statistic:
0.186
- Un valor de Kappa de 0.186 indica que hay una baja concordancia entre las predicciones del modelo y las clases reales, más allá de lo que se podría esperar por azar.
- Mean absolute error:
0.2857
- El error absoluto medio indica la precisión del modelo. Un valor más bajo es mejor.
- Root mean squared error:
0.4818
- La raíz del error cuadrático medio es otra medida de error. Al igual que el error absoluto medio, un valor más bajo es mejor.
- Relative absolute error:
60%
- Este valor indica que el error absoluto medio del modelo es el 60% del error absoluto medio que se obtendría usando la clase más frecuente.
- Root relative squared error:
97.6586%
- Similar al anterior, pero en relación con el error cuadrático medio.
4. Resumen de la Precisión por Clase
Clase “yes”:
- TP Rate (Tasa de verdaderos positivos):
0.778
(77.8% de los casos positivos fueron correctamente clasificados) - FP Rate (Tasa de falsos positivos):
0.600
(60% de los casos negativos fueron incorrectamente clasificados como positivos) - Precision:
0.700
(70% de las predicciones positivas son correctas) - Recall:
0.778
(77.8% de los verdaderos positivos fueron identificados) - F-Measure:
0.737
(una medida balanceada de precisión y recall) - MCC (Coeficiente de correlación de Matthews):
0.189
(un valor más bajo indica que el modelo no está haciendo bien su trabajo) - ROC Area:
0.789
(indicador de cómo el modelo puede diferenciar entre las clases) - PRC Area:
0.847
(área bajo la curva de precisión-recall)
Clase “no”:
- TP Rate:
0.400
(40% de los casos negativos fueron correctamente clasificados) - FP Rate:
0.222
(22.2% de los casos positivos fueron incorrectamente clasificados como negativos) - Precision:
0.500
(50% de las predicciones negativas son correctas) - Recall:
0.400
(40% de los verdaderos negativos fueron identificados) - F-Measure:
0.444
- MCC:
0.189
- ROC Area:
0.789
- PRC Area:
0.738
Weighted Average:
- Presenta promedios ponderados de las métricas anteriores, considerando la cantidad de instancias de cada clase.
5. Matriz de Confusión
a b <-- classified as
7 2 | a = yes
3 2 | b = no
- a = yes: 7 verdaderos positivos (correctamente clasificados como “yes”), 2 falsos negativos (incorrectamente clasificados como “no”).
- b = no: 3 falsos positivos (incorrectamente clasificados como “yes”), 2 verdaderos negativos (correctamente clasificados como “no”).
Resumen General
El modelo J48 ha sido capaz de clasificar adecuadamente el 64.29% de las instancias en el conjunto de datos, lo que indica que hay margen de mejora. La tasa de verdaderos positivos es alta para la clase “yes”, pero la precisión y el recall para la clase “no” son más bajos, lo que sugiere que el modelo tiene dificultades para clasificar correctamente las instancias de la clase “no”.
La baja estadística de Kappa y los errores relativos también indican que el modelo no es muy sólido y que podría beneficiarse de más datos o de un preprocesamiento más exhaustivo