Análisis resultados
Al aplicar el algoritmo J48 a un conjunto de datos, como el conjunto de datos Iris, los resultados se pueden desglosar en varias métricas y estadísticas clave que ayudan a evaluar la eficacia del modelo de clasificación. A continuación, se detallan los resultados típicos y el significado de cada variable:
Ejemplo de Resultados
Supongamos que después de aplicar J48 a Iris, obtienes los siguientes resultados:
- Matriz de Confusión:
| | Predicho Setosa | Predicho Versicolor | Predicho Virginica | |-----------------|-----------------|---------------------|--------------------| | Real Setosa | 50 | 0 | 0 | | Real Versicolor | 1 | 47 | 2 | | Real Virginica | 0 | 1 | 49 |
- Precisión: 97.33%
- Precisión de Iris-setosa: 100%
- Exhaustividad de Iris-versicolor: 95.92%
- F1 Score: 96.61%
- Tiempo de Construcción del Árbol: 0.01 segundos
Interpretación de los Resultados
- Precisión alta: Indica que el modelo es eficaz para clasificar las flores en las tres especies.
- Matriz de Confusión: Muestra que hay un pequeño número de errores de clasificación, especialmente para Iris-versicolor.
- El modelo identifica correctamente todas las instancias de Iris-setosa, lo que sugiere que este grupo es fácilmente separable en el espacio de características.
Vamos a desglosar e interpretar el resultado del algoritmo J48 aplicado al conjunto de datos Iris. A continuación, explicaremos cada sección y lo que significa.
Información General de la Ejecución
- Scheme:
weka.classifiers.trees.J48 -C 0.25 -M 2
- J48: El clasificador utilizado es J48.
- -C 0.25: El parámetro de poda, que establece la confianza para la poda del árbol. Un valor de 0.25 significa que el algoritmo permitirá podar el árbol si la mejora de la precisión es menor al 25%.
- -M 2: Establece el tamaño mínimo de una hoja a 2. Esto significa que un nodo hoja debe contener al menos 2 instancias.
- Relation:
iris
- Se refiere al conjunto de datos utilizado, que en este caso es el famoso conjunto de datos Iris.
- Instances:
150
- Hay un total de 150 instancias en el conjunto de datos.
- Attributes:
5
- Hay 5 atributos en total, que son:
sepallength
sepalwidth
petallength
petalwidth
class
(la clase objetivo)
- Hay 5 atributos en total, que son:
- Test mode:
10-fold cross-validation
- Se utilizó validación cruzada de 10 pliegues para evaluar el rendimiento del modelo. Esto implica dividir el conjunto de datos en 10 partes, entrenar el modelo en 9 partes y probarlo en 1 parte, repitiendo este proceso 10 veces.
Modelo del Clasificador
Árbol de Decisión (J48 Pruned Tree):
petalwidth <= 0.6: Iris-setosa (50.0)
petalwidth > 0.6
| petalwidth <= 1.7
| | petallength <= 4.9: Iris-versicolor (48.0/1.0)
| | petallength > 4.9
| | | petalwidth <= 1.5: Iris-virginica (3.0)
| | | petalwidth > 1.5: Iris-versicolor (3.0/1.0)
| petalwidth > 1.7: Iris-virginica (46.0/1.0)
- Interpretación del Árbol:
- La primera decisión se basa en el atributo
petalwidth
. Si el ancho del pétalo es menor o igual a 0.6 cm, la clase predicha es Iris-setosa. - Si es mayor que 0.6, se evalúa si el
petalwidth
es menor o igual a 1.7 cm.- Si es así, se evalúa la longitud del pétalo (
petallength
):- Si la longitud del pétalo es menor o igual a 4.9 cm, se clasifica como Iris-versicolor.
- Si es mayor, se considera el ancho del pétalo nuevamente para decidir entre Iris-virginica y Iris-versicolor.
- Si es así, se evalúa la longitud del pétalo (
- Si el ancho del pétalo es mayor a 1.7 cm, se clasifica como Iris-virginica.
- La primera decisión se basa en el atributo
- Número de Hojas:
5
- Hay un total de 5 nodos hoja en el árbol de decisión.
- Tamaño del Árbol:
9
- El árbol tiene 9 nodos en total (incluyendo tanto nodos de decisión como nodos hoja).
- Tiempo para Construir el Modelo:
0 segundos
- El modelo fue construido muy rápidamente.
Resumen de Validación Cruzada Estratificada
- Instancias Clasificadas Correctamente:
144
(96%)- Esto indica que el 96% de las instancias fueron clasificadas correctamente.
- Instancias Clasificadas Incorrectamente:
6
(4%)- Solo el 4% de las instancias fueron clasificadas incorrectamente.
- Estadístico Kappa:
0.94
- El coeficiente Kappa mide la concordancia entre las clasificaciones del modelo y las verdaderas. Un valor de 0.94 indica una excelente concordancia.
- Error Absoluto Medio:
0.035
- Mide la media de los errores absolutos entre las predicciones y las clases verdaderas.
- Error Cuadrático Medio:
0.1586
- Mide la media de los cuadrados de los errores. Indica la variabilidad de los errores.
- Error Absoluto Relativo:
7.8705 %
- Proporción del error absoluto respecto a la media de las clases verdaderas.
- Error Cuadrático Relativo:
33.6353 %
- Proporción del error cuadrático respecto a la media de las clases verdaderas.
Detalle de la Exactitud por Clase
Clase | TP Rate | FP Rate | Precision | Recall | F-Measure | MCC | ROC Area | PRC Area |
---|---|---|---|---|---|---|---|---|
Iris-setosa | 0.980 | 0.000 | 1.000 | 0.980 | 0.990 | 0.985 | 0.990 | 0.987 |
Iris-versicolor | 0.940 | 0.030 | 0.940 | 0.940 | 0.940 | 0.910 | 0.952 | 0.880 |
Iris-virginica | 0.960 | 0.030 | 0.941 | 0.960 | 0.950 | 0.925 | 0.961 | 0.905 |
Promedio Ponderado | 0.960 | 0.020 | 0.960 | 0.960 | 0.960 | 0.940 | 0.968 | 0.924 |
- TP Rate (Tasa de Verdaderos Positivos): Proporción de instancias de la clase que fueron correctamente clasificadas.
- FP Rate (Tasa de Falsos Positivos): Proporción de instancias de otras clases que fueron incorrectamente clasificadas como la clase en cuestión.
- Precision: Proporción de instancias clasificadas como positivas que realmente son positivas.
- Recall: Mide la capacidad del modelo para identificar correctamente las instancias positivas.
- F-Measure: Promedio armonioso entre la precisión y el recall.
- MCC (Coeficiente de Correlación de Matthews): Proporciona una medida única del rendimiento del clasificador, teniendo en cuenta verdaderos y falsos positivos y negativos.
- ROC Area (Área bajo la Curva ROC): Mide la capacidad del modelo para diferenciar entre clases.
- PRC Area (Área bajo la Curva de Precisión): Similar a ROC, pero enfocado en la precisión y el recall.
Matriz de Confusión
a b c <-- clasificado como
49 1 0 | a = Iris-setosa
0 47 3 | b = Iris-versicolor
0 2 48 | c = Iris-virginica
- Interpretación:
- Iris-setosa: 49 instancias clasificadas correctamente (a), 1 clasificada incorrectamente como Iris-versicolor (b).
- Iris-versicolor: 47 instancias clasificadas correctamente (b), 3 clasificadas incorrectamente como Iris-virginica (c).
- Iris-virginica: 48 instancias clasificadas correctamente (c), 2 clasificadas incorrectamente como Iris-versicolor (b).
Conclusión
El resultado indica que el modelo J48 aplicado al conjunto de datos Iris es altamente efectivo, logrando una precisión del 96%. La mayoría de las instancias fueron clasificadas correctamente, con un rendimiento excepcional en la identificación de Iris-setosa. La matriz de confusión muestra que el modelo tuvo algunos errores de clasificación en las especies Iris-versicolor e Iris-virginica, pero en general, el modelo se desempeñó de manera excelente en la clasificación. Además, las métricas como el Kappa y el área bajo la curva ROC sugieren que el modelo tiene un buen equilibrio entre la tasa de verdaderos positivos y la tasa de falsos positivos.