Análisis resultados
Este resultado muestra una ejecución del algoritmo K-Means en el conjunto de datos Iris utilizando 3 clústeres. A continuación, detallo la interpretación de cada parte del resultado:
1. Esquema del Algoritmo Usado
Scheme: weka.clusterers.SimpleKMeans -init 0 -max-candidates 100 -periodic-pruning 10000 -min-density 2.0 -t1 -1.25 -t2 -1.0 -N 3 -A "weka.core.EuclideanDistance -R first-last" -I 500 -num-slots 1 -S 10
- Se utiliza el algoritmo SimpleKMeans con el parámetro -N 3, que indica que el algoritmo debe generar 3 clústeres.
- La distancia euclidiana se utiliza para medir la similitud entre instancias.
- -I 500 es el número máximo de iteraciones, pero el algoritmo converge antes de alcanzarlas.
2. Información del Conjunto de Datos
Relation: iris
Instances: 150
Attributes: 5
- El conjunto de datos Iris tiene 150 instancias y 5 atributos. Se han utilizado los atributos
sepallength
,sepalwidth
,petallength
ypetalwidth
. El atributoclass
fue ignorado, ya que es un algoritmo de agrupamiento no supervisado.
3. Modelo de Clustering
Number of iterations: 6
Within cluster sum of squared errors: 6.998114004826762
- El algoritmo realizó 6 iteraciones antes de converger, es decir, tardó 6 pasos en estabilizar los centroides.
- Within cluster sum of squared errors (WSS) es 6.99. Este valor mide el grado de compactación dentro de cada clúster. Un valor menor indica que las instancias dentro de cada clúster están más cerca de sus centroides respectivos, lo que en este caso es relativamente bajo, sugiriendo una buena agrupación.
4. Puntos de Inicio Aleatorios (Centroides Iniciales)
Initial starting points (random):
Cluster 0: 6.1,2.9,4.7,1.4
Cluster 1: 6.2,2.9,4.3,1.3
Cluster 2: 6.9,3.1,5.1,2.3
- Los centroides iniciales seleccionados aleatoriamente corresponden a diferentes puntos del espacio de características, lo que influye en el resultado final del clustering.
5. Centroides Finales de los Clústeres
Final cluster centroids:
Cluster#
Attribute Full Data 0 1 2
(150.0) (61.0) (50.0) (39.0)
=========================================================
sepallength 5.8433 5.8885 5.006 6.8462
sepalwidth 3.054 2.7377 3.418 3.0821
petallength 3.7587 4.3967 1.464 5.7026
petalwidth 1.1987 1.418 0.244 2.0795
- Los centroides finales muestran las características promedio de los atributos en cada clúster:
- Clúster 0 tiene mayores longitudes y anchos de pétalos, lo que indica que agrupa principalmente a las instancias de Iris-versicolor.
- Clúster 1 tiene longitudes y anchos de pétalo muy pequeños, lo que indica que agrupa las instancias de Iris-setosa.
- Clúster 2 tiene los valores más altos para la longitud y el ancho del pétalo, lo que indica que agrupa a Iris-virginica.
6. Instancias Agrupadas
Clustered Instances
0 61 ( 41%)
1 50 ( 33%)
2 39 ( 26%)
- 61 instancias (41%) fueron asignadas al clúster 0 (Iris-versicolor).
- 50 instancias (33%) fueron asignadas al clúster 1 (Iris-setosa).
- 39 instancias (26%) fueron asignadas al clúster 2 (Iris-virginica).
7. Relación entre Clases y Clústeres
Classes to Clusters:
0 1 2 <-- assigned to cluster
0 50 0 | Iris-setosa
47 0 3 | Iris-versicolor
14 0 36 | Iris-virginica
- Iris-setosa fue clasificada correctamente, con todas sus 50 instancias asignadas al clúster 1.
- Iris-versicolor tiene 47 instancias correctamente asignadas al clúster 0, pero 3 instancias se asignaron incorrectamente al clúster 2.
- Iris-virginica tiene 36 instancias correctamente asignadas al clúster 2, pero 14 instancias fueron incorrectamente asignadas al clúster 0.
8. Instancias Mal Clasificadas
Incorrectly clustered instances : 17.0 11.3333 %
- 17 instancias (11.33%) fueron clasificadas incorrectamente. Esto se debe principalmente a la confusión entre Iris-versicolor e Iris-virginica, que tienen características similares y son más difíciles de separar.
Interpretación General
Este resultado muestra que el algoritmo K-Means fue capaz de identificar correctamente Iris-setosa y la mayoría de las instancias de Iris-versicolor e Iris-virginica. Sin embargo, hay cierta confusión entre Iris-versicolor y Iris-virginica, ya que algunas instancias de Iris-virginica se agruparon con Iris-versicolor. Esto es un problema común en clustering cuando las clases tienen características que se solapan.
Para mejorar este modelo, se podrían probar las siguientes estrategias:
- Aumentar el número de clústeres: Usar más de 3 clústeres podría ayudar a capturar mejor las diferencias dentro de cada clase.
- Probar otros algoritmos de clustering, como el algoritmo EM (Expectation-Maximization), que puede modelar la distribución probabilística de los clústeres.