Análisis resultados

Este resultado muestra una ejecución del algoritmo K-Means en el conjunto de datos Iris utilizando 3 clústeres. A continuación, detallo la interpretación de cada parte del resultado:

1. Esquema del Algoritmo Usado

Scheme:       weka.clusterers.SimpleKMeans -init 0 -max-candidates 100 -periodic-pruning 10000 -min-density 2.0 -t1 -1.25 -t2 -1.0 -N 3 -A "weka.core.EuclideanDistance -R first-last" -I 500 -num-slots 1 -S 10

Se utiliza el algoritmo SimpleKMeans con el parámetro -N 3, que indica que el algoritmo debe generar 3 clústeres.
La distancia euclidiana se utiliza para medir la similitud entre instancias.
-I 500 es el número máximo de iteraciones, pero el algoritmo converge antes de alcanzarlas.

2. Información del Conjunto de Datos

Relation:     iris
Instances:    150
Attributes:   5

El conjunto de datos Iris tiene 150 instancias y 5 atributos. Se han utilizado los atributos sepallength, sepalwidth, petallength y petalwidth. El atributo class fue ignorado, ya que es un algoritmo de agrupamiento no supervisado.

3. Modelo de Clustering

Number of iterations: 6
Within cluster sum of squared errors: 6.998114004826762

El algoritmo realizó 6 iteraciones antes de converger, es decir, tardó 6 pasos en estabilizar los centroides.
Within cluster sum of squared errors (WSS) es 6.99. Este valor mide el grado de compactación dentro de cada clúster. Un valor menor indica que las instancias dentro de cada clúster están más cerca de sus centroides respectivos, lo que en este caso es relativamente bajo, sugiriendo una buena agrupación.

4. Puntos de Inicio Aleatorios (Centroides Iniciales)

Initial starting points (random):
Cluster 0: 6.1,2.9,4.7,1.4
Cluster 1: 6.2,2.9,4.3,1.3
Cluster 2: 6.9,3.1,5.1,2.3

Los centroides iniciales seleccionados aleatoriamente corresponden a diferentes puntos del espacio de características, lo que influye en el resultado final del clustering.

5. Centroides Finales de los Clústeres

Final cluster centroids:
                           Cluster#
Attribute      Full Data          0          1          2
                 (150.0)     (61.0)     (50.0)     (39.0)
=========================================================
sepallength       5.8433     5.8885      5.006     6.8462
sepalwidth         3.054     2.7377      3.418     3.0821
petallength       3.7587     4.3967      1.464     5.7026
petalwidth        1.1987      1.418      0.244     2.0795

Los centroides finales muestran las características promedio de los atributos en cada clúster:
- Clúster 0 tiene mayores longitudes y anchos de pétalos, lo que indica que agrupa principalmente a las instancias de Iris-versicolor.
- Clúster 1 tiene longitudes y anchos de pétalo muy pequeños, lo que indica que agrupa las instancias de Iris-setosa.
- Clúster 2 tiene los valores más altos para la longitud y el ancho del pétalo, lo que indica que agrupa a Iris-virginica.

6. Instancias Agrupadas

Clustered Instances
0       61 ( 41%)
1       50 ( 33%)
2       39 ( 26%)

61 instancias (41%) fueron asignadas al clúster 0 (Iris-versicolor).
50 instancias (33%) fueron asignadas al clúster 1 (Iris-setosa).
39 instancias (26%) fueron asignadas al clúster 2 (Iris-virginica).

7. Relación entre Clases y Clústeres

Classes to Clusters:

  0  1  2  <-- assigned to cluster
  0 50  0 | Iris-setosa
 47  0  3 | Iris-versicolor
 14  0 36 | Iris-virginica

Iris-setosa fue clasificada correctamente, con todas sus 50 instancias asignadas al clúster 1.
Iris-versicolor tiene 47 instancias correctamente asignadas al clúster 0, pero 3 instancias se asignaron incorrectamente al clúster 2.
Iris-virginica tiene 36 instancias correctamente asignadas al clúster 2, pero 14 instancias fueron incorrectamente asignadas al clúster 0.

8. Instancias Mal Clasificadas

Incorrectly clustered instances : 17.0     11.3333 %

17 instancias (11.33%) fueron clasificadas incorrectamente. Esto se debe principalmente a la confusión entre Iris-versicolor e Iris-virginica, que tienen características similares y son más difíciles de separar.

Interpretación General

Este resultado muestra que el algoritmo K-Means fue capaz de identificar correctamente Iris-setosa y la mayoría de las instancias de Iris-versicolor e Iris-virginica. Sin embargo, hay cierta confusión entre Iris-versicolor y Iris-virginica, ya que algunas instancias de Iris-virginica se agruparon con Iris-versicolor. Esto es un problema común en clustering cuando las clases tienen características que se solapan.

Para mejorar este modelo, se podrían probar las siguientes estrategias:

Aumentar el número de clústeres: Usar más de 3 clústeres podría ayudar a capturar mejor las diferencias dentro de cada clase.
Probar otros algoritmos de clustering, como el algoritmo EM (Expectation-Maximization), que puede modelar la distribución probabilística de los clústeres.

Minimal APIs

WordPress

Copilot

Estadística con Python

Git

Docker