Ejercicios clustering
Realiza estos ejercicios / prácticas con weka para practicar
1. Clustering con el dataset “iris.arff”**
El conjunto de datos iris.arff es uno de los más conocidos en la ciencia de datos. Contiene 150 instancias de flores de iris, con cuatro atributos (longitud y anchura del sépalo y del pétalo), y una clase objetivo (especies de iris).
Pasos para aplicar clustering:
- Cargar el dataset:
- Abre Weka y ve a la pestaña Explorer.
- Carga el dataset iris.arff desde la carpeta
data
de Weka.
- Seleccionar el Algoritmo de Clustering:
- Ve a la pestaña Cluster.
- Selecciona el algoritmo SimpleKMeans para aplicar el clustering de K-means.
- Configurar los Parámetros de K-means:
- Haz clic en el botón Configure.
- Establece el número de clusters en 3 (ya que hay tres especies diferentes de iris).
- Mantén el resto de los parámetros por defecto.
- Ejecutar el Clustering:
- Haz clic en Start.
- Weka aplicará el algoritmo K-means y formará tres clusters.
- Evaluar los Resultados:
- Observa la distribución de las instancias dentro de los tres clusters y compara con la clase original.
- Los clusters no necesariamente coincidirán perfectamente con las clases originales, ya que K-means no utiliza la clase de salida durante la formación de los clusters.
- Visualización:
- Puedes visualizar los clusters haciendo clic en Visualize Cluster Assignments.
- Esto mostrará una representación gráfica de las instancias agrupadas por colores según el cluster al que pertenecen.
2. Clustering con el dataset “weather.nominal.arff”
El conjunto de datos weather.nominal.arff es pequeño y contiene datos nominales sobre el clima y si se jugará un partido o no, basado en diferentes condiciones.
Pasos para clustering:
- Cargar el dataset:
- Carga weather.nominal.arff en Weka desde la carpeta
data
.
- Carga weather.nominal.arff en Weka desde la carpeta
- Seleccionar el Algoritmo de Clustering:
- Ve a la pestaña Cluster.
- Selecciona el algoritmo EM (Expectation Maximization), que es un algoritmo de clustering probabilístico que automáticamente determinará el número de clusters.
- Configurar los Parámetros de EM:
- Haz clic en Configure.
- Puedes ajustar el número de clusters si lo deseas, o dejarlo en automático para que el algoritmo decida.
- Ejecutar el Clustering:
- Haz clic en Start para ejecutar el algoritmo EM.
- Resultados:
- Observa cuántos clusters formó EM y cómo se distribuyeron las instancias entre ellos.
- Evaluación:
- Dado que los datos contienen atributos nominales, el algoritmo EM intentará encontrar patrones en los atributos como outlook, temperature, humidity y windy para agrupar las instancias.
3. Clustering con el dataset “diabetes.arff”
Este dataset contiene información médica sobre la diabetes y puede utilizarse para clustering.
Pasos:
- Cargar el dataset:
- Carga diabetes.arff en Weka.
- Seleccionar el Algoritmo de Clustering:
- En la pestaña Cluster, selecciona el algoritmo HierarchicalClusterer para realizar clustering jerárquico.
- Configurar los Parámetros:
- Haz clic en Configure.
- Ajusta el Link Type a COMPLETE para utilizar el método de enlace completo, y selecciona la Distance Function como Euclidean Distance.
- Ejecutar:
- Haz clic en Start para ejecutar el clustering jerárquico.
- Resultados:
- El modelo te dará un dendrograma (si activaste el Newick Tree), mostrando cómo se agruparon las instancias jerárquicamente.
4. Clustering con el dataset “glass.arff”
El dataset glass.arff contiene características de diferentes tipos de vidrio que se utilizan en la fabricación y puede ser útil para realizar clustering.
Pasos:
- Cargar el dataset:
- Carga el dataset glass.arff en Weka.
- Seleccionar el Algoritmo de Clustering:
- Selecciona SimpleKMeans en la pestaña de Cluster.
- Configurar los Parámetros:
- Establece el número de clusters en 6 (ya que hay seis tipos de vidrio en el conjunto de datos).
- Ajusta el número de iteraciones si es necesario.
- Ejecutar:
- Haz clic en Start para ejecutar el clustering de K-means.
- Evaluación:
- Observa los resultados y la asignación de instancias a cada cluster.
- Compara los clusters con las clases originales (tipos de vidrio).
5. Clustering con el dataset “soybean.arff”
El dataset soybean.arff contiene datos sobre las enfermedades que afectan a las plantas de soja y se puede usar para hacer clustering.
Pasos:
- Cargar el dataset:
- Carga el archivo soybean.arff en Weka.
- Seleccionar el Algoritmo de Clustering:
- En la pestaña Cluster, selecciona el algoritmo EM para clustering probabilístico.
- Configurar los Parámetros:
- Haz clic en Configure para ajustar los parámetros, como el número de clusters si lo deseas.
- Ejecutar:
- Ejecuta el algoritmo y observa cómo se agruparon los datos en clusters basados en patrones de enfermedades.
- Resultados:
- Revisa los resultados y la distribución de las instancias en los clusters. Puedes visualizar los clusters haciendo clic en Visualize Cluster Assignments.
Conclusión
Weka ofrece varios algoritmos de clustering que se pueden aplicar a los conjuntos de datos incluidos, como iris.arff, zoo.arff, weather.nominal.arff, y más. Estos ejemplos muestran cómo configurar algoritmos como K-means, EM, y Hierarchical Clustering para obtener agrupaciones útiles en función de las características de cada conjunto de datos. A partir de ahí, se puede evaluar la calidad de los clusters formados comparándolos con las clases reales o mediante análisis de patrones.