Preprocess
La pestaña Preprocess en el Explorer de Weka es el primer paso en el flujo de trabajo para la minería de datos. Se utiliza para cargar, inspeccionar y modificar los datos antes de aplicar cualquier algoritmo de clasificación, agrupamiento o asociación. Esta pestaña ofrece un conjunto de herramientas que te permiten gestionar y preprocesar el conjunto de datos.
A continuación se explican los principales apartados y opciones de la pestaña Preprocess, junto con ejemplos de uso:
1. Cargar Conjunto de Datos
Este es el primer paso, donde se cargan los datos desde diferentes fuentes.
- Opciones:
- Open File…: Permite cargar conjuntos de datos desde un archivo local. Weka acepta archivos en formatos como ARFF, CSV, C4.5 y otros.
- Open URL…: Cargar conjuntos de datos desde una URL.
- Open DB…: Cargar datos desde una base de datos usando una conexión JDBC.
- Ejemplo:
- Supongamos que tienes un archivo en formato ARFF llamado
wine.arff
. Lo puedes cargar haciendo clic en Open File… y seleccionando el archivo.
- Supongamos que tienes un archivo en formato ARFF llamado
2. Lista de Atributos
Una vez que se carga el conjunto de datos, Weka muestra una lista de todos los atributos disponibles en el dataset.
- Opciones:
- Muestra cada atributo con su nombre y tipo de datos (numérico o nominal).
- Puedes seleccionar uno o varios atributos haciendo clic en ellos. Los atributos seleccionados se pueden modificar o eliminar.
- Ejemplo:
- Si tienes un conjunto de datos sobre calidad del vino, podrías ver atributos como
fixed acidity
,volatile acidity
,citric acid
, yquality
. Aquí podrías seleccionar los atributos irrelevantes para eliminarlos o aplicar transformaciones.
- Si tienes un conjunto de datos sobre calidad del vino, podrías ver atributos como
3. Visor de Atributos
Cuando seleccionas un atributo de la lista, en la parte derecha de la interfaz se muestran las estadísticas y gráficos de dicho atributo.
- Opciones:
- Para atributos numéricos, se muestra un histograma que indica la distribución de valores.
- Para atributos nominales, se muestra un gráfico de barras con las frecuencias de cada categoría.
- También se pueden ver medidas estadísticas como el número de valores, el número de valores únicos, el valor mínimo y máximo, la media, etc.
- Ejemplo:
- Al seleccionar el atributo
fixed acidity
en un dataset de vinos, podrías ver un histograma con la distribución de niveles de acidez fija y datos estadísticos como la media y desviación estándar.
- Al seleccionar el atributo
4. Filtros (Filters)
La opción Filters te permite aplicar filtros para transformar, limpiar o modificar los datos. Los filtros se clasifican en Supervised (supervisados) y Unsupervised (no supervisados). Estos filtros permiten realizar tareas como normalización, eliminación de valores faltantes, discretización, entre otras.
- Opciones:
- Unsupervised filters: Filtros que no requieren que los datos estén etiquetados (es decir, sin usar la variable objetivo o de clase).
- Remove: Elimina uno o varios atributos del dataset.
- Normalize: Normaliza los valores de los atributos numéricos.
- Discretize: Convierte atributos numéricos en categorías discretas.
- Supervised filters: Filtros que utilizan la variable objetivo (de clase) para modificar los datos.
- AttributeSelection: Selecciona los atributos más relevantes en función de la clase objetivo.
- Unsupervised filters: Filtros que no requieren que los datos estén etiquetados (es decir, sin usar la variable objetivo o de clase).
- Ejemplo:
- Supón que quieres normalizar los valores de acidez en tu dataset de vinos. Seleccionas el atributo
fixed acidity
, aplicas el filtro Unsupervised > Attribute > Normalize, y todos los valores de este atributo se escalarán para estar entre 0 y 1.
- Supón que quieres normalizar los valores de acidez en tu dataset de vinos. Seleccionas el atributo
5. Botón Apply
Después de seleccionar un filtro, debes hacer clic en el botón Apply para aplicar el filtro seleccionado al conjunto de datos.
- Ejemplo:
- Si aplicas el filtro Remove para eliminar el atributo
citric acid
, el conjunto de datos se modificará al hacer clic en Apply y se eliminará dicho atributo.
- Si aplicas el filtro Remove para eliminar el atributo
6. Opciones de Guardado
Después de preprocesar los datos, puedes guardar el conjunto de datos modificado.
- Opciones:
- Save…: Guarda el conjunto de datos preprocesado en un archivo ARFF o CSV.
- Ejemplo:
- Después de eliminar los atributos irrelevantes y normalizar los datos, puedes guardar el nuevo conjunto de datos para su uso posterior en la pestaña Classify o Cluster, haciendo clic en Save y eligiendo un formato (como ARFF o CSV).
7. Opciones de Selección de Atributos
En la parte inferior de la pestaña Preprocess, hay una lista desplegable que te permite seleccionar qué atributos deseas incluir o excluir del análisis.
- Opciones:
- Puedes seleccionar uno o varios atributos de la lista para eliminar o modificar.
- También puedes seleccionar la clase (o variable objetivo) para algoritmos supervisados.
- Ejemplo:
- Si en un conjunto de datos de vinos tienes un atributo llamado
quality
que representa la clasificación de calidad del vino, puedes designarlo como la variable clase y luego seleccionar qué atributos quieres analizar con respecto a la calidad.
- Si en un conjunto de datos de vinos tienes un atributo llamado
8. Panel de Instancias
Este panel muestra el número total de instancias (filas) en el conjunto de datos, y también puede mostrar un subconjunto de los datos cargados.
- Opciones:
- Muestra cuántas instancias o registros existen en el conjunto de datos.
- También se puede ver cuántas instancias pertenecen a cada clase (si los datos son etiquetados).
- Ejemplo:
- Si tienes un conjunto de datos con 150 instancias sobre vinos, el panel de instancias mostrará
150 instances
. Si designasquality
como la clase objetivo, el panel también mostrará cuántos vinos pertenecen a cada categoría de calidad.
- Si tienes un conjunto de datos con 150 instancias sobre vinos, el panel de instancias mostrará
Flujo de Trabajo Ejemplo en la Pestaña Preprocess:
- Cargar los datos: Se carga un archivo ARFF que contiene información sobre la calidad del vino.
- Explorar los atributos: Se selecciona el atributo
alcohol
y se observa su distribución. - Aplicar filtros: Se decide normalizar el atributo
alcohol
y eliminar el atributoresidual sugar
que no es relevante para el análisis. - Guardar el dataset preprocesado: Después de realizar las modificaciones, se guarda el nuevo dataset para su uso en la sección de clasificación