Ejemplo Select attributes
Pasos para realizar Attribute Selection en Weka con el dataset diabetes.arff:
1. Cargar el Dataset:
- Abre Weka.
- Ve a la pestaña Preprocess.
- En Open file…, selecciona el archivo diabetes.arff desde la carpeta de datasets de Weka.
2. Ir a la pestaña Select attributes:
- Una vez cargado el dataset, cambia a la pestaña Select attributes.
3. Elegir el método de selección de atributos:
- En Attribute Evaluator, selecciona un método. Usaremos el evaluador InfoGainAttributeEval para evaluar cuánta información aporta cada atributo respecto a la clase (outcome).
- En Search Method, selecciona Ranker para que ordene los atributos por su importancia.
- Haz clic en Start para ejecutar el proceso de selección de atributos.
Ejemplo con InfoGainAttributeEval y Ranker:
- En Attribute Evaluator, selecciona
InfoGainAttributeEval
. - En Search Method, selecciona
Ranker
. - Haz clic en Start para ver los resultados.
4. Ejemplo de resultados:
Después de ejecutar la selección, deberías obtener una salida similar a esta:
=== Attribute selection on all input data ===
Ranking of attributes by InfoGain:
0.423 2 plas (Plasma glucose concentration)
0.276 6 mass (Body mass index)
0.160 1 preg (Number of times pregnant)
0.156 8 age (Age in years)
0.141 5 skin (Triceps skin fold thickness)
0.129 3 pres (Diastolic blood pressure)
0.071 7 pedi (Diabetes pedigree function)
0.034 4 insu (2-Hour serum insulin)
5. Interpretación:
- InfoGainAttributeEval calcula cuánta información aporta cada atributo respecto a la clase objetivo (diabetes). En este caso, los atributos más importantes son:
plas (Plasma glucose concentration)
con una ganancia de información de 0.423.mass (Body mass index)
con una ganancia de información de 0.276.
- Los atributos como
insu (2-Hour serum insulin)
tienen una ganancia de información mucho menor, lo que indica que contribuyen poco a la predicción del outcome (si la persona tiene diabetes o no).
6. Filtrado de atributos:
- Para reducir los atributos, puedes fijar un umbral en Ranker, como por ejemplo seleccionar solo aquellos atributos con ganancia de información superior a 0.1. Esto te permitirá reducir los atributos menos relevantes.
7. Clasificación:
- Después de realizar la selección, puedes usar estos atributos seleccionados para entrenar un modelo de clasificación (por ejemplo, con J48 o RandomForest) y comparar el rendimiento con el modelo completo.