Select Attributes
La pestaña Select Attributes en el Explorer de Weka es una herramienta diseñada para seleccionar las variables o atributos más relevantes de un conjunto de datos. Esta selección ayuda a mejorar la precisión de los modelos de machine learning, reducir el tiempo de entrenamiento y eliminar redundancias. En términos simples, permite elegir las características que tienen más impacto en las predicciones o análisis.
A continuación, se explica el funcionamiento de esta pestaña, sus principales apartados y opciones, junto con ejemplos prácticos.
1. Seleccionar un Evaluador de Atributos (Attribute Evaluator)
El primer paso es elegir un evaluador de atributos, que es el método utilizado para calcular la importancia de cada atributo en el conjunto de datos.
- Evaluadores Comunes:
- CfsSubsetEval: Evalúa subconjuntos de atributos en función de su correlación con la clase y entre ellos. Intenta encontrar subconjuntos donde los atributos estén altamente correlacionados con la clase, pero poco correlacionados entre sí.
- InfoGainAttributeEval: Mide la ganancia de información de cada atributo respecto a la clase. La ganancia de información evalúa cuánto se reduce la incertidumbre sobre la clase cuando conocemos el valor del atributo.
- GainRatioAttributeEval: Similar al InfoGain, pero ajusta la ganancia de información dividiendo por la “pureza” del atributo, lo que evita el sesgo hacia atributos con muchos valores distintos.
- PrincipalComponents: Aplica un análisis de componentes principales (PCA) para reducir la dimensionalidad del conjunto de datos.
- Ejemplo:
- En un conjunto de datos que predice el riesgo de crédito, puedes utilizar InfoGainAttributeEval para calcular qué variables (como ingresos, historial de crédito, etc.) tienen más influencia en la decisión de si un cliente es riesgoso o no.
2. Seleccionar un Método de Búsqueda (Search Method)
El método de búsqueda define cómo se seleccionarán los atributos relevantes. Algunos evaluadores de atributos funcionan mejor con ciertos métodos de búsqueda.
- Métodos de Búsqueda Comunes:
- BestFirst: Realiza una búsqueda en profundidad a través del espacio de atributos, seleccionando los mejores subconjuntos en función del evaluador.
- GreedyStepwise: Selecciona los atributos de forma codiciosa, agregando o eliminando atributos basándose en su rendimiento en cada paso.
- Ranker: Asigna un ranking a cada atributo en función de su importancia según el evaluador seleccionado. Solo selecciona aquellos que están por encima de un umbral establecido.
- ExhaustiveSearch: Evalúa todas las posibles combinaciones de atributos. Es computacionalmente caro, pero garantiza encontrar la mejor combinación.
- Ejemplo:
- En el ejemplo de predicción de riesgo crediticio, podrías usar BestFirst para probar diferentes combinaciones de variables (como edad, ingresos, historial de crédito) y seleccionar aquellas que juntas mejoran el modelo de predicción.
3. Configurar el Evaluador y el Método de Búsqueda
Una vez seleccionados el evaluador y el método de búsqueda, puedes ajustarlos a las características específicas de tu conjunto de datos.
- Opciones Comunes:
- Threshold: Para evaluadores que producen un valor numérico (como InfoGainAttributeEval), puedes establecer un umbral que determine qué atributos se seleccionan. Solo aquellos con una ganancia de información superior al umbral serán seleccionados.
- Direction: En algunos métodos de búsqueda, puedes elegir si la búsqueda debe ser hacia adelante (agregando atributos) o hacia atrás (eliminando atributos).
- Ejemplo:
- En el caso de un conjunto de datos de ventas, puedes establecer un umbral de InfoGain en 0.1 para asegurarte de que solo los atributos que reduzcan significativamente la incertidumbre sobre la clase (como el tipo de cliente o la región) sean seleccionados.
4. Ejecutar la Selección de Atributos
Después de configurar el evaluador y el método de búsqueda, puedes ejecutar el proceso de selección de atributos. Weka evaluará cada atributo o subconjunto de atributos y devolverá los resultados.
- Resultados Mostrados:
- Selected Attributes: Weka muestra una lista de los atributos seleccionados, indicando cuáles son los más importantes para predecir la clase objetivo.
- Ranking: Si has utilizado un método de ranking como Ranker, Weka muestra un ranking de los atributos en función de su importancia.
- Subset Size: Si utilizas un método basado en subconjuntos, como CfsSubsetEval, se muestra el tamaño del mejor subconjunto seleccionado.
- Ejemplo:
- Después de ejecutar la selección de atributos en un conjunto de datos de marketing, podrías encontrar que las variables como “edad”, “ingresos”, y “intereses del cliente” son las más relevantes para predecir si un cliente responderá a una campaña.
5. Evaluación de los Atributos Seleccionados
En este paso, puedes evaluar el rendimiento del subconjunto de atributos seleccionado. Generalmente, esto se hace entrenando un modelo de machine learning solo con los atributos seleccionados y comparando el rendimiento con un modelo que utilice todos los atributos.
- Opciones de Evaluación:
- Cross-validation: Puedes utilizar validación cruzada para evaluar la precisión de los atributos seleccionados.
- Comparar Resultados: Weka no tiene una función integrada para comparar directamente los resultados de antes y después de la selección de atributos, pero puedes realizar esta comparación manualmente creando dos conjuntos de datos: uno con todos los atributos y otro con los seleccionados.
- Ejemplo:
- Después de seleccionar atributos para predecir la probabilidad de compra de un cliente, puedes entrenar un modelo de clasificación solo con esos atributos y ver si mejora el rendimiento en comparación con usar todos los atributos disponibles.
6. Guardar los Atributos Seleccionados
Una vez que se seleccionan los atributos relevantes, puedes guardar un nuevo archivo de conjunto de datos (ARFF o CSV) con solo los atributos seleccionados para su uso en futuros análisis o modelos.
Flujo de Trabajo Ejemplo en la Pestaña Select Attributes:
- Seleccionar un evaluador de atributos: Seleccionas CfsSubsetEval para evaluar subconjuntos de atributos en función de su correlación con la clase objetivo.
- Seleccionar un método de búsqueda: Seleccionas BestFirst para explorar diferentes subconjuntos de atributos y elegir el mejor.
- Configurar el evaluador y el método de búsqueda: Configuras BestFirst para buscar subconjuntos de atributos hacia adelante, es decir, agregando atributos de uno en uno.
- Ejecutar la selección: Weka selecciona los atributos “edad”, “ingresos”, y “historial de crédito” como los más relevantes para predecir el riesgo de crédito.
- Evaluar los atributos seleccionados: Entrenas un modelo de regresión logística con los atributos seleccionados y observas una mejora en la precisión del modelo.