Ejemplo: Análisis de Clics en Páginas Web
a que tienes un conjunto de datos donde se registra cada sesión de usuario y las páginas que han visitado dentro de un sitio web. El objetivo es descubrir patrones de navegación: es decir, qué páginas suelen ser visitadas juntas.
Conjunto de Datos Ficticio (web_clicks.arff)
Aquí tienes un ejemplo de un archivo ARFF que puedes usar para cargar en Weka y ejecutar el algoritmo de reglas de asociación.
@relation web_clicks
@attribute SessionID string
@attribute PageA {yes, no}
@attribute PageB {yes, no}
@attribute PageC {yes, no}
@attribute PageD {yes, no}
@attribute PageE {yes, no}
@data
'session1', yes, no, yes, no, yes
'session2', no, yes, yes, no, no
'session3', yes, yes, no, no, yes
'session4', yes, no, yes, yes, no
'session5', no, yes, yes, no, no
'session6', yes, no, no, yes, yes
'session7', no, yes, no, yes, no
'session8', yes, no, yes, yes, no
Descripción del dataset:
- SessionID: Identificador de la sesión de usuario.
- PageA, PageB, PageC, PageD, PageE: Indica si el usuario ha visitado esa página en una sesión particular (
yes
para visitado,no
para no visitado).
Objetivo:
Queremos descubrir reglas de asociación que nos indiquen patrones comunes de navegación. Por ejemplo, podríamos descubrir reglas como:
- Si un usuario visita PageA, es probable que también visite PageC.
- Si un usuario visita PageB, es menos probable que visite PageD.
Pasos para aplicar Apriori en Weka:
- Carga el archivo web_clicks.arff en Weka como conjunto de datos.
- Ve a la pestaña de Associations.
- Selecciona el algoritmo Apriori.
- Ajusta las opciones del algoritmo para descubrir patrones interesantes:
- MinSupport: 0.3 (30% de soporte mínimo).
- Confidence: 0.7 (70% de confianza mínima).
- Número máximo de reglas: 5 (para limitar las reglas a las más interesantes).
Ejecución de Apriori:
Al ejecutar Apriori con estas opciones, el algoritmo buscará reglas de asociación entre las páginas visitadas durante las sesiones de usuario. Weka te devolverá algo como lo siguiente:
Resultado de Reglas de Asociación:
- PageA=yes => PageC=yes (Confianza: 80%)
- Interpretación: Si un usuario visita la página A, hay un 80% de probabilidad de que también visite la página C.
- PageB=yes => PageD=no (Confianza: 75%)
- Interpretación: Si un usuario visita la página B, hay un 75% de probabilidad de que no visite la página D.
- PageA=yes => PageE=yes (Confianza: 70%)
- Interpretación: Si un usuario visita la página A, hay un 70% de probabilidad de que también visite la página E.
Interpretación de los resultados:
- Regla 1: La primera regla sugiere que hay una fuerte relación entre visitar la página A y la página C. Si los usuarios que visitan la página A tienden a visitar la página C, puedes sugerir que los dos contenidos están relacionados o que una página lleva a la otra a través de enlaces internos.
- Regla 2: La segunda regla muestra una asociación negativa, es decir, los usuarios que visitan la página B tienden a evitar la página D. Esto podría indicar que estas páginas tienen contenidos que no interesan al mismo grupo de usuarios.
- Regla 3: La tercera regla muestra una relación entre la página A y la página E, con una confianza del 70%. Es menos fuerte que la primera regla, pero sigue siendo un patrón relevante.
Probad el siguiente archivo (renombrad a arff)