S2WC2, un Framework pour la Segmentation de Sessions Web Coté Client

Architecture de S2WC2

S2WC2, un Framework pour la Segmentation de Sessions Web Coté Client

Chapitre 4 – S2WC2, un Framework pour la Segmentation de Sessions Web Coté Client

4.1 Introduction

Après avoir exploré les sujets de l’extraction de connaissances et de la fouille du web et présenté l’état de l’art sur le web usage mining, nous décrivons dans ce chapitre notre approche pour la construction d’un framework de segmentation de sessions web de coté des utilisateurs. Nous y présentons l’architecture proposée, les différents choix que nous avons été amené à adopter, ainsi que les modules implémentés.

4.2 Architecture

L’environnement conçu est constitué, de manière similaire à tout projet de fouille de données, de trois parties relativement distinctes les unes des autres : un collecteur de traces de navigation, une application de prétraitement de données, et un module d’extraction de connaissances. Cette architecture est illustrée dans la figure ci-après.

La collecte de traces de navigation est assurée par un module léger développé pour Internet Explorer de Microsoft, le navigateur le plus répandu. Cet outil, détaillé dans le point suivant, fournit des logs à ramasser sur les postes des utilisateurs ayant répondu favorablement à notre sollicitation et accepté de participer à l’étude.

La deuxième partie inclut plusieurs algorithmes que nous avons écrit afin de préparer les logs bruts des utilisateurs générés par l’outil de collecte de traces. Elle a consisté globalement, après la fusion des logs ramassés, à les nettoyer, d’en reconstituer les sessions, et

Continuer la lecture

WUM et vie privée – Analyse des connaissances en WUM

WUM et vie privée – Analyse des connaissances en WUM

3.7 Analyse des connaissances

L’analyse des résultats produits par les différentes techniques d’extraction de connaissances constitue l’étape finale en WUM. Elle revêt une importance capitale, car elle permet de valider et d’évaluer les motifs extraits. Dans cette phase, les connaissances découvertes seront inspectées afin d’en séparer seulement celles pouvant être considérées très utiles.

Cette analyse est une autre tâche non aisée du processus du WUM. En effet, elle repose principalement sur la mesure de l’intérêt des connaissances obtenues, qui n’est pas toujours évidente. La quantification de l’importance d’une règle ou d’un motif trouvé est tributaire de plusieurs facteurs complexes, tels que : l’objectif de l’étude dans un domaine cible (motifs plus populaires pour un site de e-commerce, ceux moins normaux dans une analyse de la sécurité d’un système…etc.), l’algorithme d’ECD utilisé, et notamment la composition du groupe chargé de l’analyse (Cooley, 2000).

1 Une sous-classe des grammaires régulières probabilistes, dont les non terminaux correspondent aux pages web et les productions de règles aux hyperliens.

Il est reporté dans (Tanasa et al., 2004b) que l’étape d’analyse des connaissances découvertes n’a pas toujours été le principal souci des équipes de recherche en WUM, et que le nombre de travaux consacrés à la validation et l’interprétation des résultats reste limité. Toutefois, (Cooley, 2000) a tenté de définir les

Continuer la lecture

L’ECD : la classification et les motifs séquentiels

Exemple de modélisation par chaîne de Markov d’une trace de navigation
L’ECD : la classification et les motifs séquentiels

3.6.5 La classification

Dans cette tâche d’ECD, on se focalise sur le regroupement des données en ensembles de classes prédéfinies. Dans le cadre du WUM et généralement dans le web, on s’intéresse notamment à la construction de profils utilisateurs appartenant à des catégories particulières selon leurs motifs d’usage, ce qui nécessite évidemment la sélection et l’extraction préalable des caractéristiques de chaque catégorie ou classe.

L’application type reste le filtrage collaboratif, un champ de recherche en relation avec le profiling des utilisateurs, la personnalisation et la recommandation dans le web, dont l’idée est de prédire les préférences d’un nouvel utilisateur inconnu en se référant à d’autres plus proches (Markov et al., 2007).

Pour la classification, plusieurs algorithmes d’apprentissage supervisé sont utilisés, tels que : les arbres de décision, le kPPV, les SVM, et les classificateurs de Bayes (Cooley, 2000). Il est aussi de coutume d’exploiter, pour fins de classification, les résultats d’un algorithme de segmentation ou d’extraction de RA (Mobasher, 2006).

(Fu et al., 2001) présente un algorithme de classification des pages d’un site web, en vue de sa réorganisation, basé sur les informations d’usage. Dans ce travail, deux catégories de pages ont été définies : les pages d’index et celles de contenu, dont les propriétés : type de fichier, nombre de liens, un compteur de fin de session et la longueur de référence1 ont été retenues comme traits

Continuer la lecture

Extraction de connaissances en WUM et applications

Résumé de statistiques appliquées sur le fichier log du site : www.awstat.net
Extraction de connaissances en WUM et applications

3.6 Extraction de connaissances et applications

Une fois les données brutes d’usage préparées et formatées dans la phase précédente, elles seront prêtes à l’application des techniques de fouille de données en vue d’en extraire des motifs de navigation intéressants. Cette phase de découverte de connaissances est la plus favorite et préférée par les acteurs de la fouille de données, car elle en permet d’explorer et d’évaluer leur différentes méthodes et algorithmes (Markov et al., 2007).

Il est reporté dans la littérature qu’un nombre illimité de techniques peut être appliqué en WUM, qui varient en complexité entre celles relativement simples reposant par exemple sur l’analyse exploratoire statistique à celles plus laborieuses basées sur des modèles formels et/ou probabilistiques (Srivastava et al.,2000).

Dans cette section, nous passons en revue quelques travaux dédiés à la phase d’extraction de connaissances en WUM. La présentation ne prétend pas ni l’exhaustivité ni l’approfondissement, et nous ne s’étalons donc pas sur les détails de chaque méthode, mais nous nous contentons notamment sur l’étude des principaux paradigmes explorés dans cette phase à savoir : l’analyse statistique et OLAP, les règles d’association, la segmentation/classification, et en fin les motifs séquentiels. Afin d’alléger ce mémoire, les différentes applications du WUM sont aussi parallèlement évoquées de façon sommaire.

3.6.1 L’analyse statistique

La majorité des applications

Continuer la lecture

Le formatage et l’intégration d’autres données d’usage

Le formatage et l’intégration d’autres données d’usage

3.5.3 Formatage

Le formatage quant à lui, constitue l’étape finale du processus de prétraitement en WUM (Facca et al., 2005), durant laquelle les données d’usage collectées et préparées dans les étapes précédentes vont être transcrites et structurées dans une forme persistante.

Bien qu’il soit possible de travailler sur les formats plats des fichiers logs, les bases de données relationnelles fournissent indiscutablement un mode de stockage adapté à ce type de données volumineuses, car elles en permettent une exploitation et une interrogation plus efficaces. C’est ainsi qu’elles ont été utilisées dans de nombreux travaux de WUM (Beauvisage, 2004), (Tanasa, 2005).

Les entrepôts de données sont une forme relationnelle plus élaborée employée dans ce cadre. A titre d’exemple, (Zaiane et al., 1998) stocke les données d’usage d’un système d’enseignement à distance1 dans une structure de cube de données multidimensionnelles, en vue d’offrir différents niveaux et angles d’analyse.

D’autres travaux modélisent les logs selon des structures de données d’arbres compactés afin de faciliter et permettre le développement de nouveaux algorithmes efficaces de fouille de logs, tels que WAP-tree (Web Access Pattern Tree) introduit dans (Pei et al., 2000).

3.5.4 Intégration d’autres données

Il est évident que se limiter seulement aux données d’usage pures est insuffisant pour comprendre et étudier plus en profondeur les comportements de navigation des visiteurs des sites web. C’est

Continuer la lecture

Reconstruction des sessions et Processus de prétraitement en WUM

Références manquantes dues au mécanisme de cache
Reconstruction des sessions et Processus de prétraitement en WUM
3.5.2 Reconstruction de sessions

Afin d’aboutir au fichier des sessions et après la phase de nettoyage des données d’usage, le processus de prétraitement en WUM inclut une étape de reconstruction des sessions. Cette dernière est en réalité constituée de trois sous tâches. Elle comprend l’identification des utilisateurs, l’identification des sessions et la complétude des parcours de navigation (Cooley et al., 1999),(Markov et al., 2007).

3.5.2.1 Identification des utilisateurs

Si on se place du coté serveur, l’étape d’identification des utilisateurs est dans la majorité des cas très difficile à résoudre. En effet, il est en général presque impossible d’identifier à partir des activités de navigations, enregistrées dans les fichiers logs au format (E)CLF souvent incomplets et incohérents, celles appartenant à un utilisateur physique donné.

Ces logs peuvent, de plus, ne pas refléter exactement la navigation des utilisateurs sur un site Web, et couramment une partie des demandes d’un client n’arrive jamais au serveur, en raison de plusieurs machines proxy intermédiaires utilisées, et niveaux de cache implémentés dans le web (Cooley, 2000).

Le mécanisme de cache-proxy demeure le plus crucial et rencontré altérant les traces de navigation, et introduisant des incertitudes dans les tentatives pour pister tous les événements qui se produisent durant une session utilisateur. Le cache est une sorte de mémoire dans laquelle seront enregistrées les pages demandées initialement par l’utilisateur. En

Continuer la lecture

Le processus de prétraitement en WUM : le nettoyage des données

Le processus de prétraitement en WUM : le nettoyage des données

3.5 Prétraitement

Comme nous l’avons vu dans le chapitre précédent, les indicateurs de métrologie relative au Web montrent une évolution exponentielle de celui-ci. Ainsi, et l’instar des données de contenu du Web, les données de son usage collectées dans des fichiers logs ont atteint à leur tour des dimensions colossales.

A titre indicatif, la taille des fichiers logs de certains sites populaires se compte en gigaoctets, comme c’est le cas de Yahoo !, qui collectait en mars 2002 presque 100 GO de données logs Web par heure (Tanasa et al., 2003). Ces volumes énormes de ce type de fichiers constituent une des difficultés majeures à leur manipulation par les algorithmes de fouille, même les plus astucieux entre eux.

De plus, il a été prouvé dans de nombreux travaux (Cooley et al., 1999), (Srivastava et al., 2000),(Berendt et al., 2002), (Murgue, 2006) que ces données sont dans une forme très brute, et inappropriée pour une application directe et fructueuse des techniques de fouille de données.

Ces aléas inhérents aux données d’usage du Web1, qui les rendent incohérentes, erronées et non fiables et limitent leur exploitation naturelle, sont dus à plusieurs éléments, dont les plus prépondérants sont la nature même du protocole http, et l’organisation hiérarchique de l’Internet (Cooley et al., 1999),(Murgue, 2006).

Partant du principe que la qualité des connaissances extraites à partir de ces fichiers est fortement liée et conditionnée par la validité des données recueillies (Berendt et al., 2002), une

Continuer la lecture

Recueil de données : coté serveur, coté Proxy et coté client

Recueil de données : coté serveur, coté Proxy et coté client

3.4 Recueil de données

Dans cette phase, différentes sortes de données sont collectées. Les plus communément exploitées sont les fichiers log enregistrés selon la position des dispositifs de collecte dans le réseau, les données issues des procédures d’inscription si disponibles, et les données sur la structure et le contenu des sites (Markov et al., 2007).

Pour pouvoir effectuer une analyse de l’usage du Web, il est nécessaire de disposer de données de trafic suffisantes et en bonne qualité. Ces deux conditions sur la quantité et la qualité des données sont d’ailleurs exigées dans tout projet de fouille. Dans le cadre du WUM, la première exigence est assurée dans la phase de recueil, alors que la deuxième condition est prise en charge durant la phase de prétraitement.

Depuis 1990, l’examen de l’offre des contenus et des services sur le Web montre une évolution apparente. Ainsi, de multiples protocoles (http, ftp, pop3…) et différentes méthodes de présentation de contenu (statiques, dynamiques) sont actuellement implémentés.

Si du point de vue de l’utilisateur, ces détails techniques sont insignifiants, et la diversité des logiciels est transparente, et tous ces éléments sont pour lui en total continuité, alors en développant des outils de recueil de traces de navigation, on est obligé par contre de prendre en considération tous ces aspects. Il est important d’avoir un angle d’approche technique de l’activité sur internet. Quels protocoles sont utilisés, par quelles applications passent-ils,

Continuer la lecture

Comportement des utilisateurs sur le Web et Processus en WUM

Processus standard de haut niveau en WUM

Comportement des utilisateurs sur le Web et Processus en WUM

Chapitre 3 – Web Usage Mining, Etat de l’art et Problématique

3.1 Introduction

Le Web a ouvert, depuis son apparition, plusieurs directions de recherche dans différentes disciplines. Il peut être considéré comme un laboratoire distribué et énorme permettant la capture, l’étude et l’analyse du comportement humain dans un environnement numérique virtuel (Baldi et al., 2003).

D’un point de vue analyse de données, le Web offre des opportunités riches pour le recueil à grande échelle des données d’observations et de leur utilisation pour la construction, le test et la réfutation de modèles relatifs à l’attitude des hommes en face du Web (Baldi et al., 2003). De l’angle des sciences humaines et sociales, on désire comprendre et mesurer l’impact social et psychologique de l’utilisation du Web sur l’individu (ou des groupes d’individus).

Le WUM, comme mentionné déjà, est une branche du WM qui se centre sur l’analyse de l’usage du Web. Il est utilisé de plus en plus par de nombreuses entreprises et par les propriétaires de sites, afin de mesurer leurs fréquentations, suivre (tracker) leurs utilisateurs, anticiper leurs besoins, et offrir des contenus adaptés.

3.2 Etude du comportement des utilisateurs sur le Web

La majorité des travaux dans le WUM (usage, interaction, navigation…) tirent leur origine des nombreux travaux réalisés auparavant sur les hypermédia, en particulier dans le champ des sciences cognitives. Ces travaux portaient principalement sur la modélisation de

Continuer la lecture

Le Web mining et les domaines associés : RI, BDD, AGENTS et WS

Le Web mining et les domaines associés : RI, BDD, AGENTS et WS

2.4 Web mining et domaines connexes

Nous avons montré qu’avec le développement du Web, les études sur l’analyse des données qu’offre ce média, sur le plan des contenus, des structures et des usages ont suscité l’intérêt de plusieurs communautés de recherche issues d’origines diverses.

Dans les paragraphes suivants, nous essayons de donner les points d’intersection et de convergence entre le Web mining et les domaines associés. Nous évoquons les domaines suivants : la recherche d’information, les bases de données, l’approche agent et le Web sémantique.

2.4.1 Web mining et recherche d’information (WM&RI)

Les systèmes de recherche d’information (SRI) ont pour objectif de retrouver l’ensemble de ressources pertinentes à un besoin informationnel d’un utilisateur exprimé par une requête. Ces systèmes se fondent sur une fonction de correspondance entre un modèle de requête et un modèle de documents.

Ils tentent à récupérer le plus possible de documents pertinents, répandant à la requête, et d’ignorer ceux ne satisfaisant pas la demande de l’utilisateur. Ils sont évalués en calculons deux mesures largement utilisées : la précision et le rappel.

La première détermine le rapport entre le nombre de documents pertinents trouvés et le nombre de document trouvés, quant à la deuxième, elle exprime le nombre de documents pertinents trouvés par rapport au nombre de documents pertinents pour la requête (Rijsbergen, 1979).

A l’apparition du Web, il a été constaté que les utilisateurs

Continuer la lecture

Web structure mining : PageRank, HITS et Web usage mining

Score d’une page dans PageRank
Web structure mining : PageRank, HITS et Web usage mining

2.3.2 Web structure mining

Le Web Structure Mining (WSM) se focalise sur l’analyse de la structure des liens entre les pages ou les sites Web, qui constitue une source riche d’information. Les recherches consacrées à cette branche du WM sont inspirées des travaux sur l’étude des réseaux sociaux (réseaux entre des groupes de personnes ou d’institutions ayant des interactions entre eux) et l’analyse de citations1 (Kosala et al., 2000).

Le WSM inclut l’étude de la topologie du Web (Page et al., 1998), la catégorisation de pages en pages de contenu (authoritatives) et pages de lien (hubs), et la génération d’informations de communauté sur la base de similarité entre les pages ou sites Web (Chakrabarti et al., 1999), (Chakrabarti, 2003). L’analyse de la structure du Web utilise plusieurs algorithmes, dont les plus célèbres sont PagRank (Page et al., 1998) et HITS (Kleinberg, 1999).

2.3.2.1 PageRank

Développé dans l’université de Stanford par Brin et Page (Page et al., 1998), puis intégré dans le moteur de recherche Google, PageRank est un algorithme d’analyse de structure des liens entre pages très puissant (Zhang et al., 2006).

1 Elles font partie des conventions de l’écriture scientifique. Elles permettent à un auteur citant de préciser dans quels travaux il a puisé ses idées. Quand cette convention est respectée, les citations constituent un indicateur d’influence ou d’impact des auteurs cités.

A l’inverse de HITS, PageRank calcul une seule mesure de

Continuer la lecture

Web content mining : Extraction, sélection et prétraitement

Le processus du WCM
Web content mining : Extraction, sélection et prétraitement

2.3 Taxonomie pour le Web mining

La première utilisation du terme Web mining (WM) est attribuée à Oren Etzioni dans un article consacré à l’étude de l’applicabilité de la technologie du data mining sur le Web. Dans ce papier originel (Etzioni, 1996), il définit le Web mining comme étant l’application des techniques du data mining pour l’extraction d’informations pertinentes à partir des ressources disponibles dans le Web, une ressource Web peut être un document ou un service Web1.

1 La definition du W3C d’un service web est la suivante : “ a software application identified by a URI, whose interfaces and binding are capable of being defined, described and discovered by XML artifacts and supports direct interactions with other software applications using XML based messages via Internet-based protocols. ”, source : Semantic Web Enabled Composition of Web Services, PhD Dissertation Faculty of the Virginia Polytechnic Institute and State University, par Brahim Medjahed, 2004

Depuis 1996, plusieurs autres travaux et publications se sont intéressés au sujet. Dans la quasi-totalité de ces recherches, il est communément admis que le Web mining est un sujet au carrefour de nombreux autres domaines (recherche d’information, bases de données, intelligence artificielle…), qui a pour objectif d’étendre et d’adapter les techniques de la fouille de données afin de découvrir, puis d’analyser, des informations utiles (connaissances) à partir des données Web (Cooley et al., 1997), (Madria et

Continuer la lecture

De la fouille de données à la fouille du Web : les propriétés

De la fouille de données à la fouille du Web : les propriétés

Chapitre 2 – De la fouille de données à la fouille du Web

2.1 Préambule

Depuis son apparition vers la fin des années 1980, comme le fruit des travaux menés par Tim Berners Lee1 au sein du CERN (Centre Européen pour la Recherche Nucléaire), le Word Wide Web, désigné par l’acronyme WWW ou Web ou encor W3 en abrége, a connu en l’espace de quelque années un succès important et remarquable. Ce nouveau média est considéré comme l’entrepôt de connaissances le plus gigantesque de l’histoire. Il emmagasine d’immenses informations variées relatives à l’activité humaine.

Que nous soyons des entreprises industrielles ou commerciales, des établissements d’enseignement ou de formation, des gouvernements, des organisations, des associations ou tout simplement des individus, le Web a révolutionné notre manière d’apprendre, de communiquer, de produire, de vendre, bref de vivre.

Bien qu’il soit difficile de tenter de mesurer la taille du Web, en raison principalement da sa croissance fulgurante et incontrôlable, un papier en 2005 estimait à une dizaine de milliards le nombre de pages disponibles en ligne (Gulli et al., 2005), de centaines de millions de sites, et un chiffre équivalent en nombre d’utilisateurs connectés chaque jour. Ces mesures concernent seulement le Web visible (Surface Web)2 ou indexable par les moteurs de recherche (Cf. 2.4.1). Sachant que le Web invisible (Deep Web) constitue plus de 400 à 500 fois de la taille du Web visible (Bergman, 2005), à cela s’ajoute une évolution moyenne

Continuer la lecture

Les techniques de fouille de données et ses limites

L’indice de Gini
Les techniques de fouille de données et ses limites

1.4 Principales techniques de fouille de données

Plusieurs techniques ont été élaborées pour la recherche de connaissances utiles à partir de données, les toutes premières sont simples et issues, dans la majorité, de la statistique et de l’analyse de données. Cependant il a été vite constaté que les méthodes statistiques classiques sont souvent limitées, car on ne peut étudier simultanément que quelques variables (1 à 2) (Besse, 2005).

En effet, dès que le modèle à découvrir est complexe et met en œuvre plusieurs variables d’autres méthodes doivent alors être utilisées, on fait recours donc à d’autres techniques et algorithmes sophistiqués. Présentons dans les points suivants une sélection de ces méthodes.

1.4.1 Techniques statistiques et probabilistes

1.4.1.1 La régression linéaire simple, multiple et logistique

La régression simple est la méthode la plus aisée. Elle consiste à analyser la corrélation entre deux variables x et y quantitatives, en approchant cette dépendance par une droite. Ce modèle s’écrit donc : y=ax+b, y est appelée variable expliquée et x variable explicative. Pour un ensemble de points (observations) dans l’espace R2, on cherche à tracer la droite regroupant le plus possible de points (xi, yi). La solution des moindres carrés due à GAUSS est la plus connue (Gardarin, 1999).

La régression linéaire multiple est l’outil statistique le plus habituellement mis en œuvre pour l’étude de données multidimensionnelles. Il constitue la généralisation de la

Continuer la lecture

Le processus d’extraction de connaissances ECD en WUM

Processus d’extraction de connaissances
Le processus d’extraction de connaissances ECD en WUM

1.3 Processus d’extraction de connaissances

L’ECD est un processus homme-machine interactif et itératif, composé de plusieurs phases (Fayyad et al., 1996). Il est communément admis que c’est un processus partiellement automatique, où l’interaction de l’homme est primordiale. Il est itératif, dans le sens où l’utilisateur peut à tout moment revenir à l’une des étapes, afin par exemple de sélectionner ou enrichir les données, intégrer d’autres données, affiner ou changer l’algorithme de fouille, améliorer la présentation ou les mesures d’évaluation des résultats…etc.

La méthodologie générale d’un projet d’extraction de connaissances est illustrée dans la figure suivante adaptée de (Gardarin, 1999) et (Zaïane, 1999). Détaillons, dans les points suivants, les trois importantes phases de ce processus : à savoir la préparation de données, la fouille de données et l’analyse des résultats.

  • 1. Compréhension du domaine d’application (cerner les objectifs)
  • 2. Préparation des données
  • 2.1. recueil de données
  • 2.2. nettoyage
  • 2.3. intégration
  • 2.4. sélection
  • 2.5. transformation
  • 3. Fouille de données
  • 3.1. définition des tâches
  • 3.2. choix des algorithmes
  • 3.3. fouille
  • 4. Analyse des résultats
  • 4.1. présentation et interprétation des formes extraites
  • 4.2. évaluation et validation
  • 5. Exploitation des résultats

Figure 1. Méthodologie générale pour

Continuer la lecture