0% ont trouvé ce document utile (0 vote)
213 vues8 pages

Introduction au Web Mining

Transféré par

celine.de.previsck
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
213 vues8 pages

Introduction au Web Mining

Transféré par

celine.de.previsck
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

LE2I – Laboratoire Electronique, Informatique et Image

Unité Mixte de Recherche CNRS 5158


Université de Bourgogne

Rapport technique
Février 2012
Pré-stage Master Recherche 3I

Web Mining

Yoan Chabot
Rapport Technique Fév. 12 Web Mining 2

CONTENU

Introduction.............................................................................................................................. 3

Qu’est-ce que l’Ontology Learning ?.........................................................................................3

Définition du processus de construction d’ontologies..............................................................4

Techniques d’Ontology Learning pour la création de relations entre concepts........................8

Caractérisation des concepts.................................................................................................8

Clustering pour l’identification de concepts......................................................................8

Analyse sémantique latente.............................................................................................. 9

Apprentissage de concepts par leur extension................................................................10

Apprentissage de concepts par leur intension.................................................................10

Hiérarchisation des concepts.............................................................................................. 10

Identification des relations entre concepts.........................................................................10

Hiérarchisation des relations...............................................................................................10

Conclusion...............................................................................................................................10

Références.............................................................................................................................. 10

FIGURES
Figure 1 Circuit de la représentation des connaissances.........................................................................................3
Figure 2 Processus de construction d'ontologies....................................................................................................4

LE2I – UMR CNRS 5158 – Université de Bourgogne


Rapport Technique Fév. 12 Web Mining 3

INTRODUCTION

Ce dossier constitue un état de l’art du domaine du Web Mining.

A FAIRE

QU’EST-CE QUE LE WEB MINING ?

Ce domaine de recherche a pour objectif l’utilisation des techniques de Data Mining sur la
masse de données présentes sur le Web. Une telle utilisation présente des avantages et des
inconvénients:

 Le Web constitue une source de données énorme et intarissable. De plus, il est


facilement accessible.
 Les sujets couverts par le Web sont variés et nombreux. Il est possible de trouver des
informations sur n’importe quel sujet.
 De nombreux types de données sont présents sur le web : textes, bases de données,
données multimédias… De plus, Le Web ne contient pas seulement des données, des
informations ou des services. Le Web est également une société virtuelle avec des
interactions entre les personnes, les entreprises…
 La majorité des informations du Web sont structurées (utilisation de HTML…).
 Les informations du Web sont reliées entre elles.
 Les informations du Web sont redondantes. La même information peut être présente
sur des pages différentes.
 Les informations du Web sont bruitées. Les pages Web contiennent toutes sortes
d’informations non pertinentes dans la plupart des cas tel que les menus de
navigations, les informations légales, les publicités…
 Le Web est décomposé en deux parties : la surface et les profondeurs. La surface
d’Internet est accessible via les moteurs de recherches tandis que les profondeurs ne
sont accessibles que par des formulaires, des interfaces permettant de requêter
(service Web permettant de consulter des horaires de train par exemple…)
 Le Web est dynamique. Les informations changent constamment et il est donc
primordial de surveiller ces mises à jour pour rester en phase avec le Web.

TYPES DE WEB MINING

On distingue trois types de Web Mining en fonction du type de données traitées par les
algorithmes:

 Le Web Content Mining consiste à extraire des informations des données à


proprement parler du page Web, ces données pouvant être des textes, des vidéos ou
encore des images. Pour cela, le Web Content Mining tire partie de la nature
structurée du contenu des pages Web. En effet, les langages utilisés pour le Web
comme HTML et plus généralement XML permettent d’obtenir des informations sur

LE2I – UMR CNRS 5158 – Université de Bourgogne


Rapport Technique Fév. 12 Web Mining 4

la structure logique des informations d’une page. Le Web Content Mining peut
permettre, par exemple, de générer de nouvelles connaissances en étudiant les co-
occurrences dans des textes (Exemple : les termes « voiture » et « football » sont
souvent employés dans la même page. On peut donc déduire qu’il existe une relation
« à définir » entre ces deux termes). Ces techniques peuvent également permettre
d’étudier des tendances comme l’arrivée d’une nouvelle mode vestimentaire ou bien
le déclin d’un langage de programmation par exemple.
 Le Web Structure Mining opère sur la structure des pages du Web. Ces techniques
considèrent un ensemble de pages du Web comme un ensemble et tentent d’extraire
des informations implicites contenues dans la structure des pages. Ce type de
techniques est notamment utile pour comparer la pertinence relative de deux pages
qui serait à priori considérées comme identique si on les jugés de manière isolée. Il
est notamment possible de mesurer l’importance d’une page pour un sujet donné en
analysant la topologie des hyperliens contenus dans cette dernière ou pointant sur
celle-ci (algorithme de PageRank).
 Le Web Usage Mining s’intéresse aux requêtes exprimées par les utilisateurs du Web
et contenues dans les logs des serveurs. Contrairement aux deux types de Web
Mining précédents qui s’intéressaient aux informations explicites et implicites
produites par les créateurs des pages Web, le Web Usage Mining permet d’extraire
des informations en observant les comportements des utilisateurs. Par exemple, sur
un site de commerce en ligne, il est possible d’identifier des relations entre certains
produits. Par exemple, on peut noter que 70% des utilisateurs qui s’intéressent à une
machine à laver s’intéressent également à des produits comme de la lessive. Après
avoir mis en avant de telles associations, le responsable du site peut décider de
proposer aux clients intéressés par un produit donné d’autres produits susceptibles
de l’intéresser.

TECHNIQUES DE WEB MINING

WEB CONTENT MINING

Pour le Web Content Mining, l’auteur avance tout d’abord qu’il est possible d’extraire des
informations depuis des textes ou des objets multimédia tels que des photos, des vidéos ou
encore des sons. Les textes contenus dans les pages restent cependant les ressources
privilégiées (Voir Chakrabarti :« Data mining for hypertext: A tutorial survey » et
Sebastiani:« Machine learning in automated text categorization »). Un premier type de
méthodes d’extraction est appelée « Information Retrieval » dans la publication. Ces
méthodes, basées sur les statistiques pour une grande majorité, permettent de grouper,
d’analyser ou encore de retrouver des pages Web (Voir Sparck-Jones :« Readings in
Information Retrieval » et Kosala :« Web mining research: A survey »). La technique LSA
(Latent Semantic Analysis) est un exemple de méthodes d’IR (Voir Deerwester :“Indexing by
latent semantic analysis”, Buntine:“Proceedings of the Workshop on Statistical Approaches
for Web Mining at ECML/PKDD” et Jin:”Web usage mining based on probabilistic latent
semantic analysis”). Les techniques de Web Content Mining peuvent également tirer partie

LE2I – UMR CNRS 5158 – Université de Bourgogne


Rapport Technique Fév. 12 Web Mining 5

du caractère structurés des pages Web (structuration à l’aide de balises HTML (XML)). Ces
balises, qui à priori porte surtout des informations concernant la mise en page, permettent
également d’obtenir des informations sur la structure logique de la page Web. Ce type de
techniques peut par exemple permettre de déduire la structure d’un site Web puis de
transférer cette dernière dans une base de données afin de profiter des avantages inhérents
à cette dernière (Voir Kosala:« Web Mining research : A Survey »).

EXTRACTION D’INFORMATIONS DANS DES SOURCES DE DONNÉES STRUCTURÉES

Nous allons étudier dans cette partie des techniques crées pour répondre à la problématique
d’extraction d’informations dans une source de données structurées (une donnée structurée
peut être un enregistrement de produits d’une base de données par exemple. Dans un site
d’E-commerce, les données concernant un même produit sont regroupées dans une zone de
la page) :

 La méthode dite de « Wrapper Induction ». Une méthode inductive consiste à


extraire des généralités à partir d’un exemple particulier. Ainsi, cette méthode
permet, à partir d’un groupe de page « tests » et grâce à des méthodes
d’apprentissage automatique (« machine learning »), de produire des règles
d’extractions (« patterns »).
 Les méthodes d’extraction automatique des données qui, contrairement à la
méthode Wrapper, utilisent un apprentissage non supervisé (l’annotation des pages
dans le cas du Wrapper rend l’apprentissage supervisé). Les patrons d’extraction sont
donc produits de manière automatique dans ces méthodes.

WRAPPER INDUCTION

Muslea a proposé en 1999 un système de « Wrapper Induction » hiérarchique (Wrapper =


classe enveloppante). Pour extraire chaque élément cible, une règle de début et une règle
de fin sont utilisées pour détecter respectivement le début et la fin de l’élément d’une page
Web. Pour concevoir ces règles, un algorithme d’apprentissage automatique (proche de
l’algorithme agrégatif) est utilisé. Chaque étape de l’algorithme consiste à trouver une
nouvelle règle d’extraction permettant de couvrir un maximum d’exemples positifs (les
données à extraire) sans couvrir d’exemples négatifs (les données non pertinentes). Les
exemples couverts durant l’étape n-1 ne sont pas pris en compte durant l’étape n. Le
processus se termine lorsque l’ensemble des exemples positifs ont été couverts.
L’algorithme retourne alors une liste de règles d’extraction.

Ce type de méthode a plusieurs points faibles. Tout d’abord, il est nécessaire de construire le
jeu d’exemples utilisé pour l’apprentissage en annotant chacune des pages la composant
(pour identifier manuellement les données à extraire). Cette tâche est longue et fastidieuse.
Ensuite, ce type de méthode ne se prête pas à l’apprentissage incrémentale. Ainsi, dans le
cas où les sites Web sur lesquels l’algorithme s’applique sont modifiés, il sera difficile de
modifier les règles d’extraction pour tenir compte des nouveaux exemples/contre exemples
produits. Dans la plupart des cas, ce type d’événements nécessite de reconstruire le jeu de
tests en annotant à nouveau les pages puis à relancer l’algorithme d’apprentissage.

LE2I – UMR CNRS 5158 – Université de Bourgogne


Rapport Technique Fév. 12 Web Mining 6

Plusieurs questions restent ouvertes dans le domaine de l’apprentissage « Wrapper » :

 Comment choisir automatiquement les exemples composant le jeu de test (que


l’utilisateur devra ensuite annoter) ? Il s’agit ici de choisir les pages permettant par la
suite de construire de « bonnes » règles (règles peu nombreuses, règles simples,
règles couvrant l’ensemble des exemples…).
 Comment vérifier que l’ensemble de règles produit par l’algorithme fonctionne
correctement ?
 Dans le cas où le wrapper ne fonctionne plus correctement (ajout d’exemples et de
contre-exemples suite à des modifications sur un site Web par exemple), est-il
possible d’annoter automatique des nouveaux exemples pour tenir compte des
modifications ?

AUTOMATIC DATA EXTRACTION

Nous allons maintenant présenter deux types de méthodes d’extractions de données


automatiques. Le premier type travaille à partir d’un ensemble de pages contenant des
données à extraire (« pages positives »). C’est notamment le cas du système « Road
Runner » proposé par Crescenzi. En début de processus, une page est choisie parmi
l’ensemble pour construire une « classe enveloppante » de base. Les pages de l’ensemble
sont ensuite étudiées successivement pour raffiner la classe enveloppante afin de corriger
les discordances entre cette dernière et la page couramment observée. Plusieurs types de
discordances peuvent être identifiés :

 Les différences dans les chaînes de caractères : cette discordance indique le plus
souvent la présence de champs de données.
 Les différences dans les balises : ce type de discordance peut indiquer des éléments
optionnels ou bien des zones où des motifs se répètent.

La classe enveloppante résultante de l’exécution de l’algorithme permet de généraliser


chaque page présente dans l’ensemble étudié. La complexité de ce type d’algorithmes est
fortement dépendante de la taille des pages en entrée (parcours exhaustif des pages pour
construire la classe englobante). Toutefois, des travaux de recherche proposent des
heuristiques permettant de réduire de manière significative les temps d’exécutions. Un des
avantages de ces techniques est l’absence de l’étape d’annotations des pages. Toutefois, le
jeu utilisé pour l’apprentissage doit contenir des pages ayant une mise en page similaire.
Enfin, un autre inconvénient est que la classe englobant travaille au niveau des pages. Elle ne
permet donc pas d’extraire des données ciblées au sein d’une page. Bon nombre
d’informations non pertinentes sont donc couvertes par la classe.

Le deuxième type de méthode d’extractions de données automatique travaille à partir d’une


unique page contenant plusieurs données à extraire. A l’instar de la méthode précédente,
des motifs (« patterns ») d’extraction sont construits en sortie. Ce type de méthode
fonctionne en deux étapes. La première étape consiste à identifier dans la page les
enregistrements contenant les données. La seconde étape a pour objectif l’extraction et
l’alignement (action d’identifier les données similaires (même information)) des données.

LE2I – UMR CNRS 5158 – Université de Bourgogne


Rapport Technique Fév. 12 Web Mining 7

WEB STRUCTURE MINING

Le Web Structure Mining opère sur la structure des pages du Web (Voir
Chakrabarti : « Mining the Web »). Les techniques mises de Web Structure Mining mises en
avant dans le papier peuvent notamment permettre de définir des pages ayant une
importance significative pour un sujet donné en analysant la topologie des hyperliens (Voir
Kleinberg : « Authoritative sources in a hyperlinked environment »). Il est à noter que les
techniques de Web Structure Mining et de Web Content Mining sont souvent utilisées de
concert (Voir Cooley : « Web mining: Information and pattern discovery on the world
wideWeb »).

WEB USAGE MINING

Le Web Usage Mining s’intéresse aux requêtes exprimées par les utilisateurs du Web et
contenues dans les logs des serveurs (Voir Srivastava : «Web usage mining: Discovery and
application of usage patterns from Web data » et Srivastava : «Web mining – concepts,
applications & research directions »). Un premier type d’applications peut permettre de
trouver des relations implicites entre des concepts en étudiant les usages. Par exemple, dans
un catalogue de produits, on ne distingue aucune structure particulière (le catalogue est un
ensemble de produits). Toutefois, en observant les paniers des visiteurs (les usages), il est
possible de déduire des règles du type « les personnes ayant achetés un produit A sont
ensuite intéressées par le produit B ». Ce type de réflexions permet de bâtir des systèmes de
recommandations (Voir Mobasher : « Automatic personalization based on Web usage
mining », Lin : « Efficient adaptive-support association rule mining for recommender
systems » et Kohavi : « MiningWeb Log Data Across All Customer Touch Points »). Un
deuxième type d’applications permet d’améliorer l’architecture des sites et la disposition du
contenu en étudiant les chemins et les actions des utilisateurs. Par exemple, si l’on constate
qu’un certain nombre d’utilisateurs ayant visité la page A réalisent une recherche pour se
rendre sur la page B, il peut être judicieux d’ajouter un lien direct entre les deux pages pour
faciliter la navigation des utilisateurs. Enfin, un troisième type d’applications permet de
détecter des événements en étudiant les comportements des utilisateurs. Avant de devenir
des auteurs sur le Web, les personnes sont amenés à s’informer via des sites de référence.
Ainsi, il est possible d’identifier des événements en cours plus rapidement qu’avec les
techniques de Web Content Mining. Par exemple, un usage massif de sites internet ayant
trait à la médecine peut révéler une épidémie en cours avant même qu’une page Web ne
mentionne le sujet (Voir Yihune : « Evaluation eines medizinischen Informationssystems im
World Wide Web », Heino : « Automated detection of epidemics from the usage logs of a
physicians’ reference database » et Baron : « Monitoring the evolution of web usage
patterns »).

CONCLUSION

A FAIRE

LE2I – UMR CNRS 5158 – Université de Bourgogne


Rapport Technique Fév. 12 Web Mining 8

RÉFÉRENCES

1. Philipp Cimiano, 2006, Ontology Learning and Population from Text: Algorithms, Evaluation and
Applications.
2. Donald Hindle, 1990, Noun classification from predicate-argument structures, 28th annual meeting on
Association for Computational Linguistics.
3. Dekang Lin, 2002, Concept discovery from text, 19th international conference on Computational linguistics.
4. Richard Evans, 2003, A framework for named entity recognition in the open domain, Proceedings of the
Recent Advances in Natural Language Processing.
5. Dekang Lin, 2001, Induction of semantic classes from natural language text, Proceedings of the seventh
ACM SIGKDD international conference on Knowledge discovery and data mining.
6. Thomas Landauer, 1997, A solution to Plato’s problem: The latent semantic analysis theory of acquisition,
induction, and representation of knowledge.
7. Donald Hindle, 1990, Noun classification from predicate-argument structures, Proceedings of the 28th
annual meeting on Association for Computational Linguistics.
8. Robert Navigli, 2005, Structural Semantic Interconnections: A Knowledge-Based Approach to Word Sense
Disambiguation, Pattern Analysis and Machine Intelligence.
9. Oren Etzioni, 2004, Web-scale information extraction in knowitall: (preliminary results), Proceedings of the
13th international conference on World Wide Web.
10. David Faure, 1998, A Corpus-based Conceptual Clustering Method for Verb Frames and Ontology
Acquisition, LREC workshop.
11. Marti Hearst, 1992, Automatic acquisition of hyponyms from large text corpora, Proceedings of the 14th
conference on Computational linguistics.
12. Paul Buitelaar, 2004, A Protege Plug-in for Ontology Extraction from Text Based on Linguistic Analysis, In
Proceedings of the 1st European Semantic Web Symposium.
13. Mark Sanderson, 1999, Deriving concept hierarchies from text, Proceedings of the 22nd annual
international ACM SIGIR conference on Research and development in information retrieval.

LE2I – UMR CNRS 5158 – Université de Bourgogne

Vous aimerez peut-être aussi