Faxe Chap1
Faxe Chap1
Mémoire
de fin d’études
En vue d’obtention du diplôme de Master 2 Informatique
Option : Conduite de projet informatique
Thème
Etude et recherche bibliographique sur les
méthodes de classification
"Aucun de nous ne s’est élevé à la seule force de son poignet. Nous sommes arrivés
parce que quelqu’un s’est baissé pour nous aider. "
Thurgood Marshall
Au terme de ce travail,
Nos remercions avant tout le bon Dieu tout puissant de nous avoir donné patience,
courage et volonté pour réussir notre mémoire,
Nos vifs remerciements vont aux membres du jury pour nous avoir fait l’honneur
d’examiner et d’évaluer notre travail avec le poids de leurs compétences,
A tous les enseignants qui ont assuré notre formation durant notre parcours
universitaire, nous souhaitons qu’ils trouvent dans ce travail l’expression de notre
infinie reconnaissance,
Nous souhaitons également exprimer notre gratitude à tous ceux qui de près ou de
loin ont participé à l’élaboration du présent travail.
Je dédie ce travail,
C’est avec un immense plaisir que je dédie ce travail,
A ma fierté, ma chère et mon adorable mère que j’adore, pour son
sacrifice, son soutien tout au long de mes études et pour toutes les
valeurs magnifiques qu’elle m’a donné durant toute ma vie,
A la mémoire de mon cher père que Dieu le garde dans son vaste
paradis,
A mon chère Mourad et toute sa famille, A mes chers
sœurs et frères ainsi que leurs familles,
A ma très chère binôme Samia et toute sa famille,
A tous mes amis sans exception.
Lydia
Je dédie ce travail,
A mes chers parents, qui ont toujours été à mes côtés et ont toujours cru
en moi. Pour leur amour, et leur soutien permanent tout au long de mes
années d’études. Que Dieu vous protège,
Samia
Liste des abréviations
RI : recherche d’information
RN : Réseaux de Neurones
AD : Arbre deDdécision
VN : Vrai négatifs
FN : Faux négatifs
FP : Faux positifs
VP : Vrai positifs
Sommaire
Avantages ........................................................................................................................25
Inconvénients...................................................................................................................25
5. Performance des méthodes de classification........................................................................................25
5.1 Critères d’évaluation du classificateur ......................................................................................... 26
5.1 Critères d’évaluation du classificateur....................................................................................26
5.1.1 Matrice de confusion ......................................................................................................27
5.1.2 Mesures d’évaluation.......................................................................................................27
Taux d’erreur global .............................................................................................................27
Précision par rapport à une classe.........................................................................................28
F-mesure par rapport à une classe ........................................................................................28
Précision moyenne, rappel moyen, f-mesure moyenne .........................................................28
Conclusion ................................................................................................................................................29
5. Conclusion ......................................................................................................................................76
4.2. Etude 2 : La classification non supervisée .................................................................... 76
Tout ce qui nous entoure, qu’il s’agisse de choses physiques ou abstraites, nous
apparait de façon organisée. Lorsque nous voyons un animal, nous le désignons
systématiquement par l’espèce à laquelle il appartient. Un sentiment sera également
catégorisé, on parlera par exemple d’un sentiment de tristesse, de joie ou de peur. Pourtant,
chacun éprouve la peur différemment. Il s’agit, en fait, d’un phénomène, conscient ou non,
mais naturel et indispensable, de simplification pour mieux comprendre et mieux
communiquer. L’exemple que nous venons d’évoquer n’est pas anodin. En effet on attribue
les premières recherches théoriques sur la classification, aux besoins exprimés par les
biologistes, de spécifier des classes ou espèces animales. Cette classification était censée
permettre, étant donnée une description (simple) d’un animal, de "l’étiqueter" par tel ou tel
nom d’espèce. Le problème s’est avéré plus complexe qu’il n’y paraissait...
Les applications se sont multipliées, chacune apportant son lot de problèmes, plus
complexes les uns que les autres. Après les biologistes, ce sont les historiens, les médecins,
les sociologues ou les didacticiens qui ont manifesté le besoin de classer leurs reliques, leurs
patients ou leurs élèves. Aujourd’hui, en nous intéressant aux problèmes issus des
technologies de l’information et de la communication, nous sommes amenés à traiter des
données très complexes, par leur nature, leur taille (grands volumes de données appelés base
de données).
Le Data Mining est particulièrement adapté aux traitements de ces bases de données
afin d’être exploiter. L’augmentation constante de ces données à analyser dans diverses
disciplines telles que la médecine, la biologie et l’économie devient de plus en plus difficile
d’extraire l’information utile. Pour y parvenir, on fait souvent appel à la classification.
1
Introduction Générale
2
Chapitre I Généralités sur la classification
1. Introduction
«Le seul moyen de faire une méthode instructive et naturelle, est de mettre ensemble les
choses qui se ressemblent et de séparer celles qui différent les unes des autres.»
M. Georges Buffon, Histoire naturelle, 1749.
2. Historique
La classification est l’une des tâches les plus anciennes de la Recherche d’information (RI).
Ses débuts remontent aux années 1960, environ une quinzaine d’années après l’apparition du
terme RI dans le mémoire de maitrise de Calvin [Link] [1]. Depuis, elle est considéré comme
une étape cruciale dans la conception de Système de Recherche d’Information et a connu un
développement considérable durant les 15 dernières années. Nous citons à titre d’exemple les
travaux de Larry Page et Sergey Brin qui ont effectué dans le cadre de projet Google en 1998,
une classification des documents en effectuant un poids aux termes suivant leurs origines (le
PageRink décrit dans [2]).
3. Notion de classe
La notion de classe pour un système de classification a été habituellement synonyme de
« thème ». Dans ce contexte, classer les documents revient à les organiser par différentes
thématiques. Cependant, la problématique de classification a évolué en même temps que les
besoins et elle s’intéresse aujourd’hui à différentes tâches pour lesquelles les catégories ne sont
pas interprétables comme des thèmes : ainsi, par exemple, les tâches consistant à classer les
documents par auteur, par genre, par style, par langue, ou encore selon que le document exprime
un jugement positif ou négatif, etc.…
3
Chapitre I Généralités sur la classification
Mails urgents
Mails privés
Mails du DG
Ce système organise des emails dans des boîtes aux lettres qui correspondent chacune à une
classe qui sont de différentes natures (« mails urgents », « Mails du Directeur général », etc.…).
4. Définitions
La classification est une discipline reliée de près ou de loin à plusieurs domaines, elle est
connue aussi sous noms variés (classification, clustering, segmentation, . . .) selon les objets
qu’elle traite et les objectifs qu’elle vise à atteindre.
Pour attribuer une définition au terme « classification », il faudrait d’abord définir ses racines,
ça vient du verbe « classer » qui désigne plus une action qu’un domaine, ou plutôt une série de
méthodes qu’une théorie unifiée.
En mathématique, On appelle classification, la catégorisation algorithmique d’objets. Elle
consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer, en se basant
4
Chapitre I Généralités sur la classification
sur des données statistiques. Elle fait couramment appel aux méthodes d’apprentissage et est
largement utilisée en reconnaissance de formes.
D’une manière générale, la classification se définit alors comme une méthode mathématique
d’analyse de données, pour faciliter l’étude d’une population d’effectif important, généralement
des bases d’observations caractérisent un domaine particulier (animaux, plantes, malades, gènes,
. . . etc.), où on les regroupe en plusieurs classes.
Habituellement avec les systèmes de classification basés sur les méthodes d’apprentissage, on
évalue la fonction de décision en utilisant un corpus d’entraînement. Un corpus d’entrainement
est une collection d’objets répartis en classes dont on connait à priori les noms (étiquettes) et le
nombre. Un modèle d’apprentissage est caractérisé par trois phases principales dont :
- L’apprentissage (phase d’induction) qui consiste en l’élaboration du modèle sur un
5
Chapitre I Généralités sur la classification
Dans tous ces cas, il s’agit de simplifier une réalité complexe pour laquelle aucune
classification a priori ne s’emblée, en révélant des formes cachées et en isolant des points
atypiques.
6
Chapitre I Généralités sur la classification
7. Contextes de classification
Plusieurs contextes de classification se distinguent, ils influents directement sur les modèles
utilisés. Ludovic DENOYER a bien résumé les différents contextes de classification dans
(Denoyer, 2004) que nous avons reporté dans ce qui suit :
7
Chapitre I Généralités sur la classification
généralisation, durant cette phase en présence d’une nouvelle donnée, le classifieur devra prédire
l’appartenance de cette donnée à une classe de la base d’apprentissage.
La Figure 1.2 présente les différents types de méthodes, regroupés sous forme d’une
hiérarchie par Jain et Dubes dans [17].
Méthodes de
classification
8
Chapitre I Généralités sur la classification
Figure I.3 : Schéma d’une machine Learning supervisé, f’(x) est une estimation de f(x)
Classification non-supervisée
Dans la classification non-supervisée, aussi appelée segmentation (clustering en anglais), les
classes ne sont pas connues a priori. Elles sont construites à partir de certaines règles ou critères
de regroupement qui dépendent des données disponibles à un moment donné. Les classes sont
généralement fondées sur la structure des données, la sémantique associée à chaque classe est
donc plus difficile à déterminer. On ne cherche pas cette fois à estimer une fonction mais on
cherche à regrouper les objets ayant des caractéristique commune, les objets utilisés comme
données d'apprentissage sont présentés sans leur catégories.
Il existe aussi de nombreuses techniques pour la classification non-supervisée, nous pouvons
citer [11] :
• Les méthodes hiérarchiques : CURE, BIRCH, ROCK, Williames
• Les méthodes de partitionnement : K-means, PAM, CLARA
• Les méthodes basées sur la densité : DBSANS, OPTICS, DBCLASD
• Les méthodes basées sur les grilles : STING, CLIQUE, WAVECLUSTER
9
Chapitre I Généralités sur la classification
9.2 Calcul des similarités entre les n individus à partir des données
initiales
On choisit une distance ou un indice d'écart entre paires d'individus. La distance généralement
utilisée dans les algorithmes de classification hiérarchique est la distance euclidienne.
Pratiquement, il s’agit de décrire les liaisons entre variables ou les similarités entre individus.
Mais en général quand on parle de classification, il s’agit le plus souvent de recherche d’une
partition d’un ensemble d’individus, lignes d’un tableau (n, p), en groupes homogènes et
distincts.
10
Chapitre I Généralités sur la classification
Les mesures de ressemblance entre objets à classer dépendant de la nature des variables
mesurées qui peuvent être binaires (symétrique ou asymétriques si les deux modalités n’ont pas
le même poids), nominales (catégorielles à k modalités), ordinales ou numériques (mesurées
dans une échelle linéaire ou non).
C’est une application de du produit cartésien E×E dans R+ satisfaisant aux axiomes
suivants [12] :
Symétrie : /(0, 1) = /(1, 0), ∀0 ∈ 3, ∀1 ∈ 3 (1.1)
Positivité stricte : /(0, 1) > 0 670 ≠ 19:/(0, 1) = 0 ↔ 670 = 1, ∀0 ∈ 3, ∀1 ∈ 3 (1.2)
Inégalité triangulaire : /(0, 1) ≤ /(0, 1) + /(0, @) + /(@, 1), ∀0 ∈ 3, ∀1 ∈ 39: ∀@ ∈ 3 (1.3)
Remarque : Une dissimilarité est une distance qui ne vérifie pas l’irrégularité triangulaire.
11
Chapitre I Généralités sur la classification
Attributs binaires : les fonctions de distance existantes pour les attributs binaires
sont basées sur la proportion de correspondance dans les deux objets. On distingue deux types
d’attributs :
- Les attributs binaires symétriques qui représentent deux états qui ont une importance
égale et portent le même poids. La fonction de distances la plus utilisée est la distance de
correspondance simple qui est une proportion de non correspondances de leurs valeurs
définies comme :
YZ[
/(0, 1) = \
(1.11)
- Les attributs asymétriques dans lesquels un des états est plus important ou utile que les
autres. La mesure de distance la plus utilisée pour les attributs asymétriques est la distance
de Jaccard définie comme :
]Z^
/(0, 1) = YZ]Z^ (1.12)
Où :
- α: représente le nombre de valeurs d’attributs égales à 1 dans les deux objets x et y.
- β: représente le nombre de valeurs d’attributs égales à 1 dans l’objet x mais 0 dans
l’objet y.
- γ: représente le nombre de valeurs d’attributs égales à 0 dans l’objet x mais 1 dans
l’objet y.
- δ : représente le nombre de valeurs d’attributs égales à 0 dans les deux objets x et y.
- η : représente le nombre d’attributs. Chaque paire d’attributs doit nécessairement
appartenir à l’une des quatre catégories de telle sorte que :
α+β+γ+δ=η
12
Chapitre I Généralités sur la classification
Tels que m est le nombre d'attributs dont la valeur est pareil dans tous les deux objets, p est
le nombre total d'attributs.
13
Chapitre I Généralités sur la classification
12. Conclusion
La classification a conquis aujourd’hui le centre d’intérêt des chercheurs. Plusieurs travaux
ont été faits, dans lesquels ils visent à inventer et améliorer des méthodes de classification de
plus en plus performantes ; Toujours pour améliorer la classification et diminuer la complexité
temporelle de ces méthodes. Avec le progrès rapide sur les matériels d'informatique, le deuxième
avantage semble beaucoup moins important maintenant et la qualité et la justesse de la
classification devient le but ultime.
Dans ce chapitre le principe de la classification a été présenté, ainsi que les méthodes utilisées
pour évaluer la qualité de la classification. Dans les prochains chapitres (II et III) nous allons
présenter les deux types de classifications (respectivement la classification supervisée et non-
supervisée).
14
Chapitre II Les méthodes de classification supervisées
1. Introduction
La classification supervisée est une tâche largement appliquée dans la vie courante. En
effet, il existe une multitude de problèmes qui entrent dans ce cadre, parmi lesquels on trouve
la reconnaissance des caractères manuscrits, la reconnaissance des paroles, la catégorisation
des textes, la détection des spam, l’aide au diagnostic médical, la bio-informatique…etc.
Une autre approche qui n’est pas moins intéressante, c’est le raisonnement à partir des cas.
Ces algorithmes ne cherchent pas à calculer le modèle mais à trouver, pour l’objet à classifier,
un ou plusieurs cas similaires déjà résolus pour en déduire la classe. Les arbres de décision et
l’algorithme k-NN adoptent ce principe.
Dans ce qui suit, nous allons décrire et détailler les principaux algorithmes de classification
automatique supervisée.
2. Problématique
On dispose d’un ensemble X, comportant N données étiquetées (dont la classe est connue).
Chaque donnée x est caractérisée, par P attributs et par sa classe Ci є C, C étant l’ensemble
des classes.
3. Définition
La classification supervisée (catégorisation) vise à classer des objets selon des catégories
bien définies au préalable.
15
Chapitre II Les méthodes de classification supervisées
Dans ce type de classification, les classes sont prédéfinies avec une description des
données. Lorsqu’une nouvelle donnée arrive, on la compare avec la description de chaque
classe et on la met dans celle qui lui ressemble le plus.
Le principe général de la méthode des k-PPV consiste à déterminer pour chaque nouvel
individu que l’on veut classer, la liste des plus proches voisins parmi les individus déjà
classés. Autrement dit, l’objectif de l’algorithme est de classer les exemples non étiquetés sur
la base de leurs similarités avec les exemples de la base d’apprentissage.
Cette méthode nécessite de choisir une distance, la plus classique est la distance
euclidienne, et le nombre de voisins à prendre en compte.
Le principe de cet algorithme est très simple. On lui fournit :
- Un ensemble de données d’apprentissage D ;
- Une fonction de distance d ;
- Et un entier k.
Pour tout nouveau point de test x, pour lequel il doit prendre une décision, l’algorithme
recherche dans D les k points les plus proches de x au sens de la distance d, et attribue x à la
classe qui est la plus fréquente parmi ces k voisins.
16
Chapitre II Les méthodes de classification supervisées
Par ailleurs, plus on utilise de voisins (un nombre K grand) plus, sera fiable dans
notre prédiction. Toutefois, si on utilise K nombre de voisins avec K=N et N étant le nombre
d’observations, on risque d’avoir du overfitting et par conséquent un modèle qui se généralise
mal sur des observations qu’il n’a pas encore vu.
Début Algorithme
Données en entrée :
Un ensemble de données D.
Une fonction de définition distance d.
Un nombre entier k
Pour une nouvelle observation x dont on veut prédire sa variable de sortie y Faire :
1. Calculer toutes les distances de cette observation x avec les autres observations du
jeu de données D
2. Retenir les k observations du jeu de données D les proches de x en utilisation le
fonction de calcul de distance
3. Prendre les valeurs de y des k observations retenues :
Calculer le mode de y retenues
4. Retourner la valeur calculée dans l’étape 3 comme étant la valeur qui a été prédite
par K-NN pour l’observation .
Fin Algorithme
Exemple
Soit l'exemple de la figure II.1 avec deux dimensions correspondant aux attributs e1
et e2, et avec k=3.
17
Chapitre II Les méthodes de classification supervisées
Dans cet exemple les trois plus proches voisins de a sont b4, b2 et b5, donc a sera
affecté à la classe majoritaire parmi ces trois points.
Critiques de la méthode:
Avantage de la méthodes k-PPV
- Apprentissage rapide.
- Méthode facile à comprendre.
- Adapté aux domaines où chaque classe est représentée par plusieurs prototypes et où
les frontières sont irrégulières (Exemple : reconnaissance de chiffre manuscrit ou
d’images satellites).
Inconvénients de la méthodes k-PPV
- Prédiction lente car il faut revoir tous les exemples à chaque fois.
- Méthode gourmande en place mémoire.
- Sensible aux attributs non pertinents et corrélés.
Hyperplan : est un séparateur d’objets des classes. De cette notion, nous pouvons dire
qu’il est évident de trouver une mainte d’hyperplans mais la propriété délicate des SVM est
d’avoir l’hyperplan dont la distance minimale aux exemples d’apprentissage est maximale, cet
hyperplan est appelé L’hyperplan optimal, et la distance appelée marge.
Vecteurs Support : ce sont les points qui déterminent l’hyperplan tels qu’ils soient les
plus proches de ce dernier.
18
Chapitre II Les méthodes de classification supervisées
Cette technique est une méthode de classification à deux classes qui tente de séparer les
exemples positifs des exemples négatifs dans l’ensemble des exemples. La méthode cherche
alors l’hyperplan qui sépare les exemples positifs des exemples négatifs, en garantissant que
la marge entre le plus proche des positifs et des négatifs soit maximale. Cela garantit une
généralisation du principe car de nouveaux exemples pourront ne pas être trop similaires à
ceux utilisés pour trouver l’hyperplan mais être situés d’un côté ou l’autre de la frontière.
L’intérêt de cette méthode est la sélection de vecteurs supports qui représentent les
vecteurs discriminant grâce auxquels est déterminé l’hyperplan. Les exemples utilisés lors de
la recherche de l’hyperplan ne sont alors plus utiles et seuls ces vecteurs supports sont utilisés
pour classer un nouveau cas, ce qui peut être considéré comme un avantage pour cette
méthode [21].
19
Chapitre II Les méthodes de classification supervisées
20
Chapitre II Les méthodes de classification supervisées
Pour classifier un nouvel objet, on suit le chemin partant de la racine (noeud initial) à
une feuille en effectuant les différents tests d’attributs à chaque noeud. L’arbre permet
d’émettre des prédictions sur les données par réduction, niveau par niveau, du domaine de
solutions.
La démarche générale de construction de l’arbre de décision consiste en deux étapes:
- Construction de l’arbre à partir des données (apprentissage).
- Elagage de l’arbre dans le but d’alléger l’arbre résultant souvent volumineux.
Construction de l’arbre
Il existe une grande variété d’algorithmes pour construire des arbres de décision ;
quelques-uns des plus répandus portent les noms de ID3 (Inductive Decision-tree) introduit
par Quinlan et amélioré pour devenir C4.5 [22], CART (Classification And Regression
Trees), introduit par Breiman et al [23] et CHAID (Chi-squared Automatic Interaction
Detection) [24].
Afin d’avoir un arbre de décision concis et suffisant, il ne suffit pas de traiter les attributs
séquentiellement. Au contraire, toute la richesse des arbres de décision consiste à choisir
judicieusement les attributs d’éclatement pour aboutir, par le chemin le plus court et
nécessaire, au plus grand nombre d’objets de la même classe.
Le choix des attributs peut se faire par plusieurs techniques, entre autres :
- Entropie (ID3, C4.5) [22].
- Indice de Gini (CART) [22].
- Table de Khi-2 (CHAID) [20].
Elagage de l’arbre
L’opération d’élagage de l’arbre se fait en deux phases : Le pré-élagage et le post-
élagage.
Le pré-élagage consiste à fixer un critère d’arrêt qui permet de stopper la construction de
l’arbre lors de la phase de construction.
21
Chapitre II Les méthodes de classification supervisées
Les études (pour comprendre les critères prépondérants dans l'achat d'un produit, l'impact
des dépenses publicitaires), les ventes (pour analyser les performances par région, par
enseigne, par vendeur), l'analyse de risques (pour détecter les facteurs prédictifs d'un
comportement de non-paiement), Le domaine médical (pour étudier les rapports existant entre
certaines maladies et des particularités physiologiques ou sociologiques) [25].
Critiques de la méthode
Les avantages
Les arbres de décision constituent un moyen très efficace de classification, et ce pour les
avantages qu’elles présentent. Parmi ses avantages, on peut citer [23] [26] :
- Facilité à manipuler des données catégoriques.
- Traitement facile des variables d’amplitudes très différentes.
- La classe associée à chaque individu peut être justifiée.
- Les attributs apparaissant dans l’arbre sont des attributs pertinents.
- Pour le problème de classification considéré.
Les Inconvénients
Ces méthodes présentent tout de même des inconvénients dont les plus importants sont :
- La sensibilité au bruit et aux points aberrants.
- La sensibilité au nombre de classes (plus le nombre de classes est grand plus les
performances diminuent).
- Le besoin de refaire l’apprentissage si les données évoluent dans le temps.
On relie ensuite un nombre important de ces unités formant ainsi un outil de calcul
puissant.
22
Chapitre II Les méthodes de classification supervisées
Principe de la méthode
Le principe de fonctionnement est le suivant : On dispose initialement d'une base de
connaissances constituée de couples de données (entrées / sorties) et on souhaite utiliser cette
base de données pour entrainer un algorithme à reproduire les associations constatées entre les
entrées et les sorties de l'échantillon.
L'exemple le plus simple de réseau de neurones est souvent donné par le “perceptron
multicouches’’ qui est un cas particulier de réseau de neurones (Figure II.4).
Pour un réseau de neurones avec N nœuds d’entrée, notés C(1), ..., C(N), et N poids
affectées aux liaisons notés w(1), ...,w(N) l'entrée d’un nœud de la couche suivante sera
généralement une somme pondérée des valeurs de sortie des neurones précédents :
X = w (1)*C (1) + w (2)*C (2) + w (3)*C (3) + ... + w (N)*C (N)
Les poids sont des paramètres adaptatifs, dont la valeur est à déterminer en fonction du
problème via un algorithme d’apprentissage (propagation, rétro-propagation…) [27].
23
Chapitre II Les méthodes de classification supervisées
Les réseaux de neurones peuvent être utilisés pour effectuer une classification supervisée
floue de la manière suivante : chaque nœud d’entrée correspond à un attribut de l’objet (autant
de nœuds d’entrée que d’attributs).
On peut prendre un neurone de sortie par classe; la valeur de sortie est la valeur de la
fonction d’appartenance (probabilité que l’objet appartienne à cette classe) [28].
Critiques de la méthode
Avantages
- Classification très bien précise (si bien paramétré).
- Résistance aux pannes (si un neurone ne fonctionne plus, le réseau ne se perturbe pas).
Inconvénients
- La détermination de l’architecture du réseau est complexe.
- Paramètres difficiles à interpréter (boite noire).
- Difficulté de paramétrage surtout pour le nombre de neurone dans la couche cachée.
Un terme plus approprié pour le modèle probabiliste sous-jacent pourrait être « modèle à
Caractéristiques statistiquement indépendantes ».
Selon la nature de chaque modèle probabiliste, les classifieurs bayésiens naïfs peuvent être
entraînés efficacement dans un contexte d'apprentissage supervisé.
Ce classificateur se base sur le théorème de Bayes permettant de calculer les probabilités
conditionnelles. Dans un contexte général, ce théorème fournit une façon de calculer la
probabilité conditionnelle d'une cause sachant la présence d'un effet, à partir de la probabilité
24
Chapitre II Les méthodes de classification supervisées
conditionnelle de l'effet sachant la présence de la cause ainsi que des probabilités a priori de la
cause et de l'effet.
Critiques de la méthode
Avantages
- La facilité et la simplicité de leur implémentation.
- Leur rapidité.
- Les méthodes Naïve Bayes donnent de bons résultats.
Inconvénients
- Performances limitées quand il s'agit d'une grande quantité à traiter.
- Modèle qualifié de naïve ou simple à cause de l'hypothèse d'indépendance.
L'ensemble de test sert pour tester les performances de la méthode en calculant le taux
de classification correcte de l'ensemble des cas. Ce taux est déterminé en divisant le nombre
de cas bien classés sur le nombre des cas testés. Parfois on est confronté à des problèmes où
l'ensemble de données est restreint et on veut exploiter ces données disponibles pour
construire le classificateur d'une part et tester les performances de la méthode d'autre part.
Pour cela on fait appel aux techniques de rééchantillonage (resampling techniques) ; parmi
lesquelles la technique de validation croisée (cross-validation) est la plus utilisée.
25
Chapitre II Les méthodes de classification supervisées
Plusieurs critères pour évaluer la performance d’un classifieur, ont été proposés :
Pour mieux illustrer ces différentes mesures on prend pour point de départ la table de
contingence illustrée par le (Tableau 2.3).
1 2 ….
′
1 , , ... ,
′
2 . , ... ,
26
Chapitre II Les méthodes de classification supervisées
0 1
′ 0 VN FN
′ 1 FP VP
1
∑, ,
27
Chapitre II Les méthodes de classification supervisées
, .
.,
F-mesure par rapport à une classe
On peut résumer les mesures de précision de rappel par rapport à une classe en un seul
indicateur, en calculant la moyenne harmonique :
"
!
#
Précision moyenne, rappel moyen, f-mesure moyenne
%&'())( * .,
%&'())( * .,
!%&'())( * ., !
28
Chapitre II Les méthodes de classification supervisées
6. Conclusion
Nous avons vu une généralité sur les conceptions des méthodes de classification et un
aperçu sur les principes de la première grande approche qui infère à partir d’un échantillon
d’exemples classés une procédure (fonction de décision) de classification des nouveaux
exemples non étiquetés. La Discrimination (ou les méthodes supervisées) peut être basée sur
des hypothèses probabilistes (Classifieur naïf de Bayes, méthodes paramétriques) ou sur des
notions de proximité (plus proches voisins) ou bien encore sur des recherché dans des espaces
d’hypothèses (arbres de décision, réseaux de neurones).
Certes l’approche supervisée est très utilisée pour les raison et les avantages qu’on a
mentionné pour chaque méthode , néanmoins il reste qu’il y a un manque de stratégies pour
les exemples d’auto-apprentissage ( c’est-à-dire , d’apprendre à partir d’une base sans aucune
connaissance préalable ) que les méthodes supervisée ne peuvent pas traiter , dans ce cadre
vient la deuxième approche des méthodes de classification, qui est : l’approche non-
supervisée ( la classification automatique )
29
Chapitre III Méthodes de classification non supervisé
1. Introduction
Comme nous avons pu le voir dans le premier chapitre qu’il y a deux grandes
approches en classification : la classification supervisée (classement) et la classification
automatique (clustering), dans ce chapitre nous détaillerons les méthodes du deuxième type «
clustering » qui est une des techniques statistiques largement utilisées dans la Fouille de
Données. Il est dans un cadre d’apprentissage non supervisé, qui tente d’obtenir des
informations sans aucune connaissance préalable, ce qui n’est pas le cas de l’apprentissage
supervisé. La question principale autour de laquelle s’articulera le travail du Clustering est de
savoir d’imiter le mécanisme humain d’apprentissage sans aucune information disponible
auparavant, en établant des méthodes qui permettent d’apprendre à partir d’un certain nombre
de données et de règles (d’exemples), selon certaines caractéristiques sans aucune expertise
ou intervention requise. En effet, ce processus requit certains traitements ou combinaison avec
d’autres méthodes, en pre- ou en post-processing, surtout pour une grande masse de données,
pour bien réaliser entièrement sa tâche de classification, L’ensemble des techniques de
traitement est souvent regroupé sous le terme de «fouille de données».
Dans ce chapitre, nous allons présenter les principaux algorithmes de clustering parmi
les plus représentatifs tout en essayant de bien cerner les points forts et les faiblesses de
chaque algorithme.
2. Définition
Le clustering est une approche de classification dont les classes existent a posteriori.
Au départ, on dispose d’un ensemble d’objets non étiquetés (dont la classe est inconnue). A
partir de ces objets, l’idée est de parvenir à détecter des objets ‘‘similaires’’ afin de les
regrouper dans des classes [30].
Selon [31], le clustering consiste à diviser une population d’objets en sous-ensembles
d’objets appelés classes pour que tous les objets dans une même classe soient similaires et les
objets de classes distinctes soient dissimilaires.
Parmi les objectifs que le clustering doit permettre d’atteindre, citons la réduction des données
et la prédiction basée sur les groupes.
30
Chapitre III Méthodes de classification non supervisé
Ces paramètres qui influent de manière plus au moins importante sur les résultats
obtenus, sont nécessaires pour que l’algorithme soit relativement générique et pour que celui-
ci soit applicable dans plusieurs cas. Plus le nombre de paramètres augmente plus
l’algorithme est adaptable et peut s’appliquer à une gamme de problèmes plus large.
Cependant, l’augmentation des paramètres nécessite une connaissance importante de la part
de l’expert sur ses données et sur le fonctionnement de l’algorithme [33], [34].
Selon ces critères et la manière dont les classes sont construites, les approches de
classification sont divisées en : approche hiérarchique, approche de partitionnement, approche
basée sur la grille et enfin l’approche basée sur la densité.
31
Chapitre III Méthodes de classification non supervisé
32
Chapitre III Méthodes de classification non supervisé
Le critère de la moyenne
Ce critère consiste à calculer la distance moyenne entre tous les éléments de et tous les
éléments de
, = ∑ ∈ ∑ ∈ , (3.23)
Avec :
: Le cardinal de
: Le cardinal de
Le critère de Ward
, = , 3.24
+
Avec :
: Le centre de gravité de
: Le centre de gravité de
33
Chapitre III Méthodes de classification non supervisé
La difficulté du choix du critère d'agrégation réside dans le fait que ces critères peuvent
déboucher sur des résultats différents. Selon les plus parts des références le critère le plus
couramment utilisé est celui du Ward.
Le fait d’avoir plus d’un point représentatif permet à CURE de bien s’ajuster à la
géométrie des clusters non sphériques et l’opération de rapprochement de ses points permet de
diminuer les effets des outliers.
L’algorithme Cure
• Prendre un sous-ensemble s.
•Partitionner s en p partitions.
•Dans chaque partition, créer s/pq clusters.
•Eliminer les exceptions (points aberrants)
•Regrouper les clusters partiels
Considérons l’exemple présenté dans la figure III.3, ce dernier est partitionné en deux
partitions p=2 partiellement mise en s/pq=5 clusters (d) [12].
34
Chapitre III Méthodes de classification non supervisé
35
Chapitre III Méthodes de classification non supervisé
36
Chapitre III Méthodes de classification non supervisé
Où :
37
Chapitre III Méthodes de classification non supervisé
Algorithme k-means :
L'algorithme des k-means ne peut être utilisé que sur des données décrites par des
attributs numériques permettant ainsi le calcul des centroïdes. Dans le cas d'attributs
symboliques (ou catégoriels) plusieurs variantes ont été proposées : méthodes des centres
mobiles et méthodes des nuées dynamiques.
38
Chapitre III Méthodes de classification non supervisé
Avantages de k-means
Comme avantages de cet algorithme, on cite :
-Grande simplicité.
- Compréhensible.
- Les classes sont facilement interprétables et représentées naturellement par les
centroïdes.
-Il s’adapte bien pour des populations de grandes tailles.
-Complexité algorithmique est intéressante, puisqu’elle est en *( +,) où t est le nombre
d’itérations, n le nombre d’objets et k le nombre de classes.
- L’algorithme converge, généralement, avec k et t suffisamment inférieur à n (k, t<<n).
Inconvénients de k-means
Parmi les inconvénients de cet algorithme, on cite :
- Le nombre de classes doit être fixé au départ.
-Le résultat dépend du tirage initial des centres des classes.
-Il ne détecte pas les données bruitées (isolées).
-Le nombre de classe est un paramètre de l’algorithme. Un bon choix du nombre k est
nécessaire, car un mouvais choix de k produit de mauvais résultat.
39
Chapitre III Méthodes de classification non supervisé
Ces algorithmes groupent des objets selon des fonctions de densité spécifiques. La
densité est habituellement définie comme nombre d'objets dans un voisinage particulier des
éléments de données. Dans cette approche, un cluster donné continue à augmenter de taille
tant que le nombre d'objets dans le voisinage dépasse un certain seuil.
Cette approche se subdivise en deux types :
41
Chapitre III Méthodes de classification non supervisé
Les clusters sont déterminés par les attracteurs de densité qui sont définis comme les
maxima locaux de la fonction de densité globale.
Un point est considéré dense si le nombre de ses voisins est supérieur à un MinPts
(Paramètre d’entrée). Deux points sont dit voisins si la distance entre eux ne dépasse pas un
seuil donné (Eps).
DBSCAN commence avec un point de départ arbitraire qui n'a pas été visité. Si ce
point n’est pas dense, alors c’est un bruit, sinon il serait assigné avec l’ensemble de ses
voisins à un nouveau cluster. Ce procédé est répété d’abord sur l’ensemble des voisins puis
sur le reste des points qui n’ont pas été classés ou marqués bruit. A la fin de l’algorithme deux
types de point apparaissent : les points denses qui appartiennent à un groupe et le reste qui est
considéré comme bruit.
42
Chapitre III Méthodes de classification non supervisé
En fait, avec une telle représentation des données, au lieu de faire la classification dans
l'espace de données, on la fait dans l'espace spatial en utilisant des informations statistiques
des points dans la cellule. Les méthodes de ce type sont hiérarchiques ou de partitionnement.
Les algorithmes les plus connus sont STING, CLIQUE, WaveCluster.
4.1 . Entropie
La mesure d’Entropie représente le degré relatif d’aspect aléatoire du partitionnement
peut être évalué en utilisant la notion d’entropie d’un cluster.
L’entropie est une mesure de qualité qui permet de mesurer la répartition des objets dans un
cluster.
L’entropie d’un cluster C de taille nr est calculée selon la formule suivante :
8
! !
1 # #
- ,.*/01( ) = − 7 9* (3.27)
log 6 # #
(
!
Où : q représente le nombre total de clusters et # représente le nombre de séquences qui font
partie du 0 ;<; cluster C.
L’entropie totale du clustering calculée en fonction des entropies générées par tous les
clusters de la partition est donnée par la formule suivante :
8
#
- ,.*/01 = 7 ( #) ( 3.28)
#(
43
Chapitre III Méthodes de classification non supervisé
1
µ' = 7 !
AB
!∈ @
L’inertie intra totale du partitionnement est la sommation des inerties intra clusters
Plus cette inertie est faible, plus petite est la dispersion des points autour du centre de gravité.
Pour obtenir un bon partitionnement basé sur une fonction de distance, il convient de
minimiser l’inertie intra-classe pour obtenir des clusters les plus homogènes possible.
L’inertie inter totale du partitionnement est la sommation des inerties inter clusters.
Plus cette inertie est grande, plus les clusters sont bien séparés afin d’obtenir une bonne
partition.
Pour obtenir un bon partitionnement basé sur une fonction de distance, il convient de
maximiser l’inertie inter afin d’obtenir des sous-ensembles bien différenciés.
44
Chapitre III Méthodes de classification non supervisé
5. Conclusion
La technique de clustering présente l’une des techniques du Data Mining les plus
utilisée, appliquée dans divers domaines dont les données arrivent sous forme d’un flux. Dans
le cadre de cette technique, nous avons étudié dans ce chapitre les différentes approches
relatives à cette technique ainsi que leurs algorithmes respectifs proposés.
Ces différentes approches diffèrent les unes des autres par leur principe de
segmentation, les mesures de proximité (distances) qu’elles utilisent, la nature des données et
attributs qu’elles traitent. Dans ce cadre, une analyse attentive des données aide à bien choisir
la meilleure approche et de ce fait, le meilleur algorithme adéquat. Le choix de l’algorithme
approprié dépend fortement de l’application, la nature des données et les ressources
disponibles. Nous avons passé en revue quatre types d’approches basées sur la technique de
clustering plus précisément les approches hiérarchiques et de partitionnement qui constituent
les approches les plus utilisées dans ce contexte. Nous avons à cet effet, détaillé leurs
principes de fonctionnement et présenté leurs points faibles et leurs points forts.
Dans ce qui suit nous allons présenter d’une manière simple et complète le
fonctionnent de le logiciel weka (environnement Waikato pour l’analyse de connaissances)
qui sera utilisé dans le dernier chapitre pour notre étude comparative des différentes méthodes
de classification.
45
Chapitre IV Présentation du logiciel Weka
1. Introduction
Depuis plusieurs années, data mining a été un vaste domaine de recherche pour de
nombreux chercheurs en raison de la quantité énorme de données et d'informations
disponibles dans les bases de données. Avec une telle quantité de données, il existe un besoin
de techniques et d'outils puissants qui peuvent gérer les données de meilleure façon et extraire
la connaissance pertinente.
Dans ce chapitre nous présentons quelques outils de data mining aux différentes
catégories, et nous exposons aussi en détail l’outil que nous avons utilisé dans notre étude
comparative «Weka», ses outils, ses différentes interfaces, ses concepts de base, son mode
d’utilisation en se basant particulièrement sur la partie classification.
2. Définition
Les outils de fouille de données sont des programmes spécialisés dans l’analyse et
extraction de connaissance à partir de grande quantités des données informatisées, pour
objectif aide l’analyste en exploration de données : extraction d’un savoir ou d’une
connaissance par des méthodes automatique ou semi-automatique.
46
Chapitre IV Présentation du logiciel Weka
3. Présentation
Weka, autrement dit, environnement Waikato pour l’analyse de connaissances [43], est
un package Open Source très populaire, en d’autres termes, un ensemble de classes et
d’algorithmes développé sous Java, à l’Université de Waikato en Nouvelle-Zélande. Il
propose différents algorithmes d’apprentissage automatique (supervisée ou non), à savoir,
Naïve Bayes, Arbre de décision, SVM, réseau de neurones, etc. avec les fonctionnalités de
prétraitement des données, analyse et évaluation des résultats. Il offre une interface GUI
conviviale pour manipuler et inspecter les données et visualiser les résultats. Ce package peut
fonctionner sur les plateformes Linux, Windows et Mac.
47
Chapitre IV Présentation du logiciel Weka
4. Historique
En 1992, l’Université de Waikato en Nouvelle-Zélande commença le développement
de la version originale de Weka.
En 1997, la décision fut prise de développer une nouvelle fois Weka à partir de zéro en
Java, y compris l’implémentation des algorithmes demodélisation.
En 2005, Weka reçoit le SIGKDD (Data Mining and Knowledge Discovery Service
Award).
En 2006, Pentaho acquiert une licence exclusive pour utiliser Weka pour de
l’informatique décisionnelle. Il forme le composant d’exploration de données analytique et
prédictif de la suite de logiciels décisionnels Pentaho.
48
Chapitre IV Présentation du logiciel Weka
6. Interfaces Weka
Weka dispose de plusieurs interfaces graphiques qui sont :
6.1. Explorer
L’interface graphique du logiciel Weka présente six onglets correspondant soit à des étapes du
processus d’apprentissage, soit des classes d’algorithmes de classification (supervisée ou
non):
- Preprocess : La saisie des données, l’examen et la sélection des attributs, les
Transformations d’attributs.
- Classify : Les méthodes de classification.
- Cluster : Les méthodes de segmentation (clustering).
- Associate : Les règles d’association.
- Select attributes : L’étude et la recherche de corrélations entre attributs.
- Visualize : représentations graphiques des données.
49
Chapitre IV Présentation du logiciel Weka
50
Chapitre IV Présentation du logiciel Weka
Une fois le fichier ARFF chargé, une liste d’attributs apparaît à gauche de la fenêtre
52
Chapitre IV Présentation du logiciel Weka
6.1.4. L’onglet Associate : contient les règles d’association. La figure III.7 illustre
l’interface de l’onglet Associate
6.1.5. L’onglet Select attributes : L’onglet « Select attributes » fournit des algorithmes pour
l’identification des attributs les plus prédictifs dans un jeu de données et permet la sélection
des attributs à utiliser pour la classification.
Il y a différentes méthodes pour sélectionner un sous-ensemble d’attributs à utiliser dans
la classification. Ceci est très utile quand les données sont très bruitées, avec beaucoup
d’attributs qui n’aident pas à la classification. Un nettoyage (sélection) est très bénéfique dans
ce cas. Cette sélection aide aussi à accélérer les traitements. Pour cela, il faut choisir dans «
Attribute Evaluator » la méthode InfoGainAttributeEval (la sélection basée sur le gain
d’information), et dans « Search Method » la méthode Ranker – qui ordonne les attributs
selon leur valeur. En cliquant sur Ranker, on peut préciser les critères de sélection, par
exemple en fixant un seuil, ou en fixant un nombre d’attributs à garder.
53
Chapitre IV Présentation du logiciel Weka
6.1.6. L’onglet Visualize : Le dernier onglet « Visualize » montre une matrice de nuages de
points, ou des nuages de points individuels peuvent être sélectionnés et élargis, et davantage
analysés en utilisant divers opérateurs de sélection. La fenêtre Visualize dispose d’un
ensemble de 25 graphiques, qui représentent chacun une vue sur l’ensemble d’exemples selon
deux dimensions possibles, la couleur des points étant leur classe. Sur le graphique, chaque
point représente un exemple : on peut obtenir le descriptif de cet exemple en cliquant dessus.
La couleur d’un point correspond à sa classe. Au départ, le graphique n’est pas très utile, car
les axes représentent le numéro de l’exemple.
La figure IV.9 illustre l’interface de l’onglet Visualize
54
Chapitre IV Présentation du logiciel Weka
6.2. Experimenter
L’experimenteur permet la comparaison systématique (taxinomique) des performances
prédictives des algorithmes d’apprentissage automatique de Weka sur une collection de jeux
de données.
La figure IV.10 Montre l’interface Experimenter de Weka
55
Chapitre IV Présentation du logiciel Weka
56
Chapitre IV Présentation du logiciel Weka
57
Chapitre IV Présentation du logiciel Weka
• Use training set : qui tente d’entraîner un arbre en utilisant tous les exemples
d’entraînement, comme résultat un arbre est obtenu, ainsi que le résultat de classification sur
ce même ensemble de données.
• Supplied test set (avec le paramètre set–choix du jeu de données pour la validation) :
consiste à évaluer le modèle sur un autre jeu de données (a priori différent de celui utilisé pour
construire le modèle).
• Cross-validation (avec comme paramètre « folds ») : pour avoir l’effet de validation
croisée, c'est-à-dire de découper les données en parties. Elle est utilisée lorsqu’on ne
possèdepasdéjàunecollectionaveclessous-ensemblesd’entraînementetdetestdéjà séparés. Elle
consiste à diviser les données en n groupes. Les modèles sont construits sur n-1 groupes et
testés sur le nième groupe. Puis le groupe de test est changé, et le même procédé est répété
jusqu’à avoir réalisé toutes les combinaisons. La moyenne des validations est alors considérée
comme la validation finale.
• Percentage split (avec comme paramètre « pourcentage ») : consiste à utiliser un certain
pourcentage des données pour construire le modèle et l’autre partie pour le valider.
7.3. Processus de classification
Chaqueclassificateurasaproprelistedeparamè[Link]êtrelancés sur un
échantillon de données préalablement chargé (et éventuellement filtré par sélection d’attributs,
discrétisation ou autre).
L’onglet Classify de la fenêtre de l’exploreur Weka permet d’exécuter des processus
d’apprentissage, et d’observer les résultats et les performances estimées. Pour ce faire, il faut
indiquer le mode d’évaluation (cross validation, empirical evaluation, etc.), sélectionner le
classificateur choisi et indiquer ses paramètres (en cliquant sur la commande), puis lancer la
classification. En bas de la fenêtre, la progression de l’apprentissage apparaît.
La fenêtre de droite indique les performances estimées du type de classificateur appris. Il
existe ainsi plusieurs méthodes d’estimation de ces performances (qu’il faut sélectionner puis
éventuellement paramétrer), mais au final, les mêmes indicateurs sont fournis, parmi lesquels
le taux de bonne classification, ou le temps moyen d’apprentissage. En réalisant un clic droit
sur le processus terminé dans la liste des résultats (bas-gauche), nous pouvons accéder à la
visualisation du modèle, lorsque cette dernière est faisable.
Le modèle appris peut être ensuite sauvegardé, pour être ultérieurement visualisé, et pour
évidemment, être entraîné sur de nouvelles données.
La figure qui suit illustre un exemple de classification sous Weka et ses résultats.
58
Chapitre IV Présentation du logiciel Weka
59
Chapitre IV Présentation du logiciel Weka
8. Conclusion
Weka est un des très rares logiciels à proposer un dispositif assez facile d’accès grâce à
son interface conviviale. Il propose beaucoup d’algorithmes classiques en apprentissage
automatique (supervisé ou non), avec les fonctionnalités de prétraitement des données,
analyse et évaluation des résultats.
Dans ce chapitre nous avons eu un aperçu des fonctionnalités de classification de Weka
ainsi que ces méthodes de base. Le but était de nous familiariser avec ce logiciel, car bien
qu’on puisse aisément comprendre certaines fonctionnalités de base de Weka, pour en faire
une utilisation réellement utile, il s’avère absolument nécessaire d’avoir une compréhension
des modèles mathématiques proposés, voire d’utiliser son propre modèle.
60
Chapitre V Expérimentations & Résultats
1. Introduction
Ce chapitre, consiste à étudier et appliquer les différentes méthodes d’apprentissage
supervisé et non supervisé à travers l’outil de classification Weka et analyser les résultats afin
d’évaluer les performances de chaque méthode.
Ce présent chapitre est subdivisé en deux parties. La première est réservée pour l’étude
comparative des différents algorithmes d’apprentissage supervisé à savoir : le séparateur à vaste
marge(SVM), le perceptron multicouche (PMC) du réseau de neurone et L’arbre de
décision(AD) en utilisant Weka.
61
Chapitre V Expérimentations & Résultats
La taille variable de la base va permettre de voir est-ce qu’ils donneront tous les mêmes
résultats, peu importe les données traitées pour les comparer par la suite.
62
Chapitre V Expérimentations & Résultats
Dans ce qui suit, nous allons décrire les deux études effectuées sur la classification
supervisée et non supervisée.
3. L’arbre de décision(AD)
L’arbre de décision est une représentation graphique d’une procédure de classification.
Dans Weka, cet algorithme est représenté par la fonction J48.
a. Expérimentations et résultats
Weka est un logiciel libre qui implémente un ensemble d’algorithmes d’apprentissage. Le
choix de cet outil est dû au fait qu’il est très utilisé dans le domaine de l’apprentissage artificiel
et de la fouille de données et il est aussi facile à manipuler. Il est compatible avec le format de
données qu’on a choisi.
A- La collection : [Link]
64
Chapitre V Expérimentations & Résultats
D’après cette figure, on voit que seulement 56.075% des instances ont été classées
correctement. La matrice de confusion, indique que les classes ont toutes des erreurs, plus
particulièrement les classes vehic wind float, vehic wind non-float, tableware qui n’ont aucune
instance correctement classée. La classe build wind float a 35 instances sur 70 correctement
classée. La classse build wind non- float a 60 instances sur 76 correctement classée. Et la classe
headlamps a 22 instances sur 29 correctement classée.
Le tableau suivant présente les mesures d’exactitude par classe pour la méthode SVM,
on les trouve dans la partie « Detailed Accuracy By Class ».
65
Chapitre V Expérimentations & Résultats
Tableau V.2 : Mesures d’exactitude par classe pour la méthode SVM pour le corpus Glass
- FP Rate : Nombre de faux positifs / Nombre d’exemples n’étant pas de cette classe
Les données des taux TP Rate et FP Rate permettent de reconstruire la matrice de confusion
pour une classe donnée. Symétriquement, la matrice de confusion permet de calculer TP Rate et
FP Rate.
- Precision : c’est le rapport entre le nombre de vrais positifs et la somme des vrais positifs et
des faux positifs. Une valeur de 1 exprime le fait que tous les exemples classés positifs l’étaient
vraiment.
- Recall : un Recall de 1 signifie que tous les exemples positifs ont été trouvés.
66
Chapitre V Expérimentations & Résultats
Dans cette figure, on remarque que 67.757% des instances ont été classés correctement.
La matrice de confusion indique que les erreurs ont concerné toutes les classes. Par exemple,
on voit que la classe vehic wind float a eu seulement 1 (une) instance correctement sur 9.
Le tableau suivant présente les mesures d’exactitude par classe pour la méthode PMC, on
les trouve dans la partie « Detailed Accuracy By Class ».
Classe TP Rate FP Rate Precision Recall F-Measure
build wind float 0,743 0,181 0,667 0,743 0,703
build wind non-float 0,684 0,217 0.643 0,684 0,658
vehic wind float 0,059 0,005 0.500 0,059 0,105
vehic wind non-float 0,000 0,000 0.000 0.000 0.000
containers 0,692 0,030 0,600 0,692 0.643
tableware 0,778 0,020 0,636 0,778 0,700
Headlamps 0.828 0.011 0.671 0.828 0.873
Tableau V.3 : Mesures d’exactitude par classe pour la méthode PMC pour le corpus Glass
67
Chapitre V Expérimentations & Résultats
Le tableau suivant présente les mesures d’exactitude par classe pour la méthode J48, on
les trouve dans la partie « Detailed Accuracy By Class ».
68
Chapitre V Expérimentations & Résultats
chacun d’eux.
Nombre de d’instances Nombre de d’instances
correctement classifiés incorrectement classifiés
KNN 145 69
SVM 120 94
PMC 67.757%
SVM 56.0748%
Tableau V.6 : Pourcentage de bonne classification pour les différents algorithmes pour le jeu
de donnée glass
D’après les résultats de classification de la première collection, on remarque que la méthode
PMC enregistre le meilleur pourcentage de documents correctement classifiés (67.757%) puis
viens l’arbre de décision et la SVM avec 66.8224% et 56.0748% respectivement.
69
Chapitre V Expérimentations & Résultats
Dans cette figure, on remarque que 70% des instances ont été classés correctement.
La matrice de confusion, indique que les erreurs ont concerné toutes les classes.
Le tableau suivant présente les mesures d’exactitude par classe pour la méthode SVM, on
les trouve dans la partie « Detailed Accuracy By Class ».
70
Chapitre V Expérimentations & Résultats
Dans cette figure, on remarque que 74.95% des instances ont été classés correctement.
La matrice de confusion, indique que les erreurs ont concerné toutes les classes.
Le tableau suivant présente les mesures d’exactitude par classe pour la méthode PMC, on les
trouve dans la partie « Detailed Accuracy By Class ».
71
Chapitre V Expérimentations & Résultats
La figure V.8 illustre les résultats de classification avec l’algorithme Arbre de décision
Dans cette figure, on remarque que 72.05% des instances ont été classés correctement.
La matrice de confusion, indique que les erreurs ont concerné toutes les classes.
72
Chapitre V Expérimentations & Résultats
Dans cette figure, on remarque que 92.93% des instances ont été classés correctement.
La matrice de confusion, indique que les erreurs ont concerné toutes les classes.
73
Chapitre V Expérimentations & Résultats
74
Chapitre V Expérimentations & Résultats
Le tableau suivant résume l’évaluation des performances de classification pour les trois corpus
Tableau V.7 : Evaluation des performances de classification pour les trois corpus
75
Chapitre V Expérimentations & Résultats
On peut constater que le perceptron multicouche a une bonne prédiction par rapport aux
deux autres algorithmes.
L’arbre de décision n’est pas loin derrière car il peut même rivaliser avec le PMC,
contrairement au PMC et SVM, sa performance est optimisé.
Dans le cas de SVM, bien qu’il prédit mieux avec un vaste nombre d’instances, les
résultats qu’il offre reste faible par rapport au PMC et à l’arbre de décision, il est peut-être dû
au fait que Weka ne fournit qu’un SVM linéaire ce qui peut limiter son efficacité, il y a aussi le
type des données apprenantes, alors que dans la littérature, le SVM tire son avantage dans la
classification des documents.
Conclusion
Dans cette partie du chapitre on va comparais les deux méthodes de classification non
supervisé à savoir K-means, Hierarchic al clustering .
76
Chapitre V Expérimentations & Résultats
a. Expérimentation et résultats
Comme on a déjà mentionné au début du chapitre on va utiliser l’outil Weka, on va
s’intéresser cette fois à la classification non supervisé (clustering). Dans Weka, on peut trouver
quelques algorithmes de clustering dans l’onglet cluster (simple K-Means et Hierarchical
Clustering).
Après avoir chargé les données dans l’outil, on applique les différentes fonctions
destinées pour cette étude. Weka offre une option pour faire l’évaluation de la performance du
modèle appris, c’est l’option Classes to clusters evaluation.
Classes to clusters evaluation: Dans ce mode, Weka commence par ignorer l'attribut de
classe et génère le clustering. Ensuite, au cours de la phase de test, il attribue des classes aux
clusters, en fonction de la valeur majoritaire de l'attribut de classe dans chaque cluster. Ensuite,
il calcule l'erreur de classification en fonction de cette affectation et affiche également la
matrice de confusion correspondante. Un exemple de ceci pour k-means est présenté ci-
dessous.
Figure ci-après illustre l’onglet et les options de tests.
77
Chapitre V Expérimentations & Résultats
Les résultats de cette expérience de clustering pour chaque algorithme et dans chaque
collection sont représentés dans ce qui suit :
Algorithme SimpleKMeans
La figure V.13 représente les résultats de la classification avec l’algorithme K-Means.
78
Chapitre V Expérimentations & Résultats
79
Chapitre V Expérimentations & Résultats
80
Chapitre V Expérimentations & Résultats
Tableau V.9 : Pourcentage de bonne classification pour les différents algorithmes pour le corpus glass
B- Premier Collection : Mfeat_morphology.arff
Algorithme SimpleKMeans
La figure IV.15 représente les résultats de la classification avec l’algorithme K-Means
Figure V.15 : résultats de la classification avec l’algorithme simple K-Means pour le corpus
morphology
81
Chapitre V Expérimentations & Résultats
Parmi le total de 2000 instances, le nombre d'instances classés correctement est (398
instances) indique une précision de 19.9%, les 1602 instances restantes (ou 80.1%) étant classés
de manière incorrecte. Les résultats obtenus en utilisant l’algorithme K-Means clustering
fournissent une faible précision avec une vitesse de traitement élevée.
Figure V.16 : la classification avec l’algorithme Hierarchical clustering pour le corpus morphology
Dans le tableau suivant nous allons énumérer les deux algorithmes avec le nombre
d’instances correctement classé et le nombre d’instances incorrectement cluster et le temps
d’exécution pour chacun d’eux.
Nombre de d’instances Nombre de d’instances Temps d’exécution
correctement cluster incorrectement cluster (en seconds)
K-Means 95 119 0.30
Hierarchical clustering 78 136 0.72
82
Chapitre V Expérimentations & Résultats
Le tableau qui suit illustre les pourcentages d’instances correctement classifiés pour les
différents algorithmes pour le corpus morphology
Figure V.17 : résultats de la classification avec l’algorithme simple KMeans pour le corpus pageblocks
83
Chapitre V Expérimentations & Résultats
Dans le tableau suivant nous allons énumérer les deux algorithmes avec le nombre
d’instances correctement classé et le nombre d’instances incorrectement cluster et le temps
d’exécution pour chacun d’eux.
84
Chapitre V Expérimentations & Résultats
Hirarchic Nbr 78 136 0.72 392 1608 17.84 4914 559.0 372.02
al
clustering % 36.43 63.57 19.6 80.4 89.79 10.21
Tableau V.12 : Evaluation des performances de clustering pour les trois corpus
c. Expérimentation et résultats
K-means est un algorithme de clustering il est largement utilisé pour la mise en cluster de
grands ensembles de données.
85
Chapitre V Expérimentations & Résultats
Nous avons effectué une analyse sur les deux méthodes : k-means et l’algorithme
hiérarchique. Les résultats expérimentaux montrent que lorsque la taille des données est petite
l'algorithme kmean est plus performant que l'algorithme hiérarchique (c’est le cas pour les deux
corpus Glasse et morphologie) et prend moins de temps à exécuter. Mais dans le cas des
grandes corpus (cas de pageblock avec 5473 instances), l'algorithme hiérarchique est plus
performant que kmeans sauf qu’il prend énormément de temps dans l’exécution.
Après avoir analysé les deux algorithmes nous avons conclu que :
À mesure que le nombre d’instances augmente, les performances de l’algorithme
hiérarchique croient et le temps exécution devient accru.
L’algorithme K-means augmente également son temps d’exécution, mais par rapport à
l’algorithme hiérarchique, ses performances est mieux.
CONCLUSION
86
Conclusion Générale
Ce travail nous a amené au développement d’une étude comparative entre les méthodes
de classification supervisé utilisant les trois algorithmes (RN, SVM, arbre de décision) et une
autre étude pour les méthodes de classification non supervisé en utilisant les deux
algorithmes (K-Means, hiérarchique) appliqués aux trois bases de données sélectionnées
(Glass, Mfeat_morphology, page-blocks).
Pour ce faire, nous avons tout d’abord étudié les approches et les notions
fondamentales de la classification des données. En premier lieu, nous avons présenté les
différentes techniques intervenant dans la classification. Puis, nous avons distingué les
différentes méthodes d’apprentissage supervisé et non supervisé. Cette analyse nous a permis
de constater l’importance de chaque méthode de classification, pour ensuite aborder les
différents outils de classification, nous nous intéressons particulièrement à exposer l’outil
utilisé : «WEKA». Enfin, nous présentons les limites actuelles de notre étude comparative
entre les résultats et les difficultés rencontrées car on a conclue qu’il est difficile d’affirmer
qu’une telle méthode est meilleure par rapport à une autre. Globalement, cette étude a permis
d’exposer concrètement la problématique de classification de données dans des différents
domaines.
Notre travail est une nouvelle contribution apportée aux nombreuses études sur la
classification. Pour une évaluation plus complète, et d’après ce qu’on a pu remarquer à travers
ce travail on pourrait envisager quelques perspectives afin de noter ce qu’on peut améliorer
dans celui-ci, il serait judicieux dans le futur d'élargir le volume et le type des données.
Comme, il serait pertinent de tester d'autres types de classifieurs et d’utiliser d’autres logiciels
comme TANAGRA ou MATLAB pour voir le comportement de ces algorithmes.
87
Références bibliographies
[15] V. Ganti, J. Gehrke, and R. Ramakrishnan. CACTUS- clustering categorical data using
summaries. In KDD '99 : Proceedings of the _fth ACM SIGKDD international
conference on Knowledge discovery and data mining, pages 73{83, New York, NY, USA,
1999. ACM Press.
[16] Denoyer L. «Apprentissage et inférence statistique dans les bases de documents
structurés : Application aux corpus de documents textuels». Thèse de Doctorat,
Université Paris 6, (2004)
[17] Jain A.K, Dubes R.C. Algorithms for Clustering Data. Prentice-Hall advanced reference
series: Computer Science, Prentice-Hall, Inc, Upper Saddle River, NJ, New Jersey,
(1988)
[18]Mariam TANANA « Evaluation formative du savoir-faire des apprenants à l’aide
d’algorithmes de classification », thèse Doctorat de l’INSA de Rouen (spécialité
Informatique) ,2009.
[19] Mounzer BOUBOU : "contribution aux méthodes de classification non supervisée via
des approches prétopologiques et d’agrégations d’opinion’’, thèse de doctorat,
université Claud Bernard –Lyon1, 2007
[20] Aggarwal G., Feder T., Kenthapadi K., Motwani R., Panigrahy R., Thomas D., Zhu
A.:Approximation Algorithms for k-anonymity. Journal of Privacy Technology, paper
20051120001, 2005.
[21]. D. Bensalem, C. Bounouar, Z. Boudia, Classification automatique de documents: de la
classification classique à la classification utilisant une ressource externe, Département
Informatique de l’UMMTO, 2014
[24] A-G. Bosser. Réplications Distribuées pour la Définition des Interactions de Jeux
Massivement Multi-Joueurs. PhD thesis, Université de Paris 7, France, Novembre 2005.
[25].Les arbres de décision (decisiontrees), Christine Decaestecker, ULB, Marco
Saerens, UCL,LINF2275
Références bibliographies
[26] I. Foster and C. Kesselmann. The Grid : Blueprint for Future Computing Infrastructure.
Morgan Kaufmann, San Francisco, 1999.
[27] Samarati P.: Protecting Respondents’ Identities in Microdata Release. IEEE Trans.
Knowl. Data Eng. 13(6): 1010-1027 (2001).
[28] Bettini C., Wang X. S., Jajodia S.: Protecting Privacy against Location Based Personal
Identification. Proc. of Secure Data Management Workshop, Trondheim, Norway,
2005.
[30] A. Imine. Conception Formelle d'Algorithmes de Réplication Optimiste Vers l'Edition
Collaborative dans les réseaux Pair-a-Pair. PhD thesis, Doctorat de l'université Henri Poincaré
Nancy 1, France, Novembre 2006.
[31] [Link]
[32] [Link]. Web Data Mining, Exploring Hyperlinks, Contents and Usage Data. Springer, Berlin,
2011.
[33] [Link]. On the Evaluation of Clustering Results: Measures, Ensembles and Gene
Expression Data Analysis. Thése de doctorat en sciences en informatique, Université de San
Carlos, Cebu, Philippine, 2016.
[34] [Link]. Connaissances et Clustering Collaboratif d’Objets Complexes Multisources. Thése
de doctorat en sciences en informatique, Université de Strasbourg, France, 2010.
[35] Boubou, Mounzer. Contribution aux méthodes de classification non supervisée via des
approches prétopologiques et d'agrégation d'opinions. Diss. 2007.
[36] SOUHILA DJERROUD : Accélération de la recherche d’image par le contenu, Intégration de la
méthode de CHAMELEON, thèse pour obtenir le grade de magister, 2007.
[37]Park, Hae-Sang et Chi-Hyuck Jun. "Un algorithme simple et rapide pour la mise en grappes de K-
medoids." Systèmes experts avec applications 36.2 (2009): 3336-3341.
[38] Forgy, E. (1965). Cluster analysis of multivariate data: efficiency vs interpretability of
classifications. . Biometrics, 21, 768-769.
[39] B. DEVEZE & M. FOUQUIN, Data mining c4.5 -dbscan, Cours, Ecole d'ing_enieurs en
informatique EPITA, France, 2004.
[40] A. Imine. Conception Formelle d'Algorithmes de Réplication Optimiste Vers l'Edition
Collaborative dans les réseaux Pair-a-Pair. PhD thesis, Doctorat de l'université Henri Poincaré
Nancy 1, France, Novembre 2006
[41] [Link] and [Link]. V-measure: A conditional entropy-based external cluster
evaluation measure. In Proceedings of the Joint Conference on Empirical Methods in Natural
Language Processing and Computational Natural Language Learning, page 410–420, Prague,
2007.
Références bibliographies
[42] [Link], [Link], and [Link]. Entropy-based measures for clustering and som topology
preservation applied to content-based image indexing and retrieval. In Proceedings of the 17th
International Conference on Pattern Recognition, pages 1005 – 1008, Cambridge, Rayaume
Uni, 2004.
[43] [Link]/ml/weka/
[44] [Link]