Introduction au Data Mining et ses Applications
Introduction au Data Mining et ses Applications
+ + Objectifs
Data Mining ◼ Connaître les tâches et les objectifs du DataMining
2022-2023
v 0.3
22/05/2023
1 2
+ Pré-requis + Evaluation
◼ Algorithmique et Structures de données ◼ Examen écrit
◼ Intelligence humaine
◼ Assiduité et présence
◼ Quizz
◼ Projet
22/05/2023 22/05/2023
3 4
1
23/05/2023
+ Plan
Généralités
Classification
Prédiction Généralités
+
Clustering
Association
TPs
22/05/2023
22/05/2023
5 6
+ Datamining? + Datamining?
❑ Le DataMining est l’ensemble des : ❑ Ensemble de méthodes et de techniques d’analyse de données et
❑ algorithmes et méthodes d’extraction d’information structurée en vue d’aider à la prise de
❑ destinés à l’exploration et l’analyse décision:
❑ …de (souvent grandes) bases de données informatiques
❑ … en vue de détecter dans ces données des règles, des associations, ❖ Mettre en évidence des informations présentes mais noyées par le volume
de données: Datamining descriptif
des tendances inconnues (non fixées a priori), des structures
particulières restituant de façon concise l’essentiel de l’information
utile ❖ Extrapoler des nouvelles informations à partir de données existantes:
Datamining prédictif
❑ permet à l’utilisateur de traiter des données brutes dans le but de
révéler des informations de valeur
❑ … pour aider à la prise de décision
22/05/2023 22/05/2023
7 8
2
23/05/2023
22/05/2023 22/05/2023
9 10
22/05/2023 22/05/2023
11 12
3
23/05/2023
22/05/2023 22/05/2023
13 14
+ Motivations + Motivations
◼ Submergés par les données, manque de connaissance! ◼ Solution : entrepôts de données et data mining
◼ Data warehousing et on-line analytical processing (OLAP)
◼ Données vs. Connaissances
◼ Extraction de connaissances (règles, régularités, motifs, contraintes) à
partir de grosses bases de données (BD).
◼ Solution? Inexploitables par les méthodes d’analyse de données
classiques
22/05/2023 22/05/2023
15 16
4
23/05/2023
+ Historique + Historique
1875 : régression linéaire de Francis Galton 1975 : algorithmes génétiques de Holland
1896 : formule du coefficient de corrélation de Karl Pearson
1980 : arbre de décision CHAID de KASS
1900 : distribution du χ² de Karl Pearson
1936 : analyse discriminante de Fisher et Mahalanobis 1984 : arbre CART de Breiman, Friedman, Olshen, Stone
1941 : analyse factorielle des correspondances de Guttman 1986 : perceptron multicouches de Rumelhart et McClelland
1943 : réseaux de neurones de Mc Culloch et Pitts 1989 : réseaux de T. Kohonen (cartes auto-adaptatives)
1944 : régression logistique de Joseph Berkson vers 1990 : apparition du concept de data mining
1958 : perceptron de Rosenblatt 1993 : arbre C4.5 de J. Ross Quinlan
1962 : analyse des correspondances de J.-P. Benzécri 1996 : bagging (Breiman) et boosting (Freund-Shapire)
1964 : arbre de décision AID de J.P.Sonquist et J.-A.Morgan 1997: Big Data
1965 : méthode des centres mobiles de E.W. Forgy 1998 : support vector machines de Vladimir Vapnik
1967 : méthode des k-means de Mac Queen
2000 : régression logistique PLS de Michel Tenenhaus
1972 : modèle linéaire généralisé de Nelder et Wedderburn
2001 : forêts aléatoires de L. Breiman
22/05/2023 22/05/2023
17 18
◼ Gestion et analyse des marchés : Ex. Grande distribution : profils ◼ Bioinformatique et Génome: ADN mining, …
des consommateurs, effet des périodes de solde ou de publicité,
panier de la ménagère ◼ Médecine et pharmacie:
◼ Diagnostic : découvrir d’après les symptômes du patient sa maladie
◼ Détection de fraudes: Télécommunications, Banques,… ◼ Choix du médicament le plus approprié pour guérir une maladie donnée
◼ Gestion de stocks: quand commander un produit, quelle quantité ◼ Web mining, textmining, etc.
demandée, …
22/05/2023 22/05/2023
19 20
5
23/05/2023
+ Marketing + Marketing
◼ Quelles sources de données ? ◼ Profils clients
◼ Transactions bancaires (CB), coupons de réduction, service clients ◼ Quels types de clients achètent quels produits ? (clustering ou
(plaintes), les études publiques de style de vie classifications)
◼ Cible marketing ◼ Identifier les besoins des clients
◼ Trouver des groupes ”modèles ”de clients qui partagent les mêmes
caractéristiques : intérêts, revenus, habitudes de consommation, . . . ◼ Identifier les meilleurs produits pour des clients différents
◼ Utiliser la prédiction pour trouver quels facteurs vont attirer de nouveaux
◼ Déterminer les profils d’achat des clients au cours du temps clients
◼ Ex : compte-joint après le mariage
◼ Fournir une synthèse de l’information
◼ Analyses des ventes croisées ◼ Rapports multidimensionnels variés
◼ Associations/corrélations des ventes entre produits ◼ Rapports statistiques (tendance générale des données et variation)
◼ Prédictions basées sur les associations d’information
22/05/2023 22/05/2023
21 22
22/05/2023 22/05/2023
23 24
6
23/05/2023
22/05/2023 22/05/2023
25 26
22/05/2023 22/05/2023
27 28
7
23/05/2023
22/05/2023 22/05/2023
29 30
31 32
8
23/05/2023
22/05/2023 22/05/2023
33 34
◼ Utilisation de la connaissance
22/05/2023 22/05/2023
35 36
9
23/05/2023
◼ Réservoir de données
◼ Orientées Objet
◼ Bases de données spatiales
◼ Données chronologiques et données temporelles
◼ Bases textuelles et multimédia
◼ WWW • April, 10 2019
• Messier 87 (M87), a galaxy located more than 53 million light-years from Earth.
• It has a mass 6.5 billion times that of the sun.
• Astrophysical Journal Letters.
22/05/2023 22/05/2023
37 38
22/05/2023 22/05/2023
39 40
10
23/05/2023
◼ Intérêt
◼ Un pattern est intéressant si il est:
◼ facilement compris par les humains,
◼ valide sur données nouvelles ou testées avec un certain degré de certitude,
◼ potentiellement utile,
◼ nouveau, ou validant certaines hypothèses que l’on cherche à confirmer.
22/05/2023 22/05/2023
41 42
22/05/2023 22/05/2023
43 44
11
23/05/2023
22/05/2023 22/05/2023
45 46
22/05/2023 22/05/2023
47 48
12
23/05/2023
22/05/2023 22/05/2023
49 50
22/05/2023 22/05/2023
51 52
13
23/05/2023
22/05/2023 22/05/2023
53 54
+ DataMining challenges
◼ Liés à la connaissance:
◼ Overfitting
◼ Intégration des connaissances découvertes avec celles existantes
problème de fusion des connaissances
◼ Performance des modèles: temps d'exécution et précision. Classification
+
◼ Liés au résultat:
◼ Visualisation Classement
◼ Interprétation des résultats
22/05/2023
22/05/2023
55 56
14
23/05/2023
◼ Des exemples de tâche de classification sont : ◼ Applications : marketing direct (profils des consommateurs),
◼ attribuer ou non un prêt à un client, médecine (malades/non malades), etc.
◼ établir un diagnostic, ◼ Généralement la dernière colonne de la base de données.
◼ accepter ou refuser un retrait dans un distributeur,
◼ attribuer un sujet principal à un article de presse, ... ◼ Exemple : les acheteurs de voitures de sport sont de jeunes ayant
un revenu important
22/05/2023 22/05/2023
57 58
59 60
15
23/05/2023
◼ Algorithme
◼ C1,..Cn : classes prédéfinies ◼ La similarité entre objets dépend de :
◼ I : nouveau individu ◼ type des données considérées
◼ Dist=-∞ ◼ type de similarité recherchée
◼ For j=1 to n
◼ if (sim(I,Cj)>Dist) then {c=j; Dist=sim(I,Cj)}
◼ Afficher (c)
22/05/2023 22/05/2023
61 62
|𝑥−𝑦|
◼ Normalisation: 𝑑 𝑥, 𝑦 =
𝑑𝑚𝑎𝑥
22/05/2023 22/05/2023
63 64
16
23/05/2023
22/05/2023 22/05/2023
65 66
+ Exemple + Exemple
◼ Exemple: ◼ d(x,y)=sqrt( (10/15)²+ 1²+ (1200/3000)²) = 1.27
◼ (Age, Propriétaire résidence principale, revenue)
◼ d(x,z)= sqrt( (15/15)²+ 0²+ (3000/3000)²) = 1.41
◼ X=(30,1,1000), y=(40,0,2200), z=(45,1,4000)
◼ Calculer: d(x,y); d(x,z), d(y,z)? ◼ d(y,z)= sqrt( (5/15)²+ 1²+ (1800/3000)²) = 1.21
◼ Euclidien distance and Manhattan.
◼ Qui est plus proche de x?
22/05/2023 22/05/2023
67 68
17
23/05/2023
22/05/2023 22/05/2023
69 70
22/05/2023 22/05/2023
71 72
18
23/05/2023
◼ Classe majoritaire
22/05/2023 22/05/2023
73 74
22/05/2023 22/05/2023
75 76
19
23/05/2023
22/05/2023 22/05/2023
77 78
22/05/2023 22/05/2023
79 80
20
23/05/2023
◼ Bootstrapping
22/05/2023 22/05/2023
81 82
22/05/2023 22/05/2023
83 84
21
23/05/2023
22/05/2023 22/05/2023
86 87
22/05/2023 22/05/2023
88 89
22
23/05/2023
22/05/2023 22/05/2023
90 91
Outlook
No Yes No Yes
22/05/2023 22/05/2023
92 93
23
23/05/2023
22/05/2023 22/05/2023
94 95
+ Arbres de décision: From Tree to Rules + Arbres de décision: From Tree to Rules
◼ Une règle est générée pour chaque chemin de l’arbre (de la racine
à une feuille).
Age < 27.5
◼ Les règles sont un ensemble de Si-Alors.
1) Age < 27.5 ➔High
◼ Les paires attribut-valeur d’un chemin forment une conjonction.
CarType ∈ {Sports}
2) Age >= 27.5 and
CarType = Sports ➔ High ◼ Le nœud terminal représente la classe prédite.
High
3) Age >= 27.5 and
◼ Les règles sont généralement plus faciles à comprendre que les
CarType ∉ Sports ➔ low
arbres.
22/05/2023 22/05/2023
96 97
24
23/05/2023
22/05/2023 22/05/2023
98 99
22/05/2023 22/05/2023
100 101
25
23/05/2023
22/05/2023 22/05/2023
102 103
◼ Deux approches :
◼ Gain d’information: ID3, C4.5
◼ Pré-élagage :
◼ Arrêter de façon prématurée la construction de l’arbre ◼ Indice Gini: CART
◼ Post-élagage :
◼ Supprimer des branches de l’arbre complet ◼ Table de contingence statistique Chi2: CHAID
◼ Convertir l’arbre en règles; élaguer les règles de façon indépendante ◼ G-statistic
(C4.5)
22/05/2023 22/05/2023
104 105
26
23/05/2023
22/05/2023 22/05/2023
106 107
22/05/2023 22/05/2023
108 109
27
23/05/2023
22/05/2023 22/05/2023
110 111
22/05/2023 22/05/2023
112 113
28
23/05/2023
22/05/2023
22/05/2023
114 115
22/05/2023 22/05/2023
116 117
29
23/05/2023
◼ Entre 0 et 1.
◼ Une valeur proche de 1 implique que l’ajustement est meilleure ◼ Entre 0 et 1.
◼ Une valeur proche de 1 implique que l’ajustement est meilleure
22/05/2023 22/05/2023
118 119
◼ Tests de la qualité de l’ajustement d’un modèle linéaire ◼ Distribution des résidus 𝒆𝒊 indépendamment des deux variables y et
◼ Coefficient de détermination 𝑹𝟐 x et selon une loi gaussienne centrée et réduite,
◼ le carré du coefficient de corrélation linéaire r
∗
◼ Le carré du coefficient de corrélation linéaire entre 𝑌𝑖 𝑒𝑡 𝑌𝑖
◼ Entre 0 et 1.
◼ Une valeur proche de 1 implique que l’ajustement est meilleure
22/05/2023 22/05/2023
120 121
30
23/05/2023
◼ Autre transformations:
◼ X=racine(X)
◼ X=1/X
◼ X=log(X/1-X)
22/05/2023 22/05/2023
122 123
22/05/2023 22/05/2023
124 125
31
23/05/2023
22/05/2023 22/05/2023
126 127
22/05/2023 22/05/2023
128 129
32
23/05/2023
22/05/2023 22/05/2023
130 131
22/05/2023 22/05/2023
132 133
33
23/05/2023
22/05/2023 22/05/2023
134 135
22/05/2023 22/05/2023
136 137
34
23/05/2023
22/05/2023 22/05/2023
138 139
22/05/2023 22/05/2023
140 141
35
23/05/2023
22/05/2023 22/05/2023
142 143
22/05/2023 22/05/2023
144 145
36
23/05/2023
+ Regression: Evaluation
Clustering
+
Segmentation
22/05/2023
22/05/2023
146 147
+ Clustering + Clustering
◼ Méthode de partitionnement (K- moyennes) ◼ Soient N instances de données décrit par K attributs.
◼ Apprentissage non supervisé (classes inconnues) ◼ Apprentissage non supervisé (clusters inconnues)
◼ Problématique : interprétation des clusters identifiés
◼ C peut être donné, ou “découvert”
◼ Attributs
◼ Numériques (distance bien définie)
◼ Enumératifs ou mixtes (distance difficile à définir)
22/05/2023 22/05/2023
148 149
37
23/05/2023
22/05/2023 22/05/2023
150 151
◼ Abilité à traiter différents types de données ◼ Grouper les exemples similaires dans des clusters en utilisant une
métrique distance (distance euclidienne).
◼ Découverte de clusters de différents formes
◼ Les centres des clusters se calculent par la moyenne arithmétique
◼ Connaissances requises (paramètres de l’algorithme) des exemples affectés au cluster.
22/05/2023 22/05/2023
152 153
38
23/05/2023
5. Aller en 2.
22/05/2023 22/05/2023
154 155
Nouveaux Centres
centres finaux
22/05/2023 22/05/2023
156 157
39
23/05/2023
◼ K = 2 (2 Clusters) ◼ K=3
◼ A(1,3); B(2,2); C(2,3); D(2,4); E(4,2); F(5,2); G(6,2); H(7,3). ◼ A1(2,10); A2(2,5), A3(8,4), A4(5,8), A5(7,5), A6(6, 4), A7(1, 2), A8(4, 9)
22/05/2023 22/05/2023
158 159
22/05/2023 22/05/2023
160 161
40
23/05/2023
22/05/2023 22/05/2023
162 163
1. On commence avec m clusters (cluster = 1 enregistrement) Step 0 Step 1 Step 2 Step 3 Step 4
22/05/2023 22/05/2023
164 165
41
23/05/2023
◼ Résultat : Graphe hiérarchique qui peut être coupé à un niveau de ◼ Distance entre les centres des clusters (Centroid Method)
dissimilarité pour former une partition.
◼ Distance minimale entre toutes les paires de données des 2 clusters
◼ La hiérarchie de clusters est représentée comme un arbre de (Single Link Method): d(i, j) = minxCi , yCj d(x, y)
clusters, appelé dendrogramme
◼ Les feuilles de l’arbre représentent les objets ◼ Distance maximale entre toutes les paires de données des 2 clusters
◼ Les nœuds intermédiaires de l’arbre représentent les clusters (Complete Link Method): d (i, j) = max xC , yC d ( x, y)
i j
22/05/2023 22/05/2023
166 167
◼ Conceptuellement simple
22/05/2023 22/05/2023
168 169
42
23/05/2023
22/05/2023
170
43