0% ont trouvé ce document utile (0 vote)
63 vues43 pages

Introduction au Data Mining et ses Applications

Le document présente un cours sur le Data Mining, abordant ses objectifs, techniques, et logiciels, ainsi que les pré-requis et méthodes d'évaluation. Il détaille les concepts de Data Mining descriptif et prédictif, ainsi que des applications dans divers domaines tels que le marketing, la détection de fraudes et la gestion des risques. Enfin, il compare le Data Mining aux statistiques traditionnelles, soulignant leurs différences et complémentarités.

Transféré par

s.hjirt
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
63 vues43 pages

Introduction au Data Mining et ses Applications

Le document présente un cours sur le Data Mining, abordant ses objectifs, techniques, et logiciels, ainsi que les pré-requis et méthodes d'évaluation. Il détaille les concepts de Data Mining descriptif et prédictif, ainsi que des applications dans divers domaines tels que le marketing, la détection de fraudes et la gestion des risques. Enfin, il compare le Data Mining aux statistiques traditionnelles, soulignant leurs différences et complémentarités.

Transféré par

s.hjirt
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

23/05/2023

+ + Objectifs
Data Mining ◼ Connaître les tâches et les objectifs du DataMining

Fouille de données ◼ Utiliser les techniques du DataMining

◼ Découvrir les logiciels du DataMining

Hosni M., PhD

2022-2023
v 0.3

22/05/2023

1 2

+ Pré-requis + Evaluation
◼ Algorithmique et Structures de données ◼ Examen écrit

◼ Analyse de données et statistique ◼ Rapport TP

◼ Intelligence humaine
◼ Assiduité et présence

◼ Quizz

◼ Projet

22/05/2023 22/05/2023

3 4

1
23/05/2023

+ Plan

Généralités
Classification
Prédiction Généralités
+
Clustering
Association
TPs
22/05/2023
22/05/2023

5 6

+ Datamining? + Datamining?
❑ Le DataMining est l’ensemble des : ❑ Ensemble de méthodes et de techniques d’analyse de données et
❑ algorithmes et méthodes d’extraction d’information structurée en vue d’aider à la prise de
❑ destinés à l’exploration et l’analyse décision:
❑ …de (souvent grandes) bases de données informatiques
❑ … en vue de détecter dans ces données des règles, des associations, ❖ Mettre en évidence des informations présentes mais noyées par le volume
de données: Datamining descriptif
des tendances inconnues (non fixées a priori), des structures
particulières restituant de façon concise l’essentiel de l’information
utile ❖ Extrapoler des nouvelles informations à partir de données existantes:
Datamining prédictif
❑ permet à l’utilisateur de traiter des données brutes dans le but de
révéler des informations de valeur
❑ … pour aider à la prise de décision

22/05/2023 22/05/2023

7 8

2
23/05/2023

+ Datamining? + Notions Logiques


❑ Datamining descriptif ◼ Inferences are steps in reasoning, moving from premises to
✓ Recherche d’association entre les attributs logical consequences.
✓ Articles figurant dans le même ticket de caisse
◼ Abduction:
✓ Exemple: achat de riz + limonade==> achat de poissons ◼ Un type de raisonnement
◼ Consiste à inférer des causes probables à un fait observé.
❑ Datamining prédictif ◼ Exemples:
✓ Identifier un ou plusieurs modèles statistiques, afin de prévoir ◼ Médecine.
une certaine réponse à laquelle nous nous intéressons. ◼ S'il pleut alors je prends mon parapluie.
✓ Exemple: Régression linéaire ◼ J'ai pris mon parapluie
◼ Qu'en déduit-on ?

22/05/2023 22/05/2023

9 10

+ Notions Logiques + Notions Logiques


◼ Déduction ◼ Induction
◼ une inférence menant d'une affirmation générale à une ◼ chercher des lois générales à partir de l'observation de faits
conclusion particulière. particuliers, sur une base probabiliste.
◼ à partir de cas abstraits, on déduit des cas particuliers ◼ inférence menant de plusieurs affirmations particulières à une
◼ Exemple: affirmation.
◼ All men are mortal. (First premise)
◼ Exemple:
◼ L’eau, l'huile et le lait se congèlent sous l'influence du froid.
◼ Socrates is a man. (Second premise)
◼ Tous les liquides doivent se congeler.
◼ Therefore, Socrates is mortal. (Conclusion)

22/05/2023 22/05/2023

11 12

3
23/05/2023

+ Notions Logiques: Exemple + Motivations


◼ Toutes les voitures ont 4 roues ◼ L’explosion des données
◼ Les outils de collecte automatique des données et les bases de données
◼ Peugeot 206 à 4 roues ➔ Peugeot 206 est une voiture? conduisent à d’énormes masses de données stockées dans des entrepôts

◼ Toutes les voitures ont 4 roues

◼ Peugeot 206 est une voiture ➔ Peugeot 206 à 4 roues?

◼ La clio a 4 roues, La Peugeot 106 a 4 roues, La BMW M3 a 4 roues, La


Mercedes 190 a 4 roues ➔ toutes les voitures ont 4 roues?

22/05/2023 22/05/2023

13 14

+ Motivations + Motivations
◼ Submergés par les données, manque de connaissance! ◼ Solution : entrepôts de données et data mining
◼ Data warehousing et on-line analytical processing (OLAP)
◼ Données vs. Connaissances
◼ Extraction de connaissances (règles, régularités, motifs, contraintes) à
partir de grosses bases de données (BD).
◼ Solution? Inexploitables par les méthodes d’analyse de données
classiques

Exploiter le vécu (données historiques) pour


prédire le futur et anticiper le marché

22/05/2023 22/05/2023

15 16

4
23/05/2023

+ Historique + Historique
 1875 : régression linéaire de Francis Galton  1975 : algorithmes génétiques de Holland
 1896 : formule du coefficient de corrélation de Karl Pearson
 1980 : arbre de décision CHAID de KASS
 1900 : distribution du χ² de Karl Pearson
 1936 : analyse discriminante de Fisher et Mahalanobis  1984 : arbre CART de Breiman, Friedman, Olshen, Stone
 1941 : analyse factorielle des correspondances de Guttman  1986 : perceptron multicouches de Rumelhart et McClelland
 1943 : réseaux de neurones de Mc Culloch et Pitts  1989 : réseaux de T. Kohonen (cartes auto-adaptatives)
 1944 : régression logistique de Joseph Berkson  vers 1990 : apparition du concept de data mining
 1958 : perceptron de Rosenblatt  1993 : arbre C4.5 de J. Ross Quinlan
 1962 : analyse des correspondances de J.-P. Benzécri  1996 : bagging (Breiman) et boosting (Freund-Shapire)
 1964 : arbre de décision AID de J.P.Sonquist et J.-A.Morgan  1997: Big Data
 1965 : méthode des centres mobiles de E.W. Forgy  1998 : support vector machines de Vladimir Vapnik
 1967 : méthode des k-means de Mac Queen
 2000 : régression logistique PLS de Michel Tenenhaus
 1972 : modèle linéaire généralisé de Nelder et Wedderburn
 2001 : forêts aléatoires de L. Breiman

22/05/2023 22/05/2023

17 18

+ Domaines d’application + Domaines d’application


◼ Marketing direct: population à cibler (âge, sexe, profession, ◼ Gestion et analyse de risque: Assurances, Banques (crédit
habitation, région, …) pour un publipostage. accordé ou non)

◼ Gestion et analyse des marchés : Ex. Grande distribution : profils ◼ Bioinformatique et Génome: ADN mining, …
des consommateurs, effet des périodes de solde ou de publicité,
panier de la ménagère ◼ Médecine et pharmacie:
◼ Diagnostic : découvrir d’après les symptômes du patient sa maladie
◼ Détection de fraudes: Télécommunications, Banques,… ◼ Choix du médicament le plus approprié pour guérir une maladie donnée

◼ Gestion de stocks: quand commander un produit, quelle quantité ◼ Web mining, textmining, etc.
demandée, …

22/05/2023 22/05/2023

19 20

5
23/05/2023

+ Marketing + Marketing
◼ Quelles sources de données ? ◼ Profils clients
◼ Transactions bancaires (CB), coupons de réduction, service clients ◼ Quels types de clients achètent quels produits ? (clustering ou
(plaintes), les études publiques de style de vie classifications)
◼ Cible marketing ◼ Identifier les besoins des clients
◼ Trouver des groupes ”modèles ”de clients qui partagent les mêmes
caractéristiques : intérêts, revenus, habitudes de consommation, . . . ◼ Identifier les meilleurs produits pour des clients différents
◼ Utiliser la prédiction pour trouver quels facteurs vont attirer de nouveaux
◼ Déterminer les profils d’achat des clients au cours du temps clients
◼ Ex : compte-joint après le mariage
◼ Fournir une synthèse de l’information
◼ Analyses des ventes croisées ◼ Rapports multidimensionnels variés
◼ Associations/corrélations des ventes entre produits ◼ Rapports statistiques (tendance générale des données et variation)
◼ Prédictions basées sur les associations d’information

22/05/2023 22/05/2023

21 22

+ Marketing: exemple + Marketing: exemple


◼ Vous êtes gestionnaire marketing d’un opérateur de ◼ Solution:
télécommunications mobiles ◼ Trois mois avant l’expiration du contrat, prédire les clients qui
vont quitter
◼ Les clients reçoivent un téléphone gratuit (valeur 1500) avec un
contrat d’un an ◼ Si vous voulez les garder, offrir un nouveau téléphone, points,
cartes prépayées, data, etc..
◼ Problème: Taux de renouvellement (à la fin du contrat) est de 25%

◼ Donner un nouveau téléphone à toute personne ayant expirer son


contrat coûte cher.

◼ Faire revenir un client après avoir quitter est difficile et coûteux.

22/05/2023 22/05/2023

23 24

6
23/05/2023

+ Détection de fraudes + Assurance: Exemple


◼ Applications ◼ Vous êtes un agent d’assurance et vous devez définir un paiement
◼ Service de crédit, santé, télécommunications adapté à un jeune de 18 ans qui a acheté une Ferrari.
◼ Approche ◼ Qu’est ce qu’il faut faire?
◼ Utiliser les données d’historique pour construire des modèles pour les
comportements frauduleux puis rechercher par data mining des instances ◼ Analyser les données de tous les clients de la compagnie.
similaires
◼ La probabilité d’avoir un accident est basée sur…?
◼ Exemples ◼ Sexe du client et âge
◼ Assurances : détecter les groupes de personnes qui déclarent des
accidents/vols pour les indemnités ◼ Modèle de la voiture, âge, adresse….
◼ Blanchiment d’argent : détecter les transactions suspectes (US Treasury’s
Financial Crimes Enforcement Network) ◼ Si la probabilité d’avoir un accident est supérieure à la moyenne,
◼ Assurance maladie : détecter les patients professionnels et les médecins initialiser la mensualité suivant les risques.
associés

22/05/2023 22/05/2023

25 26

+ Banque: Exemple + Autres Applications


◼ Vous êtes a l’étranger et quelqu’un a volé votre care de crédit ou ◼ Astrophysique :
votre mobile… ◼ le laboratoire JPL a découvert 22 quasars en utilisant les
techniques du data mining
◼ Compagnies bancaires:
◼ Utiliser les données historiques pour construire un model de ◼ Organisation de sites web :
comportement frauduleux et utiliser le datamining pour identifier des
instances similaires ◼ algorithmes de data mining appliquées aux journaux d’accès aux
pages commerciales afin d’identifier les préférences et les
◼ Compagnies téléphoniques: comportements des clients, et analyser les performances du web
◼ Analyser les patterns qui dérivent du comportement attendu (destinataire, marketing
durée, localisation…)

22/05/2023 22/05/2023

27 28

7
23/05/2023

+ Evolution + Datamining Vs Statistiques?


◼ 1960 : systèmes de gestion de fichiers, collecte de données, ▪ Le datamining englobe la statistique et l’analyse des
première BD (modèle réseau) données traditionnelle, il en diffère par :
◼ 1970 : émergence du modèle relationnel et de son implémentation
(RDBMS) ✓ Certaines techniques de DM n’appartiennent qu’à lui (réseaux de
neurones, arbres de décision, etc.)
◼ 1980 : SGBD relationnels, modèles avancées (relationnel étendu, OO, ✓ Le nombre d’individus étudiés est souvent plus important en DM,
déductif, etc) et orientés application (spatial) où l’optimisation des algorithmes est importante
✓ Le DM fait moins d’hypothèses contraignantes sur les lois
◼ 1990: datamining et entrepôts de données, multimédia, web statistiques suivies
✓ DM recherche parfois plus la compréhensibilité des modèles que
◼ 1997: Big Data leur précision

22/05/2023 22/05/2023

29 30

Data Mining Statistics


+Explore and gather data first, builds model to
detect patterns and make theories.
It provides theories to test using statistical. + Datamining Vs Statistiques?
Data used is Numeric or Non numeric. Data used is Numeric.
Inductive Process (Generation of new theory Deductive Process (Does not involve making ▪ Data mining and statistics is an integral part.
from data) any predictions)
Data collection is less important. Data collection is more important.
▪ Data mining will always use statistical thinking to draw output hence,
Data Cleaning is done in data mining. Clean data is used to apply statistical method. both Data Mining and Statistics will grow inevitably in the near
Needs less user interaction to validate model Needs user interaction to validate model future.
hence, easy to automate. hence, difficult to automate.
Suitable for large data sets Suitable for smaller data sets
It’s an algorithm which learns from data without Formalization of relationship in data in the form
▪ Users/organizations need to use data mining thinking and
using any programming rule. of mathematical equation approaches.
Use heuristics think (rules used to form
Does not have scope for heuristic think.
judgments and make decisions)
Classification, Clustering, Neural network,
Association, Estimation, Sequence based Descriptive Statistical, Inferential Statistical
analysis, Visualization
Financial Data Analysis, Retail Industry,
Demography, Actuarial Science, Operation
Telecommunication Industry, Biological Data
research, Biostatistics, Quality Control etc.
22/05/2023 22/05/2023
Analysis, Certain Scientific Applications etc.

31 32

8
23/05/2023

+ Knowledge Data Discovery + Etapes de KDD


Datamining est dans le cœur de Knowledge data discovery (le ◼ Connaître le domaine d’application
processus de découverte de connaissances) ◼ Connaissance pertinente déjà établie et buts de l’application

◼ Sélection des données cibles

◼ Data cleaning, pré traitement

◼ Réduction de données et transformation

◼ Choix des fonctions du data mining


◼ Synthèse, résumé, classification, régression, association, clustering.

22/05/2023 22/05/2023

33 34

+ Etapes de KDD + Architecture d'un system de type de


◼ Choix des algorithmes de fouille datamining
◼ Data mining:
◼ Recherche des modèles intéressants

◼ Evaluation des pattern et présentation de la connaissance


◼ Visualisation, transformation, etc.

◼ Utilisation de la connaissance

22/05/2023 22/05/2023

35 36

9
23/05/2023

+ Quel type de données? + Quel type de données?


◼ Bases de données relationnelles

◼ Data warehouses / entrepôts de données

◼ Réservoir de données
◼ Orientées Objet
◼ Bases de données spatiales
◼ Données chronologiques et données temporelles
◼ Bases textuelles et multimédia
◼ WWW • April, 10 2019
• Messier 87 (M87), a galaxy located more than 53 million light-years from Earth.
• It has a mass 6.5 billion times that of the sun.
• Astrophysical Journal Letters.

22/05/2023 22/05/2023

37 38

+ Quel type de données? + Quel type de données?


◼ Données continues : dont les valeurs forment un sous-ensemble de IR
(exemple : salaire, age,etc.)

◼ Données discrètes : dont les valeurs forment un sous-ensemble de IN


(exemple : nombre d’enfants, nombre d’étudiants, etc.)
◼ March 24, 2021 ◼ Données énumératives (ou qualitatives) dont l’ensemble des valeurs est
fini.
◼ The Event Horizon Telescope ◼ données binaires (sexe, ...), données énumératives (couleur, ...), énumératives
ordonnées (réponses 1:très satisfait, 2:satisfait, ...)
◼ The Astrophysical Journal.
◼ Date

◼ Données textuelles ➔ Text mining

◼ Pages/liens web, Multimédia, .. ➔ Web mining

22/05/2023 22/05/2023

39 40

10
23/05/2023

+ Intérêt des modèles (patterns) découverts + Communautés impliquées


◼ Un système de data mining génère des milliers de patterns, tous ne sont
pas intéressants.

◼ Intérêt
◼ Un pattern est intéressant si il est:
◼ facilement compris par les humains,
◼ valide sur données nouvelles ou testées avec un certain degré de certitude,
◼ potentiellement utile,
◼ nouveau, ou validant certaines hypothèses que l’on cherche à confirmer.

◼ Objectif vs. Subjectif:


◼ Objectif: basé sur des statistiques et des structures de patterns
◼ Subjectif: basé sur des croyances des utilisateurs

22/05/2023 22/05/2023

41 42

+ Techniques des tâches descriptives + Techniques des Tâches Prédictives


◼ Visent à mettre en évidence des informations présentes mais ◼ Visent à extrapoler de nouvelles informations à partir des
cachées par le volume des données (c’est le cas des segmentations informations présentes (induction):
de clientèle et des recherches d’associations de produits sur les ◼ expliquent les données
tickets de caisse) ◼ il y a une (des) variable(s) « cible(s) » à prédire.
◼ réduisent, résument, synthétisent les données
◼ il n’y a pas de variable « cible » à prédire. ◼ Classification/Classement : prédire la classe d’une instance
donnée: classes prédéfinies (K-NN, Régression logistique, Arbres de
◼ Clustering: groupes d’instances ayant des caractéristiques décision, Réseaux de neurones, etc.)
similaires : classes non prédéfinies (k-means, APCIII, hiérarchique,
réseaux de Kohonen…) ◼ Prédiction : prédire des variables continues (Régression linéaire
simple et multiple, arbres de régression, réseaux de neurones,
◼ Recherche d’association (règles d’association, Apriori,..) algorithmes génétiques, Etc.)

22/05/2023 22/05/2023

43 44

11
23/05/2023

+ Bilan + Logiciels Datamining


◼ Data mining : découverte de motifs intéressants à partir de grandes ◼ Il existe de nombreux logiciels de statistique et datamining sur PC :
quantités de données. ◼ Faciles à installer et pas très chers
◼ Evolution naturelle de la technologie des BD, avec de larges applications. ◼ Avec des algorithmes de bonne qualité
◼ Généralement conviviaux
◼ KDD (knowledge data discovery) est un processus : ◼ Bons pour des PME car pouvant gérer plusieurs dizaines de milliers d’individus
◼ Pré-traitement (Pre-processing) ◼ S-PLUS™ de Insight, Alice™ de Isoft, Predict™ de Neuralware, R (version
◼ Data mining gratuite de S-PLUS) et les freewares Weka et TANAGRA…
◼ Post-traitement (Post-processing)
◼ Cependant :
◼ L’extraction de connaissances peut être réalisée dans divers types ◼ Ils ne permettent pas de traiter exhaustivement de très grandes bases de
d’entrepôts de données données
◼ Les principales fonctionnalités du data mining : association, clustering, ◼ Ils ne mettent souvent en œuvre qu’une ou deux techniques (sauf quelques
classification et prédiction. produits tels S-PLUS, R, Tanagra et Weka)

22/05/2023 22/05/2023

45 46

+ Logiciels Datamining + Logiciels Datamining: Choix


◼ Certains logiciels sont conçus : ◼ Variété des algorithmes de datamining, de statistique et de préparation
◼ pour exploiter de grands volumes de données des données
◼ pour couvrir une large palette de techniques
◼ Qualité des algorithmes implémentés
◼ Ils existent parfois en version « statistique » ou « datamining » (le 2nd étant ◼ documentation éditeur pas toujours accessible
parfois une sur-couche du 1er)
◼ Capacité à traiter de grands volumes de données
◼ Ils peuvent fonctionner en mode client-serveur ◼ peut être cruciale à partir de plusieurs centaines de milliers d’individus à
◼ SPSS™ et Clementine™ de SPSS (Modeler) traiter
◼ SAS/STAT™ et Enterprise Miner™ de SAS
◼ Existence d’un langage de programmation évolué
◼ Statistica Data Miner™ de StatSoft
◼ S-PLUS™ et Insightful Miner™ de Insightful ◼ Convivialité du logiciel et facilité à produire des rapports
◼ IBM-Intelligent Miner de IBM
◼ KNIME ◼ Prix !

22/05/2023 22/05/2023

47 48

12
23/05/2023

+ Fonctionnalités d’un logiciel DM + Fonctionnalités d’un logiciel DM


◼ Algorithmes de statistique et de datamining : ◼ Fonctions de préparation des données
◼ Classification (analyse discriminante linéaire, régression logistique ◼ Manipulation de fichiers (fusion, agrégation, ..)
binaire ou polytomique, modèle linéaire généralisé, régression logistique ◼ Visualisation des individus, coloriage selon critère
PLS, arbres de décision, réseaux de neurones, k-plus proches voisins...)
◼ Détection et filtrage des extrêmes
◼ Prédiction (régression linéaire, modèle linéaire général, régression
◼ Analyse et imputation des valeurs manquantes
robuste, régression non-linéaire, régression PLS, arbres de décision,
réseaux de neurones, k plus proches voisins…) ◼ Transformation de variables (normalisation automatique, discrétisation…)
◼ Clustering (centres mobiles, nuées dynamiques, k-means, classification ◼ Création de nouvelles variables (fonctions logiques, statistiques,
hiérarchique, méthode mixte, réseaux de Kohonen…) mathématiques…)
◼ Détection des associations (règles d’association) ◼ Sélection des variables les plus explicatives
◼ Etc.

22/05/2023 22/05/2023

49 50

+ Fonctionnalités d’un logiciel DM + Fonctionnalités d’un logiciel DM


◼ Fonctions statistiques ◼ Présentation des résultats
◼ détermination des caractéristiques de tendance centrale, de dispersion, de
forme… ◼ visualisation des résultats
◼ tests statistiques de moyenne, de variance, de distribution, d’indépendance, de ◼ manipulation des tableaux
multicolinéarité, etc.
◼ bibliothèque de graphiques (2D, 3D, ..)
◼ Fonctions d'échantillonnage et de partition des données ◼ navigation dans les arbres de décision
◼ pour créer des échantillons d'apprentissage, de test et de validation ◼ affichage des courbes de performances (ROC, lift, gain…)
◼ bootstrap, jackknife, etc.
◼ facilité d’incorporation de ces éléments dans un rapport
◼ Fonctions d'analyse exploratoire des données et d'analyse factorielle
◼ ACP, ACP avec rotation, AFC, ACM ◼ Gestion des métadonnées
◼ variables définies identiquement pour tous les fichiers du projet
◼ Langage avancé de programmation
◼ macros

22/05/2023 22/05/2023

51 52

13
23/05/2023

+ Fonctionnalités d’un logiciel DM + DataMining challenges


◼ Plates-formes supportées (Windows, Unix, Sun, IBM MVS…) ◼ Liés à la diversité des données:
◼ Formats d’entrée/sortie des données gérés : ◼ Données relationnelles et types complexes
◼ Tables Oracle, Sybase, DB2, SAS, fichiers Excel, à plat... ◼ BD hétérogènes et système global d’information (www)…
◼ Enchaînements programmés de plusieurs algorithmes
◼ Liés à la qualité des données:
◼ Volume de données pouvant être raisonnablement traité ◼ Manque de données dans certains domaines
◼ Pour plus de puissance ◼ Présence de points extrêmes (outliers)
◼ architecture client-serveur : calculs sur le serveur et visualisation des résultats sur le ◼ Incohérence…
client
◼ algorithmes parallélisés
◼ Liés au volume des BD:
◼ Exécution en mode interactif ou différé ◼ Bases de données très larges (Big Data)
◼ Portabilité des modèles construits (C, XML, Java, SQL...) ◼ Nombre d’attributs très élevé…

22/05/2023 22/05/2023

53 54

+ DataMining challenges
◼ Liés à la connaissance:
◼ Overfitting
◼ Intégration des connaissances découvertes avec celles existantes
problème de fusion des connaissances
◼ Performance des modèles: temps d'exécution et précision. Classification
+
◼ Liés au résultat:
◼ Visualisation Classement
◼ Interprétation des résultats

22/05/2023
22/05/2023

55 56

14
23/05/2023

+ Généralités + Notion de Class


◼ La classification consiste à examiner les caractéristiques d'un objet ◼ Groupes d’instances avec des profils particuliers
et lui attribuer une classe, la classe est un champ particulier à
valeurs discrètes. ◼ Apprentissage supervisé: classes connues à l’avance

◼ Des exemples de tâche de classification sont : ◼ Applications : marketing direct (profils des consommateurs),
◼ attribuer ou non un prêt à un client, médecine (malades/non malades), etc.
◼ établir un diagnostic, ◼ Généralement la dernière colonne de la base de données.
◼ accepter ou refuser un retrait dans un distributeur,
◼ attribuer un sujet principal à un article de presse, ... ◼ Exemple : les acheteurs de voitures de sport sont de jeunes ayant
un revenu important

22/05/2023 22/05/2023

57 58

+ Classification: Exemple + Techniques de Classification


Name Gender Heigh class ◼ Techniques brutes (Lazy techniques):
Kristina F 1.6m Short
Jim M 2m Tall ◼ ne comprennent qu’une seule étape (éventuellement réitérée), au cours
Maggie F 1.9m Meduim de laquelle chaque individu est directement classé (ou objet d’une
Martha F 1.88 Meduim ❑ Combien de Class? prédiction) par référence aux autres individus déjà classés
Stephanie F 1.7m Short ◼ il n’y a pas élaboration d’un modèle
Bob M 1.85m Meduim
Khaty F 1.6m Short ◼ Techniques inductives :
Dave M 1.7m Short
◼ une phase d’apprentissage (phase inductive) pour élaborer un modèle,
Worth M 2.2m Tall ❑ John est M et 1,75m qui résume les relations entre les variables et qui peut ensuite être
Steven M 2.1m Tall ➔ classe(john)=?? appliquée à de nouvelles données pour en déduire un classement ou une
Debbie F 1.8m Meduim
prédiction (phase déductive)
Todd M 1.95m Meduim
Kim F 1.9m Meduim
Amy F 1.8m Meduim
Wynette F 1.75m Meduim
22/05/2023 22/05/2023

59 60

15
23/05/2023

+ Techniques brutes: basé sur la similarité + Similarité et Distance


◼ Soient N individus décrits par M attributs. ◼ Il n’y a pas de définition unique de la similarité entre
◼ Les classes prédéfinies sont C1, C2, …,Cn objets
◼ Différentes mesures de distances d(x,y)
◼ Soit un nouveau individu : I
◼ Affecter I à la classe dont similarité(I, Ci) > similarité(I, Cj) avec Ci ≠ Cj

◼ Algorithme
◼ C1,..Cn : classes prédéfinies ◼ La similarité entre objets dépend de :
◼ I : nouveau individu ◼ type des données considérées
◼ Dist=-∞ ◼ type de similarité recherchée
◼ For j=1 to n
◼ if (sim(I,Cj)>Dist) then {c=j; Dist=sim(I,Cj)}
◼ Afficher (c)

22/05/2023 22/05/2023

61 62

+ Choix de distance + Distance : Données numériques


◼ Propriétés d’une distance: ◼ Soient: 𝑥 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) 𝑒𝑡 𝑦 = (𝑦1, 𝑦2, … , 𝑦𝑛 )
1. 𝑑 𝑥, 𝑦 > 0 positive
◼ Exemple de distances:
2. 𝑑 𝑥, 𝑦 = 0 𝑠𝑠𝑖 𝑥 = 𝑦 séparation 𝑛
3. 𝑑 𝑥, 𝑦 = 𝑑 𝑦, 𝑥 symétrie ◼ Distance euclidienne: 𝑑 𝑥, 𝑦 = ෌𝑖=1(𝑥𝑙ሶ − 𝑦𝑖)²

4. 𝑑 𝑥, 𝑧 ≤ 𝑑 𝑥, 𝑦 + 𝑑 𝑦, 𝑧 inégalité triangulaire ◼ Distance de Manhanttan: 𝑑 𝑥, 𝑦 = |𝑥𝑙ሶ − 𝑦𝑖 |


𝑞 𝑛
◼ Définir une distance sur chacun des champs. ◼ Distance de Minkowski: 𝑑(𝑥, 𝑦) = ෌𝑖=1 |𝑥𝑙ሶ − 𝑦𝑖 |𝑞

|𝑥−𝑦|
◼ Normalisation: 𝑑 𝑥, 𝑦 =
𝑑𝑚𝑎𝑥

22/05/2023 22/05/2023

63 64

16
23/05/2023

+ Distance : Données énumératives + Distance : Données énumératives


◼ Données binaires: 𝑑 0,0 = 𝑑 1,1 = 0 ; 𝑑 1,0 = 𝑑 1,0 = 1
◼ Exemple:
◼ Donnée énumératives: distance nulle si les valeurs sont égales et 1 ◼ Si un champ prend les valeurs A, B, C, D et E,
sinon. ◼ on peut définir la distance en considérant 5 points de l'intervalle [0,1]
avec une distance de 0,2 entre deux points successifs,
◼ Donnée énumératives ordonnées: ◼ on a alors d(A,B)=0,2 ; d(A,C)=0,4 ; ... ; d(E,E)=0.
◼ idem.
◼ On peut définir une distance utilisant la relation d’ordre.
𝑝−𝑚
◼ 𝑑 𝑖, 𝑗 =
𝑝
◼ m : nombre de correspondances
◼ p: nombre total de variables

22/05/2023 22/05/2023

65 66

+ Exemple + Exemple
◼ Exemple: ◼ d(x,y)=sqrt( (10/15)²+ 1²+ (1200/3000)²) = 1.27
◼ (Age, Propriétaire résidence principale, revenue)
◼ d(x,z)= sqrt( (15/15)²+ 0²+ (3000/3000)²) = 1.41
◼ X=(30,1,1000), y=(40,0,2200), z=(45,1,4000)
◼ Calculer: d(x,y); d(x,z), d(y,z)? ◼ d(y,z)= sqrt( (5/15)²+ 1²+ (1800/3000)²) = 1.21
◼ Euclidien distance and Manhattan.
◼ Qui est plus proche de x?

22/05/2023 22/05/2023

67 68

17
23/05/2023

+ KNN : K Nearest Neighbors + KNN: Algorithme


◼k plus proches voisins ◼ Paramètre : le nombre k de voisins
◼ Apprendre par analogie ◼ Donnée : un échantillon de m exemples et leurs classes
◼ Recherchant d’un ou des cas similaires déjà résolus ◼ La classe d’un exemple X est c(X)
◼ Classifier ou estimer ◼ Entrée : un enregistrement Y
◼ “Dis moi qui sont tes amis, et je te dirais qui tu es” 1. Déterminer les k plus proches exemples de Y en calculant
les distances
◼ Pas de construction de modèle 2. Combiner les classes de ces k exemples en une classe c
◼ C'est l'échantillon d'apprentissage, associé à une fonction de
distance et d'une fonction de choix de la classe en fonction des ◼ Sortie : la classe de Y est c(Y)=c
classes des voisins les plus proches, qui constitue la
technique/méthode.

22/05/2023 22/05/2023

69 70

+ KNN: Choix de la classe + KNN: Exemple


K=3
◼ Solution simple: rechercher le cas le plus proche et prendre la
même décision (Méthode 1-NN).

◼ Combinaison des k classes:


◼ Vote majoritaire : prendre la classe majoritaire.
◼ Vote majoritaire pondéré : chaque classe est pondérée. Le poids de c(xi)
est inversement proportionnel à la distance d(y,xi).

◼ Confiance: Définir une confiance dans la classe attribuée = rapport


entre les votes gagnants et le total des votes. Calculs d’erreur

22/05/2023 22/05/2023

71 72

18
23/05/2023

+ KNN: Exemple + KNN: Exemple


◼ Calculer la distance entre David est les autres personnes?
Est-ce que David est loyal?
◼ Ordonner les distances.

◼ Choisir les trois plus similaires.

◼ Classe majoritaire

◼ Alors, David est loyal?

22/05/2023 22/05/2023

73 74

+ KNN: Mise en oeuvre de la méthode + KNN: Discussion


◼ Interprétations: Laclasse attribuée à un exemple peut être
◼ Choisir les attributs pertinents pour la tâche de
classification considérée expliquée en exhibant les plus proches voisins qui ont
amené à ce choix
◼ Choix
de la distance par champ et du mode de
◼ La méthode peut s'appliquer dès qu'il est possible de
combinaison des distances en fonction du type des
champs et des connaissances préalables du problème définir une distance sur les champs
◼ La méthode permet de traiter des problèmes avec un
◼ Choixdu nombre k de voisins déterminé par utilisation
d'un ensemble test ou par validation croisée grand nombre d'attributs.
◼ Mais, plus le nombre d'attributs est important, plus le nombre
◼ Une heuristique fréquemment utilisée est de prendre k égal au
d'exemples doit être grand.
nombre d'attributs plus 1

22/05/2023 22/05/2023

75 76

19
23/05/2023

+ KNN: Discussion + KNN: Critiques


◼ Tous les calculs doivent être effectués lors de la classification (pas
de construction de modèle) ◼ Complexité : O(n) n:nombre d’individus

◼ KNN manipule l’ensemble des individus déjà classés, pour tout


◼ Le modèle est l'échantillon nouveau classement. Ce qui nécessite donc une grande puissance
◼ Espace mémoire important nécessaire pour stocker les données, et méthodes de stockage et de calcul
d'accès rapides nécessaires pour accélérer les calculs
◼ Choix du k
◼ Les performances de la méthode dépendent du choix de la
distance, du nombre de voisins et du mode de combinaison des ◼ Choix de la mesure de similarité : distance
réponses des voisins.
◼ En règle générale, les distances simples fonctionnent bien. ◼ Combinaison de classes

◼ Il n’y a pas d’élaboration d’un modèle ➔ pas d’apprentissage

22/05/2023 22/05/2023

77 78

+ Techniques basées sur les modèles + Construction et Utilisation du modèle


◼ Etape 1: ◼ Chaque instance est supposée appartenir à une classe prédéfinie
◼ Construction du modèle à partir de l’ensemble d’apprentissage
◼ La classe d’une instance est déterminée par l’attribut ”classe”
(training set)
◼ L’ensemble des instances d’apprentissage est utilisé dans la
◼ Etape 2: construction du modèle
◼ Utilisation du modèle : tester la précision du modèle et l’utiliser
dans la classification de nouvelles données ◼ Le modèle est représenté par des règles de classification, arbres de
décision, formules mathématiques, ...

◼ Classification de nouvelles instances ou instances inconnues:


◼ Vérification du modèle sur les instances d’apprentissage.
◼ Validation du modèle sur des instances non utilises dans l’apprentissage

22/05/2023 22/05/2023

79 80

20
23/05/2023

+ Validation du modèle: Accuracy + Validation du modèle: Accuracy


◼ Estimer le taux d’erreur du modèle: ◼ Taux d’erreur: matrice de confusion.
◼ la classe connue d’une instance test est comparée avec le résultat du
modèle ◼ Cas de deux classes A et B
◼ Taux d’erreur = pourcentage de tests incorrectement classés par le
modèle ◼ Taux d’erreur: (U + V)/(X+U+V+Y)

◼ Partitionnement: apprentissage et test (ensemble de données


important)
◼ Utiliser 2 ensembles indépendants, e.g., ensemble d’apprentissage (2/3), Classes A B
ensemble test (1/3) A X U
◼ Validation croisée B V Y

◼ Bootstrapping

22/05/2023 22/05/2023

81 82

+ Accuracy: Exemple + Accuracy: Exemple

22/05/2023 22/05/2023

83 84

21
23/05/2023

+ Critères de validation + Arbres de décision


◼ Taux d’erreur (Accuracy) ◼ Decision Trees are the most frequent used supervised ML
techniques, for both classification and regression problems.
◼ Temps d’exécution (construction, utilisation) ◼ Morgan and Sonquist developed the first decision tree called
Automatic Interaction Detection (AID) in 1963 and it was
◼ Robustesse (bruit, données manquantes,...) designed to solve a regression problem.

◼ Interprétabilité ◼ In 1972, Messenger and Mandell proposed the THAID algorithm


which was the first classification tree.
◼ Simplicité
◼ Afterward, different models were proposed and evaluated such as
ID3, Classification and Regression Trees (CART), CHi-squared
Automatic Interaction Detector (CHAID), C4.5, M5Prime (M5P)
and REPTree.

22/05/2023 22/05/2023

86 87

+ Arbres de décision + Arbres de décision


◼ A decision tree uses a tree-like model for solving the problem. ◼ Détection de fraudes fiscales:

◼ Arbre Représentation graphique d’une procédure de classification

◼ Génération d’arbres de décision à partir des données.

◼ Un arbre de décision est un arbre:


◼ Noeud interne est un attribut
◼ Branche d’un nœud est un test sur un attribut
◼ Feuille est une classe donnée

22/05/2023 22/05/2023

88 89

22
23/05/2023

+ Arbres de décision + Arbres de décision

22/05/2023 22/05/2023

90 91

+ Arbres de décision + Arbres de décision


Données d’apprentissage

Outlook

Sunny Overcast Rain

Humidity Yes Wind

High Normal Strong Weak

No Yes No Yes
22/05/2023 22/05/2023

92 93

23
23/05/2023

+ Arbres de décision + Arbres de décision


Risque - Assurances
Outlook Age < 27.5
Tid Age Car Type Class
0 23 Family High
Sunny Overcast Rain 1 17 Sports High CarType ∈ {Sports}
2 43 Sports High
High
3 68 Family Low
Humidity Chaque noeud interne teste un attribut
4 32 Truck Low
5 20 Family High
High Normal Chaque branche correspond à une valeur de l’attribut High Low

Age=40, CarType=Family ➔ Class=Low


No Yes Chaque feuille représente une classe Numérique Enumératif

22/05/2023 22/05/2023

94 95

+ Arbres de décision: From Tree to Rules + Arbres de décision: From Tree to Rules
◼ Une règle est générée pour chaque chemin de l’arbre (de la racine
à une feuille).
Age < 27.5
◼ Les règles sont un ensemble de Si-Alors.
1) Age < 27.5 ➔High
◼ Les paires attribut-valeur d’un chemin forment une conjonction.
CarType ∈ {Sports}
2) Age >= 27.5 and
CarType = Sports ➔ High ◼ Le nœud terminal représente la classe prédite.
High
3) Age >= 27.5 and
◼ Les règles sont généralement plus faciles à comprendre que les
CarType ∉ Sports ➔ low
arbres.

High Low ◼ Arbre de décision est un système de règles exhaustives et


mutuellement exclusives.

22/05/2023 22/05/2023

96 97

24
23/05/2023

+ Arbres de décision: Exemple + Arbres de décision


Name Gender Heigh Output
Kristina F 1.6m Short ◼ Deux phases dans la génération de l’arbre :
Jim M 2m Tall
Maggie F 1.9m Meduim ◼ Construction de l’arbre
Martha F 1.88 Meduim
Gender
Stephanie F 1.7m Short
Bob M 1.85m Meduim =F =M
◼ Arbre peut atteindre une taille élevée
Khaty F 1.6m Short
Dave M 1.7m Short Height Height ◼ Élaguer l’arbre (Pruning)
Worth M 2.2m Tall >1.8m <1.5m >2m
<1.3m
Steven M 2.1m Tall
Debbie F 1.8m Meduim ◼ Identifier et supprimer les branches qui représentent du “bruit”
Short Medium Tall Short Medium Tall
Todd M 1.95m Meduim
Kim F 1.9m Meduim ◼ Réduire le taux d’erreur
Amy F 1.8m Meduim
Wynette F 1.75m Meduim
What are the rules?

22/05/2023 22/05/2023

98 99

+ Construction de l’arbre + Construction de l’arbre


◼ Au départ, toutes les instances d’apprentissage sont à la racine de ◼ Traiter chaque nœud fils de façon récursive
l’arbre.
◼ Répéter jusqu’à ce que tous les nœuds soient des terminaux. Un
◼ Sélectionner un attribut et choisir un test de séparation (split) sur nœud courant est terminal si :
l’attribut, qui sépare le “mieux” les instances. ◼ Il n’y a plus d’attributs disponibles
◼ La sélection des attributs est basée sur une heuristique ou une mesure ◼ Le nœud est “pur”, i.e. toutes les instances appartiennent à une seule
statistique. classe,
◼ Le nœud est “presque pur”, i.e. la majorité des instances appartiennent à
◼ Partitionner les instances entre les nœuds fils suivant la satisfaction une seule classe (Ex : 95%)
des tests logiques
◼ Nombre minimun d’instances par branche (Ex : algorithme C5 évite la
croissance de l’arbre, k=2 par défaut)

◼ Etiqueter le nœud terminal par la classe majoritaire.

22/05/2023 22/05/2023

100 101

25
23/05/2023

+ Elaguer l’Arbre (Pruning) + Overfitting


◼ Supprimer les sous-arbres qui n’améliorent pas l’erreur de la ◼ L’arbre généré peut sur- spécialiser l’ensemble d’apprentissage
classification (accuracy) ➔ arbre ayant un meilleur pouvoir de ◼ Plusieurs branches
généralisation, même si on augmente l’erreur sur l’ensemble ◼ Taux d’erreur important pour les instances inconnues
d’apprentissage
◼ Raisons de la sur-spécialisation
◼ Eviter le problème de sur-spécialisation (overfitting), i.e., on a
◼ bruits et exceptions
appris “par cœur” l’ensemble d’apprentissage, mais on n’est pas
◼ Peu de donnée d’apprentissage
capable de généraliser.

22/05/2023 22/05/2023

102 103

+ Avoid the overfitting + Mesures de sélection d’attributs

◼ Deux approches :
◼ Gain d’information: ID3, C4.5
◼ Pré-élagage :
◼ Arrêter de façon prématurée la construction de l’arbre ◼ Indice Gini: CART
◼ Post-élagage :
◼ Supprimer des branches de l’arbre complet ◼ Table de contingence statistique Chi2: CHAID
◼ Convertir l’arbre en règles; élaguer les règles de façon indépendante ◼ G-statistic
(C4.5)

22/05/2023 22/05/2023

104 105

26
23/05/2023

+ ID3 + Gain d’information


◼ Sélectionner l’attribut qui sépare le mieux un ensemble d’individus
◼ Satnds for: Iterative Dichotomiser 3
classés
◼ Développé en 1986 par Quinlan.
◼ C’est celui dont les valeurs divisent l’ensemble des individus à des
◼ ID3 utilise le concept de l’entropie pour calculer la quantité sous-ensembles « purs » formés chacun par des individus
d’information d’un événement à l’aide de sa probabilité homogènes (ayant la même classe)
d’occurrence.
◼ Plus grand gain d’information
plog(1/p)
◼ Si p tend vers 1 alors l’évènement est très probable, donc peu
d’information si l’événement se réalise.
◼ Si p tend vers 0 alors l’évènement est peu probable, donc beaucoup
d’information si l’événement se réalise.

22/05/2023 22/05/2023

106 107

+ Gain d’information + Gain d’information


◼ Soient les ensembles {𝑆1 , 𝑆2 , … , 𝑆𝑣 } formant une partition de l’ensemble S, en
utilisant l’attribut A
◼ Sélectionner l’attribut avec le plus grand gain d’information
◼ Toute partition 𝑆𝑖 contient 𝑝𝑖 instances de 𝑃 et 𝑛𝑖 instances de 𝑁
◼ Soient P et N deux classes et S un ensemble d’instances avec p ◼ L’entropie, ou l’information nécessaire pour classifier les instances dans les sous-
éléments de P et n éléments de N arbres 𝑆𝑖 est :
𝑣
𝑝𝑖 + 𝑛𝑖
𝐸 𝐴 = ෍ 𝐼(𝑝𝑖 , 𝑛𝑖 )
◼ L’information nécessaire pour déterminer si une instance prise au 𝑝+𝑛
𝑖=1
hasard fait partie de P ou N est (entropie) :
◼ Le gain d’information par rapport au branchement sur A est:
𝑝 𝑝 𝑛 𝑛
𝐼 𝑝, 𝑛 = − 𝑝+𝑛 𝑙𝑜𝑔2 𝑝+𝑛 − 𝑝+𝑛 𝑙𝑜𝑔2 𝑝+𝑛
𝐺𝑎𝑖𝑛 𝐴 = 𝐼 𝑝, 𝑛 − 𝐸(𝐴)

◼ Choisir l’attribut qui maximise le gain ➔ besoin d’information minimal.

22/05/2023 22/05/2023

108 109

27
23/05/2023

+ Gain d’information: Exemple + Gain d’information: Exemple


◼ Classe P : jouer_tennis = “oui” ◼ Calculer l’entropie pour l’attribut Outlook:

◼ Classe N : jouer_tennis = “non”


Outlook pi ni I(pi, ni)
sunny 2 3 0,971
◼ Information nécessaire pour classer un exemple donné est :
overcast 4 0 0
rain 3 2 0,971
𝐼 𝑝, 𝑛 = 𝐼 9,5 = 0.94
5 4 5
𝐸 𝑜𝑢𝑡𝑙𝑜𝑜𝑘 = 𝐼 2,3 + 𝐼 4,0 + 𝐼 3,2 = 0.694
14 14 14

𝐺𝑎𝑖𝑛 𝑜𝑢𝑡𝑙𝑜𝑜𝑘 = 𝐼 9,5 − 𝐸 𝑜𝑢𝑡𝑙𝑜𝑜𝑘 = 0.246

22/05/2023 22/05/2023

110 111

+ ID3: Exemple + Arbres de décision: Avantages


◼ Build the ID3 tree for this sample ◼ Compréhensible pour tout utilisateur (lisibilité du résultat – règles -
arbre)

◼ Justification de la classification d’une instance (racine => feuille)

◼ Tout type de données

◼ Robuste au bruit et aux valeurs manquantes

◼ Attributs apparaissent dans l’ordre de pertinence ➔ tâche de pré-


traitement (sélection d’attributs)

◼ Classification rapide (parcours d’un chemin dans un arbre)

◼ Outils disponibles dans la plupart des environnements de data mining

22/05/2023 22/05/2023

112 113

28
23/05/2023

+ Arbres de décision: Inconvénients

◼ Sensibles au nombre de classes : performances se dégradent.

Evolutivité dans le temps : si les données évoluent dans le temps, il


Prediction

est nécessaire de relancer la phase d’apprentissage
+
Prédiction

22/05/2023
22/05/2023

114 115

+ Prédiction? + Régression linéaire


◼ La variable à expliquer s’écrit comme combinaison linéaire de
◼ La prédiction consiste à estimer la valeur d’une variable continue variables explicatives:
(dite à expliquer, cible, réponse, dépendante ou endogène) en
fonction de la valeur d’un certain nombre d’autres variables
(dites explicatives, de contrôle, indépendantes ou exogènes).
◼ Détermination des paramètres 𝑎𝑖 est accomplie en utilisant les
◼ Cette variable cible est par exemple: techniques de régression linéaire simple ou multiple
◼ Le poids (en fonction de la taille)
◼ Modèles linéaires simples:
◼ La taille des ailes d’une espèce d’oiseau (en fonction de l’âge)
◼ Le prix d’un appartement (en fonction de sa superficie, de l’étage et du
quartier)
◼ La consommation d’électricité (en fonction de la température extérieure ◼ Détermination de A et B par la descente de la gradient:
et de l’épaisseur de l’isolation)

22/05/2023 22/05/2023

116 117

29
23/05/2023

+ Régression linéaire + Régression linéaire


◼ Tests de la qualité de l’ajustement d’un modèle linéaire
◼ Coefficient de détermination 𝑹𝟐
◼ le carré du coefficient de corrélation linéaire r que dans le cas
◼ Tests de la qualité de l’ajustement d’un modèle linéaire
particulier de la régression linéaire. ◼ Coefficient de détermination 𝑹𝟐
◼ Le carré du coefficient de corrélation linéaire entre 𝑌𝑖 𝑒𝑡 𝑌𝑖∗ ◼ le carré du coefficient de corrélation linéaire r

◼ Le carré du coefficient de corrélation linéaire entre 𝑌𝑖 𝑒𝑡 𝑌𝑖

◼ Entre 0 et 1.
◼ Une valeur proche de 1 implique que l’ajustement est meilleure ◼ Entre 0 et 1.
◼ Une valeur proche de 1 implique que l’ajustement est meilleure

22/05/2023 22/05/2023

118 119

+ Régression linéaire + Régression linéaire

◼ Tests de la qualité de l’ajustement d’un modèle linéaire ◼ Distribution des résidus 𝒆𝒊 indépendamment des deux variables y et
◼ Coefficient de détermination 𝑹𝟐 x et selon une loi gaussienne centrée et réduite,
◼ le carré du coefficient de corrélation linéaire r

◼ Le carré du coefficient de corrélation linéaire entre 𝑌𝑖 𝑒𝑡 𝑌𝑖

◼ Entre 0 et 1.
◼ Une valeur proche de 1 implique que l’ajustement est meilleure

22/05/2023 22/05/2023

120 121

30
23/05/2023

+ Régression linéaire + Exemple transformation non-log


◼ y → racine (y)
◼ Transformation des deux variables y et x pour linéariser la relation
y/x:
◼ Transformation logarithmique

◼ Autre transformations:
◼ X=racine(X)
◼ X=1/X
◼ X=log(X/1-X)

22/05/2023 22/05/2023

122 123

+ Modèles linéaires multiples + Modèles linéaires multiples


◼ Tests de la qualité d’ajustement
◼ Coefficient de détermination 𝑹𝟐
◼ Distribution des résidus 𝒆𝒊
• Détermination des constantes 𝒂𝒊 ◼ Mesurer la multicolinéarité entre les variables explicatives 𝒙𝒊
◼ Facteurs d’inflation de la variance
◼ Valeurs propres de la matrice de corrélation entre les 𝒙𝒊
◼ Détermination du sous ensemble des 𝒙𝒊 qui donnent des estimations
satisfaisantes de y
◼ Ajout successif (celui qui augmente le plus le 𝑹𝟐 ) ou élimination
successive (celui qui réduit le moins 𝑹𝟐)
◼ Stepwise régression : effectue des tests de signification pour ne pas
introduire une variable non significative et éliminer éventuellement des
variables déjà introduites

22/05/2023 22/05/2023

124 125

31
23/05/2023

+ Réseaux de neurones + Réseaux de neurones


◼ Les réseaux de neurones regroupent certains modèles dont ◼ McCulloch et Pitts (1943) ont proposé un modèle formel de
l’intention est d’imiter certaines des fonctions du cerveau humain en neurone, appelé le neurone de McCulloch-Pitts, qui a servi de base
reproduisant certaines de ses structures de base. pour la construction de réseaux de neurones artificiels.
◼ Historique et événements: ◼ Hebb (1949) a proposé la règle de Hebb, qui décrit comment les
◼ McCulloch et Pitts, 1943 connexions entre les neurones deviennent plus fortes à mesure que
◼ Hebb, 1949 les neurones sont activés ensemble, contribuant ainsi à la formation
◼ Rosenblatt, 1958 de souvenirs et d'associations dans le cerveau.
◼ Minsky et Papert , 1969
◼ Grossberg,Adaptative Resonance Theory,1980 ◼ Rosenblatt (1958) a inventé le perceptron, un type de réseau de
◼ Hopfield, mémoires auto-associatives,1982 neurones qui peut être utilisé pour la classification binaire.
◼ Kohonen, Self-Organized Maps, 1982
◼ Rumelhart et McClelland,Backpropagation, 1986

22/05/2023 22/05/2023

126 127

+ Réseaux de neurones + Réseaux de neurones


◼ Minsky et Papert (1969) ont publié un livre intitulé "Perceptrons", ◼ Kohonen (1982) a inventé les cartes auto-organisatrices (ou SOM),
qui a montré que les perceptrons simples étaient limités dans leur un type de réseau de neurones qui peut être utilisé pour la
capacité à résoudre certains types de problèmes, ce qui a ralenti le visualisation et la classification de données multidimensionnelles.
développement de l'IA pendant plusieurs années.
◼ Rumelhart et McClelland (1986) ont développé l'algorithme de
◼ Grossberg (1980) a proposé la théorie de la résonance adaptative rétropropagation, une technique d'apprentissage supervisé utilisée
(ART), un type de réseau de neurones qui peut apprendre à pour entraîner des réseaux de neurones à plusieurs couches pour
reconnaître des motifs en présence de bruit ou de variations dans résoudre des problèmes de classification et de régression.
les entrées.

◼ Hopfield (1982) a proposé les mémoires auto-associatives, un type


de réseau de neurones qui peut être utilisé pour stocker et
récupérer des motifs à partir de parties incomplètes ou bruyantes.

22/05/2023 22/05/2023

128 129

32
23/05/2023

+ Réseaux de neurones + Neurone?


◼ Fonction d’entrée:

◼ Nombre de neurons (humain) ~ 86 𝑀𝑖𝑙𝑙𝑖𝑎𝑟𝑑𝑠 ◼ Fonction d’activation:


◼ Fonction binaire à seuil
◼ Connexions (synapses) par neurone : ~ 104 − 105
◼ Fonction sigmoïde
◼ Le cerveau humain contient environ 100 billions de synapses ◼ Fonction gaussienne…

22/05/2023 22/05/2023

130 131

+ Topologies ANNs + Topologies ANNs


◼ Un ANN est caractérisé par trois éléments: ◼ Apprentissage
◼ Une architecture (ensemble de neurones, typologie de connexions) ◼ Supervisé: compare les sorties du réseau avec les sorties réelles et
◼ Une procédure d’apprentissage propage l’erreur afin d’ajuster les poids de connexions
◼ Des fonctions d’activation ◼ Plausible quand les valeurs réelles sont disponibles

◼ Facile à utiliser (cas du Backpropagation)


◼ Architecture ◼ Mais grand consommateur du temps de calcul
◼ ANNs feedforward: pas de boucle dans la typologie de connexions ◼ Non-supervisé: ajuster les poids dépendamment des caractéristiques, des
◼ ANNs feedback (récurrents): existence de boucles dans la typologie de régularités, des corrélations, ou des catégories découvertes dans les
connexions exemples d’apprentissage
◼ Utile dans le cas de non disponibilité des valeurs réelles

◼ Adaptés aux problèmes de clustering

◼ N’est pas facile à implanter et à contrôler sa convergence

22/05/2023 22/05/2023

132 133

33
23/05/2023

+ Topologies ANNs + Perceptron simple


◼ Modèles de réseaux de neurones ◼ Développé par Rosenblatt en 1958
◼ Perceptron simple
◼ Composé de deux couches: une couche des entrées (𝑋𝑘 ) 𝑒𝑡 une
◼ Perceptron multicouches
couche des sorties (𝑌𝑖 ).
◼ Radial Basis Functions (RBF)
◼ Kohonen
◼ Etc

22/05/2023 22/05/2023

134 135

+ Perceptron simple + Perceptron simple


◼ La fonction d’activation à seuil ◼ Il peut implanter tous les problèmes qui sont linéairement
séparables.
◼ Il peut implanter certaines fonctions logiques: cas du AND
◼ Le contre-exemple du XOR

22/05/2023 22/05/2023

136 137

34
23/05/2023

+ Perceptron multicouches + Perceptron multicouches


◼ Il est une généralisation du Percetron simple afin d’éviter la limite des
problèmes non linéairement séparables

◼ Il a une grande capacité pour traiter des problèmes complexes:


◼ Avec une seule couche, il peut représenter n’importe quelle fonction logique
◼ Avec une seule couche cachée, il peut approximer toute fonction continue

◼ Sa popularité provient du célèbre algorithme d’apprentissage:


Backpropagation

◼ Backpropagation fait de l’apprentissage supervisé

◼ Il exige que les fonctions d’activation soient dérivables, souvent on


considère la fonction sigmoide

22/05/2023 22/05/2023

138 139

+ Perceptron multicouches + Limites MLP et Backpropagation


◼ Nombre de neurones de la couche d’entrée et la couche de sortie :
◼ Entrées : correspond à la dimension des données du problème ou leur
codage ◼ Problème des minima locaux. Certains précautions pour éviter:
◼ Choisir des poids petits
◼ Attributs continues : normalisation entre 0 et 1
◼ Choisir un taux d’apprentissage petit, souvent entre 0 et 1
◼ Attributs énumératifs ou discrets : codage en binaire par exemple
◼ Changer les poids après chaque présentation et non pas après avoir passer
◼ Sorties: nombre de variables à prédire. toutes les présentations
◼ Il ne faut pas adopter la même séquence des exemples d’apprentissage
◼ Nombre de couches cachées : une en général
◼ Il n’y a aucune règle pour le choix du nombre de couches ainsi que le
◼ Nombre de neurones couche cachée : 2 à nombre de neurones nombre de neurones par couche
d’entrée
◼ L’algorithme Backpropagation est un gros consommateur du temps de
calcul
◼ Les poids sont générés au début aléatoirement

22/05/2023 22/05/2023

140 141

35
23/05/2023

+ ANNs- Avantages et limites + ANNs- Avantages et limites


◼ Avantage 1: Apprentissage ◼ Avantage 2: Parallélisme
◼ Importance de l’apprentissage dans notre intelligence ◼ Les réseaux de neurones adoptent des architectures qui permettent un
◼ L’apprentissage est adéquat pour traiter les situations dans lesquelles la traitement parallèle de l’information (Brain-like computation)
connaissance et les besoins ne sont pas définis d’une manière détaillée. ◼ Rendre le système robuste
◼ Les réseaux de neurones offrent des mécanismes d’apprentissage ◼ Traiter les problèmes complexes nécessitant une solution modulaire.
automatiques avec les solutions qu’ils proposent
◼ Perceptron simple avec la règle de Widrow-Hoff ◼ Avantage 3: Approximateurs universels:
◼ Perceptron multicouche avec le Backpropagation ◼ Ils peuvent approximer n’importe quelle fonction: Cas d’un Perceptron à
trois couches avec toutes les fonctions continues
◼ Perceptron avec apprentissage compétitif

22/05/2023 22/05/2023

142 143

+ ANNs- Avantages et limites + ANNs- Avantages et limites


◼ Limite 1: Boîte noire ◼ Limite 2: Performances de Généralisation
◼ On ne peut expliquer le processus mis en œuvre pour générer des sorties à ◼ La généralisation est la capacité d’un ANN à donner une réponse
partir des entrées satisfaisante à une entrée qui ne fait pas partie des exemples à partir
◼ Cet inconvénient se manifeste quand la sortie générée est différente de la desquels il a appris
sortie attendue ◼ Le NN doit apprendre la fonction implicite qui existe entre les exemples
◼ Certains domaines d’application nécessitent que l’approche utilisée dans la d’apprentissage et leurs sorties
modélisation soit facilement interprétable (sécurité, prise de décision)
◼ Problème d’un apprentissage très poussé (overfitting)
◼ On ne peut corriger une erreur facilement dans une modélisation par les
réseaux de neurones ◼ La qualité d’un apprentissage dépend de :
◼ Certains ANNs peuvent être considérés plus au moins facilement ◼ L’algorithme de l’apprentissage adopté
interprétables: ◼ Le nombre d’exemples utilisés dans l’apprentissage
◼ Perceptron simple linéaire ◼ Le temps alloué à l’apprentissage
◼ Réseau de Kohonen avec chapeau mexicain ◼ Du problème traité
◼ Radial Basis Function Networks
◼ Quand l’apprentissage doit s’arrêter?

22/05/2023 22/05/2023

144 145

36
23/05/2023

+ Regression: Evaluation

◼ Comment peut-on évaluer un model?

Clustering
+
Segmentation

22/05/2023
22/05/2023

146 147

+ Clustering + Clustering
◼ Méthode de partitionnement (K- moyennes) ◼ Soient N instances de données décrit par K attributs.

◼ Objectif: Trouver un partitionnement en C clusters (groupes) ayant un


◼ Méthodes hiérarchiques (Agglomération) sens (Similitude).

◼ Méthode par voisinage dense ◼ Affectation automatique de “labels” aux clusters

◼ Caractéristiques ◼ Clusters : groupes d’instances ayant des caractéristiques similaires

◼ Apprentissage non supervisé (classes inconnues) ◼ Apprentissage non supervisé (clusters inconnues)
◼ Problématique : interprétation des clusters identifiés
◼ C peut être donné, ou “découvert”

◼ Attributs
◼ Numériques (distance bien définie)
◼ Enumératifs ou mixtes (distance difficile à définir)

22/05/2023 22/05/2023

148 149

37
23/05/2023

+ Domaine d’application + Clustering: Qualité


◼ Marketing : segmentation du marché en découvrant des groupes de ◼ Une bonne méthode de clustering produira des clusters
clients distincts à partir de bases de données d’achats. d’excellente qualité avec
◼ Environnement : identification des zones terrestres similaires (en termes ◼ Similarité intra-cluster importante
d’utilisation) dans une base de données d’observation de la terre. ◼ Similarité inter-clusters faible
◼ Assurance : identification de groupes d’assurés distincts associés à un ◼ La qualité d’un clustering dépend de
nombre important de déclarations.
◼ La mesure de similarité utilisée
◼ Planification de villes : identification de groupes d’habitations suivant le ◼ L’implémentation de la mesure de similarité
type d’habitation, valeur, localisation géographique, …
◼ Technique utilisée
◼ Médecine: Localisation de tumeurs dans le cerveau
◼ Nuage de points du cerveau fournis par le neurologue
◼ La qualité d’une méthode de clustering est évaluée par son habilité
◼ Identification des points définissant une tumeur
à découvrir tous les “clusters” cachés.

22/05/2023 22/05/2023

150 151

+ Techniques de Clustering: Caractéristiques + Algorithmes des K-moyennes (K-means)


◼ Extensibilité ◼ James MacQueen en 1967

◼ Abilité à traiter différents types de données ◼ Grouper les exemples similaires dans des clusters en utilisant une
métrique distance (distance euclidienne).
◼ Découverte de clusters de différents formes
◼ Les centres des clusters se calculent par la moyenne arithmétique
◼ Connaissances requises (paramètres de l’algorithme) des exemples affectés au cluster.

◼ Le nombre C de clusters est déterminé a priori.


◼ Abilité à traiter les données bruitées et isolées.
◼ Initialement, les centres des clusters sont définis d’une façon
aléatoire.
𝑐 σ
◼ Objectif est de minimiser: 𝐽 = σ𝑖=1 𝑥∈𝐶𝑡 𝑑(𝑥, 𝑐𝑖 )

22/05/2023 22/05/2023

152 153

38
23/05/2023

+ Algorithme K-means + K-means: Illustration (1)


◼ Entrée : un échantillon de m enregistrements 𝑥1 , 𝑥2 , … , 𝑥𝑚

1. Choisir k centres initiaux 𝐶1 , 𝐶2 , … , 𝐶𝑘

2. Répartir chacun des m enregistrements dans le groupe i dont le


centre 𝐶𝑖 est le plus proche.

3. Si aucun élément ne change de groupe alors arrêt et sortir les


groupes

4. Calculer les nouveaux centres : pour tout i, ci est la moyenne des


éléments du groupe i.

5. Aller en 2.

22/05/2023 22/05/2023

154 155

+ K-means: Illustration (2) + K-means: Illustration (3)

Nouveaux Centres
centres finaux

22/05/2023 22/05/2023

156 157

39
23/05/2023

+ K-means: Exemple + K-means: Exemple


◼ 8 points A,…, H de l’ espace euclidien 2D ◼ 8 points A,…, H de l’ espace euclidien 2D

◼ K = 2 (2 Clusters) ◼ K=3

◼ A(1,3); B(2,2); C(2,3); D(2,4); E(4,2); F(5,2); G(6,2); H(7,3). ◼ A1(2,10); A2(2,5), A3(8,4), A4(5,8), A5(7,5), A6(6, 4), A7(1, 2), A8(4, 9)

◼ Initial Clusters: A1, A4 & A7.

◼ Exécutez K-means? ◼ Exécutez K-means?

◼ Distance: linear distance a(x1,y1) et b(x2, y2) is |x1-x2|+|y1-y2|

22/05/2023 22/05/2023

158 159

+ K-means: Advantages + K-means: Inconvénients


❑ Relativement extensible dans le traitement ▪ Applicable seulement dans le cas où la moyenne des objets est
d’ensembles de taille importante. définie
❑ Relativement efficace : O(t.k.n), ▪ Besoin de spécifier k, le nombrede clusters, a priori
❑ où n représente #objets, ▪ Incapable de traiter les données bruitées (noisy).
❑ K: #clusters, ▪ Non adapté pour découvrir des clusters avec structures non-
convexes, et des clusters de tailles différentes
❑ T: #iterations. Normalement, k, t << n. ▪ Les points isolés sont mal gérés (doivent-ils appartenir
❑ Produit généralement un optimum local ; un optimum obligatoirement à un cluster ?) - probabiliste
global peut être obtenu en utilisant d’autres techniques
telles que : algorithmes génétiques, …

22/05/2023 22/05/2023

160 161

40
23/05/2023

+ K-means: variants + Méthodes hiérarchiques


◼ Une méthode hiérarchique : construit une hiérarchie de clusters,
◼ Sélection des centres initiaux non seulement une partition unique des objets.
◼ Calcul des similarités ◼ Le nombre de clusters k n’est pas exigé comme donnée
◼ Calcul des centres (K-medoids : [Kaufman & Rousseeuw’87] ) ◼ Utilise une matrice de distances comme critère de clustering
◼ GMM : Variantes de K-moyennes basées sur les probabilités ◼ Une condition de terminaison peut être utilisée (ex. Nombre de
clusters)
◼ K-modes : données catégorielles [Huang’98]

◼ K-prototype : données mixtes (numériques et catégorielles)

22/05/2023 22/05/2023

162 163

+ Méthodes hiérarchiques + Arbre de clusters: Exemple


◼ Entrée : un échantillon de m enregistrements 𝑥1 , 𝑥2 , … , 𝑥𝑚

1. On commence avec m clusters (cluster = 1 enregistrement) Step 0 Step 1 Step 2 Step 3 Step 4

2. Grouper les deux clusters les plus « proches ».


a
ab
3. S’arrêter lorsque tous les enregistrements sont membres d’un seul b
groupe abcde
c
cde
4. Aller en 2. d
de
e

22/05/2023 22/05/2023

164 165

41
23/05/2023

+ Arbre de clusters + Distance entre clusters

◼ Résultat : Graphe hiérarchique qui peut être coupé à un niveau de ◼ Distance entre les centres des clusters (Centroid Method)
dissimilarité pour former une partition.
◼ Distance minimale entre toutes les paires de données des 2 clusters
◼ La hiérarchie de clusters est représentée comme un arbre de (Single Link Method): d(i, j) = minxCi , yCj  d(x, y) 
clusters, appelé dendrogramme
◼ Les feuilles de l’arbre représentent les objets ◼ Distance maximale entre toutes les paires de données des 2 clusters
◼ Les nœuds intermédiaires de l’arbre représentent les clusters (Complete Link Method): d (i, j) = max xC , yC  d ( x, y) 
i j

◼ Distance moyenne entre toutes la paires d’enregistrements (Average


Linkage): d (i, j) = avg xC , yC  d ( x, y) 
i j

22/05/2023 22/05/2023

166 167

+ Arbre de clusters: Exercice + Méthodes hiérarchiques : Avantages

◼ Conceptuellement simple

◼ Propriétés théoriques sont bien connues

◼ Quand les clusters sont groupés, la décision est définitive

➔ Le nombre d’alternatives différentes à examiner est réduit

22/05/2023 22/05/2023

168 169

42
23/05/2023

+ Méthodes hiérarchiques : Inconvénients

◼ Groupement de clusters est définitif

➔ décisions erronées sont impossibles à modifier ultérieurement

◼ Méthodes non extensibles pour des ensembles de données de


grandes tailles.

22/05/2023

170

43

Vous aimerez peut-être aussi