0% ont trouvé ce document utile (0 vote)
246 vues31 pages

Data Mining

Le Data Mining est un processus d'extraction d'informations utiles à partir de grandes bases de données, permettant d'analyser des données pour découvrir des modèles cachés. Il implique plusieurs étapes, allant de la compréhension du problème à l'interprétation des résultats, et utilise diverses méthodes d'apprentissage supervisé et non supervisé. Les règles d'association et les arbres de décision sont des techniques clés pour identifier des relations entre données et effectuer des classifications.

Transféré par

Mohamed Chafik
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
246 vues31 pages

Data Mining

Le Data Mining est un processus d'extraction d'informations utiles à partir de grandes bases de données, permettant d'analyser des données pour découvrir des modèles cachés. Il implique plusieurs étapes, allant de la compréhension du problème à l'interprétation des résultats, et utilise diverses méthodes d'apprentissage supervisé et non supervisé. Les règles d'association et les arbres de décision sont des techniques clés pour identifier des relations entre données et effectuer des classifications.

Transféré par

Mohamed Chafik
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

DATA MINING

🔹 CHAPITRE 1 : Introduction au Data Mining


Définition du Data Mining

Le Data Mining ou fouille de données est un processus d’extraction d’informations


implicites, inconnues et utiles à partir de grandes bases de données, souvent en utilisant des
méthodes automatisées.

• Il consiste à analyser des données pour découvrir des modèles cachés.


• Utilisé pour identifier relations, corrélations, classes, segments, etc.

Données, Informations et Connaissances

Terme Définition
Donnée Information brute sans contexte. Exemple : nombre, texte.
Information Données structurées pour avoir du sens dans un contexte.
Connaissance Information interprétée permettant la prise de décision.

Problématique du Data Mining

• Objectif : créer un processus automatique allant des données jusqu’à la décision.


• Les données proviennent de multiples sources (bases relationnelles, fichiers texte,
web...).

Pourquoi utiliser le Data Mining ?

• Exploiter le Big Data.


• Aider à la prise de décision.
• Applications :
o Fidélisation client
o Prévisions
o Détection de fraudes
o Segmentation marketing
Typologie des méthodes

1. Par objectif :
o Prédictives : prédire une valeur ou une classe (classification, régression)
o Descriptives : comprendre les données (segmentation, association)
2. Par type d’apprentissage :
o Supervisé : avec classes connues (ex : classification)
o Non-supervisé : sans classes (ex : clustering, association)

Processus de Data Mining (5 étapes)

1. Compréhension du problème
o Connaître le contexte métier
o Choisir les données utiles
2. Collecte des données
o Provenance hétérogène
o Séparation en jeu d’apprentissage (80%) et test (20%)
3. Prétraitement
o Nettoyage (valeurs manquantes, aberrantes)
o Normalisation
o Réduction de dimensionnalité
4. Exploration et estimation du modèle
o Choix des algorithmes : arbres de décision, clustering, réseaux de neurones,
etc.
5. Interprétation
o Résultats compréhensibles et utiles pour l’utilisateur final.

CHAPITRE 2 : Compréhension des données


Types de variables

Type Exemple Caractéristiques


Quantitatives continues Salaire, taille Ordonnées, calculs arithmétiques
Quantitatives discrètes Nombre d’enfants Valeurs entières, ordonnées
Qualitatives ordinales Faible/Moyen/Fort Ordre, pas de calculs
Qualitatives nominales Profession Pas d’ordre

Étapes de compréhension

1. Décrire les données (taille, types de variables)


2. Explorer à l’aide de statistiques descriptives :
o Univariée : une variable
o Bivariée : deux variables

🔹 CHAPITRE 3 : Analyse univariée et bivariée

Analyse univariée (1 variable)

• But :
o Résumer la variable
o Détecter valeurs extrêmes, manquantes, aberrantes
• Pour variables qualitatives :
o Effectifs, fréquences, diagrammes en barres
• Pour variables quantitatives :
o Moyenne, Médiane, Mode
o Étendue, Variance, Écart-type

Détails des indicateurs

• Moyenne = Somme des valeurs / N


• Médiane = Valeur qui partage les données en 2 moitiés
• Mode = Valeur la plus fréquente
• Étendue = max - min
• Variance = moyenne des carrés des écarts à la moyenne
• Écart-type = racine de la variance

Moyenne sensible aux valeurs extrêmes → utiliser la médiane dans ce cas.

Analyse bivariée (2 variables)

• Étudier relations linéaires ou non entre deux variables :


o Exemple : âge ↔ nombre d’accidents
• Outil principal : régression linéaire

✏️ Concepts clés :

• Covariance : signe de la relation


• Corrélation (r) :
o r > 0 : relation positive
o r < 0 : relation négative
o r = 0 : pas de relation
Régression linéaire

• Relation entre une variable dépendante Y et une ou plusieurs variables


indépendantes X
• Types :
o Régression simple : 1 variable X
o Régression multiple : plusieurs X

⚙️ Équation :
y= a x + b

Calculée par moindres carrés

Représentation graphique

• Nuage de points
• Droite de régression
• Permet la prédiction

🧪 EXERCICE APPLIQUÉ
Données : Temps de 10 coureurs sur semi-marathon et marathon

Étapes :

1. Représenter le nuage de points


2. Calculer :
o Moyenne, Variance, Écart-type pour X (semi) et Y (marathon)
3. Calculer :
o Covariance
o Coefficient de corrélation
4. Déterminer l’équation de la droite
5. Prédire le temps sur marathon d’un coureur ayant fait 1h56 au semi-marathon

📊 Chapitre 4 – Les Règles d’Association en Data Mining

1. Rappel : Apprentissage Automatique (Machine Learning)


Définition :

Le machine learning permet :

• de comprendre le passé,
• de prédire le futur,
à partir de l’analyse des données.

C’est une discipline multidisciplinaire (statistiques, bases de données, intelligence


artificielle) qui vise à extraire des connaissances utiles pouvant servir à prendre des
décisions ou proposer des produits.

Types d’apprentissage :

1. Supervisé : les données sont étiquetées (on connaît le résultat attendu, ex : détection
de fraudes).
2. Non-supervisé : on cherche à découvrir des structures cachées sans connaître les
résultats à l’avance (ex : règles d’association).
3. Semi-supervisé : seulement une partie des données est étiquetée (utile quand les
données étiquetées sont rares ou coûteuses à obtenir).

2. 🧪 Introduction aux Règles d’Association


Objectif :

Découvrir des relations fréquentes entre des objets ou événements dans une base de
données.

Exemple typique : Analyse du panier d’achat

Si un client achète du lait, il y a de fortes chances qu’il achète aussi des céréales.

3. Concepts de base
Terme Définition

Item Unité d’analyse (ex : produit, médicament, symptôme, etc.)

Transaction Ensemble d’items achetés ensemble, avec un identifiant

Itemset Groupe d’items (ex : {Pain, Fromage})

Support Fréquence d’apparition d’un itemset dans les transactions


Terme Définition

Confiance
Probabilité de trouver Y sachant que X est présent
(Confidence)

Mesure l’intérêt de la règle : Lift(X→Y) = Support(X∪Y) /


Lift
(Support(X) * Support(Y))

Interprétations du Lift :

• >1 : lien positif (X favorise Y)


• =1 : X et Y sont indépendants
• <1 : lien négatif (X et Y sont rarement ensemble)

4. Exemple de calcul
Base contenant 5 transactions :

Transaction Contenu

T1 A, C

T2 A, D

T3 A, C

T4 A, D, F

T5 C

• Support({A}) = 4/5 = 80%


• Support({A, C}) = 2/5 = 40%
• Confiance({A} ⇒ {C}) = (2/5) / (4/5) = 0.5 = 50%
• Confiance({C} ⇒ {A}) = (2/5) / (2/5) = 100%
Exemples :
Forme: “Body ->ead [support, confiance]”.
achète(x, “lait”) ->achète(x, “paint”) [0.5%, 60%]

5. Critères de validité d’une règle


Pour être intéressante, une règle doit :

• avoir un support ≥ minsupport


• avoir une confiance ≥ minconfiance

Ces seuils sont définis par l’utilisateur selon le contexte.

6. 🧪 Algorithme Apriori
Objectif :

Découvrir les itemsets fréquents et générer les règles d’association valides.

Fonctionnement :

• Étape 1 : Trouver les itemsets fréquents (support ≥ minsup)


• Étape 2 : Générer les règles à partir de ces itemsets (confiance ≥ minconf)

Principe :

• Si un ensemble d’items est fréquent, alors tous ses sous-ensembles le sont aussi.
• Inversement, si un itemset n’est pas fréquent, ses sur-ensembles ne le seront pas non
plus.

7. 🧪 Exemple de fonctionnement d’Apriori


Soit I = {A, B, C, D, E, F} et les transactions suivantes :

T1 = {A, B}
T2 = {A, B, C, D}
T3 = {A, B, D}
T4 = {A, B, D, F}
T5 = {A, C, D, E}
T6 = {B, C, D, F}

MINSUP = 50% (donc ≥ 3 transactions sur 6)


1. L1 (1-itemsets fréquents) : A, B, C, D (E et F sont éliminés)
2. L2 (2-itemsets fréquents) : AB, AD, BD, CD
3. L3 : ABD
4. L4 : vide

Itemsets fréquents finaux : {A, B, C, D, AB, AD, BD, CD, ABD}

8. 🧪 Applications des règles d’association


• Marketing ciblé : recommandations de produits
• Optimisation de catalogue : regrouper les articles fréquemment achetés ensemble
• Analyse de navigation Web
• Détection de comportements clients

🧪 Résumé des indicateurs importants


Indicateur Interprétation

Support(X) Fréquence d’apparition de X

Confiance(X⇒Y) Proportion de transactions avec Y parmi celles contenant X

Lift(X⇒Y) Indique la dépendance entre X et Y

Voici une explication claire et structurée de la recherche des règles d’association de la


forme X & Y ⇒ Z, avec les notions de support et de confiance :

Objectif : Trouver les règles X & Y ⇒ Z qui respectent


deux seuils :
• Support ≥ s (ex. 5 %)
• Confiance ≥ c (ex. 50 %)

1. Support d’une règle

Définition : Le support d’une règle mesure la fréquence globale à laquelle les items X, Y et
Z apparaissent ensemble dans les transactions.
Formule :

Interprétation :
Le support indique la portée de la règle :

• Plus le support est élevé, plus la règle concerne un grand nombre de cas.
• Ex : “5 % des clients ont acheté les trois articles {X, Y, Z}”.

2. Confiance d’une règle

Définition : La confiance mesure la probabilité que Z soit présent, sachant que X et Y sont
déjà présents dans la transaction.

Formule :

Interprétation :
La confiance mesure la précision de la règle :

• Elle exprime le degré de fiabilité de la prédiction.


• Ex : “50 % des clients qui ont acheté des céréales et du sucre ont aussi acheté du
lait.”

🧪 Résumé visuel :
🌳 Chapitre 4 – Arbre de Décision (Decision Tree)

1. Définition générale
Un arbre de décision est un modèle utilisé en apprentissage supervisé pour effectuer :

• de la classification (si la variable cible est qualitative),


• ou de la régression (si la variable cible est quantitative).

Il se présente souvent sous forme :

• graphique (arborescence),
• ou textuelle (sous forme de règles « SI... ALORS... »).

Les arbres de décision sont populaires car ils sont intuitifs, explicables, et faciles à
implémenter.

Algorithmes populaires :

• ID3 (Iterative Dichotomiser 3)


• CART (Classification And Regression Trees)

2. Terminologie de l’arbre
Élément Description

Nœud Point de test d’un attribut. Il détermine la suite du parcours selon la valeur.

Nœud fils Descendants d’un nœud.

Branche Représente une valeur ou un intervalle de l’attribut testé.

Racine Nœud initial (aucune branche entrante).

Nœud interne Nœud avec au moins un enfant.

Feuille Nœud terminal. Il contient la classe prédite.

Profondeur Nombre maximal de branches à parcourir de la racine à une feuille.

3. Processus de construction d’un arbre


Étape 1 : Construction du modèle

• Tous les exemples d’entraînement (tuples) sont d’abord à la racine.


• L’arbre est construit de haut en bas (top-down) de façon récursive.
• À chaque étape, on sélectionne l’attribut qui sépare le mieux les données.
• On partitionne les tuples selon les valeurs de cet attribut.
• Cette procédure est répétée jusqu’à obtenir des nœuds homogènes (même classe).

Conditions d’arrêt :

• Tous les tuples dans un nœud appartiennent à la même classe.


• Il ne reste plus d’attribut discriminant.

4. Choix de l’attribut à chaque nœud


Pour construire efficacement l’arbre, on cherche à poser le moins de questions possible.

On utilise une heuristique : le gain d’information, basé sur l’entropie.

Exemple :

Si l’attribut A permet une meilleure séparation des classes que B, on choisit A en premier.

5. Évaluation d’un classifieur


5.1. Base de test (test set)

• Une partie des données n’est pas utilisée pour entraîner l’arbre.
• Elle est utilisée pour évaluer sa performance.

5.2. Matrice de confusion (MC)

• Montre les prédictions correctes et erronées par classe.


• Pour une classification à n classes, la MC est une matrice n x n :
o fijf_{ij} = nombre d’exemples de la vraie classe i prédits comme classe j

5.3. Mesures dérivées

➤ Pour toutes classes :

• Précision (accuracy) = (nombre de bonnes prédictions) / (total)


• Erreur apparente = 1 - précision
➤ Pour 2 classes :
Terme Description

TP (True Positives) Bien classés comme positifs

TN (True Negatives) Bien classés comme négatifs

FP (False Positives) Faux positifs

FN (False Negatives) Faux négatifs

• TP Rate : capacité à bien détecter les vrais positifs.


• FP Rate : erreurs où des négatifs sont classés comme positifs.

Attention : évaluer un arbre sur la base d’apprentissage peut être trompeur (risque
d’overfitting). Toujours utiliser une base indépendante pour tester.

6. Avantages des arbres de décision


• Modèle interprétable (même pour les non-experts).
• Supporte à la fois des attributs catégoriques et numériques.
• Peu coûteux en calcul.
• Peut être converti en règles simples :
Exemple :
SI âge < 30 ET fumeur = oui
ALORS risque = élevé

7. Exemple illustratif
Objectif : prédire si un client achètera un ordinateur

• On teste les attributs comme âge, revenu, étudiant ou non, etc.


• À chaque nœud, une condition est posée (ex : « est étudiant ? »)
• On suit la branche correspondant à la réponse.
• On arrive à une feuille qui indique la décision finale : acheter ou non.
Tu as raison : les formules que j’ai données avec le format LaTeX\LaTeX ne sont pas
directement copiables dans Word sous forme éditable.

Voici une version 100 % compatible avec Word, avec toutes les formules écrites en texte
clair, que tu peux copier-coller directement dans un document Word sans perte de format.

Exercice : Construction d’un arbre de décision


Contexte :

Un centre de formation souhaite prédire si une personne s’inscrira à une formation


informatique. On dispose de la base suivante :

Âge Étudiant Revenu élevé S’inscrit ?

Jeune Oui Non Oui

Jeune Non Non Non

Moyen Oui Oui Oui

Senior Oui Non Non

Moyen Non Oui Oui

Jeune Oui Oui Oui

Senior Non Non Non

Moyen Oui Non Oui

Senior Oui Oui Oui

Jeune Non Oui Non

Objectif : Construire un arbre de décision permettant de prédire la colonne "S’inscrit ?"


🧪 Étapes de résolution
1. Calcul de l’entropie globale

Nombre de "Oui" : 6
Nombre de "Non" : 4

Formule :
Entropie = – (p1 × log2(p1)) – (p2 × log2(p2))
où p1 = 6/10 = 0,6 et p2 = 4/10 = 0,4

Donc :
Entropie(S) ≈ – (0,6 × log2(0,6)) – (0,4 × log2(0,4)) ≈ 0,971

2. Calcul du gain d'information

a) Attribut Étudiant
Étudiant Total Oui Non Entropie

Oui 6 5 1 0,65

Non 4 1 3 0,81

Entropie conditionnelle = (6/10 × 0,65) + (4/10 × 0,81) = 0,714


Gain(Étudiant) = 0,971 – 0,714 = 0,257

b) Attribut Âge
Âge Total Oui Non Entropie

Jeune 4 2 2 1,00

Moyen 3 3 0 0,00

Senior 3 1 2 0,918

Entropie conditionnelle = (4/10 × 1,00) + (3/10 × 0,00) + (3/10 × 0,918)


≈ 0,4 + 0 + 0,275 = 0,675
Gain(Âge) = 0,971 – 0,675 = 0,296
c) Attribut Revenu élevé
Revenu Total Oui Non Entropie

Oui 5 4 1 0,722

Non 5 2 3 0,971

Entropie conditionnelle = (0,5 × 0,722) + (0,5 × 0,971) = 0,847


Gain(Revenu) = 0,971 – 0,847 = 0,124

3. Choix du meilleur attribut

L’attribut avec le gain le plus élevé est "Âge" (0,296)


⇒ Il sera utilisé comme racine de l’arbre.

Construction de l’arbre
Branche "Âge = Moyen"

Tous les exemples sont "Oui" ⇒ Feuille = Oui

Branche "Âge = Jeune"

Tuples : 2 "Oui", 2 "Non" ⇒ tester Étudiant

Étudiant Oui Non

Oui 2 0

Non 0 2

→ Si Étudiant = Oui ⇒ Oui


→ Si Étudiant = Non ⇒ Non

Branche "Âge = Senior"

Tuples : 1 "Oui", 2 "Non" ⇒ tester Revenu élevé


Revenu élevé Oui Non

Oui 1 0

Non 0 2

→ Si Revenu = Oui ⇒ Oui


→ Si Revenu = Non ⇒ Non

Arbre final (forme textuelle)


Âge
/ | \
Jeune Moyen Senior
| | |
Étudiant Oui Revenu élevé
/ \ / \
Oui Non Oui Non

Conclusion :
Cet arbre de décision permet de prédire l’inscription d’un individu à la formation en posant 2
à 3 questions simples :

1. Quel est son âge ?


2. Est-il étudiant ? (si Jeune)
3. A-t-il un revenu élevé ? (si Senior)

📊 Chapitre 5 : Clustering et Algorithme des K-means

1. Définition du clustering
Le clustering (ou classification non supervisée) est une méthode d'apprentissage
automatique non supervisé.
Contrairement à l’apprentissage supervisé, il n’existe pas de variable cible (Y).
Le but est de regrouper automatiquement les objets similaires en groupes homogènes,
appelés clusters.

Objectif :

• Maximiser la similarité à l’intérieur de chaque cluster.


• Minimiser la similarité entre clusters différents.

2. Applications du clustering
• Text mining : regrouper des documents similaires.
• Web mining : profiler des utilisateurs ou pages similaires.
• Bioinformatique : classer des gènes ou séquences proches.
• Marketing : segmenter les clients.
• Analyse de logs : détecter des profils ou comportements types.

3. 🧪 Formalisation mathématique
• Soit un ensemble de données S = {x₁, x₂, ..., xₙ},
• Le clustering consiste à construire une fonction f : S → {1, ..., k}
• Chaque élément est affecté à l’un des k clusters C₁, ..., Cₖ
• Une fonction de similarité sim(xᵢ, xⱼ) permet de mesurer à quel point deux éléments
sont proches

Critère de qualité :
Pour tout xᵤ et xᵥ dans un même cluster Cⱼ, sim(xᵤ, xᵥ) > sim(xᵤ, x𝓌) pour x𝓌 ∉ Cⱼ

4. Problématiques du clustering
• Type de données : binaires, textuelles, numériques, etc.
• Choix de la mesure de similarité (ou dissimilarité)
• Comment définir un cluster pertinent ?
• Quel est le bon nombre de clusters ?
• Quel algorithme utiliser ?
• Comment évaluer la qualité du regroupement ?

5. Méthodes de clustering
a) Clustering par partitionnement

• Chaque point est affecté à un seul cluster


• Objectif : diviser l’espace en régions disjointes
• Ex : K-means

b) Clustering hiérarchique
• Structure en arbre (dendrogramme)
• Les clusters peuvent être imbriqués

6. 🧪 Mesures de similarité et de distance


a) Dissimilarité

• Fonction d(x₁, x₂) ≥ 0


• d(x₁, x₂) = d(x₂, x₁)
• d(x₁, x₂) = 0 si x₁ = x₂
⇒ Plus d est petit, plus les objets sont proches.

b) Similarité

• Fonction s(x₁, x₂) ≥ 0


• s(x₁, x₂) = s(x₂, x₁)
• s(x₁, x₁) ≥ s(x₁, x₂)
⇒ Plus s est grand, plus les objets sont proches.

c) Distance euclidienne

Soient p = (p₁,…,pₙ) et q = (q₁,…,qₙ)

7. Distance entre deux clusters


Méthode Formule simplifiée

Plus proche voisin Dmin(C₁, C₂) = min{d(xᵢ, xⱼ)}

Plus loin voisin Dmax(C₁, C₂) = max{d(xᵢ, xⱼ)}

Moyenne D(C₁, C₂) = moyenne des distances entre tous les points

Centres de gravité Dcg(C₁, C₂) = distance entre les centres µ₁ et µ₂

8. Évaluation de la qualité d’un clustering


a) Centre de gravité (µₖ)

C’est le barycentre (moyenne) des points du cluster Cₖ.

b) Inertie intra-cluster

Mesure la compacité d’un cluster (dispersion autour de µₖ).


Plus l'inertie est faible, plus le cluster est homogène.

c) Inertie inter-cluster

Mesure la séparation entre les centres des clusters.


Plus elle est grande, mieux les clusters sont distincts.

Relation :

Inertie totale = Inertie intra-cluster + Inertie inter-cluster


But : minimiser l’intra, maximiser l’inter.

Parfait ! Voici les formules avec explications et un exemple numérique simple pour bien
comprendre les notions de :

1. Centre de gravité (µₖ)


2. Inertie intra-cluster
3. Inertie inter-cluster

Contexte de l’exemple
On considère 4 points en 2D, répartis dans 2 clusters :

• Cluster C₁ : A(1,2), B(2,2)


• Cluster C₂ : C(8,8), D(9,8)

1⃣ Centre de gravité (μₖ)


C’est la moyenne des points dans chaque cluster (barycentre).

Formule :
Application :

• Pour C₁ (A et B) :
o x = (1+2)/2 = 1.5
o y = (2+2)/2 = 2
o → μ₁ = (1.5, 2)
• Pour C₂ (C et D) :
o x = (8+9)/2 = 8.5
o y = (8+8)/2 = 8
o → μ₂ = (8.5, 8)

2⃣ Inertie intra-cluster
Elle mesure la dispersion des points autour de leur centre.

Formule :

Application :

• Pour C₁ :
o A(1,2) → ||A - μ₁||² = (1 - 1.5)² + (2 - 2)² = 0.25
o B(2,2) → ||B - μ₁||² = (2 - 1.5)² + (2 - 2)² = 0.25
o Somme = 0.25 + 0.25 = 0.5
• Pour C₂ :
o C(8,8) → (8 - 8.5)² + (8 - 8)² = 0.25
o D(9,8) → (9 - 8.5)² + (8 - 8)² = 0.25
o Somme = 0.25 + 0.25 = 0.5

→ Inertie intra = 0.5 + 0.5 = 1.0

Cela montre que les points sont très proches de leurs centres → bonne compacité.
3⃣ Inertie inter-cluster
Elle mesure la distance des centres de chaque cluster au centre global.

Étape 1 : calculer le centre global μ

On fait la moyenne de tous les points :

• x = (1 + 2 + 8 + 9) / 4 = 5
• y = (2 + 2 + 8 + 8) / 4 = 5
→ μ = (5, 5)

Formule :

Application :

• Pour C₁ (2 points) :
o ||μ₁ - μ||² = (1.5 - 5)² + (2 - 5)² = 12.25 + 9 = 21.25
o Contribution = 2 × 21.25 = 42.5
• Pour C₂ (2 points) :
o ||μ₂ - μ||² = (8.5 - 5)² + (8 - 5)² = 12.25 + 9 = 21.25
o Contribution = 2 × 21.25 = 42.5

→ Inertie inter = 42.5 + 42.5 = 85

Cela montre que les clusters sont très éloignés les uns des autres → bonne séparation.

Résumé dans un tableau


Mesure Formule Exemple résultat
Centre de gravité μₖ = (1/nₖ) ∑ xᵢ μ₁ = (1.5, 2), μ₂ = (8.5, 8)
Inertie intra-cluster ∑ₖ ∑ₓ∈Cₖ
Inertie inter-cluster ∑ₖ nₖ ×
9. Algorithme des K-means
Étapes de l’algorithme :

1. Choisir K centres initiaux (aléatoirement ou heuristiquement)


2. Affecter chaque point au centre le plus proche
3. Recalculer les nouveaux centres des groupes
4. Répéter jusqu’à stabilisation (plus de changement d’affectation)

Avantages
• Simple à comprendre et à implémenter
• Très rapide, même sur des grandes bases
• S’adapte à divers types de données si la distance est bien choisie

Inconvénients
• Il faut connaître K à l’avance
• Résultat dépend du choix initial des centres
• Peut converger vers un optimum local
• Les clusters peuvent être non significatifs s’ils sont mal initialisés

🧪 Comment choisir le bon nombre de clusters (K) ?


Méthode du coude (elbow method)

1. Tester plusieurs valeurs de K


2. Observer la diminution de l’inertie intra-cluster (W)
3. Choisir K où l’amélioration devient marginale (le "coude")

Exemple d’exercice
Points :
A1=(2,10), A2=(2,5), A3=(8,4), A4=(5,8), A5=(7,5), A6=(6,4), A7=(1,2), A8=(4,9)
Objectif : Former 3 clusters avec K-means.
Centres initiaux : A1, A4, A7
Travail demandé :

• Appliquer l’algorithme pas à pas (affectation, recalcul)


• Afficher les étapes intermédiaires
• Dessiner les groupes formés

Voici un exercice d'application complet sur le clustering avec l’algorithme des K-means,
avec toutes les étapes expliquées pas à pas. C’est un exercice idéal pour bien comprendre la
logique et les calculs impliqués.

🧪 Exercice : Application de l’algorithme K-means


Contexte :

On dispose de 8 points dans un plan 2D :

Point Coordonnées (x, y)


A1 (2, 10)
A2 (2, 5)
A3 (8, 4)
A4 (5, 8)
A5 (7, 5)
A6 (6, 4)
A7 (1, 2)
A8 (4, 9)

Objectif :

Regrouper ces points en K = 3 clusters à l’aide de l’algorithme des K-means.

Centres initiaux :

• Centre C1 = A1 = (2, 10)


• Centre C2 = A4 = (5, 8)
• Centre C3 = A7 = (1, 2)

Étape 1 : Affectation initiale


Pour chaque point, on calcule la distance euclidienne à chacun des centres, puis on l’affecte
au plus proche.

Exemple : distance de A2 (2,5) aux centres

• d(A2, C1) = √[(2-2)² + (5-10)²] = √25 = 5


• d(A2, C2) = √[(2-5)² + (5-8)²] = √[9 + 9] = √18 ≈ 4.24
• d(A2, C3) = √[(2-1)² + (5-2)²] = √[1 + 9] = √10 ≈ 3.16

A2 est affecté à C3

Résultat des affectations (tableau résumé) :

Point Coordonnées Distance à C1 C2 C3 Cluster


A1 (2, 10) 0.00 3.61 8.06 C1
A2 (2, 5) 5.00 4.24 3.16 C3
A3 (8, 4) 7.21 5.00 7.28 C2
A4 (5, 8) 3.61 0.00 7.62 C2
A5 (7, 5) 6.40 3.61 6.40 C2
A6 (6, 4) 6.32 4.47 5.39 C2
A7 (1, 2) 8.06 7.62 0.00 C3
A8 (4, 9) 2.24 1.41 7.21 C2

Étape 2 : Recalcul des centres


On calcule les nouveaux centres (moyenne des coordonnées) pour chaque cluster.

Nouveau centre C1 :

A1 = (2, 10)
→ Nouveau C1 = (2, 10)

Nouveau centre C2 :

Points : A3, A4, A5, A6, A8

• Moyenne x = (8 + 5 + 7 + 6 + 4) / 5 = 30 / 5 = 6
• Moyenne y = (4 + 8 + 5 + 4 + 9) / 5 = 30 / 5 = 6
→ Nouveau C2 = (6, 6)

Nouveau centre C3 :

Points : A2, A7

• Moyenne x = (2 + 1) / 2 = 1.5
• Moyenne y = (5 + 2) / 2 = 3.5

→ Nouveau C3 = (1.5, 3.5)

Étape 3 : Nouvelle affectation


On recommence l'étape d'affectation avec les nouveaux centres.

(Calculs similaires, tu peux les refaire ou automatiser avec Excel)

Répéter jusqu’à stabilisation


L’algorithme s’arrête lorsque plus aucun point ne change de cluster entre deux itérations.

Conclusion :
L'algorithme K-means regroupe les données en clusters homogènes selon leur proximité
géométrique.
Ce type de regroupement est utilisé en marketing, biologie, traitement de texte, etc.

Voici une reformulation complète, détaillée et explicative du cours sur la Classification


Ascendante Hiérarchique (CAH).

🧪 Fouille de données - Chapitre 6 : La Classification


Ascendante Hiérarchique (CAH)
1. Introduction à la CAH
La Classification Ascendante Hiérarchique (CAH) est une méthode de classification non
supervisée. Elle consiste à organiser un ensemble d'individus (ou objets) en groupes
hiérarchiques (ou clusters) sans connaissance préalable des classes.

Principe :

• On commence avec chaque individu comme une classe unique (singleton).


• À chaque itération, on fusionne les deux groupes les plus proches selon une certaine
mesure de distance.
• Ce processus continue jusqu’à n’avoir qu’un seul groupe contenant tous les
individus.

La CAH est souvent utilisée en analyse des données multivariées pour explorer les
structures cachées dans les données.

2. Étapes de l’algorithme CAH

🧭 Phase 1 : Initialisation

• Chaque individu est une classe (donc n classes pour n individus).


• On calcule une matrice des distances entre tous les couples d’individus.

🔁 Phase 2 : Itération

• On identifie les deux classes les plus proches selon un critère choisi.
• On les regroupe.
• On met à jour la matrice des distances en remplaçant les deux anciens groupes par
le nouveau.
• Le processus continue jusqu’à ce que tous les individus soient réunis en une seule
classe.

🧪 3. Préparation : distances et critères d’agrégation

Avant de lancer l’algorithme, il faut :


📏 Définir une distance entre individus

Le choix dépend de la nature des données et des objectifs d’analyse.

📐 Choisir un critère d’agrégation (stratégie de regroupement)

• Objectif : minimiser un indice d’agrégation à chaque étape.

4. Critères d’agrégation (stratégies de liaison)

🔷 Méthode de Ward (la plus courante)

• On cherche à minimiser la perte d’inertie inter-classes à chaque fusion.


• Initialement, l’inertie inter-classe est maximale car chaque individu est seul.
• À chaque étape, on fusionne les deux groupes qui réduisent le moins la variabilité
entre classes.

Autres stratégies :

• Lien simple (single linkage) : distance minimale entre deux éléments de classes
différentes.
• Lien complet (complete linkage) : distance maximale entre deux éléments de classes
différentes.

5. Choix de la partition finale

L’arbre hiérarchique construit doit être coupé à un certain niveau pour déterminer les classes
finales.

• On cherche des grandes branches (écarts importants) dans l’arbre.


• L’objectif est d’avoir des classes :
o Non vides.
o Disjointes (pas de chevauchement).
o Couvrant l’ensemble des individus.

6. Importance du choix des distances

Le choix de la mesure de distance influence directement :

• Le contenu de la matrice de distances initiale.


• La structure finale de l’arbre.

Deux matrices de distances différentes → résultats très différents !

🧪 7. Limites de la CAH

• Sensible au choix des distances et des critères de fusion.


• Résultats non reproductibles si ces choix changent.
• Complexité computationnelle élevée quand le nombre d’individus augmente.

8. Exemple illustratif

On souhaite regrouper 5 observations :

Étapes :

1. Chaque observation est une classe.


2. On identifie la plus petite distance, par exemple entre les observations 2 et 3 → on
les regroupe.
3. On met à jour la matrice de distance en remplaçant 2 et 3 par un nouveau cluster (ex.
noté 6).
4. On répète l’opération (par exemple, observations 4 et 5 → cluster 7).
5. On continue jusqu’à former un seul arbre de regroupement.

La hauteur des branches reflète les distances entre groupes : plus la branche est haute, plus
la distance entre les classes fusionnées était grande.

Résumé final
Élément Rôle

CAH Classification hiérarchique non supervisée

Distance Mesure la ressemblance entre individus

Critère de fusion Méthode pour regrouper les clusters

Méthode de Ward Réduit au minimum la perte de variabilité inter-classe

Arbre (dendrogramme) Visualise le processus de regroupement

Partition finale Choisie par coupure à un certain niveau de l’arbre

Voici un exercice applicatif complet sur la Classification Ascendante Hiérarchique


(CAH) avec énoncé, tableau de distances, application de l’algorithme pas à pas, et corrigé
détaillé à la fin.

Exercice : Application de la CAH


Énoncé :

On dispose des 5 individus A, B, C, D et E dont les distances ont été mesurées en utilisant la
distance euclidienne. La matrice de distance symétrique entre eux est donnée ci-dessous :

A B C D E
A 0 2.8 4.1 6.0 6.2
B 2.8 0 3.2 5.9 6.1
C 4.1 3.2 0 4.5 5.0
D 6.0 5.9 4.5 0 2.1
E 6.2 6.1 5.0 2.1 0

Objectif : Appliquer l’algorithme de la classification hiérarchique ascendante (CAH) avec


la méthode de liaison simple (single linkage) pour construire un dendrogramme, et
proposer une partition finale en 2 classes.

🧪 Étapes de résolution
Étape 1 : Matrice de distances initiale

(Identique à l’énoncé)
Étape 2 : Identifier les deux plus proches

La plus petite distance est 2.1 (entre D et E).


→ On crée un cluster C1 = {D, E}.

Étape 3 : Mise à jour de la matrice

Utiliser liaison simple : distance du nouveau cluster avec les autres = plus petite distance
entre un élément du cluster et les autres.

A B C C1 (D,E)
A 0 2.8 4.1 6.0
B 2.8 0 3.2 5.9
C 4.1 3.2 0 4.5
C1(D,E) 6.0 5.9 4.5 0

Étape 4 : Nouveau regroupement

Plus petite distance : 2.8 entre A et B


→ Nouveau cluster C2 = {A, B}

Étape 5 : Mise à jour

C2 (A,B) C C1 (D,E)
C2 0 3.2 5.9
C 3.2 0 4.5
C1 5.9 4.5 0

Étape 6 : Nouveau regroupement

Plus petite distance : 3.2 entre C et C2


→ Nouveau cluster C3 = {A, B, C}

Étape 7 : Mise à jour finale


C3 (A,B,C) C1 (D,E)
C3 0 4.5
C1 4.5 0

Distance unique : 4.5 → fusion finale.

Dendrogramme schématique
Distance
|
6 | ┌───────────────┐
5 | │ C3 │
4 | ┌──────────┴───┐ │
3 | │ │ │
2 | ┌────┴───┐ ┌───┴───┐ ← C1 = {D,E}
1 | A B C D E
---2.8--- ---3.2--- ---2.1---

Partition finale en 2 classes


On coupe l’arbre au niveau 4, ce qui donne :

• Classe 1 : {A, B, C}
• Classe 2 : {D, E}

Résumé de l’exemple
Étape Fusion Distance
1 D et E 2.1
2 A et B 2.8
3 (A,B) et C 3.2
4 (A,B,C) et (D,E) 4.5

Vous aimerez peut-être aussi