0% ont trouvé ce document utile (0 vote)

246 vues31 pages

Data Mining

Le Data Mining est un processus d'extraction d'informations utiles à partir de grandes bases de données, permettant d'analyser des données pour découvrir des modèles cachés. Il implique plusieurs étapes, allant de la compréhension du problème à l'interprétation des résultats, et utilise diverses méthodes d'apprentissage supervisé et non supervisé. Les règles d'association et les arbres de décision sont des techniques clés pour identifier des relations entre données et effectuer des classifications.

Transféré par

Mohamed Chafik

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

246 vues31 pages

Data Mining

Transféré par

Mohamed Chafik

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

DATA MINING

🔹 CHAPITRE 1 : Introduction au Data Mining

Définition du Data Mining

Le Data Mining ou fouille de données est un processus d’extraction d’informations

implicites, inconnues et utiles à partir de grandes bases de données, souvent en utilisant des
méthodes automatisées.

• Il consiste à analyser des données pour découvrir des modèles cachés.

• Utilisé pour identifier relations, corrélations, classes, segments, etc.

Données, Informations et Connaissances

Terme Définition
Donnée Information brute sans contexte. Exemple : nombre, texte.
Information Données structurées pour avoir du sens dans un contexte.
Connaissance Information interprétée permettant la prise de décision.

Problématique du Data Mining

• Objectif : créer un processus automatique allant des données jusqu’à la décision.

• Les données proviennent de multiples sources (bases relationnelles, fichiers texte,
web...).

Pourquoi utiliser le Data Mining ?

• Exploiter le Big Data.

• Aider à la prise de décision.
• Applications :
o Fidélisation client
o Prévisions
o Détection de fraudes
o Segmentation marketing
Typologie des méthodes

1. Par objectif :
o Prédictives : prédire une valeur ou une classe (classification, régression)
o Descriptives : comprendre les données (segmentation, association)
2. Par type d’apprentissage :
o Supervisé : avec classes connues (ex : classification)
o Non-supervisé : sans classes (ex : clustering, association)

Processus de Data Mining (5 étapes)

1. Compréhension du problème
o Connaître le contexte métier
o Choisir les données utiles
2. Collecte des données
o Provenance hétérogène
o Séparation en jeu d’apprentissage (80%) et test (20%)
3. Prétraitement
o Nettoyage (valeurs manquantes, aberrantes)
o Normalisation
o Réduction de dimensionnalité
4. Exploration et estimation du modèle
o Choix des algorithmes : arbres de décision, clustering, réseaux de neurones,
etc.
5. Interprétation
o Résultats compréhensibles et utiles pour l’utilisateur final.

CHAPITRE 2 : Compréhension des données

Types de variables

Type Exemple Caractéristiques

Quantitatives continues Salaire, taille Ordonnées, calculs arithmétiques
Quantitatives discrètes Nombre d’enfants Valeurs entières, ordonnées
Qualitatives ordinales Faible/Moyen/Fort Ordre, pas de calculs
Qualitatives nominales Profession Pas d’ordre

Étapes de compréhension

1. Décrire les données (taille, types de variables)

2. Explorer à l’aide de statistiques descriptives :
o Univariée : une variable
o Bivariée : deux variables

🔹 CHAPITRE 3 : Analyse univariée et bivariée

Analyse univariée (1 variable)

• But :
o Résumer la variable
o Détecter valeurs extrêmes, manquantes, aberrantes
• Pour variables qualitatives :
o Effectifs, fréquences, diagrammes en barres
• Pour variables quantitatives :
o Moyenne, Médiane, Mode
o Étendue, Variance, Écart-type

Détails des indicateurs

• Moyenne = Somme des valeurs / N

• Médiane = Valeur qui partage les données en 2 moitiés
• Mode = Valeur la plus fréquente
• Étendue = max - min
• Variance = moyenne des carrés des écarts à la moyenne
• Écart-type = racine de la variance

Moyenne sensible aux valeurs extrêmes → utiliser la médiane dans ce cas.

Analyse bivariée (2 variables)

• Étudier relations linéaires ou non entre deux variables :

o Exemple : âge ↔ nombre d’accidents
• Outil principal : régression linéaire

✏️ Concepts clés :

• Covariance : signe de la relation

• Corrélation (r) :
o r > 0 : relation positive
o r < 0 : relation négative
o r = 0 : pas de relation
Régression linéaire

• Relation entre une variable dépendante Y et une ou plusieurs variables

indépendantes X
• Types :
o Régression simple : 1 variable X
o Régression multiple : plusieurs X

⚙️ Équation :
y= a x + b

Calculée par moindres carrés

Représentation graphique

• Nuage de points
• Droite de régression
• Permet la prédiction

🧪 EXERCICE APPLIQUÉ
Données : Temps de 10 coureurs sur semi-marathon et marathon

Étapes :

1. Représenter le nuage de points

2. Calculer :
o Moyenne, Variance, Écart-type pour X (semi) et Y (marathon)
3. Calculer :
o Covariance
o Coefficient de corrélation
4. Déterminer l’équation de la droite
5. Prédire le temps sur marathon d’un coureur ayant fait 1h56 au semi-marathon

📊 Chapitre 4 – Les Règles d’Association en Data Mining

1. Rappel : Apprentissage Automatique (Machine Learning)

Définition :

Le machine learning permet :

• de comprendre le passé,
• de prédire le futur,
à partir de l’analyse des données.

C’est une discipline multidisciplinaire (statistiques, bases de données, intelligence

artificielle) qui vise à extraire des connaissances utiles pouvant servir à prendre des
décisions ou proposer des produits.

Types d’apprentissage :

1. Supervisé : les données sont étiquetées (on connaît le résultat attendu, ex : détection
de fraudes).
2. Non-supervisé : on cherche à découvrir des structures cachées sans connaître les
résultats à l’avance (ex : règles d’association).
3. Semi-supervisé : seulement une partie des données est étiquetée (utile quand les
données étiquetées sont rares ou coûteuses à obtenir).

2. 🧪 Introduction aux Règles d’Association

Objectif :

Découvrir des relations fréquentes entre des objets ou événements dans une base de
données.

Exemple typique : Analyse du panier d’achat

Si un client achète du lait, il y a de fortes chances qu’il achète aussi des céréales.

3. Concepts de base
Terme Définition

Item Unité d’analyse (ex : produit, médicament, symptôme, etc.)

Transaction Ensemble d’items achetés ensemble, avec un identifiant

Itemset Groupe d’items (ex : {Pain, Fromage})

Support Fréquence d’apparition d’un itemset dans les transactions

Terme Définition

Confiance
Probabilité de trouver Y sachant que X est présent
(Confidence)

Mesure l’intérêt de la règle : Lift(X→Y) = Support(X∪Y) /

Lift
(Support(X) * Support(Y))

Interprétations du Lift :

• >1 : lien positif (X favorise Y)

• =1 : X et Y sont indépendants
• <1 : lien négatif (X et Y sont rarement ensemble)

4. Exemple de calcul
Base contenant 5 transactions :

Transaction Contenu

T1 A, C

T2 A, D

T3 A, C

T4 A, D, F

T5 C

• Support({A}) = 4/5 = 80%

• Support({A, C}) = 2/5 = 40%
• Confiance({A} ⇒ {C}) = (2/5) / (4/5) = 0.5 = 50%
• Confiance({C} ⇒ {A}) = (2/5) / (2/5) = 100%
Exemples :
Forme: “Body ->ead [support, confiance]”.
achète(x, “lait”) ->achète(x, “paint”) [0.5%, 60%]

5. Critères de validité d’une règle

Pour être intéressante, une règle doit :

• avoir un support ≥ minsupport

• avoir une confiance ≥ minconfiance

Ces seuils sont définis par l’utilisateur selon le contexte.

6. 🧪 Algorithme Apriori
Objectif :

Découvrir les itemsets fréquents et générer les règles d’association valides.

Fonctionnement :

• Étape 1 : Trouver les itemsets fréquents (support ≥ minsup)

• Étape 2 : Générer les règles à partir de ces itemsets (confiance ≥ minconf)

Principe :

• Si un ensemble d’items est fréquent, alors tous ses sous-ensembles le sont aussi.
• Inversement, si un itemset n’est pas fréquent, ses sur-ensembles ne le seront pas non
plus.

7. 🧪 Exemple de fonctionnement d’Apriori

Soit I = {A, B, C, D, E, F} et les transactions suivantes :

T1 = {A, B}
T2 = {A, B, C, D}
T3 = {A, B, D}
T4 = {A, B, D, F}
T5 = {A, C, D, E}
T6 = {B, C, D, F}

MINSUP = 50% (donc ≥ 3 transactions sur 6)

1. L1 (1-itemsets fréquents) : A, B, C, D (E et F sont éliminés)
2. L2 (2-itemsets fréquents) : AB, AD, BD, CD
3. L3 : ABD
4. L4 : vide

Itemsets fréquents finaux : {A, B, C, D, AB, AD, BD, CD, ABD}

8. 🧪 Applications des règles d’association

• Marketing ciblé : recommandations de produits
• Optimisation de catalogue : regrouper les articles fréquemment achetés ensemble
• Analyse de navigation Web
• Détection de comportements clients

🧪 Résumé des indicateurs importants

Indicateur Interprétation

Support(X) Fréquence d’apparition de X

Confiance(X⇒Y) Proportion de transactions avec Y parmi celles contenant X

Lift(X⇒Y) Indique la dépendance entre X et Y

Voici une explication claire et structurée de la recherche des règles d’association de la

forme X & Y ⇒ Z, avec les notions de support et de confiance :

Objectif : Trouver les règles X & Y ⇒ Z qui respectent

deux seuils :
• Support ≥ s (ex. 5 %)
• Confiance ≥ c (ex. 50 %)

1. Support d’une règle

Définition : Le support d’une règle mesure la fréquence globale à laquelle les items X, Y et
Z apparaissent ensemble dans les transactions.
Formule :

Interprétation :
Le support indique la portée de la règle :

• Plus le support est élevé, plus la règle concerne un grand nombre de cas.
• Ex : “5 % des clients ont acheté les trois articles {X, Y, Z}”.

2. Confiance d’une règle

Définition : La confiance mesure la probabilité que Z soit présent, sachant que X et Y sont
déjà présents dans la transaction.

Formule :

Interprétation :
La confiance mesure la précision de la règle :

• Elle exprime le degré de fiabilité de la prédiction.

• Ex : “50 % des clients qui ont acheté des céréales et du sucre ont aussi acheté du
lait.”

🧪 Résumé visuel :
🌳 Chapitre 4 – Arbre de Décision (Decision Tree)

1. Définition générale
Un arbre de décision est un modèle utilisé en apprentissage supervisé pour effectuer :

• de la classification (si la variable cible est qualitative),

• ou de la régression (si la variable cible est quantitative).

Il se présente souvent sous forme :

• graphique (arborescence),
• ou textuelle (sous forme de règles « SI... ALORS... »).

Les arbres de décision sont populaires car ils sont intuitifs, explicables, et faciles à
implémenter.

Algorithmes populaires :

• ID3 (Iterative Dichotomiser 3)

• CART (Classification And Regression Trees)

2. Terminologie de l’arbre
Élément Description

Nœud Point de test d’un attribut. Il détermine la suite du parcours selon la valeur.

Nœud fils Descendants d’un nœud.

Branche Représente une valeur ou un intervalle de l’attribut testé.

Racine Nœud initial (aucune branche entrante).

Nœud interne Nœud avec au moins un enfant.

Feuille Nœud terminal. Il contient la classe prédite.

Profondeur Nombre maximal de branches à parcourir de la racine à une feuille.

3. Processus de construction d’un arbre

Étape 1 : Construction du modèle

• Tous les exemples d’entraînement (tuples) sont d’abord à la racine.

• L’arbre est construit de haut en bas (top-down) de façon récursive.
• À chaque étape, on sélectionne l’attribut qui sépare le mieux les données.
• On partitionne les tuples selon les valeurs de cet attribut.
• Cette procédure est répétée jusqu’à obtenir des nœuds homogènes (même classe).

Conditions d’arrêt :

• Tous les tuples dans un nœud appartiennent à la même classe.

• Il ne reste plus d’attribut discriminant.

4. Choix de l’attribut à chaque nœud

Pour construire efficacement l’arbre, on cherche à poser le moins de questions possible.

On utilise une heuristique : le gain d’information, basé sur l’entropie.

Exemple :

Si l’attribut A permet une meilleure séparation des classes que B, on choisit A en premier.

5. Évaluation d’un classifieur

5.1. Base de test (test set)

• Une partie des données n’est pas utilisée pour entraîner l’arbre.
• Elle est utilisée pour évaluer sa performance.

5.2. Matrice de confusion (MC)

• Montre les prédictions correctes et erronées par classe.

• Pour une classification à n classes, la MC est une matrice n x n :
o fijf_{ij} = nombre d’exemples de la vraie classe i prédits comme classe j

5.3. Mesures dérivées

➤ Pour toutes classes :

• Précision (accuracy) = (nombre de bonnes prédictions) / (total)

• Erreur apparente = 1 - précision
➤ Pour 2 classes :
Terme Description

TP (True Positives) Bien classés comme positifs

TN (True Negatives) Bien classés comme négatifs

FP (False Positives) Faux positifs

FN (False Negatives) Faux négatifs

• TP Rate : capacité à bien détecter les vrais positifs.

• FP Rate : erreurs où des négatifs sont classés comme positifs.

Attention : évaluer un arbre sur la base d’apprentissage peut être trompeur (risque
d’overfitting). Toujours utiliser une base indépendante pour tester.

6. Avantages des arbres de décision

• Modèle interprétable (même pour les non-experts).
• Supporte à la fois des attributs catégoriques et numériques.
• Peu coûteux en calcul.
• Peut être converti en règles simples :
Exemple :
SI âge < 30 ET fumeur = oui
ALORS risque = élevé

7. Exemple illustratif
Objectif : prédire si un client achètera un ordinateur

• On teste les attributs comme âge, revenu, étudiant ou non, etc.

• À chaque nœud, une condition est posée (ex : « est étudiant ? »)
• On suit la branche correspondant à la réponse.
• On arrive à une feuille qui indique la décision finale : acheter ou non.
Tu as raison : les formules que j’ai données avec le format LaTeX\LaTeX ne sont pas
directement copiables dans Word sous forme éditable.

Voici une version 100 % compatible avec Word, avec toutes les formules écrites en texte
clair, que tu peux copier-coller directement dans un document Word sans perte de format.

Exercice : Construction d’un arbre de décision

Contexte :

Un centre de formation souhaite prédire si une personne s’inscrira à une formation

informatique. On dispose de la base suivante :

Âge Étudiant Revenu élevé S’inscrit ?

Jeune Oui Non Oui

Jeune Non Non Non

Moyen Oui Oui Oui

Senior Oui Non Non

Moyen Non Oui Oui

Jeune Oui Oui Oui

Senior Non Non Non

Moyen Oui Non Oui

Senior Oui Oui Oui

Jeune Non Oui Non

Objectif : Construire un arbre de décision permettant de prédire la colonne "S’inscrit ?"

🧪 Étapes de résolution
1. Calcul de l’entropie globale

Nombre de "Oui" : 6
Nombre de "Non" : 4

Formule :
Entropie = – (p1 × log2(p1)) – (p2 × log2(p2))
où p1 = 6/10 = 0,6 et p2 = 4/10 = 0,4

Donc :
Entropie(S) ≈ – (0,6 × log2(0,6)) – (0,4 × log2(0,4)) ≈ 0,971

2. Calcul du gain d'information

a) Attribut Étudiant
Étudiant Total Oui Non Entropie

Oui 6 5 1 0,65

Non 4 1 3 0,81

Entropie conditionnelle = (6/10 × 0,65) + (4/10 × 0,81) = 0,714

Gain(Étudiant) = 0,971 – 0,714 = 0,257

b) Attribut Âge
Âge Total Oui Non Entropie

Jeune 4 2 2 1,00

Moyen 3 3 0 0,00

Senior 3 1 2 0,918

Entropie conditionnelle = (4/10 × 1,00) + (3/10 × 0,00) + (3/10 × 0,918)

≈ 0,4 + 0 + 0,275 = 0,675
Gain(Âge) = 0,971 – 0,675 = 0,296
c) Attribut Revenu élevé
Revenu Total Oui Non Entropie

Oui 5 4 1 0,722

Non 5 2 3 0,971

Entropie conditionnelle = (0,5 × 0,722) + (0,5 × 0,971) = 0,847

Gain(Revenu) = 0,971 – 0,847 = 0,124

3. Choix du meilleur attribut

L’attribut avec le gain le plus élevé est "Âge" (0,296)

⇒ Il sera utilisé comme racine de l’arbre.

Construction de l’arbre
Branche "Âge = Moyen"

Tous les exemples sont "Oui" ⇒ Feuille = Oui

Branche "Âge = Jeune"

Tuples : 2 "Oui", 2 "Non" ⇒ tester Étudiant

Étudiant Oui Non

Oui 2 0

Non 0 2

→ Si Étudiant = Oui ⇒ Oui

→ Si Étudiant = Non ⇒ Non

Branche "Âge = Senior"

Tuples : 1 "Oui", 2 "Non" ⇒ tester Revenu élevé

Revenu élevé Oui Non

Oui 1 0

Non 0 2

→ Si Revenu = Oui ⇒ Oui

→ Si Revenu = Non ⇒ Non

Arbre final (forme textuelle)

Âge
/ | \
Jeune Moyen Senior
| | |
Étudiant Oui Revenu élevé
/ \ / \
Oui Non Oui Non

Conclusion :
Cet arbre de décision permet de prédire l’inscription d’un individu à la formation en posant 2
à 3 questions simples :

1. Quel est son âge ?

2. Est-il étudiant ? (si Jeune)
3. A-t-il un revenu élevé ? (si Senior)

📊 Chapitre 5 : Clustering et Algorithme des K-means

1. Définition du clustering
Le clustering (ou classification non supervisée) est une méthode d'apprentissage
automatique non supervisé.
Contrairement à l’apprentissage supervisé, il n’existe pas de variable cible (Y).
Le but est de regrouper automatiquement les objets similaires en groupes homogènes,
appelés clusters.

Objectif :

• Maximiser la similarité à l’intérieur de chaque cluster.

• Minimiser la similarité entre clusters différents.

2. Applications du clustering
• Text mining : regrouper des documents similaires.
• Web mining : profiler des utilisateurs ou pages similaires.
• Bioinformatique : classer des gènes ou séquences proches.
• Marketing : segmenter les clients.
• Analyse de logs : détecter des profils ou comportements types.

3. 🧪 Formalisation mathématique
• Soit un ensemble de données S = {x₁, x₂, ..., xₙ},
• Le clustering consiste à construire une fonction f : S → {1, ..., k}
• Chaque élément est affecté à l’un des k clusters C₁, ..., Cₖ
• Une fonction de similarité sim(xᵢ, xⱼ) permet de mesurer à quel point deux éléments
sont proches

Critère de qualité :
Pour tout xᵤ et xᵥ dans un même cluster Cⱼ, sim(xᵤ, xᵥ) > sim(xᵤ, x𝓌) pour x𝓌 ∉ Cⱼ

4. Problématiques du clustering
• Type de données : binaires, textuelles, numériques, etc.
• Choix de la mesure de similarité (ou dissimilarité)
• Comment définir un cluster pertinent ?
• Quel est le bon nombre de clusters ?
• Quel algorithme utiliser ?
• Comment évaluer la qualité du regroupement ?

5. Méthodes de clustering
a) Clustering par partitionnement

• Chaque point est affecté à un seul cluster

• Objectif : diviser l’espace en régions disjointes
• Ex : K-means

b) Clustering hiérarchique
• Structure en arbre (dendrogramme)
• Les clusters peuvent être imbriqués

6. 🧪 Mesures de similarité et de distance

a) Dissimilarité

• Fonction d(x₁, x₂) ≥ 0

• d(x₁, x₂) = d(x₂, x₁)
• d(x₁, x₂) = 0 si x₁ = x₂
⇒ Plus d est petit, plus les objets sont proches.

b) Similarité

• Fonction s(x₁, x₂) ≥ 0

• s(x₁, x₂) = s(x₂, x₁)
• s(x₁, x₁) ≥ s(x₁, x₂)
⇒ Plus s est grand, plus les objets sont proches.

c) Distance euclidienne

Soient p = (p₁,…,pₙ) et q = (q₁,…,qₙ)

7. Distance entre deux clusters

Méthode Formule simplifiée

Plus proche voisin Dmin(C₁, C₂) = min{d(xᵢ, xⱼ)}

Plus loin voisin Dmax(C₁, C₂) = max{d(xᵢ, xⱼ)}

Moyenne D(C₁, C₂) = moyenne des distances entre tous les points

Centres de gravité Dcg(C₁, C₂) = distance entre les centres µ₁ et µ₂

8. Évaluation de la qualité d’un clustering

a) Centre de gravité (µₖ)

C’est le barycentre (moyenne) des points du cluster Cₖ.

b) Inertie intra-cluster

Mesure la compacité d’un cluster (dispersion autour de µₖ).

Plus l'inertie est faible, plus le cluster est homogène.

c) Inertie inter-cluster

Mesure la séparation entre les centres des clusters.

Plus elle est grande, mieux les clusters sont distincts.

Relation :

Inertie totale = Inertie intra-cluster + Inertie inter-cluster

But : minimiser l’intra, maximiser l’inter.

Parfait ! Voici les formules avec explications et un exemple numérique simple pour bien
comprendre les notions de :

1. Centre de gravité (µₖ)

2. Inertie intra-cluster
3. Inertie inter-cluster

Contexte de l’exemple
On considère 4 points en 2D, répartis dans 2 clusters :

• Cluster C₁ : A(1,2), B(2,2)

• Cluster C₂ : C(8,8), D(9,8)

1⃣ Centre de gravité (μₖ)

C’est la moyenne des points dans chaque cluster (barycentre).

Formule :
Application :

• Pour C₁ (A et B) :
o x = (1+2)/2 = 1.5
o y = (2+2)/2 = 2
o → μ₁ = (1.5, 2)
• Pour C₂ (C et D) :
o x = (8+9)/2 = 8.5
o y = (8+8)/2 = 8
o → μ₂ = (8.5, 8)

2⃣ Inertie intra-cluster
Elle mesure la dispersion des points autour de leur centre.

Formule :

Application :

• Pour C₁ :
o A(1,2) → ||A - μ₁||² = (1 - 1.5)² + (2 - 2)² = 0.25
o B(2,2) → ||B - μ₁||² = (2 - 1.5)² + (2 - 2)² = 0.25
o Somme = 0.25 + 0.25 = 0.5
• Pour C₂ :
o C(8,8) → (8 - 8.5)² + (8 - 8)² = 0.25
o D(9,8) → (9 - 8.5)² + (8 - 8)² = 0.25
o Somme = 0.25 + 0.25 = 0.5

→ Inertie intra = 0.5 + 0.5 = 1.0

Cela montre que les points sont très proches de leurs centres → bonne compacité.
3⃣ Inertie inter-cluster
Elle mesure la distance des centres de chaque cluster au centre global.

Étape 1 : calculer le centre global μ

On fait la moyenne de tous les points :

• x = (1 + 2 + 8 + 9) / 4 = 5
• y = (2 + 2 + 8 + 8) / 4 = 5
→ μ = (5, 5)

Formule :

Application :

• Pour C₁ (2 points) :
o ||μ₁ - μ||² = (1.5 - 5)² + (2 - 5)² = 12.25 + 9 = 21.25
o Contribution = 2 × 21.25 = 42.5
• Pour C₂ (2 points) :
o ||μ₂ - μ||² = (8.5 - 5)² + (8 - 5)² = 12.25 + 9 = 21.25
o Contribution = 2 × 21.25 = 42.5

→ Inertie inter = 42.5 + 42.5 = 85

Cela montre que les clusters sont très éloignés les uns des autres → bonne séparation.

Résumé dans un tableau

Mesure Formule Exemple résultat
Centre de gravité μₖ = (1/nₖ) ∑ xᵢ μ₁ = (1.5, 2), μ₂ = (8.5, 8)
Inertie intra-cluster ∑ₖ ∑ₓ∈Cₖ
Inertie inter-cluster ∑ₖ nₖ ×
9. Algorithme des K-means
Étapes de l’algorithme :

1. Choisir K centres initiaux (aléatoirement ou heuristiquement)

2. Affecter chaque point au centre le plus proche
3. Recalculer les nouveaux centres des groupes
4. Répéter jusqu’à stabilisation (plus de changement d’affectation)

Avantages
• Simple à comprendre et à implémenter
• Très rapide, même sur des grandes bases
• S’adapte à divers types de données si la distance est bien choisie

Inconvénients
• Il faut connaître K à l’avance
• Résultat dépend du choix initial des centres
• Peut converger vers un optimum local
• Les clusters peuvent être non significatifs s’ils sont mal initialisés

🧪 Comment choisir le bon nombre de clusters (K) ?

Méthode du coude (elbow method)

1. Tester plusieurs valeurs de K

2. Observer la diminution de l’inertie intra-cluster (W)
3. Choisir K où l’amélioration devient marginale (le "coude")

Exemple d’exercice
Points :
A1=(2,10), A2=(2,5), A3=(8,4), A4=(5,8), A5=(7,5), A6=(6,4), A7=(1,2), A8=(4,9)
Objectif : Former 3 clusters avec K-means.
Centres initiaux : A1, A4, A7
Travail demandé :

• Appliquer l’algorithme pas à pas (affectation, recalcul)

• Afficher les étapes intermédiaires
• Dessiner les groupes formés

Voici un exercice d'application complet sur le clustering avec l’algorithme des K-means,
avec toutes les étapes expliquées pas à pas. C’est un exercice idéal pour bien comprendre la
logique et les calculs impliqués.

🧪 Exercice : Application de l’algorithme K-means

Contexte :

On dispose de 8 points dans un plan 2D :

Point Coordonnées (x, y)

A1 (2, 10)
A2 (2, 5)
A3 (8, 4)
A4 (5, 8)
A5 (7, 5)
A6 (6, 4)
A7 (1, 2)
A8 (4, 9)

Objectif :

Regrouper ces points en K = 3 clusters à l’aide de l’algorithme des K-means.

Centres initiaux :

• Centre C1 = A1 = (2, 10)

• Centre C2 = A4 = (5, 8)
• Centre C3 = A7 = (1, 2)

Étape 1 : Affectation initiale

Pour chaque point, on calcule la distance euclidienne à chacun des centres, puis on l’affecte
au plus proche.

Exemple : distance de A2 (2,5) aux centres

• d(A2, C1) = √[(2-2)² + (5-10)²] = √25 = 5

• d(A2, C2) = √[(2-5)² + (5-8)²] = √[9 + 9] = √18 ≈ 4.24
• d(A2, C3) = √[(2-1)² + (5-2)²] = √[1 + 9] = √10 ≈ 3.16

A2 est affecté à C3

Résultat des affectations (tableau résumé) :

Point Coordonnées Distance à C1 C2 C3 Cluster

A1 (2, 10) 0.00 3.61 8.06 C1
A2 (2, 5) 5.00 4.24 3.16 C3
A3 (8, 4) 7.21 5.00 7.28 C2
A4 (5, 8) 3.61 0.00 7.62 C2
A5 (7, 5) 6.40 3.61 6.40 C2
A6 (6, 4) 6.32 4.47 5.39 C2
A7 (1, 2) 8.06 7.62 0.00 C3
A8 (4, 9) 2.24 1.41 7.21 C2

Étape 2 : Recalcul des centres

On calcule les nouveaux centres (moyenne des coordonnées) pour chaque cluster.

Nouveau centre C1 :

A1 = (2, 10)
→ Nouveau C1 = (2, 10)

Nouveau centre C2 :

Points : A3, A4, A5, A6, A8

• Moyenne x = (8 + 5 + 7 + 6 + 4) / 5 = 30 / 5 = 6
• Moyenne y = (4 + 8 + 5 + 4 + 9) / 5 = 30 / 5 = 6
→ Nouveau C2 = (6, 6)

Nouveau centre C3 :

Points : A2, A7

• Moyenne x = (2 + 1) / 2 = 1.5
• Moyenne y = (5 + 2) / 2 = 3.5

→ Nouveau C3 = (1.5, 3.5)

Étape 3 : Nouvelle affectation

On recommence l'étape d'affectation avec les nouveaux centres.

(Calculs similaires, tu peux les refaire ou automatiser avec Excel)

Répéter jusqu’à stabilisation

L’algorithme s’arrête lorsque plus aucun point ne change de cluster entre deux itérations.

Conclusion :
L'algorithme K-means regroupe les données en clusters homogènes selon leur proximité
géométrique.
Ce type de regroupement est utilisé en marketing, biologie, traitement de texte, etc.

Voici une reformulation complète, détaillée et explicative du cours sur la Classification

Ascendante Hiérarchique (CAH).

🧪 Fouille de données - Chapitre 6 : La Classification

Ascendante Hiérarchique (CAH)
1. Introduction à la CAH
La Classification Ascendante Hiérarchique (CAH) est une méthode de classification non
supervisée. Elle consiste à organiser un ensemble d'individus (ou objets) en groupes
hiérarchiques (ou clusters) sans connaissance préalable des classes.

Principe :

• On commence avec chaque individu comme une classe unique (singleton).

• À chaque itération, on fusionne les deux groupes les plus proches selon une certaine
mesure de distance.
• Ce processus continue jusqu’à n’avoir qu’un seul groupe contenant tous les
individus.

La CAH est souvent utilisée en analyse des données multivariées pour explorer les
structures cachées dans les données.

2. Étapes de l’algorithme CAH

🧭 Phase 1 : Initialisation

• Chaque individu est une classe (donc n classes pour n individus).

• On calcule une matrice des distances entre tous les couples d’individus.

🔁 Phase 2 : Itération

• On identifie les deux classes les plus proches selon un critère choisi.
• On les regroupe.
• On met à jour la matrice des distances en remplaçant les deux anciens groupes par
le nouveau.
• Le processus continue jusqu’à ce que tous les individus soient réunis en une seule
classe.

🧪 3. Préparation : distances et critères d’agrégation

Avant de lancer l’algorithme, il faut :

📏 Définir une distance entre individus

Le choix dépend de la nature des données et des objectifs d’analyse.

📐 Choisir un critère d’agrégation (stratégie de regroupement)

• Objectif : minimiser un indice d’agrégation à chaque étape.

4. Critères d’agrégation (stratégies de liaison)

🔷 Méthode de Ward (la plus courante)

• On cherche à minimiser la perte d’inertie inter-classes à chaque fusion.

• Initialement, l’inertie inter-classe est maximale car chaque individu est seul.
• À chaque étape, on fusionne les deux groupes qui réduisent le moins la variabilité
entre classes.

Autres stratégies :

• Lien simple (single linkage) : distance minimale entre deux éléments de classes
différentes.
• Lien complet (complete linkage) : distance maximale entre deux éléments de classes
différentes.

5. Choix de la partition finale

L’arbre hiérarchique construit doit être coupé à un certain niveau pour déterminer les classes
finales.

• On cherche des grandes branches (écarts importants) dans l’arbre.

• L’objectif est d’avoir des classes :
o Non vides.
o Disjointes (pas de chevauchement).
o Couvrant l’ensemble des individus.

6. Importance du choix des distances

Le choix de la mesure de distance influence directement :

• Le contenu de la matrice de distances initiale.

• La structure finale de l’arbre.

Deux matrices de distances différentes → résultats très différents !

🧪 7. Limites de la CAH

• Sensible au choix des distances et des critères de fusion.

• Résultats non reproductibles si ces choix changent.
• Complexité computationnelle élevée quand le nombre d’individus augmente.

8. Exemple illustratif

On souhaite regrouper 5 observations :

Étapes :

1. Chaque observation est une classe.

2. On identifie la plus petite distance, par exemple entre les observations 2 et 3 → on
les regroupe.
3. On met à jour la matrice de distance en remplaçant 2 et 3 par un nouveau cluster (ex.
noté 6).
4. On répète l’opération (par exemple, observations 4 et 5 → cluster 7).
5. On continue jusqu’à former un seul arbre de regroupement.

La hauteur des branches reflète les distances entre groupes : plus la branche est haute, plus
la distance entre les classes fusionnées était grande.

Résumé final
Élément Rôle

CAH Classification hiérarchique non supervisée

Distance Mesure la ressemblance entre individus

Critère de fusion Méthode pour regrouper les clusters

Méthode de Ward Réduit au minimum la perte de variabilité inter-classe

Arbre (dendrogramme) Visualise le processus de regroupement

Partition finale Choisie par coupure à un certain niveau de l’arbre

Voici un exercice applicatif complet sur la Classification Ascendante Hiérarchique

(CAH) avec énoncé, tableau de distances, application de l’algorithme pas à pas, et corrigé
détaillé à la fin.

Exercice : Application de la CAH

Énoncé :

On dispose des 5 individus A, B, C, D et E dont les distances ont été mesurées en utilisant la
distance euclidienne. La matrice de distance symétrique entre eux est donnée ci-dessous :

A B C D E
A 0 2.8 4.1 6.0 6.2
B 2.8 0 3.2 5.9 6.1
C 4.1 3.2 0 4.5 5.0
D 6.0 5.9 4.5 0 2.1
E 6.2 6.1 5.0 2.1 0

Objectif : Appliquer l’algorithme de la classification hiérarchique ascendante (CAH) avec

la méthode de liaison simple (single linkage) pour construire un dendrogramme, et
proposer une partition finale en 2 classes.

🧪 Étapes de résolution
Étape 1 : Matrice de distances initiale

(Identique à l’énoncé)
Étape 2 : Identifier les deux plus proches

La plus petite distance est 2.1 (entre D et E).

→ On crée un cluster C1 = {D, E}.

Étape 3 : Mise à jour de la matrice

Utiliser liaison simple : distance du nouveau cluster avec les autres = plus petite distance
entre un élément du cluster et les autres.

A B C C1 (D,E)
A 0 2.8 4.1 6.0
B 2.8 0 3.2 5.9
C 4.1 3.2 0 4.5
C1(D,E) 6.0 5.9 4.5 0

Étape 4 : Nouveau regroupement

Plus petite distance : 2.8 entre A et B

→ Nouveau cluster C2 = {A, B}

Étape 5 : Mise à jour

C2 (A,B) C C1 (D,E)
C2 0 3.2 5.9
C 3.2 0 4.5
C1 5.9 4.5 0

Étape 6 : Nouveau regroupement

Plus petite distance : 3.2 entre C et C2

→ Nouveau cluster C3 = {A, B, C}

Étape 7 : Mise à jour finale

C3 (A,B,C) C1 (D,E)
C3 0 4.5
C1 4.5 0

Distance unique : 4.5 → fusion finale.

Dendrogramme schématique
Distance
|
6 | ┌───────────────┐
5 | │ C3 │
4 | ┌──────────┴───┐ │
3 | │ │ │
2 | ┌────┴───┐ ┌───┴───┐ ← C1 = {D,E}
1 | A B C D E
---2.8--- ---3.2--- ---2.1---

Partition finale en 2 classes

On coupe l’arbre au niveau 4, ce qui donne :

• Classe 1 : {A, B, C}
• Classe 2 : {D, E}

Résumé de l’exemple
Étape Fusion Distance
1 D et E 2.1
2 A et B 2.8
3 (A,B) et C 3.2
4 (A,B,C) et (D,E) 4.5

Vous aimerez peut-être aussi

Analyse Et Prédiction Des Crises Cardiaques
Pas encore d'évaluation
Analyse Et Prédiction Des Crises Cardiaques
30 pages
Cours Data Mining
Pas encore d'évaluation
Cours Data Mining
60 pages
Chapitre 6 Clustering Hi-Rarchique
Pas encore d'évaluation
Chapitre 6 Clustering Hi-Rarchique
62 pages
Classification Bayésienne Simplifiée
Pas encore d'évaluation
Classification Bayésienne Simplifiée
41 pages
Exercices Avec Solution
Pas encore d'évaluation
Exercices Avec Solution
42 pages
Output 4
Pas encore d'évaluation
Output 4
3 pages
Module: Analyse Et Fouille de Données
Pas encore d'évaluation
Module: Analyse Et Fouille de Données
3 pages
TP 1 A Rendre
Pas encore d'évaluation
TP 1 A Rendre
6 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
Clustering et Algorithmes DBSCAN
Pas encore d'évaluation
Clustering et Algorithmes DBSCAN
36 pages
Arbres de décision en data mining
Pas encore d'évaluation
Arbres de décision en data mining
49 pages
Examen BD Juin2005
Pas encore d'évaluation
Examen BD Juin2005
5 pages
Introduction aux SVM et classification
Pas encore d'évaluation
Introduction aux SVM et classification
18 pages
File D Attente
Pas encore d'évaluation
File D Attente
43 pages
Introduction Aux Bibliothèques NumPy Et Pandas
Pas encore d'évaluation
Introduction Aux Bibliothèques NumPy Et Pandas
13 pages
Pretraitement Des Donnees
Pas encore d'évaluation
Pretraitement Des Donnees
6 pages
Plan de Cours de Programmation Orientée Objet Avec Python
Pas encore d'évaluation
Plan de Cours de Programmation Orientée Objet Avec Python
6 pages
POO en Python : Classes et Objets
Pas encore d'évaluation
POO en Python : Classes et Objets
19 pages
Support TP DataPreprocessing
100% (1)
Support TP DataPreprocessing
2 pages
Évolution des Bases de Données Relationnelles
Pas encore d'évaluation
Évolution des Bases de Données Relationnelles
25 pages
Apriori Algorithm
Pas encore d'évaluation
Apriori Algorithm
3 pages
Sujet TP - Orange
Pas encore d'évaluation
Sujet TP - Orange
5 pages
Examen Classification Dec2018
Pas encore d'évaluation
Examen Classification Dec2018
3 pages
7.règles D'association Python.0
Pas encore d'évaluation
7.règles D'association Python.0
31 pages
TP Mnist Ia M1
Pas encore d'évaluation
TP Mnist Ia M1
75 pages
TP Analyse en Composantes Principales
Pas encore d'évaluation
TP Analyse en Composantes Principales
3 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
TP - Visualisation Des Données - Maîtrise de Matplotlib
Pas encore d'évaluation
TP - Visualisation Des Données - Maîtrise de Matplotlib
6 pages
Exemple K Means Et HCA PDF
Pas encore d'évaluation
Exemple K Means Et HCA PDF
4 pages
Exercices Avec Corrige-Base de Donnes-Mod Non Relationnel1
Pas encore d'évaluation
Exercices Avec Corrige-Base de Donnes-Mod Non Relationnel1
8 pages
TP STATISTIQUE: Intervalle de Confidence en Langage R
Pas encore d'évaluation
TP STATISTIQUE: Intervalle de Confidence en Langage R
2 pages
Python - Les Classes
Pas encore d'évaluation
Python - Les Classes
24 pages
Le Prétraitement Des Données Expliqué Simplement
Pas encore d'évaluation
Le Prétraitement Des Données Expliqué Simplement
7 pages
TP SVM
Pas encore d'évaluation
TP SVM
7 pages
Réseaux Neurones : Histoire et Applications
Pas encore d'évaluation
Réseaux Neurones : Histoire et Applications
56 pages
TD 1
Pas encore d'évaluation
TD 1
1 page
Chap 4
Pas encore d'évaluation
Chap 4
46 pages
Chapitre 5 - Les Arbres de D-Cision
Pas encore d'évaluation
Chapitre 5 - Les Arbres de D-Cision
33 pages
TP 2 Clustering
Pas encore d'évaluation
TP 2 Clustering
2 pages
Gestion des données manquantes et binning
Pas encore d'évaluation
Gestion des données manquantes et binning
1 page
Presentation KNN
Pas encore d'évaluation
Presentation KNN
11 pages
Chapitre II
Pas encore d'évaluation
Chapitre II
48 pages
Université Ferhat Abbas Sétif-1 2021-2022 Faculté Des Sciences, Département D'informatique Programmation Web Avancée
Pas encore d'évaluation
Université Ferhat Abbas Sétif-1 2021-2022 Faculté Des Sciences, Département D'informatique Programmation Web Avancée
1 page
Introduction à la Recherche d'Info
Pas encore d'évaluation
Introduction à la Recherche d'Info
93 pages
Règles d'Association en Data Mining
100% (1)
Règles d'Association en Data Mining
21 pages
Examen final BDD avancées 2017/2018
Pas encore d'évaluation
Examen final BDD avancées 2017/2018
6 pages
Chap4-Ingénierie Des Donnéesnov2023
Pas encore d'évaluation
Chap4-Ingénierie Des Donnéesnov2023
53 pages
Analyse des réseaux et centralités
Pas encore d'évaluation
Analyse des réseaux et centralités
53 pages
Mi Lessons2an-Systeme Information Usthb
Pas encore d'évaluation
Mi Lessons2an-Systeme Information Usthb
94 pages
Data Mining - Règles D'association
Pas encore d'évaluation
Data Mining - Règles D'association
16 pages
TD - Kmeans CAH
Pas encore d'évaluation
TD - Kmeans CAH
3 pages
Règles D'association
Pas encore d'évaluation
Règles D'association
56 pages
Gestion Des Bases de Données - Série de Travaux Pratiques (SQL & PHP)
Pas encore d'évaluation
Gestion Des Bases de Données - Série de Travaux Pratiques (SQL & PHP)
5 pages
Support de TP 1 V1
Pas encore d'évaluation
Support de TP 1 V1
6 pages
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2021-2022
Pas encore d'évaluation
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2021-2022
95 pages
Introduction aux Types Abstraits de Données
Pas encore d'évaluation
Introduction aux Types Abstraits de Données
101 pages
TD3M1
Pas encore d'évaluation
TD3M1
1 page
TP-K-Means Clustering: Exemple de Resultat Trouve Pour K 2
Pas encore d'évaluation
TP-K-Means Clustering: Exemple de Resultat Trouve Pour K 2
1 page
Cours - Data Science Intro+ACP
100% (2)
Cours - Data Science Intro+ACP
63 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
131 pages
tp2_ai
Pas encore d'évaluation
tp2_ai
6 pages
Intelligence Artificielle Et Deep Learning
Pas encore d'évaluation
Intelligence Artificielle Et Deep Learning
19 pages
Dax MDX
Pas encore d'évaluation
Dax MDX
68 pages
Fiche de Notation Et Accord de Stage
Pas encore d'évaluation
Fiche de Notation Et Accord de Stage
2 pages
Chapitre 4. Arbre de Décision
Pas encore d'évaluation
Chapitre 4. Arbre de Décision
26 pages
BDNOSQL - KMO - IDSIT - VF - Year 2024-2025
Pas encore d'évaluation
BDNOSQL - KMO - IDSIT - VF - Year 2024-2025
67 pages
Mat3777 Exercices
Pas encore d'évaluation
Mat3777 Exercices
23 pages
Prepa N 2 2022-2023
Pas encore d'évaluation
Prepa N 2 2022-2023
3 pages
TERMINALE Maths Complementaires
Pas encore d'évaluation
TERMINALE Maths Complementaires
17 pages
Chap4 A
Pas encore d'évaluation
Chap4 A
52 pages
Introduction aux Variables Aléatoires Discrètes
Pas encore d'évaluation
Introduction aux Variables Aléatoires Discrètes
12 pages
Mss Rooms 2025
Pas encore d'évaluation
Mss Rooms 2025
5 pages
Programme - Agrgation Interne Section Math Matiques - Programme de La Session 2026 17311
Pas encore d'évaluation
Programme - Agrgation Interne Section Math Matiques - Programme de La Session 2026 17311
12 pages
Zooms Mathématiques Appliquées À La Gestion
100% (2)
Zooms Mathématiques Appliquées À La Gestion
296 pages
Optimisation Génétique en Production Animale
Pas encore d'évaluation
Optimisation Génétique en Production Animale
17 pages
Khawla Mihi
Pas encore d'évaluation
Khawla Mihi
53 pages
Méthodes de Prévisions Sur Les Données Du Trafic Aérien International
Pas encore d'évaluation
Méthodes de Prévisions Sur Les Données Du Trafic Aérien International
42 pages
Séminaire 5 - Echantillonnage
100% (1)
Séminaire 5 - Echantillonnage
36 pages
Introduction aux méthodes de Monte-Carlo
Pas encore d'évaluation
Introduction aux méthodes de Monte-Carlo
55 pages
Mesurer la Perception en Marketing
Pas encore d'évaluation
Mesurer la Perception en Marketing
61 pages
Plans d'Expériences: Guide Complet
Pas encore d'évaluation
Plans d'Expériences: Guide Complet
39 pages
Vecteurs Aléatoires et Espérance Mathématique
Pas encore d'évaluation
Vecteurs Aléatoires et Espérance Mathématique
47 pages
Uo3s lst3 TD Statistiques
Pas encore d'évaluation
Uo3s lst3 TD Statistiques
27 pages
Chapitre I Anlyse en Composantes Principales
100% (1)
Chapitre I Anlyse en Composantes Principales
20 pages
Tests d'hypothèses en statistique
Pas encore d'évaluation
Tests d'hypothèses en statistique
4 pages
Probabilités et Combinatoire FSJES Jadida
Pas encore d'évaluation
Probabilités et Combinatoire FSJES Jadida
89 pages
Probabilites TS2
100% (1)
Probabilites TS2
25 pages
TD S1 23-24
Pas encore d'évaluation
TD S1 23-24
6 pages
Analyse des Variogrammes et Anisotropie
Pas encore d'évaluation
Analyse des Variogrammes et Anisotropie
7 pages
Chapitre 2. Echantillonnage
Pas encore d'évaluation
Chapitre 2. Echantillonnage
20 pages
Formation D'econometrie Appliquee Au Logiciel Stata
100% (2)
Formation D'econometrie Appliquee Au Logiciel Stata
38 pages
Bce Sujet Maths BSB Ect
Pas encore d'évaluation
Bce Sujet Maths BSB Ect
6 pages
Activités
Pas encore d'évaluation
Activités
3 pages
Économétrie Financière : Concepts Clés
Pas encore d'évaluation
Économétrie Financière : Concepts Clés
101 pages
Estimation des processus BAR à Bordeaux
Pas encore d'évaluation
Estimation des processus BAR à Bordeaux
133 pages