Data Mining for
Engineers
LOTFI BEN ROMDHANE, PH.D.
ISITCOM/U. DE SOUSSE/ TN
3DNI
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 2
Sommaire
I. Introduction
II. Prétraitement des données
III. Modèles de Régression
IV. Techniques de Clustering
V. Arbres de décisions
VI. Règles d’associations
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 3
Introduction
CONCEPTS FONDAMENTAUX
Architecture Classique
© L. B. Romdhane; ISITCom 5
3 DNI - DATA MINING
Stat. Réseaux Sociaux 2019 (1)
[Link]
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 6
Stat. Réseaux Sociaux 2019 (2)
[Link]
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 7
Volume des données (1)
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 8
Volume des données (2)
[Link]
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 9
Volume des données (3)
[Link]
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 10
Volume des données (4)
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 11
Volume des données (5)
La croissance du volume de données est
exponentielle !
Les données sont disponibles d’une manière
instantanée avec des réseaux à haut débit
◦ actuellement les BDs sont réparties à l’échelle de la
planète
◦ La capacité de stockage n’est plus un problème
◦ les disques sont de grandes capacités
◦ on peut regrouper plusieurs disques qu’on utilise comme un seul
disque virtuel (RAID)
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 12
Problème
• On a besoin d’un ensemble de techniques qui sont
◦ rapides (temps d’exécution)
◦ mises en échelle (capables de traiter de grands volumes de données)
◦ Simples à utiliser
• pour tansformer les données en connaissances (knowledge)
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 13
Data Mining ?
• Un ensemble de techniques permettant d’extraire des connaissances utiles et intérressantes
à partir de grands volumes de données
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 14
Data Mining ?
© L. B. Romdhane; ISITCom 15
3 DNI - DATA MINING
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 16
Processus KDD (1)
Le Data Mining est une
étape cruciale dans le
processus KDDs
© L. B. Romdhane; ISITCom 17
3 DNI - DATA MINING
Processus KDD (2)
• Nettoyage des données
◦ supprimer bruit & inconsistance dans les données
Intégration des données
◦ combiner plusieurs sources de données
• Sélection des données
◦ extraire les données pertinentes pour l’étape de la fouille de données
Transformation des données
◦ représenter les données dans un format “adéquat”
◦ faire une réduction de dimensions: projection sur un espace de dimension inférieure
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 18
Processus KDD (3)
Fouille de données
◦ une étape importante dans laquelle plusieurs techniques intelligentes sont utilisées pour extraire
les connaissances
• Evaluation des connaissances
◦ sélectionner uniquement les connaissances utiles en se basant sur une “mesure de qualité”
• Présentation des connaissances
◦ présenter les connaissances extraites dans un format adéquat simple à comprendre par l’utilisateur
final
◦ les techniques de visualisation jouent un rôle primordial à ce niveau
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 19
Cycle du Data Mining
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 20
Connaissances (1)
• Aucune définition précise et satisfaisante de la notion de connaissances
• Les connaissances est un ensemble de patrons (patterns) ayant une certaine forme
d’intelligence
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 21
Connaissances (2)
• On rattache généralement deux concepts fondamentaux aux connaissances
◦ processus d’extraction : méthodes/algorithmes utilisés pour extraire les connaissances à partir des
données
◦ mode de représentation : la forme de représentation des connaissances
◦ en général, dépend étroitement de l’algorithme d’extraction
données Algorithmes Connaissances
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 22
Connaissances (3)
PATRONS STRUCTURÉS PATRONS « BLACK-BOX »
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 23
Discussion (1)
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 24
Discussion (2)
Quels sont les produits
Décisions sont plus
que le client est
faciles et tangibles ! suceptible d’achter
Les décisions sont basées sur
des connaissances/modèles
construits à partir des données
Quels sont les
Quel serait le prix du
thématiques préférées de
pétrole dans les jours à
cet internautes ?
venir
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 25
Rappel Mathématique (1)
• On considère une variable X = {x1, x2, …, xn} possédant N valeurs
• Moyenne de X
• Parfois les valeurs sont pondérées par des poids (fréquence par exemple)
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 26
Rappel Mathématique (2)
• Variance = 𝝈𝟐 ; écart type = 𝝈
© L. B. Romdhane; ISITCom 3 DNI - DATA MINING 27