0% ont trouvé ce document utile (0 vote)
22 vues37 pages

Comp Bio 6

Le document traite des concepts de data mining, machine learning et big data, en mettant l'accent sur leur application en bioinformatique. Il décrit les techniques d'exploration de données, les méthodes d'apprentissage supervisé et non supervisé, ainsi que les défis liés à l'analyse de grandes masses de données hétérogènes. Enfin, il souligne l'importance de l'intégration des technologies pour créer des systèmes intelligents capables de découvrir des connaissances à partir de données complexes.

Transféré par

degax14555
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues37 pages

Comp Bio 6

Le document traite des concepts de data mining, machine learning et big data, en mettant l'accent sur leur application en bioinformatique. Il décrit les techniques d'exploration de données, les méthodes d'apprentissage supervisé et non supervisé, ainsi que les défis liés à l'analyse de grandes masses de données hétérogènes. Enfin, il souligne l'importance de l'intégration des technologies pour créer des systèmes intelligents capables de découvrir des connaissances à partir de données complexes.

Transféré par

degax14555
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Mining/Machine Learning/ Big

Data
What’s this ?
Biblio :
Bioinformatics: The Machine Learning Approach, Second Edition (Adaptive Computation and
Machine Learning) – 2001 par Pierre Baldi et Søren Brunak

Introduction à la bioinformatique - 2001, par Cynthia Gibas et Per Jambeck. (traduit de


l'anglais)


Webs:

[Link]
[Link]
[Link]
[Link]
[Link]
La maturité
scientifique
Reconnaissance des Formes

Intelligence Artificielle

Data
Analyse de Données
Mining

Bases de Données

Big Data
Réseaux
Interdisciplinaire
2

1945 2000 2002 2015


stockées dans des
bases de données …

Analyse de
données…

Data réparties sur un


Mining réseau …

pour la
reconnaissance/découverte
de structures/connaissances La spirale
technologique 3
Exploration
de
Data
données
Mining

Fouille de
Données

KDD
?
4
Comment détecter des ressemblances, des structures, des motifs a priori ?

Jean-Paul

Samia

Lin

Samy

5
6
Système de Reconnaissance de Formes Classique

Monde Pré-
Codage traitements Analyse
Physique

Apprentissage Décision

Interprétation
7
A Apprentissage

B Décision

A = Ensemble d ’échantillons pour chaque classe


A =   Apprentissage Non Supervisé
A    Apprentissage Supervisé

8
Codage Prétraitement Analyse
Filtrage du bruit
e

Décision
Normalisation
a g
Squelettisation
is s
Segmentation n t
r e
pp
A
«3»
avec un score de
0.6

9
On travaille en général sur deux ensembles : un ensemble d’apprentissage A et un
ensemble de test T.

Une estimation du risque réel de l’hypothèse h proposée sur l’ensemble de test T peut
être obtenue à partir de la matrice dite de confusion.

Dans le cas binaire par exemple, c'est-à-dire dans le cas du test d'une hypothèse (une
classe) indépendamment des autres classes (hypothèses), on a

‘+’ prédit ‘-‘ prédit

Vrais positifs Faux négatifs


‘+’
réel
Faux positifs Vrais négatifs
‘-‘ réel

Risque Réel (h) = Somme des termes non diagonaux / Nombre d’exemples
= Somme des exemples mal classés / Nombre d’exemples

10
Dans le cas NON supervisé, les techniques spécifiques utilisées sont typiques des
applications dites de Fouille de Données

• Classification

• Segmentation

11
Un problème typique visuel qui pourrait relever de la problématique de
la Fouille de Données plus que Reconnaissance des Formes

On donne ces
données stockées
sur des supports
électroniques
hétérogènes et non
centralisés :

Alors sans intervention de type supervisé (cad sans apprentissage avec exemples), le système
parvient à détecter (structurer, extraire) la présence de 10 formes différentes sans forcément les
reconnaître, ou bien de 4 scripteurs différents sans forcément les identifier dans un premier temps :

12
Outre le paradigme de Reconnaissance des Formes, cette intégration
nouvelle ou ce paradigme nouveau est la résultante de problématiques
arrivées à maturité ou à leur limite comme :

• Les systèmes experts issus de l’IA


• Les bases et les entrepôts de données
• Les protocoles réseaux normalisés

Créer une intelligence des systèmes, avec les potentialités de chacun des
outils technologiques intégrés -> le rêve de système pensant plus que
pensé

Différence de points de vue entre : SELECTIONNE moi les NOMS des


CLIENTS ayant acheté du NUTELLA et du SAVON (requête de type SQL)
et je (le logiciel) te (l’utilisateur du logiciel) fais remarquer que les clients qui
achète du Nutella achètent aussi du Savon

13
Système Expert Classique

14
Base de Données Classique

Protocole de Communication Réseau Classique

15
Qu ’est-ce-que le data mining ?
• Data mining
–ensembles de techniques d'exploration de données afin d'en tirer des
connaissances (la substantifique moelle) sous forme de modèles
présentées à l ’utilisateur averti pour examen

Données Data
entrepôt mining Connaissances
Découverte de Compréhension
• Connaissances modèles Prédiction
–analyses (distribution du trafic en fonction de l ’heure)
–scores (fidélité d ’un client), classes (mauvais payeurs)
–règles (si facture > 10000 alors départ à 70%)

16
Mécanismes de base
•Déduction : base des systèmes experts
–schéma logique permettant de déduire un théorème à partir d'axiomes
–le résultat est sûr, mais la méthode nécessite la connaissance de règles

•Induction : base du data mining


–méthode permettant de tirer des conclusions à partir d'une série de
faits
–généralisation un peu abusive
–indicateurs de confiance permettant la pondération

17
Découverte de modèles
•Description ou prédiction

Confiance
Entrées

Sortie

•Apprentissage sur la base


•Utilisation pour prédire le futur
•Exemple : régression linéaire Y = a X + B

18
Le matériel biologique

19
A ce compte là, il ne s’agit plus d’apprendre donc de reconnaître mais déjà de
comprendre donc de structurer

20
Comment analyser, visualiser, structurer des grandes masses de données réparties, hétérogènes
>cDNA inconnu

AATGCAAGTGCATGCATGCATGCATCGGATCGTACGGATTGCAGTTCGGATTCATAATAA
ATGCGTAAAAACAGTAGTTTCACTAGTTTCAAAAGTTGCATAATACTTGCTGTTCTTCTT
GTTTACCCTAACAGTATGGCTGTTTTCGCTGTTGCTGCTGACGGTATACCTTTCCCTTAC
CACGCTAAATACAGTAACGGTGCTATAAGTCCTCTTCACGTTACTCAAAGTAGTGGTAAC
AGTAGTGTTAAAGCTGAATGGGAACAATGGAAAAGTGCTCACATAACTAGTGACCTTAAC
GGTGCTGGTGGTTACAAATACGTTCAACGTGACATAAACGGTAACACTGACGGTGTTAGT
GAAGGTCTTGGTTACGGTCTTATAGCTACTGTTTGCTTCAACGGTGCTGACAGTAACGCT
CAAACTCTTTACGACGGTCTTTACAAATACGTTAAAAGTTTCCCTAGTGCTAACAACCCT
AACCTTATGGGTTGGCACATAAACAGTAGTAACAACATAACTGAAAAAGACGACGGTATA
GGTGCTGCTACTGACGCTGACGAAGACATAGCTGTTAGTCTTATACTTGCTCACAAAAAA
TGGGGTACTAGTGGTAAAATAAACTACCTTAAAGCTGCTCGTGACTACATAAACAAAAAC
ATATACGCTAAAATGGTTGAACCTAACAACTACACTCTTAAACTTGGTGACATGTGGGGT
GGTAACGACTTCAAAAACGCTACTCGTCCTAGTTACTTCGCTCCTGCTCACCTTCGTATA
TTCTACGCTTACACTGGTGACAAAGGTTGGATAAACGTTGCTAACAAACTTTACACTACT
GTTAACGAAGTTCGTAACAAATACGCTCCTAAAACTGGTCTTCTTCCTGACTGGTGCGCT
GCTAACGGTACTCCTGAAAGTGGTCAAAGTTTCGACTACGACTACGACGCTTGCCGTGTT
CAACTTCGTACTGCTATAGACTACAGTTGGTACGGTGACGCTCGTGCTGCTGCTCAAAGT
GACAAAATGAACAGTTTCATAGCTGCTGACACTGCTAAAAACCCTAGTAACATAAAAGAC
GGTTACACTCTTAACGGTAGTAAAATAAGTAGTAACCACAGTGCTAGTTTCTACAGTCCT
GCTGCTGCTGCTGCTATGACTGGTACTAACACTGCTTTCGCTAAATGGATAAACAGTGGT
TGGGACAAAGTTAAAGACAGTAAAAAATACGGTTACTACGGTGACAGTCTTAAAATGCTT
ATAATGCTTTACATAACTGGTAACTTCCCTAACCCTCTTAGTGACCTTAGTAGTCAACCT
AGTCCTGGTGACCTTAACGGTGACGGTGAAATAGACGAACTTGACATAGCTGCTCTTAAA
AAAGCTATACTTAAACAAAGTACTAGTAACATAAACCTTACTAACGCTGACATGAACCGT
GACGGTGCTATAGACGCTAGTGACTTCGCTATACTTAAAGTTTACCTTTAAT

21
Un système d’Extraction de Connaissances

Rough Clear 22
Information Information
Des techniques issus de l’IA et de la RF

Machine learning techniques such as :


• Arbre de décision • Réseaux de neurones
• Règles d’association • Clustering

Des systèmes combinant les technologies Réseaux et BD

• SQL • FTP
• TCP/IP • Php / mySQL

Des champs d’applications très diversifiés


• Commerce – Economie • Bio-informatique
• Web Mining et Marketing • Médecine
23
Principe global

L’importance pratique et industrielle des procédés d’analyse automatique et


intelligente de données, textes, images, sons ou enregistrements
électroniques est telle que beaucoup de recherches spécialisées se sont
développées.

Nous cherchons ici à en donner une idée et à en dégager les points communs
qui sont le propre de la méthodologie de la Fouille de Données.

C’est essentiellement dans la conception des processus de discrimination (ou


d’affectation à diverses catégories) que l’on retrouve une méthodologie
commune, à quelques variantes près.

En gros une telle fonctionnalité est constituée de plusieurs composantes,


correspondant à plusieurs phases de traitement. On en distinguera
essentiellement deux, les autres pouvant s’échelonner entre les deux
extrêmes :
1. Le prétraitement
2. La découverte de catégories proprement dite

Un fait remarquable en FD est que chaque application fait appel à plusieurs


techniques parmi celles présentées ici, avec une interrelation parfois
24
surprenante où l’invention et le flair de l’ingénieurs sont rois.
Des algorithmes

Une évolution plus qu’une


révolution

Un cocktail de techniques

25
Des algorithmes

D’inspirations …

Mathématiques : stat. et AD

Calculatoires

Biologiques

26
Des algorithmes

Calculatoires

« Clustering »
Arbres de décision
Règles d’association
Programmation dynamique

Biologiques

Réseaux de neurones
Algorithmes génétiques
27
Des algorithmes

Non Supervisés
Apprentissage a priori en mode Découverte

« Clustering »
Algorithmes génétiques
Règles d’association

Supervisés
Apprentissage a posteriori en mode Reconnaissance -
Prédiction

Réseaux de neurones
Arbres de décision
Programmation dynamique 28
TIS : Translation Initiation Site Recognition/Prediction

Un échantillon de cDNA
299 HSU27655.1 CAT U27655 Homo sapiens
CGTGTGTGCAGCAGCCTGCAGCTGCCCCAAGCCATGGCTGAACACTGACTCCCAGCTGTG 80
CCCAGGGCTTCAAAGACTTCTCAGCTTCGAGCATGGCTTTTGGCTGTCAGGGCAGCTGTA 160
GGAGGCAGATGAGAAGAGGGAGATGGCCTTGGAGGAAGGGAAGGGGCCTGGTGCCGAGGA 240
CCTCTCCTGGCCAGGAGCTTCCTCCAGGACAAGACCTTCCACCCAACAAGGACTCCCCT
............................................................ 80
................................iEEEEEEEEEEEEEEEEEEEEEEEEEEE 160
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE 240
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE

Pourquoi le second ATG est-il un TIS?


A partir de ARNm, ADNc et séquence ADN.

TIS : règle simple du premier AUG (ou ATG si ADN traité) chez les eucaryotes. Mais
pas toujours. En plus, erreurs en particulier dans EST + processus biologique de la
traduction pas complètement compris.

Dans cette base, 13375 sites ATG, 25 % sont des vrais TIS.
On garde 100 nucléotides upstream et 100 nucléotides dowstream autour de chaque site
potentiel pour essayer de prédire la structure contextuelle expliquant la classification Vrai TIS /
Faux TIS.

Du perceptron, au réseau de neurones artificiels jusqu'aux SVM voir un cours de Machine


Learning.

Idée de base :

1. Coder les nucléotides avec un codage


binaire par exemple
A : 00
C : 01
G : 10
T : 11

2. Constituer un vecteur de codage


numérique (binaire dans ce cas)

00110001010011000010011_TIS_00010100010001010001

3. Nourrir un réseau de neurones plus ou moins sophistiqué pour qu'il apprenne à partir
d'exemples : Grand Renouveau actuel de cette modélisation : Deep Learning, Yann Le Cun,
un Frenchie, à New York, Facebook lab.

→ Un peu boîte noire, mais efficace, et nécessite une interprétation des résultats a posteriori.
Des techniques plus explicatives par k-gram etc. et approches génération de caractéristiques,
sélection de caractéristiques et intégration de caractéristiques.

Feature Generation : le codage finalement


k-gram : ici suite de k lettres
Si k=3, 4K combinaisons de trois lettres (cas du codon)
Un « feature » peut être un k-gram et sa fréquence d'apparition dans le fragment upstream et/ou
downstream, in-frame ou non etc.
On construit un vecteur de caractéristiques de k-gram et de leurs occurrences pour k variant
entre 1 et 5 par exemple : à la fin on a un vecteur à 4 436 composantes par exemple.

Feature Selection : le filtrage intelligent The Curse of


(significatif du point de vue du signal, Dimensionality
éventuellement biologique) In Classification
On ne garde que des caractéristiques semblant
caractéristiques de la classe TIS/ Non TIS par des x1
techniques de corrélations croisées par exemple. > a1
Ici on ne retient que 9 « features » par exemple.
x2 x3
Feature integration : la décision / l'algorithme
> a2
de classification/prédication
Sur les 9 caractéristiques précédents on entraîne un SVM
(séparateur linéaire sophistiqué), un C4.5 (arbre de décision),
A x4 B A
un classificateur Naïf Bayésien etc. (voir Weka) et on obtient un prédicteur in silico.
« if up-ATG = Y and down-STOP >0 then prediction is false TIS »
« if up3-AorG = N and down-STOP <=0 and up3-AorG = Y, then prediction is true TIS » B A
Reste comme toujours à interpréter biologiquement. (Séquence consensus de Kozak :
GCC[AG]CCAUGG, îlots CpG (C.G) etc.)
Prognosis based on Gene Expression Profiling

Decision Tree Based In-Silico Cancer Diagnosis


x1
> a1

x2 x3
> a2
A x4 B A

B A

Root node

Internal nodes

B
Leaf nodes
A B A
A
B A
Given a test sample, at most 3 of the 4 genes’
expression values are needed to make a
decision!

• Yeoh et al., Cancer Cell 1:133-143, 2002; Differentiating MLL subtype from other
subtypes of childhood leukemia

Training data (14 MLL vs 201 others), Test data (6 MLL vs 106 others), Number of
features: 12558
Diagnosis of Childhood Acute Lymphoblastic Leukemia (ALL)
and Optimization of Risk-Benefit Ratio of Therapy
Immunophenotyping

Yeoh et al., Cancer Cell 1:133-143, 2002; Given a test sample, at most 3 of the 4 genes’
Differentiating MLL subtype from other subtypes of expression values are needed to make a
childhood leukemia. Training data (14 MLL vs 201 others), decision!
Test data (6 MLL vs 106 others), Number of features: 12558
A. G. Hatzigeorgiou. Translation initiation start prediction in human cDNAs with
high accuracy. Bioinformatics, 18(2):343–350, 2002.
Précision globale de 94 %
PAS Prediction

BEGI N

I ncomi ng
sequences

Feat ur e gener at i on

Feat ur e sel ect i on

Feat ur e i nt egr at i on

END

SVM in Weka

Vous aimerez peut-être aussi