BIG
TADAL’encyclopédie
desbigdata2016
2
G
A
TA
BIG
TADA
G
DAPréambule
1
I
nterrogez des DSI ou des Directeurs Digitaux sur ce que
représentent pour eux les « Big Data » : la moitié d’entre eux
vous en parlera comme de la clé de voûte de leur stratégie
d’innovation, l’autre moitié vous regardera de travers et rejettera
l’expression comme un buzzword nébuleux, forgé par les
éditeurs à des fins strictement commerciales. Pour le grand
public, le terme est couramment associé à Google, Facebook
et consorts et à l’idée que ces géants du numérique savent tout
sur notre vie et pourraient bien un jour nous renvoyer en 1984.
Bref, le besoin de clarification était criant.
Il n’est pas certain que, de cet ouvrage, les réfractaires sortent
convaincus, ni que les aficionados y retrouvent exactement leur
vision. Avec cette Encyclopédie nous avons tenté de définir
un objet multiple et mouvant, qui évolue avec les moyens
technologiques et les pratiques de ceux qui le construisent.
C’est pour cette raison que nous avons associé à cette démarche
trente pratiquants des Big Data, dont les témoignages nous ont
paru indispensables pour expliquer concrètement les notions
rassemblées ici. C’est pour cela aussi qu’il ne faut pas voir
ce lexique comme une base de connaissances consolidées
pour la postérité, mais comme un bilan d’étape
d’une transformation en cours, une incitation à la réflexion.
Nous avons largement profité dans cette entreprise
des excellents conseils de nos quatre partenaires (Fifty-Five,
IBM, Turn et PwC) sans lesquels ce projet et les nombreux
événements de la Commission Big Data n’auraient pas pu
voir le jour. Merci également aux contributeurs qui ont eu
la gentillesse de nous recevoir dans leurs locaux et de partager
leurs idées et leurs retours d’expérience avec nous.
Merci à vous enfin, qui avez pris le temps d’ouvrir ce petit livre
au lieu de vous consacrer à votre travail ou à vos enfants.
Arthur Haimovici
EBG
PRÉAMBULE
2
Préambule p.1
Introduction p.4
SOMMAIRE
encyclopédie des big data
	 GRANDS
1	CONCEPTS p.7
	Transformation
2	de l’entreprise p.53
3Vp.8
Algorithmep.10
Crowdsourcingp.14
Data privacyp.16
Data visualizationp.20
Machine learningp.22
MAINTENANCE PRÉDICTIVE p.26
Objets connectés p.29
OPEN Data p.31
Sécurité des données p.32
smart Data p.35
Temps réel p.38
Valeurp.40
Variétép.41
Véracité p.44
Vitesse/VÉLOCITÉp.46
Volume p.48
WEB 3.0/WEB 4.0 p.50
Chief Data Officer p.54
CNIL p.57
Data Driven Organisationp.59
Data gouvernance p.62
Data scientistp.65
Désilotagep.69
MODE AGILEp.73
Test & learnp.75
3
conclusion p.156
contributeurs p.159
PARTENAIRES p.177
SOMMAIRE
4	OUTILS p.123
A/B Testing p.80
Ad Exchangep.83
API p.84
Cloud data
services p.87
Data MINing p.90
Data warehouse p.92
Look-alike Modelingp.93
Master Data Management p.96
modèles d’attribution p.99
Opt-in p.102
RTB p.105
Scraping p.109
Text mining p.110
THIRD Party Data
/ FIRST Party Data p.113
Tracking p.117
Traitement automatique
du langage naturel p.119
	 aspects
3	techniques p.79
ARBRE
DE DÉCISIONp.124
Cluster p.126
Data Lakep.127
DMP p.131
DPIp.135
ETLp.136
Hadoop p.138
Langage R p.142
MapReduce p.144
Python p.145
réseau
de neurones p.147
Sparkp.149
TAG MANAGEMENT
SYSTEM p.152
YARN p.154
4
encyclopédie des big data
Signe d’un engouement croissant pour le sujet,
les ouvrages consacrés au phénomène Big
Data ont fleuri au cours des dernières années. Il y a,
bien sûr, la cohorte des manuels pratiques destinés
aux professionnels, qui s’attardent à explorer un
aspect en particulier de cet immense champ nouveau, en le
rattachant à des aspects très orientés business, ou en s’attaquant
à son versant technique. Mais il y a aussi, de plus en plus, ces
livres destinés au grand public, et qui tentent de décrypter - en
les « dramatisant » bien souvent - les nouveaux enjeux de ce qu’ils
présentent comme une révolution. Entre ces deux catégories,
l’une ancrée dans les usages métiers, à fort degré de technicité
- et par la force des choses très jargonnante - l’autre ouverte à
l’analyse et à la prospection quand ce n’est pas aux fantasmes,
il n’existe en réalité pas vraiment d’intermédiaire. S’il n’entend
évidemment pas combler à lui seul un tel vide, l’ouvrage
que vous vous apprêtez à lire a néanmoins la prétention de
se placer exactement dans cet interstice. Pour cela, il a décidé
de s’appuyer sur l’expérience d’une trentaine d’acteurs majeurs
du monde des Big Data. Directeurs scientifiques ou marketing,
chief data officers, data scientists, professeurs, consultants :
ils ont partagé avec nous non seulement des cas concrets
auxquels l’importance croissante des données massives au sein
des entreprises les confrontent de plus en plus. Mais aussi une
vision globale de ce nouveau sujet, faite d’enjeux à courts terme
et de perspectives plus lointaines. Leurs témoignages, campés
dans la réalité de leur business, sont le fil rouge de ce livre.
Quant à la forme de ce dernier, elle est assez classique, mais
s’impose pour espérer traiter, dans ses grandes largeurs, d’un
sujet aussi vaste. C’est celle d’un dictionnaire, d’une encyclopédie,
oserons nous dire. Nous avons regroupé ici les termes qui sont
revenus le plus souvent dans la bouche de nos interlocuteurs
pour parler de Big Data. Et nous leur avons donné une définition,
ni rigoureusement technique, ni éminemment conceptuelle,
mais enracinée dans l’expérience. Ces quelque soixante entrées
INTRO
tionduc
5
INTRODUCTION
se répartissent en quatre grandes catégories, au sein desquelles
ils sont classés par ordre alphabétique. La première partie est
celle des grands concepts qui se rattachent au Big Data, et l’on
y trouvera des notions aussi variées que le machine learning, la
data privacy, ou les objets connectés. La seconde s’intéresse aux
impacts que peuvent avoir les données massives sur la structure
même des entreprises, et aux transformations à l’œuvre dans ces
dernières : désilotage, nouveaux modèles d’attribution, mise en
place d’une data gouvernance, etc. La troisième est dédiée aux
aspects techniques (et ils sont nombreux !) qui accompagnent les
projets Big Data, qu’on pense tracking, A/B testing, ou traitement
automatique du langage naturel. Enfin, la dernière partie regroupe
les outils les plus couramment utilisés pour se lancer dans le
traitement massif de la donnée, depuis les langages Python ou R,
jusqu’aux solutions Spark, YARN ou Hadoop.
Signalons que tous ces mots s’inscrivent dans un écosystème
complexe qui tisse entre eux une multitude de liens… si bien
qu’il est illusoire de s’attacher à développer chacun en faisant
abstraction des autres. Voilà pourquoi vous trouverez souvent,
dans les entrées de ce dictionnaire, des termes qui font l’objet
ailleurs d’un paragraphe spécifique, et qui sont signalés par un
système de renvoi. Dans la version papier de cet ouvrage, ces
termes ont été surlignés en couleur. Dans la version numérique,
ils sont cliquables sous la forme de lien hypertexte pointant
vers leur définition.
Les définitions de cet ouvrage ne prétendent pas à l’exhaustivité,
et beaucoup de nos lecteurs en connaîtront sans doute déjà
l’essentiel. Ils trouveront pourtant dans chacune, nous en sommes
sûrs, de nouvelles perspectives, de nouveaux éclairages, et
peut être aussi parfois, quelque fait, quelque anecdote qui aura
échappé à leur connaissance. Et puis, dans tous les cas, pour s’y
retrouver dans un secteur aussi dense et complexe que celui des
Big Data, avoir à portée de main un recueil de mots intelligibles et
clairs, ne peut être qu’une bonne idée !
6
7
En prenant conscience
de l’importance grandissante
qu’allaient être amenées à jouer
les Big Data, les entreprises se sont
retrouvées confrontées à une foule
de grandes notions, aux contours
flous, dont il s’agit désormais de
tirer parti. Algorithmes, Smart Data,
temps réel, objets connectés…
La maîtrise de ces nouveaux domaines
riches en promesses passe d’abord
par la compréhension de ce que
les Big Data impliquent d’un point
de vue business.
1. GRANDS
CONCEPTS
8
3V*
*Volume,Variété,Vitesse
P our tenter de donner un cadre théorique à la data revolution,
qui pointait déjà, au tournant des années 2000, le bout de son
nez, Doug Laney, analyste chez META Group (une société améri-
caine de conseil et d’audit rachetée entre temps par Gartner) pro-
pose en 2001, un modèle d’interprétation qui a fait, depuis, florès :
les 3 V, c’est-à-dire Volume , Variété , et Vitesse . Efficace et simple
à comprendre, ce résumé des trois variables caractéristiques du Big
Data a par la suite été repris par les consultants du monde entier.
Mieux : malgré les évolutions considérables qui agitent le monde
de la donnée, il se montre toujours capable d’en saisir la substan-
tifique moelle. Repre-
nant ce modèle devenu
classique, Samir Amellal
(Publicis Worldwide) livre
ainsi cette interprétation :
“
LeVolumeetlaVariété
sontuneconséquence
directedeladigitalisation.
Ilssontenquelquesorte
subis.Cesdeuxpremiers
“V”induisentunenécessité,
laVélocité,quiconstitue
letroisième. 
”Publicis Worldwide
Samir Amellal
encyclopédie des big data
9
Pour rendre plus pertinente et plus
actuelle cette analyse tricéphale,
certains acteurs peuvent ressentir
le besoin d’y ajouter un ou deux
autres V (à savoir la Véracité et la
Valeur  . On parlera alors des 5V du
Big Data. Mais peu importe, en réa-
lité, le nombre de critères. L’impor-
tant pour une entreprise va surtout consister à déterminer lequel
revêt le plus d’intérêt pour elle, en fonction de ses propres spécifici-
tés. Rares en effet sont aujourd’hui les acteurs à être concernés à va-
leur égale par chacun des 5 V. Chez Orange Datavenue, plateforme
dédiée à la collecte, au stockage et à l’agrégation de données, c’est
par exemple sur le terme de Variété que l’on met l’accent avant tout.
“
QuandonparleBig
Data,onvatoutde
suiteparler
volumededonnées.
Maisaudelàduvolume,
rienquelavariété
decesdernières
vaconstituerunenjeu
crucial,cephénomèneest
amplifiéparl’avènement
desobjetsconnectés.
”Orange Technocentre
Tania Aydenian
GRANDS
CONCEPTS
10
Algorithme
S i le Big Data était un organisme vivant, la donnée en consti-
tuerait le sang, et les algorithmes… le cerveau. Cette méthode
mathématique de résolution de problèmes est le moteur de l’intel-
ligence artificielle. Elle consiste en la description, dans un langage
de programmation, d’une suite finie d’étapes qui, à partir de don-
nées en entrée, livre des données en sortie, en vue d’un objectif
prédéterminé. Les algorithmes utilisés en informatique exécutent
ainsi des tâches définies par un humain, mais à des vitesses infi-
niment plus rapides que ce dernier, rendant possible la réalisation
de calculs inenvisageables auparavant. La montée en puissance des
ordinateurs permet de faire tourner des algorithmes de plus en plus
complexes, qui vont intervenir dans des domaines aussi variés que
le routage de l’information, l’optimisation de l’usage des ressources,
la prédiction, le machine learning , etc… Face à un éventail aussi
large, il s’agit pour les entreprises de trouver le bon cas d’usage, sus-
ceptible de leur apporter
de la valeur … Et qui cor-
respondent aussi, souligne
Elisabeth Zehnder (Kiabi),
aux attentes des métiers :
encyclopédie des big data
Lesalgorithmesvont
nouspermettrede
ciblernosclients,de
mesurerl’adéquationentre
clientsetproduits.C’estun
motquirésonnedonccôté
métier,etilfautvraiment
queleurmiseenplace
correspondeàunbesoin
métiertroisième. 
”Kiabi
Elisabeth Zehnder
11
IN
VIEWTER
GRANDS
CONCEPTS
Avec l’augmentation radicale des volumes de données, certains
algorithmes, qui n’avaient auparavant qu’une existence théorique,
finissent par susciter un vrai intérêt de la part des entreprises, et par
s’incarner dans des projets concrets. C’est le cas des algorithmes
de recommandation, dont nous parle Angélique Bidault-Verliac
(Voyages-sncf.com) :
Voyages-sncf.com
Angélique Bidault-Verliac
Responsable du Pôle Data & Webmining
Les algorithmes de recommandation,
pour lesquels il existait déjà une
abondante littérature scientifique,
n’ont commencé à trouver chez nous
des débouchés concrets que très récemment.
Leur mise en place a nécessité la levée de
certaines difficultés, grâce à une démarche
innovante. Il s’agissait en effet de recommander
à nos internautes des voyages, en s’appuyant
sur leurs recherches. Pour cela, il fallait être
capable d’interroger non pas une dimension
unique (l’internaute voit un produit, le moteur
lui en suggère un autre qui est lié), mais deux
dimensions (le point de départ du voyage,
et la destination à recommander).
”
12
Même si les algorithmes ne font « que » exécuter des tâches qui leur
sont confiées par des humains, le fait qu’ils constituent souvent des
solutions techniques proposées par des prestataires extérieurs peut
donner l’impression, à certains acteurs, de perdre le contrôle sur leur
usage. D’où le besoin, souligné par Geoffrey Zbinden (Orange), de
reprendre la main :
encyclopédie des big data
“ 
 Le risque principal lorsqu’on se met
à faire tourner des algorithmes
achetés à des partenaires extérieurs,
c’est que ceux-ci fonctionnent
entièrement comme des blackboxes. On ne peut pas
se contenter d’acheter l’algorithme, il faut aussi
maîtriser son fonctionnement, et maîtriser la donnée
qu’il utilise. L’enjeu du Big Data, c’est moins la partie IT
que l’optimisation de ce type de solutions.
”Orange
Geoffrey Zbinden
Vice President Big Data Analytics
& Customer Base Management
13
GRANDS
CONCEPTS
“ Les algorithmes sont devenus un
des outils de travail quotidiens du
marketing.Ilspermettentunecompréhension
plus fine des consommateurs et notamment des
internautes, des mobinautes. Grâce à la vitesse
de calcul disponible aujourd’hui et aux APIs,
ils produisent une information précieuse qui
est actionnable immédiatement. Nous avons
par exemple développé un algorithme visant à
automatiquement ajuster l’ordonnancement des
produits dans les listes de sites de e-commerce :
cela rend service à l’utilisateur en lui affichant le
contenu le plus judicieux, tout en permettant
au e-commerçant d’augmenter ses taux de
conversion. Notre solution est basée sur un
algorithme de machine learning, cela implique
qu’elle s’affine avec le temps à mesure que de la
donnée est emmagasinée : l’algorithme apprend
de lui-même, et sa performance est à tout instant
mesurableviaunelogiqued’A/Btest.L’algorithme
permet donc de transformer la donnée brute
en information précieuse dans le but d’une
optimisation. Recommander du contenu plus
pertinent ou optimiser l’affichage d’une page
web grâce à un algorithme… l’automatisation a
ses limites : l’algorithme n’est pas une solution
miracle pour le tout venant. S’il se décompose en
une suite de calculs que la machine opère plus
rapidement que l’homme, pour être et rester
efficace, il doit être supervisé par un data scientist
et se nourrir d’un volume de données suffisant,
mais surtout, il doit refléter une réalité métier
spécifique et être construit dans le but de
remplir un objectif précis. ”
Romain Warlop
Data Scientist
55
D’ex
pert
AVIS
14
F aire appel à la foule, à la collectivité, pour réaliser des tâches ha-
bituellement réalisées par des individus isolés : voilà une idée
totalement en phase avec une conception ouverte et innovante de
la donnée. L’idée directrice du crowdsourcing, c’est que la mise en
commun des intelligences et des savoir-faire va permettre l’émer-
gence de connaissances qui n’auraient pas pu voir le jour autrement.
IN
VIEWTER
crowdsourcing 
encyclopédie des big data
Intel
Marie-Christine Sawley
Exascale Lab Director
Le crowdsourcing est la traduction IT
des « petits ruisseaux qui font de
grandes rivières ». Ce concept
- matérialisé par exemple par la
croissance de la base de connaissances Wikipédia
ou par le guidage en temps réel Waze - a pris
beaucoup d’ampleur au cours des dernières
années. Ceci change la donne sur la fréquence
et l’impact des informations recueillies par les
entreprises auprès de clients ou utilisateurs
finaux. Le crowdsourcing risque aussi de redéfinir
en interne les vecteurs par lesquels la base peut
remonter les idées pour l’innovation
des produits et services.
””
15
IN
VIEWTER
GRANDS
CONCEPTS
Les technologies Big Data, en permettant la mise en commun de
sources de données toujours plus grandes, et en ouvrant surtout la
perspective de traitement en temps réel joue le rôle de facilitateur pour
les projets de crowdsourcing, comme le constate Aroua Biri (Sogeti) :
Pour les entreprises, le crowdsourcing constitue un uni-
vers nouveau propice à l’exploration. A la SNCF, plusieurs
projets faisant appel à l’intelligence des foules ont ainsi
vu le jour ces dernières années. Voici deux d’entre elles :
SNCF | Maguelonne Chandesris
Responsable de l’équipe Innovation
& Recherche «Statistique, Econométrie et Datamining»
Nous avons lancé
plusieurs projets qui
s’appuient sur une forte
composante crowdsourcing.
http : //garantiedesgares.com/
permet par exemple aux usagers
de nos gares de nous signaler en
direct des dysfonctionnements.
Ce genre d’initiative a un impact
direct sur notre entreprise. Ma
conviction c’est que derrière les
Big Data, il y a, outre la tech-
nique, des aspects humains très
forts, liés à notre façon d’appré-
hender notre métier.
Suite à un Hackathon, nous
avons également développé
en partenariat avec une startup
une application, Tranquilien,
qui permet de localiser le
prochain train dans lequel il y
a suffisamment de place pour
s’asseoir. C’est un système qui
s’appuie massivement sur du
crowdsourcing, dans la mesure
où ce sont les utilisateurs eux
mêmes qui ajoutent des
indications en temps réel
sur l’état des trains.
””
“  Le Big Data sert d’accélérateur au crowdsourcing, en
donnant une nouvelle envergure aux projets mis en oeuvre.
Ces derniers ont souvent des difficultés en terme de synchronisation
des différentes contributions : comment les mettre de concert,
comment les traiter au mieux ? Le Big Data va permettre d’automati-
ser beaucoup de choses, tout en rendant les processus plus rapides.
Il va ainsi agir comme un catalyseur du crowdsourcing, en permet-
tant d’en tirer de mieux en mieux profit. Il va aussi permettre la dé-
mocratisation de cette pratique. On peut désormais penser
grand, et avec peu de budget, grâce notamment aux offres
de Big Data dans le cloud.
” Sogeti | Aroua Biri
Architecte Cybersécurité & Big Data
16
J usqu’où une entreprise peut-elle aller dans l’exploitation des
données personnelles qu’elle récolte ? Et corollaire : la loi en
vigueur doit-elle être le seul cadre limitatif à ses ambitions ? Ré-
pondre à ces interrogations, qui ne peuvent manquer d’apparaître
dès lors qu’une entreprise monte en maturité sur le sujet des datas,
est une nécessité autant qu’une urgence, puisqu’elles touchent di-
rectement à des questions légales de respect de la vie privée, bien
sûr, mais aussi de la confiance des utilisateurs / des clients, envers
une marque. Relever un tel défi suppose de mettre en place une
politique solide et claire de data privacy, et donc de définir un en-
semble de règles encadrant l’usage des données personnelles. En-
core faut-il être en mesure de définir d’abord ce que recouvre une
telle notion, par nature mouvante !
“
La data privacy est un challenge que je rencontre souvent,
et qui va être de plus en plus prégnant avec le développe-
ment des technologies Big Data qui exacerbe les probléma-
tiques autour de la donnée. Lorsque des entreprises mettent en place des
infrastructures et des démarches Big Data, elles sont amenées à stocker des
données personnelles - parfois même sans le faire exprès ! Il va d’abord falloir
pour elles qualifier ce qui relève ou non de la donnée personnelle, ce qui
est loin d’être évident, car la Big Data rend floue cette notion même.
Les courbes de charge - composées par la consommation électrique suivant
un pas de mesure - remontées par les compteurs intelligents, par exemple,
sont considérées comme des données personnelles,
ce qui n’est pas évident à première approche. 
”Sogeti
Aroua Biri
Architecte Cybersécurité & Big Data
DATA
PRIVACY
encyclopédie des big data
17
GRANDS
CONCEPTS
De manière évidente, la première des règles en terme de data
privacy, c’est le respect des lois en vigueur encadrant la protection
de la vie privée et le droit à l’oubli. Pas question de transiger sur
ce point, surtout sur un sujet aussi sensible, voilà ce que clame
Marie-Laure Cassé (Voyages-sncf.com) :
Mais une telle démarche légaliste n’est pas toujours évidente à
mettre en place pour des entreprises implantées dans plusieurs
pays. La sensibilité culturelle autour de la donnée personnelle, et les
arsenaux juridiques qui en découlent varient en effet d’une géogra-
phie à l’autre, comme l’expliquent Geoffrey Zbinden (Orange) et
Mathieu Escarpit (Oney Banque Accord) :
“
La notion de respect des lois et des réglementations en vi-
gueur doit primer aussi bien au moment de la collecte
des données que de leur exploitation afin de préserver les droits
et les libertés de nos clients. Chez Voyages-sncf.com, nous rendons
anonymes les données personnelles pour toute analyse
Big Data. Les Directions juridiques et sécurité encadrent
ce processus de façon très stricte.
”Voyages-sncf.com | Marie-Laure Cassé
Directrice Marketing Client & Data
En Italie, les contraintes légales autour
de la donnée sont encore plus fortes qu’en
France. Pour un programme de fidélité
par exemple, il faut que le client signe
pratiquement quatre fois le formulaire
d’inscription. On ne peut pas non plus
détenir un historique de plus
de deux ans sur certains types
de données et selon l’usage
que l’on souhaite en faire. Alors
qu’en Angleterre, notamment, il
n’y a pas de date limite d’exploi-
tation des données tirées de
programme de fidélité.
Ces restrictions empêchent,
dans certains pays, de tirer
profit au maximum des
outils de Big Data.
”Oney Banque Accord | Mathieu Escarpit
Directeur Général Italie et Joias
“ Les contextes législatifs sur la data
privacy varient du tout au tout d’un pays
à l’autre. En Europe, on est extrêmement
sensibles à tout ce qui touche à l’utilisation
des données, et certaines pratiques
peuvent être rapidement associées à de
la violation de vie privée.
Récemment, un projet qui
consistait à vendre des
données pour piloter des
implantations commerciales
a été arrêté en Allemagne,
parce qu’on a considéré
qu’il fallait nécessairement
récolter l’assentiment du
client - y compris pour des
données anonymisées.
”Orange | Geoffrey Zbinden
Vice President Big Data Analytics
& Customer Base Management
ÀRome
traitetadata
comme
lesRomains
18
“Orange cherche
à mettre en
place un modèle de
confiance vis-à-vis
du client concernant
l’usage qui sera fait
de ses données.
L’idée derrière ce Data
Privacy Dashboard :
demander au client
son autorisation pour utiliser
ses données non afin de
les vendre en externe, mais
pour lui offrir un aperçu en
temps réel de l’usage qui est
fait de sa data. On pourrait
ensuite imaginer une sorte
de « mode invisible » qu’il
suffirait au client d’activer pour
bloquer instantanément toute
utilisation de sa donnée. 
”Orange
Geoffrey Zbinden
Vice President Big Data
Analytics & Customer Base
Management
encyclopédie des big data
Une politique de Data privacy efficace ne peut pourtant se limiter à
un respect scrupuleux de la loi en vigueur. Elle va devoir aussi prendre
en compte la sensibilité des clients sur le sujet délicat des données
personnelles. La construction d’un rapport de confiance en dépend,
comme on juge bon de le rappeler chez Orange et ailleurs :
“Notre position
est simple :
le consommateur
est propriétaire
de sa donnée.
Il doit donc donner
explicitement son
consentement pour
qu’elle soit partagée avec un
tiers. En sachant qu’il se montre
en général plutôt ouvert à ce
consentement s’il obtient en
contrepartie un service digne
de ce nom et une bonne
connaissance de l’usage qui
sera fait de sa data. Créer un
tel cercle vertueux autour du
consentement suppose donc à la
fois un rapport gagnant gagnant,
et une grande limpidité. 
”Orange Technocentre
Tania Aydenian
Directrice du Programme
Datavenue
Dela
confiance
avant
toute
chose
Legrandenjeudeladataprivacy,
c’estàlafoisderespecterl’intimitédescitoyens
toutenayantlescoudéessuffisamment
franchespourluttercontrelesGAFA…
quiontmoinsdescrupulessurl’usage
deladonnée. 
”AccorHotels group | Fabrice Otaño
1919
GRANDS
CONCEPTS
« Dès lors qu’elles constituent
une donnée à caractère
personnel, c’est-à-dire qu’elles
constituent une “information
relative à une personne
physique identifiée ou qui peut
être identifiée, directement ou
indirectement, par référence à
un numéro d’identification ou
à un ou plusieurs éléments qui
lui sont propres” (art. 2 de la loi
Informatique et Libertés), leur
protection de leur traitement
relève d’une obligation légale.
Le responsable du traitement
est tenu de prendre toutes
précautions utiles, au regard
de la nature des données et
des risques présentés par le
traitement, pour préserver
la sécurité des données
et, notamment, empêcher
qu’elles soient déformées,
endommagées, ou que des
tiers non autorisés y aient accès
(art. 34 de la loi Informatique et
Libertés). Les mesures de sécurité
sont d’ordre physique (sécurité
des locaux), logique (sécurité
des systèmes d’information) et
doivent être adaptées à la nature
des données et aux risques
présentés par le traitement.
Le non respect de cette
obligation de sécurité
est sanctionné de 5 ans
d’emprisonnement et de
300.000 € d’amende (art. 226-17
du code pénal).
Les données à caractère
personnel doivent en outre
être collectées et traitées de
manière loyale et licite, pour des
finalités déterminées, explicites
et légitimes et ne doivent pas
être traitées ultérieurement
de manière incompatible avec
ces finalités (art. 6 de la loi
Informatique et Libertés).
Le respect de ces obligations
peut s’avérer complexe dans
le cadre de projets “Big Data”
dès lors par exemple que
des données apparemment
anonymisées peuvent par
recoupement permettre
d’identifier indirectement
un individu et que les finalités
des traitements évoluent au gré
des nouveaux projets et marchés
des entreprises. »
POINT
VUEDE juridiqueHocheAvocats
Hoche Avocats
Régis Carral
Avocat – Associé
20
encyclopédie des big data
“Nous avons lancé
plusieurs POC pour trouver le
bon outil de dataviz, avant de
nous arrêter sur la solution éditée
par Tableau Software. L’idée
était d’avoir un outil accessible
au plus grand nombre, capable
de mettre à disposition la donnée
des métiers en leur permettant de
l’explorer de façon autonome, en
étant le moins tributaires possibles
de la DSI et de développements
spécifiques. L’intérêt de la dataviz
va être de montrer la valeur des
données, de mettre l’accent sur
certains éléments qui apparaîtront
de façon claire et évidente. 
”Kiabi
Elisabeth Zehnder
Data Scientist
“Il y a deux ans,
nous avons
mis en place des
solutions de data
visualization, sur lesquelles se
connectent environ 10 000 users,
et représentant aujourd’hui à
peu près le même volume que la
BI traditionnelle. Cela constitue
une offre BI complémentaire
fournissant une BI agile, mais
aussi une solution
de prototypage. 
”Schlumberger
Olivier Brousseau
IT Business Intelligence
Strategy Manager
R endre clairement interprétable une masse de données en la re-
présentant de façon simple et exhaustive sous la forme d’objets
visuels (graphs, tableaux, successions de points), voilà le précepte
directeur de la data visualization. Dans un cadre aussi complexe et
ardu que celui du Big Data, on comprend qu’une telle ambition ait
pu prendre la forme d’une panacée. Et qu’une multitude de solu-
tions aient fait leur apparition sur le marché, promettant aux utili-
sateurs de rendre leurs données claires comme de l’eau de roche,
grâce à la magie des images. Attention cependant de ne pas se lais-
ser leurrer par le côté gadget de certains outils de dataviz. Pour avoir
une vraie valeur, et servir véritablement les métiers, ces derniers
doivent répondre à deux mots clefs : la simplicité et l’exhaustivité.
data
visualization 
GARDER
unœil
surses
données
21
GRANDS
CONCEPTS
GRANDS
CONCEPTS
Enfin, même si les solutions de data visualization doivent se ran-
ger au service de la simplicité, il ne faut pas croire que leur mise en
œuvre est une promenade de santé. Pour qu’elles soient efficaces,
il est nécessaire de procéder à un important travail préparatoire,
comme l’indique Mathieu Escarpit (Oney Banque Accord) :
“  Le travail en amont de définition des KPI est une phase
fondamentale pour profiter à plein de la data visualization.
Le dernier outil de dataviz que nous avons mis en place a ainsi
nécessité quatre mois de travail en amont sur la qualité du
reporting, la définition des KPI, les ajustements après feedback…
alors que le développement dans l’outil et son
déploiement ont pris seulement un petit mois.
”Oney Banque Accord | Mathieu Escarpit
Directeur Général Italie et Joias
“ Les outils de data visualization sont une nouvelle géné-
rationd’outilspermettantdecomblercertaineslacunes
des outils de Business Intelligence. Plus agiles, plus interactifs,
et davantage opérables dans de multiples environnements de
données, ils permettent d’aborder les tâches de fouille de données de nou-
velles façons. Les données sont chargées en mémoire et la modélisation
effectuée en amont facilitent les opérations de filtrage et d’agrégation.
La conception des vues graphiques où la navigation est effectuée en pro-
fondeur (deep dive dans les données) permet une grande souplesse dans
l’extraction des informations clé de pilotage.
Rapidement appréhendables pour de premières investigations, il s’avère
nécessaired’utiliserdescompétencesdeUXdesignpourtirerlaplusgrande
valeur de ces outils et des données représentées.
Grâce à ces outils, les données métiers des entreprises sont facilement
analysées et les décisions business peuvent être réalisées en fonction des
états d’indicateurs objectifs (fact based). La publication et la diffusion de
rapports synthétiques, interprétables par les fonctions métiers
permettent une plus grande transparence dans l’organisation.
On parle d’organisation guidée par les données (data-driven). ”
Marc Damez-Fontaine
Senior Manager|PwC
D’ex
pert
AVIS
22
Machine
learning
encyclopédie des big data
C e processus d’automatisation de l’apprentissage (on parle d’ail-
leurs en bon français, d’apprentissage statistique) fait appel à
des logiques d’intelligence artificielle pour mettre une machine en
capacité d’assimiler elle-même des modèles à partir des données
auxquelles elle a accès. Il ne s’agit donc plus de spécifier à l’avance
un modèle de comportement, mais de laisser à des algorithmes
le soin de construire eux mêmes ce dernier, en allant piocher dans
un très large dictionnaire de modèles potentiels. Avec le machine
learning, certains systèmes vont ainsi pouvoir améliorer leur per-
formance prédictive, optimiser leur fonctionnement général, et
gagner en clarté dans leur mode de représentation de la donnée.
“ 
Biométrie, prédiction des anomalies dans un système
complexe, scoring, moteurs de recommandation
et moteurs de recherche… Le nombre d’applications
du machine learning ne cesse de croître, à mesure que la quantité
de données mobilisables augmente. 
”Télécom-ParisTech
Stéphan Clémençon
Professeur et Responsable
du Mastère Spécialisé Big Data
Se lancer dans le machine learning suppose toutefois de faire, d’une
certaine façon, confiance à la machine, et de la laisser fonctionner
en aveugle, sans être capable d’interpréter clairement son travail.
Certains business et certaines structures d’entreprises se montrent
plus propices que d’autres lorsqu’il s’agit de faire ce genre de
concession, constatent Christèle Baranco (LCL) et Jonathan Badoux
(AXA France) :
23
GRANDS
CONCEPTS
“On a souvent tendance
à opposer le modèle statistique
et le machine learning, plus
complexe et informatique.
L’intelligence artificielle et tout
ce que l’on peut en faire, ce
n’est pas quelque chose que
l’on avait l’habitude d’utiliser
dans les métiers du marketing.
Auparavant, on cherchait à obtenir
des scores, qui soient utilisables
concrètement par le métier final
(scoring autour
de l’appétence
par exemple,
sur des modèles
de régression
logistique).
Depuis trois/
quatre ans, ce qui change, c’est
la mise en place, parallèlement à
cette logique, de techniques de
machine learning qui supposent
de faire confiance à la machine,
et aux résultats qu’elle obtiendra.
Maintenant que le temps réel est
devenu une notion cruciale pour
les entreprises, celles-ci vont de
plus en plus accepter de moins
comprendre sur quelles variables
se font les calculs qu’opèrent la
machine, pour se concentrer sur
les résultats de ceux ci.
”LCL
Christèle Baranco
Responsable Analyse
de la Donnée Client
“ Le machine learning est
un élément nouveau de la
transformation digitale des
entreprises. Accepter de laisser
une machine effectuer une
recommandation et donc de sortir
des idées marketing préconçues et
100% maîtrisées n’est pas simple
à gérer dans
un marché où
chaque acteur
souhaite contrôler
parfaitement son
discours avec ses
prospects/clients.
Il faut donc passer par de l’éducation
des équipes sur le fonctionnement
de ces algorithmes afin que chacun
puisse utiliser à bon escient les
réponses proposées par ces mêmes
algorithmes.
”AXA France
Jonathan Badoux
Responsable
Outils Digitaux
CESROBOTS
nousveulent-ils
du
bien ?
24
encyclopédie des big data
“
Avec le machine learning, ce n’est
plus l’homme qui donne des poids
à chaque variable, mais l’algorithme qui les cal-
cule en fonction des données observées. Ainsi ces
poids - mis à jour à chaque nouvelle entrée de
données - reflètent ce qui s’est réellement passé.
Par exemple, un algorithme de machine learning
dont le but est de scorer les utilisateurs va calcu-
ler les pondérations optimales en fonction des
actions passées des utilisateurs pour prédire au
mieux leur comportement de demain. Cependant
le machine learning ne se fait pas sans l’homme.
En effet, pour avoir un bon modèle il faut une
bonne connaissance du domaine d’application :
si on demande au modèle de calculer les poids
qui relient la quantité de lait qu’il y a dans mon
frigo chaque jour au parcours des utilisateurs sur
unsite,illefera…etlemodèleneserasûrement
pas très bon. Il faut donc une bonne expertise
du domaine d’application pour nourrir le modèle
avec de bons signaux et pour inter-
préter et valider les résultats. ”
Romain Warlop
Data Scientist
55
D’ex
pert
AVIS Rendre interprétables par l’entreprise les progrès que font, dans
leur coin, les machines, voilà l’un des grands enjeux du machine
learning. Dans le secteur des telecoms, l’invention du Net Promo-
teur Score doit justement servir ce délicat objectif :
Bouygues Telecom
Nicolas Gaude
Senior Data Scientist
Avec le machine learning, les machines apprennent,
via différents outils mathématiques (réseaux de neurones,
random forest, gradient boosting) à s’approcher le plus près
possible de l’objectif qui leur est attribué. L’inconvénient,
c’est que la façon dont on va influer sur la mesure n’est
plus lié à un ou deux
éléments clés (par exemple
la satisfaction du client, le
temps de réactivité avant la
résolution d’un problème,
bref, des métriques en
interne), mais à une
combinaison non linéaire
de variables qui n’ont
plus aucun sens explicatif
(lignes de code produites,
puissance consommée par
le datawarehouse, etc). Voilà
pourquoi, pour rattraper le
management, nous sommes
contraints de créer des
indicateurs composites qui
vont incarner la performance
(un peu comme le CAC 40
reflète la santé économique
de l’industrie française). Le
Net Promoter Score par
exemple est ainsi, dans le
domaine des telecoms, un
indicateur composite accepté
et approprié au management
en ce qu’il permet refléter la
capacité qu’a une marque à
être recommandée par un
individu lambda.
”
IN
VIEWTER
25
GRANDS
CONCEPTS
“Desmachinesdeplusenplusapprenantes
L’apprentissage artificiel (ou apprentissage automatique, « machine
learning » en anglais) est une famille d’algorithmes dont l’objectif est la dé-
tection automatique de motifs dans un jeu de données, sans connaissance
à priori sur ces données. Ces motifs forment un modèle et l’application de ce modèle à
d’autresjeuxdedonnéespermetdeprédireuncomportement.Onappellecelalacapacité
degénéralisationdumodèled’apprentissage.
Unalgorithmed’apprentissageartificielimitel’apprentissagehumaindanssa
capacitéàreconnaîtredescomportementssimilaireslorsd’expériencessuccessives.
Il existe deux familles d’algorithmes d’apprentissage : supervisé et non-supervisé. La pre-
mièreestutiliséelorsquel’algorithmeconstruitunmodèlesurunevariabledesortieparti-
culière (ex : quel est le prochain article que mon client va acheter ?) alors que la deuxième
effectue une découverte sans objectif (ex : que dit-on de mon entreprise sur les réseaux
sociaux ?). Un algorithme d’apprentissage artificiel sera performant si et seulement si le
nombred’expériences(dedonnées)estimportantetsiladescriptiondesexpériences(pro-
priétésdesdonnées)sontsignificativesauregarddelatâched’apprentissage.
Unedescriptionappropriéedel’événementestunpointcrucial
delaqualitédel’apprentissage.
Lesméthodesd’apprentissageslesplusmodernestellesquel’apprentissageprofond(deep
learning)sontcapablesd’extraireautomatiquementlesmeilleurscaractéristiquesdescrip-
tivesdesévènements(propriétés)silesdonnéessontsuffisammentnombreuses. ”
“Lescoringouvrelesportesdelaprédiction
Lesméthodesdescoringsontunsous-ensembledesméthodesdemachinelearning.
Bâtir un score consiste à exécuter un algorithme sur une base de données pour extraire
un score de prédiction permettant de prédire un comportement futur des individus de la
base.Parexemple,lescored’unclientpeutreflétersesintentionsd’achat,ousesintentions
de quitter un service (churn). Les enjeux de généralisation et robustesse d’un modèle de
scoring permettent de garantir que le modèle peut scorer correctement de nouveaux jeux
dedonnéesoudespériodes futuresd’activité.Lesméthodesdescoringpossèdent2carac-
téristiquesparticulières.Lapremièreconsisteàobserverladistributiondesscores.Ainsi,un
palier ou une chute importante du score permet de cibler la quantité d’individus suscep-
tiblesderépondrecorrectementaumodèleprédictif.Onpeutainsiestimerplusfacilement
la pertinence d’un budget au regard d’une campagne de communication. La deuxième
caractéristiqueestl’ordreinduitparunalgorithmedescoring.Eneffet,lesindividusayant
un score plus élevé sont plus facilement prédictibles que les individus ayant
unscoreplusfaible. ”
Marc Damez-Fontaine
Senior Manager
PwC
D’ex
pert
AVIS
26
Aussi appelée maintenance
prévisionnelle, cette nou-
velle façon de concevoir l’optimisation des outils industriels est l’un
des cas d’usage les plus prometteurs du Big Data. Il va s’agir, comme
son nom l’indique, d’anticiper les pannes et les dégradations sus-
ceptibles de survenir sur une machine pour pouvoir les gérer en
amont, et donc améliorer la durée de vie de l’appareil en question,
réduire ou supprimer les temps d’immobilisation pour réparation, et
faire baisser les coûts d’entretien et d’intervention. De tels bénéfices
vont être rendus possibles par la capacité de ces outils industriels
à faire remonter une foule de données grâce à leur informatique
embarquée. Et surtout, comme le souligne Stéphan Clémençon
(Télécom-ParisTech), par le traitement de plus en plus fin de ces
informations grâce aux technos Big Data :
IN
VIEWTER
encyclopédie des big data
La maintenance prédictive est devenue l’un
des grands champs d’application du Big Data,
avec la possibilité, grâce à l’implémentation
d’une multitude de capteurs plus ou moins
intelligents dans des réseaux de machines, de monitorer
le système en temps réel. Pour des entreprises industrielles
qui évoluent de plus en plus vers la mise à disposition
de services, c’est la possibilité d’assurer la pérennité
de ce service, en rendant la maintenance intelligente.
Parvenir à de tels objectifs suppose de résoudre quelques
problèmes mathématiques importants : comment adresser
une telle volumétrie de données ? Comment produire
des prédictions efficaces en temps réel ? Comment
exploiter efficacement des systèmes d’information
qui sont fondamentalement distribués ? Cela demande
de revisiter complètement l’algorithmie.
””
maintenance
prédictive
Télécom-ParisTech
Stéphan Clémençon
Professeur et Responsable
du Mastère Spécialisé Big Data
27
De telles perspectives ne peuvent manquer d’inté-
resser les grands groupes industriels, dans des sec-
teurs aussi variés que le transport, l’aviation, l’éner-
gie… Dans celui de l’oil & gaz, l’entrée dans cette
nouvelle ère de la maintenance constitue ainsi, un
véritable step change, comme le détaille Olivier
Brousseau (Schlumberger) :
GRANDS
CONCEPTS
Schlumberger
Olivier Brousseau
IT Business Intelligence Strategy
Manager
Cela fait partie depuis
longtemps des best practices
de notre secteur de posséder,
dans chacune de nos machines,
une carte de stockage pouvant
tout monitorer. Mais ce qui manquait
jusqu’à présent, c’était la discipline et les
process permettant de tirer de la valeur des
informations dormant dans ces cartes, en les
rapatriant en central pour les exploiter dans
une boucle plus longue. Cette possibilité
est apparue avec la démocratisation
des technologies autour de la donnée
(notamment l’architecture Hadoop), qui a
rendu le stockage et l’exploitation de la data
beaucoup plus abordables. 
IN
VIEWTER
28
Nous avons lancé une première POC
qui a duré trois semaines. Nous avons
récupéré les logs fournis par l’électronique
embarquée de nos outils (statut sur 140
mesures - températures, pressions, chocs
- relevées toutes les 5 à 10 secondes).
Puis avec des outils Big Data, amenés par
un partenaire, nous avons commencé à
analyser ces données, après avoir retiré les
informations relatives au client contenues
dans les logs pour ne garder que les
données techniques.
Au bout de trois semaines à faire matcher
cette data, les premiers résultats et les
premières corrélations sont apparus,
montrant clairement qu’au-delà d’une
certaine température en sous-sol, le taux
d’échec des outils grimpait en flèche. On
a aussi constaté qu’il existait un niveau
de choc particulièrement susceptible
d’engendrer des défauts sur la carte
électronique. C’était un enseignement
intéressant, pour deux raisons :
- 	ce n’était pas forcément l’angle attendu,
et cela apportait une nouvelle
compréhension de ce qui se passait
en sous-sol
- 	la compréhension de ce niveau de choc
permettait de faire un feedback aux
équipes opérationnelles pour ajuster
la vitesse de sondage et optimiser
la fiabilité.
”
encyclopédie des big data
29
La hausse exponentielle du nombre de systèmes et d’équipe-
ments branchés sur le réseau internet constitue un véritable
changement de paradigme. Ces objets connectés sont aujourd’hui
partout : dans nos foyers (smartphones et tablettes, bien sûr, mais
aussi box, jouets, détecteurs de mouvement, de fumée, et bientôt
réfrigérateurs, miroirs intelligents, et autres inventions de la domo-
tique), dans le secteur de l’énergie, des transports, de la médecine, de
la maintenance industrielle… Ils dessinent un écosystème fait de sys-
tèmes liés entre eux et qui, plus qu’une conséquence du Big Data, en
est l’une des causes principales, puisqu’il va produire des quantités
de plus en plus massives d’informations qui font changer d’échelle le
monde de la donnée. Avec l’internet des Objets ce sont des opportu-
nités business vertigineuses qui apparaissent pour les entrepreneurs.
Mais aussi une multitude de défis pour réussir à tirer partie des flux
qui s’échangent entre systèmes. C’est ce qu’explique Tania Aydenian
(Orange Technocentre) :
objets
connectés 
GRANDS
CONCEPTS
Orange Technocentre
Tania Aydenian
Directrice du Programme Datavenue
Les modèles encadrant les données issues
des objets connectés ne sont pas structurés.
Les outils de modélisation de données
seront clé pour pouvoir extraire de la valeur
et appréhender les objets qui verront le jour dans le
futur. L’objectif est de passer de l’objet au service. Dans
notre plateforme nous adressons les objets connectés
existant sur le marché, mais aussi les concepteurs de
nouveaux objets. L’interopérabilité est un enjeu majeur
pour répondre aux nouveaux usages. Etablir un standard,
sera bien complexe. On assiste surtout à la bataille des
alliances. 
”
IN
VIEWTER
30
Lesobjetsconnectéssontentraindeprendre
deplusenplusd’importancedanslechamp
delamédecine.Sanofivientainsi
des’allieravecGoogledanslalutte
contrelediabète,commel’ontfait
plusieursautresconcurrents.
”Sanofi
Pierre-Yves Lastic
“
Cen’estpasunsecret,lesobjetsconnectésdéferlent
sur le marché B2C et vont avoir une influence
importante sur les individus. Mais l’impact sur l’entreprise
est aussi majeur, quel que soit le secteur d’activité. On trouve
déjà des apports indéniables sur deux secteurs transverses :
• La supply chain : l’Internet des Objets permet des gains
considérables sur la traçabilité et l’amélioration de la
réactivité face aux incidents.
• Les unités de production industrielle : le développement des
smart factories basé sur les objets connectés, permet des
gains de productivité – grâce à l’anticipation des pannes –,
de flexibilité – grâce à la reconfiguration des machines ou la
simulation – et des économies d’énergie.
Mais les usages sont infinis. Le meilleur exemple concret est
le véhicule connecté. Il peut être considéré comme un hyper-
objet connecté qui interagit avec son environnement : c’est
en même temps une station météo, une machine connectée
sur laquelle on peut prédire voire réparer des pannes
mécaniques et un objet multimédia. Il illustre parfaitement
les nouveaux usages autour des données liées à l’Internet
des Objets : revente des données à des tiers, analyse des
comportements à des fins marketing ou commerciales, et
interactions entre individus. ”
Laurent Sergueenkoff
Analytics Platform Sales Team Leader
IBM France
D’ex
pert
AVIS
encyclopédie des big data
31
GRANDS
CONCEPTS
Sous ce terme se cachent à la fois un type de données et une
philosophie, ou tout du moins une attitude vis-à-vis de la data.
Sont considérées comme open data toutes les données numériques,
d’origine publique ou privée, stockées sur une plateforme accessible
gratuitement par tout le monde. La tendance générale, depuis
quelques années, est à l’ouverture de la donnée, soit pour des raisons
légales (lorsque les collectivités, par exemple, sont contraintes de
mettre à disposition des citoyens certaines informations et statistiques
les concernant), soit dans le cadre d’une démarche volontaire d’Open
knowledge, c’est à dire de contribution globale à la connaissance.
Conséquence : la quantité de données ouvertes disponibles est en
augmentation constante. Les entreprises ont bien conscience de
l’intérêt qu’elles pourraient avoir à puiser dans ces nouveaux bassins
d’information. Reste à inventer des usages pertinents, souligne
Christèle Baranco (LCL). Et à encadrer rigoureusement la façon dont
ces données vont être mises à la disposition de la communauté,
rappelle Pierre-Yves Lastic (Sanofi) :
“Comme la plupart des
banques nous disposons de
données INSEE et de données
de concurrence que nous
n’utilisons certainement pas
assez. Nous souhaiterions
mettre plus en valeur ces
données ouvertes, qui ont
sûrement beaucoup de choses à nous
apporter. Cela suppose de trouver
des cas d’usage rentables pour nous,
avant de stocker les données sur
notre cluster Hadoop.
”LCL
Christèle Baranco
Responsable Analyse
de la Donnée Client
“ Il existe, dans les
hôpitaux publics, des
mines d’information
permettant de mieux
comprendre les maladies
et de mieux les traiter.
L’ouverture de telles
données serait précieuse
pour le monde de la santé, mais
suppose évidemment une sécurité
et une anonymisation totale.
”Sanofi
Pierre-Yves Lastic
Associate Vice President,
Chief Privacy Officer
entrerpar
labonne
porte
dans
ladonnée
ouverte
oPEN DATA
 
32
encyclopédie des big data
sécurité
des données
“Surveillance des
Etats, failles et abus de
plus en plus fréquents
dans la façon dont
certaines entreprises
traitent les data clients,
et prise de conscience
du public que leurs données
personnelles ont de la valeur… Le
climat est en train de se tendre sur
la question des données. La sécurité
des data devient dès lors une
problématique avec laquelle il est
hors de question de transiger.
”Numericable – SFR
Morgane Castanier
Directrice Data et CRM
“ Une entreprise
basée sur l’innovation
et la recherche fonde
sa valeur sur ses
données, et donc
sur sa capacité à
les protéger. Nous
traitons énormément de données
éminemment sensibles (liées aux
essais cliniques, à des questions
génétiques), qui ne doivent
en aucun cas tomber dans de
mauvaises mains. La cybersécurité
est donc un enjeu crucial pour
nous, à la fois pour toutes les
données relevant de la propriété
intellectuelle, et pour celles
relatives à la santé
de nos patients.
”Sanofi
Pierre-Yves Lastic
Associate Vice President,
Chief Privacy Officer
Onne
plaisante
pasavec
lasûreté
desdonnées
C omment contrôler l’intégrité de ses données, alors que celles-ci
n’ont jamais été aussi nombreuses, et n’ont jamais circulé aussi
librement ? Et quels outils mettre en place pour s’assurer de leur
impénétrabilité, condition sine qua non pour tenir ses promesses
en terme de data privacy  ? A l’ère du Big Data, la question de la
sécurité des données, qu’elles soient personnelles ou industrielles,
revêt un aspect déterminant. Et a fortiori pour des entreprises qui
fondent leur valeur sur leur capacité à garantir l’inviolabilité de leur
système d’information. Voilà ce que détaillent Morgane Castanier
(Numericable-SFR) et Pierre-Yves Lastic (Sanofi) :
33
GRANDS
CONCEPTS
Heureusement, les Big Data ne
constituent pas qu’une menace
et une urgence pour les ques-
tions relatives à la sécurité des
données. Elles sont aussi un
formidable outil de data safety,
comme tient à le souligner
Aroua Biri (Sogeti) :
Sogeti
Aroua Biri
Architecte Cybersécurité & Big Data
Le Big Data, en ce qu’il permet de traiter très
rapidement des masses toujours plus énormes
de données, est un enabler de sécurité. Dans
tout ce qui est démarches SIEM (Security
Information and Event Management) les Big Data vont servir
de renfort. Avec des technologies de machine learning, et
d’autres permettant d’exploiter des sources de données qui
auparavant étaient beaucoup trop compliquées à analyser,
on va être capables de déceler des corrélations, de détecter
mathématiquement des incongruités, des anomalies, et
donc de remonter des alertes qui seraient autrefois passées
totalement inaperçues. 
”
IN
VIEWTER
« Les volumes des données traitées
sont en perpétuelle augmentation
et si on a pu se demander par le
passé s’il y avait un intérêt à les
conserver, la puissance des outils
développés aujourd’hui apporte une
réponse technique et opérationnelle
incontestable. Le concept de “capital
immatériel” ou le “patrimoine
informationnel” que représentent
les données d’une entreprise, est un
capital pouvant être valorisé au titre
d’actif incorporel.
La majorité de la capitalisation
boursière des entreprises cotées est
constituée d’actifs incorporels ce
que confirment les transactions ou
introductions en bourse récentes.
À côté d’éléments incorporels tels
que la marque, les brevets ou les
logiciels, les données participent
pour une part grandissante dans la
valorisation d’une société.
La protection de cet actif devient
dès lors crucial pour faite face aux
cas d’intrusions délictuelles dans des
systèmes d’information, pillages de
données… générateurs de préjudice
économique et d’image de marque.
La protection des données peut être
assurée :
-	 Par des moyens de cryptologie,
dont l’utilisation est libre en
France, contrairement à leur
fourniture, importation, ou
exportation soumis, sauf exception,
à déclaration ou à demande
d’autorisation ;
- 	Par l’utilisation de signatures
électroniques
-	 Et plus généralement par la
voie contractuelle (obligations
spécifiques mises à la charge d’un
prestataire).
Des textes spécifiques peuvent
imposer par ailleurs des obligations
en matière de sécurité des données,
notamment pour les entreprises
privées ou publiques concernées
par la gestion d’information liée
au secret de la défense nationale
(ex. procédures d’habilitation et de
contrôle des personnes pouvant
avoir accès au secret, les conditions
d’émission, de traitement, d’échange,
de conservation ou de transfert des
documents classifiés).
Dans le cadre de projet Big Data, on
veillera notamment à :
-	définir précisément les obligations
contractuelles relatives à la sécurité
des données (niveaux de services,
obligation de moyen/de résultat,
clauses limitatives de responsabilité
en cas de perte de données ou
d’intrusion et ce dans les différents
contrats d’hébergement, de SaaS,
de Cloud…) ;
-	s’assurer de la licéité et de
l’efficacité des moyens mis en
œuvre au regard des différentes
législations nationales ayant
vocation à s’appliquer (cryptologie,
valeur de la preuve électronique
et des conventions de preuve,
transfert de données…).»
juridiqueHocheAvocats
encyclopédie des big data
DE
VUE
point
Hoche Avocats
Régis Carral
Avocat – Associé
34
35
GRANDS
CONCEPTS
Pour que la mine d’or du Big Data dévoile ses ressources et livre
ses promesses, encore va-t-il falloir être en mesure de l’exploiter
efficacement. Ce qui est loin d’être simple. Quels sont les gisements
de données les plus pertinents, ceux à même d’apporter une
vraie valeur à l’entreprise ? Comment y puiser efficacement, sans
se perdre dans la masse d’information qui les entourent ? Quelles
stratégies adopter enfin pour valoriser les données une fois celles-
ci collectées ? C’est pour répondre à ces questions qu’intervient le
Smart Data, un concept qui met l’accent sur l’utilisation intelligente
de la donnée. S’intéressant en priorité à la valeur effective des
données pour le business, les tenants de ce modèle conseillent
de substituer à l’analyse en 3V  , son évolution en 5S. C’est à dire :
Stratégie (définir en amont les bénéfices attendus de l’usage de la
data), Sourcing (bien circonscrire les bases de données qui seront
utilisées pour ne pas s’éparpiller inutilement), Sélection (trier
l’information pour ne pas s’y noyer), Signifier (donner du sens à
la donnée brute en la traitant ou en la faisant traiter), Symboliser
(exprimer la donnée de façon claire notamment en ayant recours
à de la data visualization  ). Il s’agit là bien sûr, plus que d’une
théorie formelle de la donnée, d’une vision destinée à en simplifier
l’approche. Elle n’en demeure pas moins une bonne base pour
appuyer des projets en restant dans le concret, ce que soulignent
les expériences Smart Data de Morgane Castanier (Numericable-
SFR) et Marie-Laure Cassé (Voyages-sncf.com) :
SMART
DATA 
36
encyclopédie des big data
“Si la notion de Big Data
sert à qualifier les technologies
autour du traitement de volumes
de données de plus en plus massifs,
la notion de Smart Data va, quant à
elle, surtout désigner la capacité à
adresser un use case
précis en collectant
les données les plus
pertinentes et celles
qui seront facilement
actionnables. C’est
un terme qui est
plus tourné vers l’efficacité du
ciblage que vers l’importance de la
volumétrie. Chez Voyages-sncf, nous
avons été amenés à mobiliser des
logiques apparentées à du Smart
Data à de nombreuses occasions.
Par exemple, dans le cadre de notre
algorithme de recommandation
de destinations, l’un des enjeux
consistait à capter les bonnes
données afin d’identifier la gare de
départ la plus pertinente pour notre
internaute, ce qui devait permettre
de lui adresser, par la suite, des
recommandations associées de
qualité.
”Voyages-sncf.com
Marie-Laure Cassé
Directrice
Marketing Client
& Data
“ La recherche de pertinence
est un enjeu fort quand on est
confronté à une grosse masse
de données, le risque étant,
dans ces cas là, de se perdre
dans la profusion de data. Mon
souci constant est de garantir
l’alignement systématique de
nos approches scientifiques et
technologiques avec les enjeux
et la stratégie business. Le Smart
Data, c’est d’abord s’efforcer de
rester très pragmatique !
”Numericable – SFR
Morgane Castanier
Directrice Data
et CRM
Insuffler
del’intelligence
danssesdonnées
37
GRANDS
CONCEPTS
Attention cependant de ne pas être dupes. Derrière
le terme séduisant de Smart Data se cache souvent
une façon de marketer des produits et des solutions
qui au final n’ont rien de révolutionnaire. Voilà contre
quoi met en garde Jean-François Marcotorchino
(Thales Communications et Sécurité) :
Thales Communications et Sécurité
Jean-François Marcotorchino
Vice Président et Directeur Scientifique
de Thales GBU SIX
Beaucoup d’acteurs du marché
aujourd’hui dans ce domaine très
« buzzy » des Big Data proposent
des services et des outils d’analyse
qui relèvent de ce qu’on appelait il n’y a pas
si longtemps « le Business Intelligence » voire
au mieux le « Data Mining » (avec comme
applications vedettes dans le B2C : le CRM, la
segmentation de clientèle, le Cross Selling,
l’attrition etc.), ceci bien que toujours utile, n’est
pas ce qu’on entend aujourd’hui par Big Data.
D’ailleurs, parce qu’ils l’ont bien compris et
qu’ils en sont bien conscients, ces spécialistes ou
acteurs là vont utiliser le terme de « Smart Data »
pour qualifier cette façon de faire du traitement
statistique de données qui est en réalité la
même… qu’il y a quinze ans (échantillonnage et
population à analyser de taille raisonnable et non
gigantesque), car beaucoup d’algorithmes utilisés
dans ce contexte sont non linéaires et de fait ne
sont donc pas « scalables ».
”
 
IN
VIEWTER
38
Le temps réel est l’une des
principales caractéristiques du
Big Data. Avec les datawarehouses,
on voit la donnée de façon figée, à un
instant T, ayant pour objectif de produire
le reporting. Au contraire, avec le
Big Data, on capte la donnée en temps réel
(notamment avec les interactions ayant
lieu sur les sites web). Cette caractéristique
associée avec les deux nouvelles
composantes que sont l’algorithmie
(text mining, indexation) et les API (qui
donnent de la valeur à la donnée dans
sa restitution), vont conférer à la donnée
une mobilisation de plus en plus rapide,
tendant vers le temps réel. 
”Groupe Argus
Benoît Chéroux
Responsable Données
& Modélisations
L’une des grandes promesses
du Big Data, c’est la possibili-
té d’exploiter la data non plus de
façon statique en interrogeant des pools d’information déjà consti-
tués, mais en traitant plutôt, quasi instantanément, des flux. Avec le
real time, la donnée échappe ainsi à une vision figée pour se faire
dynamique, comme le souligne Benoît Chéroux (Groupe Argus) :
temps
réel
encyclopédie des big data
“
39
Cette évolution vers le temps réel a déjà rencontré de multiples
usages, dont le Real Time Bidding est un bon exemple (entre la
mise aux enchères d’une annonce et son achat sur un Ad-Network,
il ne se déroulent que quelques millièmes de secondes). Soulignons
toutefois que cette notion de temps réel ne signifie pas toujours
l’instantanéité, et peut renvoyer à différentes temporalités en fonc-
tion de la réalité du business. Si mettre un script à la disposition
d’un téléconseiller au fil d’une conversation devra se faire dans le
dixième de seconde, l’analyse en temps réel d’une base CRM sera
jugée suffisante si elle est mise en oeuvre dans la minute. Dans le
cadre d’une application d’assistance aux personnes âgées, comme
celle dont nous parle Pierre-Yves Lastic (Sanofi), c’est la vraie ins-
tantanéité que l’on recherche :
Les nouvelles perspectives qu’offre le Real Time ont pu voir le jour
grâce à l’évolution récente de certains outils. Ainsi le framework
Hadoop , qui était initialement orienté batch, permettant des
calculs distribués adaptés à des données massives, s’est équipé il
y a deux ans d’une solution qui lui permet d’intervenir aussi sur le
terrain du Real Time : YARN .
GRANDS
CONCEPTS
Nous travaillons en collaboration avec divers
acteurs de la santé, un domaine où le temps réel
a une importance cruciale - on s’en doute puisque
c’est la vie de personnes qui est en jeu ! Lorsque nous
travaillons sur des applications d’assistance
aux personnes âgées, par exemple, on ne peut
se permettre de ne pas être en temps réel. 
”Sanofi
Pierre-Yves Lastic
Associate Vice President,
Chief Privacy Officer
“
40
R ien ne sert de se lancer dans un projet de Big Data sans lui
avoir assigné au préalable des objectifs précis qui se tradui-
ront très concrètement par une génération de valeur pour l’en-
treprise. Cette affirmation peut sembler une évidence, mais elle
a été martelée par tous les acteurs que nous avons pu interroger
sur le sujet. Le risque étant de se laisser piéger par les promesses
d’un buzzword, sans avoir de vision claire sur la façon de l’incar-
ner d’un point de vue business. Les cas d’usage sont certes innom-
brables : améliorer sa connaissance clients, optimiser la sécurité
de ses systèmes, booster ses performances marketing grâce au
RTB , réduire ses coûts d’entretien en mettant en œuvre des lo-
giques de maintenance prédictive , tirer parti de la puissance
des objets connectés … Encore s’agit-il de trouver le bon. Pour
reprendre les mots de Bill Schmarzo (CTO de EMC, et auteur de Big
Data : Understanding how data powers Big Business) « Les entreprises
n’ont pas besoin d’une stratégie pour exploiter les Big Data ; elles
ont besoin d’un business plan qui intègre les données et les possi-
bilités ouvertes par les Big Data dans un univers digital. »
Une fois acquise la certitude de l’intérêt d’un projet mettant en son
cœur l’exploitation de la donnée, reste à déterminer quelle data est
susceptible de générer le plus de valeur dans cet usage précis. Max
Vallejo (Air France-KLM), insiste par exemple sur l’importance des
données de navigation et des données serveur dans le cadre d’un
objectif d’amélioration de l’expérience client :
“ 
La valeur que l’on attribue à telle ou telle donnée va permettre de
prioriser nos projets de capture et de stockage. Ces derniers temps,
par exemple, les données de navigation et les données serveur ont
pris une place très importante chez nous : elles permettent en effet
d’une part de faire du retargeting (très classiquement) mais elles
vont aussi permettre d’améliorer l’expérience client, en la rejouant
pour mieux comprendre les problèmes remontés. 
”Air France-KLM | Max Vallejo
Head of eCRM, Digital Department
valeur
encyclopédie des big data
41
GRANDS
CONCEPTS
Fichiers excel, bases de données clients, CRM, produits ou de
gestion, d’une part. Fichiers textes, images, vidéos, ou logs de
l’autre. Qu’elles soient structurées ou non structurées, les données
que doivent aujourd’hui traiter au quotidien les entreprises se ca-
ractérisent par une grande hétérogénéité de formats et de sources.
Cette variété est d’ailleurs l’une des premières choses qui saute aux
yeux de qui veut se faire une vision globale de ses data, comme a
pu le constater Yoann Denée (Prisma Media) :
À cette grande richesse de données déjà présentes dans le système
d’information des entreprises, vient s’ajouter la diversité de celles
qui peuvent être récupérées à l’extérieur, via des processus comme
le Data Mining  . Voilà de quoi complexifier encore les choses, si
l’on en croit Pascale Dulac (France Loisirs) :
vaRIÉTÉ
Prisma Media
Yoann Denée
Chief Data Officer
Un des premiers objectifs pour permettre
la valorisation des données chez Prisma a
été de procéder à un inventaire de toutes les
sources de data. Celles-ci sont très hétérogènes
et viennent de natures et de business différents : base
abonnés payante, base abonnés newsletters gratuites,
applications et services gratuits et/ou payants,
communautés, membres de sites web, et un grand
nombre d’autres affluents plus petits. 
”
IN
VIEWTER
42
encyclopédie des big data
“ 
Travailler avec des données qui ne viennent plus de
chez nous et de nos propres systèmes d’information,
mais qui sont récupérées à l’extérieur (réseaux sociaux,
chat collaboratif, réponses à des questions ouvertes adressées à nos
clients), qui ne sont pas structurées de la même façon que les data
internes, et qui ne rentrent donc pas forcément dans les cases que
nous avions nous mêmes définies, cela implique un
changement de fond dans la façon de travailler.
”France Loisirs
Pascale Dulac
Responsable Connaissance Clients
IN
VIEWTER
Thales Communications et Sécurité
Jean-François Marcotorchino
Vice Président et Directeur Scientifique
de Thales GBU SIX
La question de la variété des données analysées reste un
problème fondamental, et l’hétérogénéité des données,
un vrai frein à leur exploitation tous azimuts. On sait
pratiquer facilement la juxtaposition de données, le
croisement de bases de données et de fichiers, et éventuellement
la fusion à certains niveaux de cohérence mais l’exploitation
simultanée et mélangée de données de types différents par des
algorithmes unifiés a longtemps été un fossé à la méta-analyse.
Aujourd’hui, il apparaît néanmoins malgré de gros progrès faits,
qu’il y a de plus en plus une attente vis-à-vis de cette capacité à
exploiter en même temps des données de nature différente. Mais
cette exploitation ne se fera pas de façon similaire en fonction des
différents types de données exploitables.
”
Pour espérer tirer de la valeur de ces agrégations de data internes et
externes, et exploiter efficacement la masse de plus en plus impor-
tante de données non structurées (environ 80% des données dans
le monde se rangent sous cette catégorie), les méthodes tradition-
nelles ne suffisent plus. Ainsi, si l’on ne veut pas que la variété de
la donnée devienne un obstacle, il va être nécessaire de mettre en
place de nouvelles solutions empruntées au monde des Big Data :
43
GRANDS
CONCEPTS
Au-delà de la mobilisation de nouveaux outils, la capacité à résoudre
efficacement le problème de la variété va aussi dépendre de la capa-
cité de l’entreprise à mettre en place une data gouvernance   adap-
tée. C’est sur ce dernier point qu’insiste Pierre-Yves Lastic (Sanofi) :
Sanofi
Pierre-Yves Lastic
Associate Vice President,
Chief Privacy Officer
De même qu’aujourd’hui les essais nucléaires
ne sont plus réalisés sur le terrain, avec des vraies
bombes, mais par ordinateur, le secteur de la
biologie humaine tente de mettre en place des
essais cliniques virtuels. Ces simulations nécessitent de mettre
en commun des données variées, venant de la recherche
fondamentale en les corrélant avec des données cliniques
issues du monde du soin. Les caractéristiques de ces données
ne sont pas les mêmes, et les faire communiquer nécessite
donc de veiller au préalable au bon respect des règles qui
les encadrent, et peuvent varier. 
”
IN
VIEWTER
44
encyclopédie des big data
Les 3 V (Volume, Variété, Vitesse) ne peuvent se déployer dans
toute leur ampleur que si la donnée qu’ils mobilisent à la base
est fiable. La véracité de la donnée, sa précision, sa pertinence, vont
donc revêtir une importance cruciale, invitant les entreprises à une
très grande rigueur aussi bien dans la façon dont elles orchestrent
la collecte des données, que dans la manière dont elles vont les re-
couper, les croiser, les enrichir. Cette attitude, dont va dépendre l’in-
tégrité et la sécurité des data bases, est loin d’être nouvelle. Pascale
Dulac (France Loisirs) souligne ainsi :
Véracité 
“ 
Quand on a l’habitude
de manier de la donnée,
la recherche de la
véracité - de la fiabilité -
est un impératif ancré depuis longtemps
dans les pratiques, et dont l’importance
n’a pas attendu l’ère des Big Data pour
prouver son évidence. 
”France Loisirs
Pascale Dulac
Responsable Connaissance Clients
45
GRANDS
CONCEPTS
Mais face à la digitalisation, face à la massification des données dis-
ponibles, elle se transforme en urgence. Ne pas revoir à la baisse ses
exigences en terme de véracité, voilà un des défis du Big Data que
tient à souligner Max Vallejo (Air France-KLM) :
IN
VIEWTERAir France-KLM
Max Vallejo
Head of eCRM, Digital Department
Jour après jour, les retours de données
auxquels nous avons accès se font de plus en
plus fins, et la frontière de plus en plus ténue
entre les différentes interprétations que l’on
peut en tirer. Dans de telles conditions, il est capital de
continuer à interpréter correctement les données. C’est
le cas par exemple avec les codes retour d’envoi. Quand
on envoie une campagne il y a différents codes retour
possibles : arriver à analyser et à interpréter efficacement
ces informations, pour in fine, déterminer si l’on peut
continuer à adresser tel ou tel client, c’est crucial. Quelle
différence va-t-on faire entre un hard bounce, un soft
bounce, un client qui souhaite se désabonner d’un
programme en particulier…? La véracité, au-delà de
l’exactitude, cela consiste à restituer fidèlement le sens
d’une donnée bien précise, pour ensuite être en mesure
d’agir le plus efficacement possible.
”
46
encyclopédie des big data
Vitesse
/ Vélocité 
Dans le modèle d’analyse en  3 V , on parle aussi de Vélocité pour
désigner ce paramètre caractéristique du Big Data. La hausse
des volumes de données au cours des dernières années s’est en
effet accompagnée d’une intensification radicale du débit (soit la
volumétrie multipliée par le laps de temps dans lequel les données
évoluent). Capturer et traiter de façon la plus diligente possible ces
flux qui s’accélèrent, voilà un nouveau défi pour les entreprises qui
ne veulent pas se contenter d’une analyse asynchrone de la don-
née. Et ce a fortiori dans le cadre de processus chronosensibles
(comme le traitement de fraude) où l’on ne peut se permettre de
perdre la moindre minute.
Pour répondre au rythme effréné auquel est aujourd’hui générée
l’information, les capacités de traitement de l’architecture Big Data
et de certaines de ses technologies (  YARN , notamment) vont offrir
des vitesses d’exécution qui n’ont plus rien à voir avec les temps
de traitement par lots (batch) caractéristiques de la Business
Intelligence à l’ancienne.
47
GRANDS
CONCEPTS
En filigrane, l’adoption de ces accélérateurs du traitement de la don-
née laisse apparaître la possibilité pour les entreprises de traiter leur
masse de données au fil de l’eau, en temps réel  . C’est en tout cas
ce qu’espèrent Yoann Denée (Prisma Media) et Benoît Chéroux
(Groupe Argus) :
“Jusqu’à
l’année dernière,
nous récupérions les
annonces du marché
du véhicule de l’occasion toutes les
semaines. Aujourd’hui, on procède
à cette collecte de données tous les
jours. Nous avons le projet de tendre
vers encore plus de réactivité, pour
rendre compte des fluctuations du
marché de l’auto en temps réel. En
arriver là supposerait une explosion
des données récupérées, et donc,
nécessairement, la mobilisation des
technologies Big Data.
”Groupe Argus
Benoît Chéroux
Responsable Données
& Modélisations
“ Lorsque nous
avons acheté,
il y a trois ans,
P comme Performance
(une entreprise opérant sur le
secteur de la monétisation de
base de données), cette régie
digitale procédait en moyenne
à 500 millions d’opérations par
jour. Aujourd’hui, elle en réalise
plus d’un milliard… sauf que le
temps de requête a été dans le
même temps divisé par 25 000!
Cela montre bien l’évolution
radicale des technologies,
et l’entrée dans l’ère d’une
rapidité qui confine au temps
réel.
” Prisma Media
Yoann Denée
Chief Data Officer
ENAVANT
VERS
LETEMPS
RÉEL
48
encyclopédie des big data
volume 
Dans Big Data, il y a « big ». Et en reprenant l’interprétation clas-
sique en  3 V  , c’est tout naturellement la notion de Volume
qui s’impose avec le plus d’évidence pour qualifier la déferlante de
données qui inonde les systèmes d’information des entreprises et
le web. Nous générons aujourd’hui en une journée plus de données
qu’il n’en a été produit entre les débuts de l’humanité et l’an 2000.
Chaque jour sur Facebook s’échangent 10 milliards de messages, et
sont uploadées 350 millions de nouvelles photos. Et on ne compte
plus ces monceaux de data en terabytes (10 puissance 12) mais en
petabytes (10 puissance 15), voire en zettabytes (10 puissance 21).
Une hausse exponentielle de la volumétrie dont toutes les entre-
prises françaises font aussi le constat, comme le détaille Morgane
Castanier (Numericable-SFR) :
“ 
Pour chacun de nos clients,
nous récoltons plusieurs milliers
de données unitaires différentes.
Si l’on multiplie ce chiffre
par le nombre de clients et qu’on y ajoute
leurs diverses interactions avec nos interfaces,
on est très vite confrontés à une énorme masse
de données avec une vraie profondeur…
et qui n’a rien à envier à un Facebook !
”Numericable-SFR
Morgane Castanier
Directrice Data et CRM
49
GRANDS
CONCEPTS
Un tel bouleversement fait naître de nouveaux défis : Comment col-
lecter ces monceaux de data ? Comment les stocker efficacement ?
Et surtout, comment les traiter pour en tirer de la valeur ? Quels cas
d’usage, quels nouveaux services inventer pour en tirer le meil-
leur parti ? C’est bien souvent la prise de conscience du nouveau
challenge incarné par le gigantisme de la donnée qui va pousser les
entreprises, quel que soit le secteur, à se doter de solutions Big Data
adéquates, comme le confirment Jean-François Marcotorchino
(Thales Communications et Sécurité et Pierre-Yves Lastic (Sanofi) :
“Nous travaillons sur des bases
de données de très grande taille, et
excessivement peu structurées au départ,
dans des domaines variés allant de la
cybersécurité, à l’analyse globale de
systèmes et réseaux, en passant
par l’analyse des comportements
passagers dans les transports
ferroviaires ou urbains de surface (bus)
jusqu’à l’inventaire stellaire en astronomie,
etc. A titre d’exemple de problématique Big
Data : la cartographie des étoiles de notre
Galaxie (1 milliard d’étoiles observées) avec
10 instruments sur un satellite, chaque
étoile pouvant être vue 88 fois au cours
de la mission (le nombre total de mesures
à traiter est d’ environ 280 milliards, une
mesure représentant 10Ko). Outre le
stockage de telles bases, leur exploitation
et analyse conduit à des approches
analytiques nouvelles où l’effet de montée
en charge (« scalabilité ») doit être maîtrisé,
au travers du développement
d’outils spécifiques.
”Thales Communications
et Sécurité
Jean-François Marcotorchino
Vice Président et Directeur
Scientifique de Thales GBU SIX
“ Dès que l’on entre dans la
donnée en temps réel, on est
soumis à une problématique
d’analyse de ces données qui
implique la mise en place de
nouvelles méthodes. Lorsque
par exemple le « journal patient »
destiné aux malades chroniques
est passé du support papier
au support électronique, le
nombre de données mobilisées
a crû de façon exponentielle. Et
il a fallu nécessairement adapter
nos méthodes d’analyse pour
traiter des volumes de données
beaucoup plus considérables.
”Sanofi
Pierre-Yves Lastic
Associate Vice
President, Chief
Privacy Officer
FACEau
défi
des
mégadonnées
50
encyclopédie des big data
Web3.0
/Web4.0
Àquoi ressemblera le web de demain ? Face à une telle question,
il y a autant de réponses possibles que d’hypothèses élaborées
par les futurologues. C’est pour tenter d’en tracer le périmètre que
ces derniers ont imaginé le terme de Web 3.0, inspiré du Web 2.0
qui a servi à désigner, à partir du milieu des années 2000, la révo-
lution du participatif et la simplification des usages numériques. Il
s’agit là, plus que d’un concept unifié, d’un attrape-tout, dans lequel
chacun déverse sa vision des enjeux futurs.
Quelques grandes caractéristiques reviennent pourtant plus que
d’autres pour en tenter une approche théorique : le triomphe de la
mobilité qui rend le web indépendant des supports, l’universalité,
qui le libère de la dépendance aux systèmes d’exploitation dans un
monde de plus en plus open source, l’accessibilité, et le fait aussi
que le web n’est plus constitué uniquement des sites, mais aussi
de solutions web (applications, base de données, etc). Pour évo-
quer plus spécifiquement le rapport nouveau à la donnée qui ne
manquera pas de voir le jour, certains parlent aussi de Web séman-
tique, sorte de modèle émergent dans lequel la data circule sans
contraintes pour libérer les usages et permettre la création de nou-
velles connaissances.
51
GRANDS
CONCEPTS
Le Web 3.0 n’a du reste pas encore pointé le bout de ses algorithmes
que certains théorisent déjà la prochaine vague, celle du Web 4.0.
Plus lointain, cet autre concept offre pourtant une perspective plus
claire : celle d’un monde entièrement digitalisé, où tout n’est plus
que données.
The Economist
Stéphane Père
Chief Data Officer (Global)
Le web 1.0 c’était le monde
de la publication, en top down.
Le 2.0, c’était l’interaction entre
les lecteurs et le contenu
(participatifs, forwards, commentaires).
Le 3.0 implique lui des logiques plus transversales,
la possibilité pour un contenu d’apparaître dans
plusieurs publications, sur différentes applications,
en suivant des logiques de syndication, de distribution
nouvelles (webapp, flipboard, …). Quant au 4.0, c’est la
phase où l’univers physique devient le web, la phase où
le monde est digital. 
”
IN
VIEWTER
52
53
Rattachée plus globalement au vaste mouvement de
digitalisation, l’arrivée des Big Data est elle aussi un puissant
agent de transformation pour les entreprises. D’abord parce
qu’il s’agit pour elles de se doter des compétences les plus
à même d’en tirer parti (Data Scientist, Chief Data Officer, …).
Mais surtout parce que le traitement massif de la donnée
induit de nouvelles manières de travailler.
2.TRANSFORMATION
DE L’ENTREPRISE
54
encyclopédie des big data
“Il y a beaucoup
d’ambiguïtés autour
de la fonction de
Chief Data Officer.
Son rôle, selon moi,
c’est de mettre en
valeur l’importance
de la donnée, en en faisant
quelque chose de profitable
à l’ensemble de l’entreprise. A
ce titre, le CDO doit avoir un
certain nombre de qualités :
compliance et sens politique,
pour faire face à un certain
nombre de résistances qui ne
manqueront pas d’apparaître
au sein de l’entreprise; une
connaissance aiguë de la data
qui nécessite donc un profil
proche de celui d’un data
scientist ; et enfin un certain
pragmatisme. 
”Publicis Worldwide
Samir Amellal
International Chief
Data Officer
“Le rôle du CDO selon moi c’est
d’insuffler une culture Data Driven
à tous les niveaux de l’entreprise.
Il va s’agir de faire comprendre aux
différents business l’importance
de prendre des décisions non plus
selon l’expérience individuelle de
chacun, mais en les appuyant sur
du factuel… donc de la data. Côté
Analytics, le CDO doit orienter les
Business Analysts et les Data Scientists
sur les bonnes méthodologies d’ana-
lyses, les bons algorithmes prédictifs
sans perdre de vue la pertinence pour
le business. Côté IT, le CDO va piloter la
mise en place de la distribution Hadoop
et des outils d’analyse. De manière plus
traditionnelle, il va également veiller
à ce que les best practices soient bien en
place au niveau de l’utilisation des bases
de données par le BI. Ceci nécessite
un travail sur la roadmap IT BI,
le Master Data Management,
le BI as a Service… 
”AccorHotels group
Fabrice Otaño
SVP, Chief Data Officer
La multiplication des sources
de données, l’augmentation
de leur volume, et surtout leur
capacité à impacter de plus
en plus fortement le business
même, a fait émerger le besoin d’un nouveau poste au sein des en-
treprises : le CDO (Chief Data Officer). Si l’intitulé du poste tombe
sous le sens - c’est celui qui est responsable de tout problème relatif
à la donnée - son périmètre d’action est lui beaucoup plus difficile à
délimiter. Et pour cause. La donnée s’infiltrant dans toutes les strates
de l’entreprise, il s’agit là d’une fonction par essence transverse qui
s’accommode mal d’une vision parcellaire des choses. Plutôt que
de tenter de donner une définition générale du terme, le mieux est
peut être de laisser à des CDO eux mêmes le soin de décrire leur rôle.
La parole donc à Fabrice Otaño (AccorHotels) et Samir Amellal
(Publicis Worldwide) :
dans
mapeau
DE
CDO
CHIEF DATA
OFFICER
55
TRANSFORMATION
DEL’ENTREPRISE
La fonction de CDO doit-elle devenir un poste pérenne au sein de
l’entreprise ? La plupart des acteurs que nous avons interrogés sur
la question, comme Stéphane Père (The Economist) et Mathieu
Escarpit (Oney Banque Accord), pensent qu’elle doit au contraire
s’effacer une fois sa mission accomplie.
“La valeur
potentielle autour de
l’exploitation de la
data est telle qu’il est
aujourd’hui nécessaire
d’avoir cette fonction au sein de
l’entreprise. Un CDO prend plus de
sens au sein de grosses structures
que dans nos équipes plus petites,
où le coeur business c’est la
donnée - Nous sommes par défaut
organisés autour de la donnée.
Il me semble aussi que c’est un
poste qui pourrait être créé sur
une durée limitée, avec une
mission précise (à la frontière entre
technique, légal et commercial), et
avec des objectifs bien déterminés.
Une fois ceux-ci accomplis,
le poste aura probablement moins
de raisons d’être, et les fonctions
attribuées au CDO pourraient se
dissoudre dans l’entreprise.
”Oney Banque Accord
Mathieu Escarpit
Directeur Général
Italie et Joias
“ Chez nous,
le rôle de Chief
Data Officer est
à la fois orienté
organisationnel et
business. Il s’agit de faire éclore
la transformation digitale dans
toute l’entreprise, dans la plus
grande harmonie possible.
Se pose tout naturellement la
question de l’évolution d’un tel
rôle. Selon moi, ce dernier a une
durée de vie limitée, puisqu’un
CDO, s’il remplit efficacement sa
mission, travaille en réalité à sa
propre obsolescence.
”The Economist
Stéphane Père
Chief Data
Officer (Global)
Faire
de sa propre
obsolescence
sa mission
56
“
Le Chief Data Officer est l’incarnation humaine
de la transformation digitale de l’entreprise.
Son rôle est de construire une organisation et une
culture qui rendent possible la réalisation de la stratégie
à long terme de l’entreprise en question. La révolution
data driven constitue en effet un défi organisationnel
de taille pour les sociétés dites traditionnelles, et elle
nécessite une Direction forte  ; le CDO en est le chef
d’orchestre. Réorganisation, revue des façons de collaborer
et désilotisation, montée en compétence des équipes,
choix des solutions technologiques et des partenaires pour
accompagner la transformation, recrutement de nouveaux
profils… C’est une sorte de mouton à cinq pattes qui, pour
insuffler une culture de la data et de l’analytics à toutes
les couches, dans tous les départements de l’organisation,
doit faire preuve en vrac de : sens politique pour emporter
l’adhésiondetous,compétencestechniques,compréhension
des enjeux métier, marketing et connaissance client, et
gestion de projet pour mener à bien la transformation…
c’est un véritable couteau suisse. 
” Pierre Harand
Director, Consulting
and Business Development
55
D’ex
pert
AVIS
encyclopédie des big data
57
TRANSFORMATION
DEL’ENTREPRISE
Au milieu des années 1970,
la mise au jour d’un projet
gouvernemental visant à attribuer un numéro à chaque citoyen
pour y associer ensuite l’ensemble de ses fichiers administratifs sus-
cite un vif émoi en France. La Commission Nationale de l’Informa-
tique et des Libertés est créée dans la foulée, pour tenter d’endiguer
les dérives de ce nouveau monde de l’information qu’ouvrent les
ordinateurs. Aujourd’hui, soit 40 ans plus tard, la CNIL est confrontée
à des défis qui, bien que fondés sur des bases philosophiques sem-
blables (comment protéger efficacement la vie privée de chacun à
l’ère de l’information), ont pris une ampleur immense avec l’avène-
ment des technologies Big Data.
C’est en effet à cette autorité administrative indépendante
qu’incombe la lourde tâche non seulement de définir les usages
relatifs à la donnée personnelle (un domaine immense et on ne
peut plus mouvant !), mais aussi de sanctionner les acteurs qui ne
respectent pas les règles qu’elle met en place. De nouveaux usages
autour de la donnée apparaissant tous les jours, la CNIL est donc en
permanence dans une position où elle défriche ce qu’il est ou non
possible de faire. Ce qui nécessite un travail en collaboration avec
les grands acteurs de la data… à commencer par les entreprises qui
s’en servent et innovent sur le sujet.
CNIL
58
encyclopédie des big data
“Nous travaillons
de manière étroite
et fréquente avec la
CNIL, qui se montre
tout à fait ouverte
au dialogue, et dont
l’objectif n’est pas de
freiner l’économie
française, mais
de protéger les
citoyens. Bien sûr, certaines
contraintes imposées par la
loi informatique et libertés
peuvent amener à modifier nos
projets, mais c’est surtout la
surcharge de travail de la CNIL
qui entraîne un traitement long
sur certains dossiers, avec pour
conséquence un ralentissement
des projets. Je considère la
CNIL comme un partenaire
avec lequel nous travaillons
de manière ouverte.
”Sanofi
Pierre-Yves Lastic
Associate Vice President,
Chief Privacy Officer
“ La CNIL suit
attentivement tous
les acteurs référents
de chaque secteur.
En tant que numéro
un de la presse, nous
n’échappons pas
à la règle. Il s’agit
d’une collaboration
intéressante, car elle
nous encourage à
réfléchir et progresser
sur le traitement de
la donnée liée aux individus, (…) Cela
nous a notamment incités à mettre
en place des mesures qui ont ensuite
été reprises par l’ensemble du marché,
comme la révision des templates dans
les campagnes email pour mettre
en avant l’expéditeur par marque, la
mise en place d’un preference center,
servant de système central de gestion
des consentements, ou la mise en
place d’un service correspondant
informatique et libertés qui répond à
toutes les sollicitations de nos lecteurs
qui apprécient fortement d’être
entendus et pris en charge.
”Prisma Media
Yoann Denée
Chief Data Officer
Main
dans
lamain
avec
laCNIL
Les acteurs que nous avons pu interroger sur la question consi-
dèrent ainsi moins la CNIL comme un obstacle à leurs ambitions,
que comme un partenaire avec lequel ils co-construisent des
usages autour de la donnée… dont beaucoup restent à inventer !
59
TRANSFORMATION
DEL’ENTREPRISE
Promouvoir une culture de la décision s’appuyant sur l’analyse
des données, et non plus sur l’intuition humaine, voilà les
ambitions d’une entreprise qui cherche à devenir data driven. Selon
une telle vision, il s’agit de faire de la donnée un outil de pilotage de
la stratégie à long terme autant qu’un arbitre des choix immédiats.
L’aspiration des entreprises à mettre en œuvre un tel état d’esprit
est évidente, surtout dans celles qui se montrent les plus matures
en terme de digitalisation.
“Dans une
entreprise qui
n’est pas data
driven, beaucoup
de choses se font
au feeling : les marketeurs, par
exemple, fonctionnent souvent à
l’intuition, ou s’appuient sur des
études externes dont l’intérêt peut
être discutable. L’enjeu va être de
transformer cette façon de penser,
en faisant de plus en plus de la data
la colonne vertébrale qui sous-
tendra toutes les actions.
”Orange
Geoffrey Zbinden
Vice President Big Data Analytics
& Customer Base Management
“ Une Data Driven Company
est une entreprise qui base ses
orientations et ses stratégies
sur l’analyse de sa data -
chiffres de marché, base client,
réseaux sociaux, A/B testing -
et ce dans une logique de prise
de décisions factuelles. Plus qu’un
programme à mettre en place
du jour au lendemain, une telle
vision correspond bien sûr avant
tout à un idéal. Dans une certaine
mesure, celle-ci nous guide dans
les changements à mettre en place
chez Voyages-sncf.com. Nous
avons ainsi connu, il y a un an, une
grande réorganisation autour de la
data, dont la volonté et l’ambition
étaient de mettre en place des
solutions concrètes prenant
comme moteur la donnée.
”Voyages-sncf.com
Marie-Laure Cassé
Directrice Marketing
Client & Data
faire
deladonnée
un
moteur
DATA Driven
Organisation
60
encyclopédie des big data
Laisser à la data le pouvoir d’orienter le business suppose toutefois
une transformation en profondeur de l’entreprise. Celle-ci va passer
notamment par un désilotage en règle, et un effort de clarification
majeur sur la question de la data gouvernance. Il s’agit là de deux
obstacles majeurs à l’émergence d’une Data Driven Organisation,
comme le détaille Samir Amellal (Publicis Worldwide) :
Publicis Worldwide
Samir Amellal
International Chief Data Officer
Nous avons la conviction que
la data, à partir du moment où
elle n’est plus information brute,
mais qu’elle a été transformée en
information utile, doit permettre de piloter
efficacement une organisation, et de prendre
des décisions, que ce soit pour mieux adresser
son marché, pour améliorer un service, etc…
La data ne doit pas se trouver dans un silo en
particulier, et le CDO ne doit pas être rattaché à
un service particulier, mais aux services centraux.
Une Data Driven Organisation se doit, avant
toute chose, de casser les silos.
Mais en plus de cela, en voulant instaurer cette
Data Driven Organisation, on se heurte très
vite à des conflits sur les périmètres, et à des
résistances importantes au travers desquelles
chacun essaie de s’accaparer la donnée. Il faut
être capable de faire passer la data non comme
un enjeu de pouvoir, mais plutôt comme un
facteur clé de succès qui peut être profitable à
l’ensemble des collaborateurs.
””
IN
VIEWTER
61
TRANSFORMATION
DEL’ENTREPRISE
Face à de tels obstacles, l’émergence d’une entreprise réellement
data driven ressemble surtout à un vœu pieu. C’est en tout cas l’avis
de Tania Aydenian (Orange Technocentre) :
Peu d’entreprises
peuvent aujourd’hui
prétendre qu’elles
sont véritablement
data driven (et tant pis si le mot
est martelé à longueur d’articles !).
Avant de parler de Data Driven
Organisation, il va déjà falloir passer
par un “mindset” data driven, ce qui
est déjà un gros pas en avant. Qui
dit donnée, dit partage et ouverture.
Or cet état d’esprit va entrer en
collision avec la façon dont la
plupart des entreprises sont encore
construites aujourd’hui, c’est à dire
sur la base de silos.
Data Driven Organisation, c’est
un beau mot, une belle ambition…
Mais sa mise en oeuvre, voilà
quelque chose de beaucoup
moins évident !
”Orange Technocentre
Tania Aydenian
Directrice du Programme Datavenue
62
encyclopédie des big data
Dans la mesure où elle se propage désormais dans toutes
les strates de l’entreprise, la donnée nécessite la mise en
place d’une gestion globale et transverse. C’est là qu’intervient la
data gouvernance, comme volonté de contrôler dans son ensemble
la disponibilité, l’interprétabilité, l’intégrité, et la sécurité des don-
nées… et ce afin de mettre celles-ci au service du business. C’est ain-
si, comme l’explique Joël Aznar (Schneider Electric), de la prise de
conscience de l’importance économique que constitue désormais
la data pour une entreprise, que va naître le besoin d’en encadrer les
usages par la mise en place de la gouvernance adéquate :
IN
VIEWTER
Schneider Electric
Joël Aznar
Global Purchasing - Director,
Master Data Governance
La porte d’entrée du Master Data Management,
c’est souvent l’analytics qui va rapidement
prouver son efficacité dès que l’on souhaite
une meilleure qualité, une meilleure fiabilité
de reporting grâce à l’amélioration des données
brutes (matching, tables de correspondance, tables de
multiplication). A partir de cette première étape on se
rend toutefois vite compte que si l’on veut aller plus loin,
on ne peut se satisfaire d’opérations de nettoyage et de
réconciliation des données a posteriori… très rapidement
on éprouve la nécessité de prendre la main sur les données
opérationnelles dans les systèmes sources. On entre alors
dans une démarche plus volontariste de data gouvernance,
pendant laquelle on cherche à établir et faire respecter les
règles de base associées à la gestion de la donnée, le plus en
amont possible et tout au long de son cycle de vie - le fameux
CRUD : “Create, Read, Update, Delete”.
””
DATA
GOUVERNANCE 
63
TRANSFORMATION
DEL’ENTREPRISE
“
Toutlemondeestconvaincude
l’intérêtdemettreenplaceune
datagouvernancesolideetefficace…
Maispersonnen’aletempspourlefaire.
Ladifficultéc’estdeparveniràmontrer
l’intérêtbusinessréeldecettenouvelle
formed’organisation. 
”Groupe Argus
Benoît Chéroux
“
Silamiseenplacedeladata
gouvernancen’estpasportée
etsupportéeparletopmanagement,
celan’aaucunechanced’aboutir. 
”Numericable – SFR
Morgane Castanier
Air France-KLM
Max Vallejo
Head of eCRM, Digital Department
Les rôles associés à la gouvernance de la
donnée sont de plus en plus explicites chez
nous : data officer, qui a la responsabilité de
définir les guidelines d’utilisation des données
clients; data owners, qui, pour chaque famille de données,
sont responsables de la collecte, du stockage, et de la
véracité de la data; data analysts, qui s’occupent de la
partie exécution. Il faut s’efforcer de trouver un équilibre
le plus harmonieux possible dans l’articulation entre le
rôle de data officer, et celui de data owner.
”
Une fois donnée l’impulsion initiale, il va s’agir de préciser les péri-
mètres dévolus à la data gouvernance, en stipulant notamment la
répartition des rôles qui lui seront dédiés. Voilà le point sur lequel
insiste Max Vallejo (Air France-KLM) :
64
“
Certains parlent du nouvel or noir. La data est
devenue un élément de valorisation important
de l’entreprise, elle est au cœur de sa transformation.
La quantité et la diversité des données, l’hétérogénéité des
sources de données, l’utilisation transverse des informa-
tions ou encore des impératifs légaux rendent indispen-
sable l’implémentation de la gouvernance des données.
Objectif : faire que tous les acteurs de l’entreprise parlent
un vocabulaire commun et fondent leurs analyses et leurs
décisions sur des données qualifiées.
Ce service rendu en interne, de façon transverse, passe
par la définition et la gestion d’un ensemble de règles, de
procédures, d’indicateurs, de référentiels, qui permettent
d’une part de décrire précisément les informations qui
sont utilisées au quotidien dans l’entreprise, et d’autre part,
d’assurer la cohérence, l’homogénéité, la fiabilité et la dis-
ponibilité des données.
L’un des challenges à relever est d’établir la confiance des
consommateurs d’informations dans l’entreprise avec les
applications IT ou métiers qu’ils utilisent. Cela se fait en leur
garantissant des données propres, livrées à temps, et cor-
respondant fonctionnellement à leurs attentes.
Utiliser une solution technologique homogène et ouverte
est un prérequis au succès de l’adoption de la gouvernance
des données. L’ensemble des informations est ainsi conso-
lidé via une plateforme unique et intégrée, assurant la qua-
lité de l’information pour, au final, une plus grande efficaci-
té de l’entreprise. 
” Dan Benouaisch
Directeur Technique Analytics
IBM France
encyclopédie des big data
D’ex
pert
AVIS
65
Forgée par deux ingénieurs de Facebook et LinkedIn, cette
appellationnerenvoiepasàunprofilprofessionnelauxfonctions
strictement définies, mais plutôt à un ensemble de compétences
au service de la création de valeur à partir de mégadonnées. Pour
remplir au mieux cette mission, le data scientist doit se tenir à la zone
de contact entre trois grands domaines : la science (connaissances
enmathématiquesetenstatistiques),latechnique(maîtriseducode,
des applications, et des technos Big Data) et le business (sensibilité
à la réalité des métiers, et aux objectifs de l’entreprise). Autant dire
que ce genre de profils, à la fois polyvalents et hyper spécialisés,
ne courent pas les rues, comme le constatent Morgane Castanier
(Numericable - SFR) et Samir Amellal (Publicis Worldwide) :
“Pour profiter de
l’opportunité qu’offrent
les Big Data, il faut
d’abord résoudre un fort
enjeu de compétences.
Il est en effet nécessaire
de mobiliser des profils
spécifiques, qui se trouvent à la
frontière entre business, science
pure, et technologie - ce dernier
point n’étant pas une mince affaire
étant donné le foisonnement des
outils liés à la data. Ce profil idéal
du parfait data scientist fait un peu
figure de mouton à cinq pattes.
”Numericable-SFR
Morgane Castanier
Directrice Data et CRM
“ La data science c’est
une fonction, une qualité
même, relativement
atypique. On se rend
compte qu’aujourd’hui sur
le marché tout le monde
se prétend data scientist.
Mais le vrai profil nécessite d’être à
la fois à l’aise avec l’informatique, les
mathématiques, et avec le marketing
(ou autre métier dans lequel il
opérera). Une maîtrise du code,
des technologies digitales et des
technologies permettant de traiter
de la donnée assez peu structurée,
me semble être une nécessité.
”Publicis Worldwide
Samir Amellal
International Chief Data Officer
Très
chère
chimère
DATA
Scientist
TRANSFORMATION
DEL’ENTREPRISE
66
encyclopédie des big data
La rareté de ces profils risque de s’amplifier prochainement, les for-
mations à la data science étant loin de couvrir les besoins du mar-
ché. Une récente étude réalisée par McKinsey estimait qu’il man-
quait d’ores et déjà 200 000 data scientists aux Etats-Unis, un chiffre
qui dépasserait le million à l’orée 2020. Pour la France, le constat est
le même d’après Stéphan Clémençon (Télécom-ParisTech) :
Télécom-ParisTech
Stéphan Clémençon
Professeur et Responsable
du Mastère Spécialisé Big Data
La possibilité de valoriser efficacement les données
numériques dont disposent les entreprises passent par
la mobilisation de compétences bien précises. Le besoin
de formation autour de la data se fait donc tout naturellement plus
criant à mesure que les entreprises veulent maîtriser de mieux en
mieux leurs données. Nous nous en rendons compte, à ParisTech,
avec le succès de notre master dédié à ce domaine.
Les formations autour de la donnée en France sont loin de pouvoir
être considérées comme un enseignement supérieur de masse. Nos
promotions regroupent une soixantaine d’élèves. Le nouveau master
de l’Ecole polytechique - «mathématiques pour la science des masses
de données» - a des promos de 80 élèves. Avec de tels effectifs,
nous sommes loin de subvenir aux besoins de toutes les entreprises,
d’autant que ceux-ci vont sans doute continuer de croître.
””
IN
VIEWTER
“
Aujourd’huinousprivilégionsla
complémentaritédespersonnesausein
del’équipeplutôtquedetrouverabsolument
lesperlesraresmulticompétentes. 
”AccorHotels group
Fabrice Otaño
Face à ce manque criant de data scientists, il ne reste aux entre-
prises que deux options pour combler leurs besoins : procéder à
des recrutements en y mettant le prix, ou bien faire preuve d’imagi-
nation, en remplaçant ce type de profil par de nouvelles manières
de travailler ensemble.
67
TRANSFORMATION
DEL’ENTREPRISE
“Dans la mesure où il
est quasi impossible d’attirer
des profils de data scientists
réunissant en une même
personne toutes les qualités
requises, il faut trouver
d’autres moyens pour faire
efficacement de la data
science. Chez Publicis, nous
cherchons à recréer cette
compétence dans le cadre de
notre pôle Data Intelligence,
qui fonctionne de manière
totalement adhocratique
- certes nous avons des
chefs de projet, mais par
exemple, le Directeur de la
production pourra très bien
devenir chargé
d’études dans le
cadre d’un projet
en particulier
dans lequel il aura
les compétences
requises. Dans le
cadre d’un projet spécifique,
les hiérarchies sautent, afin
de globaliser
les compétences.
”Publicis
Worldwide
Samir Amellal
International Chief
Data Officer
“Nous avons
staffé cette année
une équipe advanced analytics, composée
d’une dizaine de data scientists que nous
avons été cherchés presqu’entièrement
par recrutement externe. Trouver de tels
profils, c’est un gros investissement, étant
donnée leur rareté. Il s’agit encore d’une
compétence de niche.
”Schlumberger
Olivier Brousseau
IT Business Intelligence
Strategy Manager
Cequine
s’achètepas
s’invente
“Nous avons mis en place un
système de recrutement différencié , qui
permet de cibler d’un côté des candidats
au profil plutôt mathématicien, et de
l’autre des profils plus orientés business.
Ainsi, nous avons un laboratoire
de R&D dans lequel on retrouve
des profils hautement compétents
puisqu’il s’agit de normaliens, de
polytechniciens et d’universitaires et
élèves de grandes écoles spécialisés
dans le développement d’algorithmes
spécifiques. Et par ailleurs, nous
recrutons des «data scientists business»,
issus du milieu du «consulting» autour de
compétences issues du Big Data
dans ses implications concrètes
et liées au business.
”Thales Communications
et Sécurité
Jean-François Marcotorchino
Vice Président et Directeur
Scientifique de Thales GBU SIX
68
encyclopédie des big data
“
Le Big Data a vu l’émergence de nouveaux mé-
tiers comme le Chief Data Officer, le Data Analyst.
Le plus prisé d’entre eux est celui de Data Scientist. Ce pro-
fil est recherché car rare sur le marché, même si de nom-
breuses écoles et universités ont inclus la data science
dans les cursus de formation.
Qu’est-ce qu’un bon Data Scientist ? Un scientifique avec
des compétences métiers ? Un expert métier avec des
connaissances informatiques ? La réponse n’est pas tran-
chée. Ce qui est sûr, c’est que ses connaissances sont so-
lides en informatique et mathématiques et qu’il a une ap-
pétence pour le domaine d’application.
La data science nécessite une ouverture d’esprit et une
curiosité parfois en opposition avec la rigueur mathéma-
tique car contrairement au Data Analyst qui s’intéresse
souvent à une seule source de données (CRM, Supply
Chain…) et ses structures, le Data Scientist doit corréler
tous types de données et se concentrer sur le contenu.
Il ne doit se fermer aucune porte et explorer toutes les
pistes même les plus improbables. Toutefois, l’entreprise
n’étant pas un centre de recherche, le Data Scientist Ma-
nager a un rôle essentiel : il fixe les limites en fonction des
ROI et assure la pérennité des recherches. Grâce à l’excel-
lence de ses mathématiciens, la France a un rôle majeur à
jouer sur le développement de la data science. 
”Laurent Sergueenkoff
Analytics Platform Sales Team Leader
IBM France
D’ex
pert
AVIS
69
Idéalement, au sein d’une entreprise, tous les départements
s’efforcent d’œuvrer ensemble et dans une même direction.
Pourtant, l’architecture verticale traditionnelle des sociétés peut
pousser certains secteurs à être motivés par des intérêts divergents,
voire à s’opposer. La façon dont vont se répartir les données dans
le système d’information met en lumière ces divisions. Même si elle
irrigue toute l’entreprise la data va ainsi se retrouver capturée dans
des silos, où elle sera exploitée de façon isolée par les différents
secteurs. Or pour profiter à plein des avantages et des nouvelles
opportunités de croissance offertes par la donnée, il va justement
falloir faire circuler de façon fluide cette dernière, et instaurer une
data gouvernance transverse, à l’échelle de l’entreprise.
DÉsilotage
TRANSFORMATION
DEL’ENTREPRISE
“
Ladatanedoit
passetrouver
dansunsilo
enparticulier
etuneDataDriven
Organisationsedoit
avanttoutechose,
decasserlessilos. 
”Publicis Worldwide
Samir Amellal
70
“Trouver la
bonne gouvernance
de la donnée,
c’est loin d’être
évident. Chez nous,
la donnée a été,
historiquement, toujours très
silotée (marketing, digital, CRM,
SI, service client, direction
commerciale, DAF). La donnée
est partout, mais traitée de
façon isolée par des gens qui ne
se parlent pas forcément, qui ne
partagent pas ce qu’ils savent.
Si l’on entend fluidifier la data,
il est nécessaire d’organiser une
gouvernance transverse
de la donnée.
”Numericable-SFR
Morgane Castanier
Directrice Data et CRM
“ Nous avons
la conviction que
la data, à partir
du moment où
elle n’est plus
information brute, mais qu’elle a
été transformée en information
utile, doit permettre de piloter
efficacement une organisation,
et de prendre des décisions,
que ce soit pour mieux adresser
son marché, pour améliorer un
service, etc… La data ne doit
pas se trouver dans un silo en
particulier, et le CDO ne doit
pas être rattaché à un service
particulier, mais aux services
centraux. Une Data Driven
Organisation se doit, avant toute
chose, de casser les silos.
”Publicis Worldwide
Samir Amellal
International Chief Data
Officer
De telles mesures passent nécessairement par une réduction,
voire une suppression pure et simple des silos traditionnels,
comme l’expliquent Morgane Castanier (Numericable - SFR)
et Samir Amellal (Publicis Worldwide) :
HAROsur
les
silos
encyclopédie des big data
71
Cette ambition de briser les silos va toutefois se
heurter à de nombreuses résistances. Voilà ce
qu’explique Samir Amellal (Publicis Worldwide) :
IN
VIEWTERPublicis Worldwide
Samir Amellal
International Chief Data Officer
Les silos peuvent s’avérer
très résistants dans une
entreprise et ce pour deux
raisons principales :
- la première est d’ordre politique, car
dans l’engouement autour de la data,
tout le monde a l’ambition de prendre
le lead, et donc de garder la main sur
le sujet. Conserver sa donnée qui n’est
autre que de l’information, c’est aussi,
pense-t-on, conserver le pouvoir.
- la seconde est inhérente à l’organisation
de l’entreprise. Lorsque celle-ci est
mécanique, pyramidale, les silos se
constituent naturellement. On voit
apparaître aujourd’hui des entreprises
digitales qui acceptent plus de
porosités, utilisant la data comme un
liant de toute l’entreprise. 
”
TRANSFORMATION
DEL’ENTREPRISE
72
encyclopédie des big data
Afin de réussir au mieux cette étape du désilotage il va donc falloir
veilleràbienfairecomprendrel’intérêtetlesbienfaitsd’unetelleopé-
ration à toute l’entreprise. Ce qui passe, nous expliquent Elisabeth
Zehnder et Joël Aznar, par trois étapes clés : la prise de conscience,
une communication efficace en interne, et un sponsorship ferme.
“Briser les silos, c’est
le plus grand challenge de
la data gouvernance. Et
dans ce cadre, la première
difficulté va être la prise de
conscience de ce défi, sans
laquelle on continuera à
prêcher dans le désert.
Chez nous il a fallu par
exemple apprendre
d’abord à améliorer la
collaboration entre les fonctions
Achats et Finance, pour prendre
conscience qu’on avait besoin
de part et d’autre d’un partage
commun sur la cible à mettre en
avant si l’on souhaitait relever des
défis comme le “Source-to-Pay”
par exemple. On ne peut pas se
contenter de faire chacun de son
côté la moitié du chemin. Il faut
partager, intégrer les contraintes
des uns et des autres, et ne
pas se contenter d’imposer sa
vision. Le sponsorship suit tout
naturellement une fois qu’une telle
prise de conscience a eu lieu.
”Schneider Electric
Joël Aznar
Global Purchasing - Director,
Master Data Governance
Ouvrir
Lesyeux,
discuter,
ettenir
fermement
labarre
“ Le sponsorship va aussi
être crucial pour désiloter
efficacement. Chez nous,
le sponsor du projet data
et connaissance client, c’est
le Directeur web et marketing.
Mais le DSI est aussi porteur
du projet.
”Kiabi
Elisabeth Zehnder
Data Scientist
73
TRANSFORMATION
DEL’ENTREPRISE
Début 2001, des experts du monde du logiciel se réunissent aux
Etats-Unis pour débattre de la meilleure façon de développer
des applications informatiques au sein d’organisations confrontées
aux premiers bouleversements du numérique. De leurs conversa-
tions naîtra le Manifeste agile (Agile manifesto), promouvant, face au
modèle de développement en cascade, une méthode fondée sur
quatre grandes valeurs : l’équipe (privilégier les interactions entre
individus aux processus et aux outils), l’application (produire des
logiciels opérationnels plutôt qu’une documentation exhaustive),
la collaboration (collaborer avec les clients plutôt que négocier
contractuellement) et l’acceptation du changement (s’adapter au
changement plutôt que s’en tenir à un plan).
Au delà du monde de l’informatique où il a vu le jour, un tel état d’es-
prit trouve tout naturellement sa place dans des projets associés au
Big Data. Il va non seulement promouvoir des façons de faire plus
souples et rapides (test & learn, POC - proof of concept), mais aus-
si résoudre des problèmes de compétences (la rareté notamment
des profils de data scientists) en mixant les équipes et en les inci-
tant à collaborer étroitement. C’est sur ce dernier point qu’insistent
Christèle Baranco (LCL) et Morgane Castanier (Numericable-SFR) :
MODE
AGILE
74
“Afin de fonctionner
en mode agile, et de bien
faire travailler métiers et
IT ensemble, nous avons
mis en place des plateaux agiles qui
mélangent des équipes techniques,
des équipes qui font de la gestion
de projet, des data scientists, et
des gens du métier. Il faut pouvoir
itérer en permanence, passer par
des phases de sprint, montrer des
avancées rapidement, en tirer des
enseignements, et des usages. Nous
avons actuellement une POC sur des
données qui doivent nous permettre
de déterminer des comportements de
consommation chez nos clients. Nous
la menons en mode agile, ce qui est
bien perçu par nos équipes.
”LCL
Christèle Baranco
Responsable Analyse
de la Donnée Client
Lecredo
dela
souplesse
etde
l’inventivité
“ Utiliser et généraliser les
méthodes agiles, avec des core
teams intégrant des gens du
métier, des data scientists, des data
managers et des ingénieurs, c’est
capital. Nous sommes en train de
mettre en place une gouvernance
pour essayer d’en faire de plus
en plus, car à chaque fois que
nous avons eu recours à de telles
méthodes sur des projets Big Data,
cela s’est avéré fructueux.
”Numericable-SFR
Morgane Castanier
Directrice Data et CRM
encyclopédie des big data
75
Le monde du digital en
général, et celui du Big
Data en particulier, s’accom-
mode mal des lourdeurs
et de l’inertie de la gestion de projet à l’ancienne. Il va au contraire
exiger de la rapidité et de l’agilité dans les actions, et une capacité,
aussi, à aller chercher l’innovation sans être paralysé par la peur de se
tromper. Le test & learn, à la fois méthode de travail et façon d’appré-
hender le business très anglo-saxonne, s’accorde parfaitement à ces
nouvelles exigences. Le principe : lancer un chantier à petite échelle,
dont il va être possible de mesurer rapidement la pertinence et l’ef-
ficacité. Puis, dans la foulée, multiplier les retours d’expérience pour
déterminer ce qui a bien marché, ce qui a moins bien marché, et ce
qui n’a pas marché du tout. A partir de là, procéder touche par touche
à l’amélioration du processus. La phase de test s’achève une fois que
tous les enseignements ont été tirés, avec alors la possibilité soit de
faire aboutir le projet en le déployant à plus large échelle, en l’indus-
trialisant, soit de l’abandonner au profit d’un nouveau. Plus qu’une
façon de faire, le test & learn constitue une disposition d’esprit, des-
tinée, selon Laurent Aliphat (Renault) et Tania Aydenian (Orange
Technocentre) à irradier dans toute l’entreprise :
“Commencer humblement, puis
itérer, réajuster, enrichir au fur et à
mesure - bref, fonctionner en test &
learn - nous adoptons la démarche
du MVP (Minimum Viable Product)
permettant de répondre aux besoins
des clients. Cette approche trouve
naturellement sa place au sein du
Technocentre Orange. L’ambition est de
tester ces nouvelles méthodes de travail
à l’heure du numérique, au travers de
programmes larges, complexes, et
multiprofils. Cette approche a vocation
à être étendue au sein des différents
départements d’Orange.
”Orange Technocentre
Tania Aydenian
Directrice du Programme
Datavenue
“ La généralisation
de l’approche en test
& learn chez Renault
est liée à la création
de la Digital Factory il
y a quatre ans. Déjà à
l’époque, il s’agissait
d’un maître mot, qui incarnait
la façon dont le management
souhaitait que les équipes
travaillent. Plus qu’un outil, c’est
un état d’esprit, qui oppose, à des
approches conservatrices, l’agilité,
la mobilité, et l’envie de tester des
approches innovantes.
”Renault
Laurent Aliphat
Head of Digital
Performance and Lead
Management
inthe
mood
for
test
TEST
&LEARN
TRANSFORMATION
DEL’ENTREPRISE
76
Etape ultime de ce nouveau mindset : la dédramatisation de l’échec,
considéré non plus comme une menace dans la conduite d’un
projet, mais plutôt comme une opportunité de rebondir, poursuit
Laurent Aliphat (Renault) :
Renault
Laurent Aliphat
Head of Digital Performance
and Lead Management
Quand une entreprise
s’inscrit dans une démarche
de transformation digitale,
le test & learn est souvent
le premier maillon d’une chaîne qui très
vite évolue vers le fail fast. Alors que
dans le test & learn il faut toujours faire
la preuve, apporter du feedback positif,
le fail fast va exprimer le bénéfice
de l’échec, et les apprentissages
qui en découlent. Les récents exemples
de succès dans l’univers des startups ou
même dans les grosses entreprises
qui ont réussi leur adaptation à
un monde digitalisé, se sont appuyés
sur ces énergies nouvelles qui
apparaissent lorsqu’on supprime
la peur de l’échec.
””
IN
VIEWTER
encyclopédie des big data
77
TRANSFORMATION
DEL’ENTREPRISE
“
Les tâches d’extraction de valeur d’un jeu de
données sont très diverses et variées. Parfois de
qualité insatisfaisante, parfois de volume trop important,
le jeu de données ne présente pas, en son sein, de tâche
d’analyse à appliquer. Il est souvent nécessaire d’expéri-
menter plusieurs méthodes, de les confronter à la réalité
du terrain, et retourner à l’expérimentation jusqu’à satisfac-
tion du commanditaire final. Ainsi les méthodes d’analyse
de données ont emprunté des méthodologies à d’autres
domaines de compétences comme le développement in-
formatique ou la création d’entreprise. Les méthodes test &
learn font référence à un ensemble de pratiques abordées
lors de la réalisation d’une tâche d’analyse pour un cas
d’usage particulier. Ainsi, ce cas d’usage doit connaître une
performance initiale qui doit être améliorée lors de la mise
en production d’une nouvelle application utilisant une
analyse de données. Un plan d’expérimentation doit pou-
voir évaluer chaque maillon de la chaîne de traitement, et
au fur et à mesure de l’amélioration des composants de la
chaîne, une amélioration quantitative ou qualitative de la
chaîne de traitement doit être apportée : jeu de données à
hypothèse, à développement d’un test, à implémentation
du test, à évaluation de l’amélioration de la performance,
et ainsi de suite jusqu’à satisfaction. 
”Marc Damez-Fontaine
Senior Manager
PwC
D’ex
pert
AVIS
78
79
3. ASPECTS
TECHNIQUES
A/B Testing, Data warehouse, Real Time Bidding,
API… Le monde du Big Data se définit d’abord
par un fort degré de technicité, qui suppose
de connaître et de manier un grand nombre
de processus. Mais avant cela, encore faut-il
pour les entreprises identifier ceux qui seront
les plus à mêmes d’apporter des bénéfices
concrets, et de déboucher sur des cas d’usage.
80
Cette méthode de test
randomisé s’appuie sur
un principe on ne peut plus
simple : comparer les résul-
tats respectifs de deux variantes, la première, A, constituant la norme
de l’expérience, la seconde, B, contenant un élément divergent sus-
ceptible d’avoir un impact sur la cible étudiée. Il s’agit donc d’une hy-
pothèse de test à deux échantillons, qui va permettre d’identifier qui
de A ou de B se montre statistiquement le plus performant. Utilisée
initialement dans le marketing, cette technique a d’abord consisté,
tout simplement, à proposer deux variantes d’un même objet dif-
férant en un point (le logo, la couleur d’une typo ou d’un paquet).
S’étendant par la suite à une kyrielle d’autres situations, l’A/B testing
est surtout devenu un incontournable de la communication en ligne
et de la business intelligence, que l’on parle de campagnes d’emai-
ling ou d’affichage de site web. Dans ce dernier cas, on va pouvoir
tester sur deux groupes de visiteurs, deux versions différentes d’une
même page en faisant varier un grand nombre de combinaisons
(boutons, images, taille et emplacement des éléments, présence ou
non de vidéos) jusqu’à élaborer la mouture la plus efficace.
En faisant dépendre un choix marketing non plus d’une intuition,
mais d’un raisonnement assisté par de la statistique et de la donnée,
l’A/B testing constitue un bon exemple de décision data driven  .
Même s’il ne s’agit pas à proprement parler de Big Data, sa
généralisation au sein d’une entreprise est un bon indicateur de
maturité digitale. Ce que soulignent Angélique Bidault-Verliac
(Voyages-sncf.com) et Max Vallejo (Air France – KLM) :
A/B
testing
encyclopédie des big data
81
“Pour une compagnie qui
se veut data driven, l’A/B testing
est une vraie révolution. Avec
une telle méthode il ne s’agit
plus de procéder à une refonte
de site du jour au lendemain sur
la base d’une intuition, mais de
modifier à la marge
plusieurs petites
choses concrètes qui
amélioreront les KPI, et
transformeront au fur
et à mesure le site. Chez
Voyages-sncf.com, nous
souhaitons généraliser
l’usage de l’A/B testing
pour s’assurer systématiquement
que les solutions qui performent le
mieux seront aussi celles
qui se trouveront exposées
en priorité aux clients.
”Voyages-sncf.com
Angélique Bidault-Verliac
Responsable du Pôle Data
& Webmining
“ Au moment de monter
une campagne, nous allons
procéder à un échantillonnage
de 5% sur un en-tête A, et à
un autre, de même valeur, sur
un en-tête B. Celui qui scorera
le mieux sera utilisé sur les
90% de la base restante. Cette
logique d’A/B testing a des
résultats incontestables, et c’est
une méthode simple, facile à
comprendre… pour
peu que l’on définisse
bien version A et
version B, et que l’on
maîtrise le concept
de significativité. Pour
qu’elle soit encore plus
efficace, il faut être aussi
capable de l’utiliser
fréquemment et d’en faire
baisser le coût opérationnel.
”Air France-KLM
Max Vallejo
Head of eCRM,
Digital Department
LE
B-A-BA
du test
A/B
TRANSFORMATION
DEL’ENTREPRISE
ASPECTS
TECHNIQUES
82
encyclopédie des big data
“
Les tests A/B sont une technique qui consiste à expéri-
menter deux variantes d’un même objet auprès d’une
même audience. Il s’agit par exemple, pour faire passer
un même message, d’utiliser des visuels différents ou d’opter
pour différentes stratégies en alternance – fréquence ou véloci-
té – avec toujours la même exécution créative. Cette technique
peut également permettre de tester des créations de formats
différents.
Lorsque les tests A/B sont utilisés en début de campagne, ils
aident l’annonceur en lui indiquant très vite la création à la-
quelle l’audience répond le mieux. Cela permet d’optimiser en
temps réel la campagne, avant qu’elle n’arrive à son terme, en
choisissant la variante la plus fructueuse.
”Kamal Mouhcine
Directeur Commercial en Europe du Sud
Turn
D’ex
pert
AVIS
IN
VIEWTER
Solocal Group - PagesJaunes
Bruno Guilbot
Responsable Smart Data
et Advanced Analytics
L’A/B testing est une manière simple de
démontrer l’intérêt du Big Data pour l’entreprise,
via des exemples concrets, des gains rapides
et directement mesurés. C’est une très bonne
première étape dans la démarche Big Data. Nous l’utilisons
pour notre part en continu pour optimiser les performances
de nos sites tant sur des aspects ergonomiques que sur les
systèmes backoffice (algorithmes du moteur PagesJaunes
par exemple). Lors de la refonte du site pagesjaunes.
fr en début d’année nous nous sommes appuyés sur de
nombreux tests A/B : cela nous a permis de faire évoluer
très positivement le taux de clics vers nos professionnels,
en changeant le wording ou des aspects graphiques
(par exemple via l’ajout d’aides à la lecture).
”
83
OUTILS
Cette plateforme technique qui permet de traiter et d’optimiser
en temps réel les ventes et les achats programmatiques entre
annonceurs et éditeurs, l’Ad Exchange constitue le cœur du RTB  .
Il vient ainsi apporter une réponse à deux aspects caractéristiques
de la publicité display : la fragmentation et l’explosion de l’offre
d’espaces d’une part. La volonté de faciliter et de mieux structurer
le flux de données en tendant vers le temps réel  , de l’autre. Son
fonctionnement peut se résumer ainsi : l’ API est chargée de pous-
ser les impressions disponibles (et les audiences qui leur sont asso-
ciées) vers les acheteurs potentiels. Après avoir pris en compte une
multitude de critères de ciblages et de niveaux d’enchères définis
au préalable, l’Ad Exchange fait matcher demande et offre. Cette
automatisation des transactions fait que les enchères se déroulent
non seulement en temps réel, mais sans qu’acheteur et éditeur
n’entrent jamais en contact.
Stéphane Père (The Economist) compare un tel système aux plate-
formes de trading du monde de la finance, avec lesquelles il partage,
outre les mécanismes de base, une certaine forme d’opacité :
“ 
 Les Ad Exchange offrent la capacité de
connecter l’offre et la demande en terme
d’inventaires publicitaires, dans une logique
de place de marché qui s’apparente au monde de la
finance. Il s’agit d’une plateforme d’intermédiation et donc
de trading. Il y a encore beaucoup d’intermédiaires entre
offre, demande, et Ad Exchange, ce qui nécessite de se
demander : qui capte la valeur ? Qui doit prendre la main ?
D’autant qu’il s’agit là d’un monde en pleine mutation,
qui est en train de se doter de règles d’usage qui
n’existaient pas auparavant.
” The Economist
Stéphane Père
Chief Data Officer (Global)
Ad EXCHANGE
ASPECTS
TECHNIQUES
84
Les Application Programming
Interface (interface de pro-
grammation) sont des solutions
informatiques regroupant un en-
semble de méthodes, de fonc-
tionnalités, et de routines, qui vont s’intercaler entre un logiciel
et d’autres logiciels, afin de permettre aux seconds (programmes
consommateurs) d’utiliser les fonctionnalités du premier (pro-
gramme fournisseur). Une API est ainsi, en quelque sorte, une porte
qui, tout en masquant la complexité intrinsèque d’un système,
ouvre l’accès à un certain nombre de ses fonctions standard. De
même qu’un conducteur n’a pas besoin de connaître le fonction-
nement du moteur de sa voiture pour se servir d’un volant, un dé-
veloppeur n’aura ainsi pas à se soucier du fonctionnement réelle
d’une application distante pour l’utiliser dans un programme.
API
encyclopédie des big data
“
Pourrestituerladonnée
collectéeouachetée
surlemarché,ilfautdesAPI.
Cesontellesquivontpermettre
des’interfaceravecdesacteurs
externesàl’entreprise. 
”Groupe Argus
Benoît Chéroux
85
“ Nous commençons
à déployer nos premières
API, ouvertes dans un
premier temps à nos
clients, puis au marché.
Ces API permettront
d’abord de donner accès à deux
types d’information :
•	le référentiel véhicule
(l’ensemble des véhicules
commercialisés en France
depuis plus de 30 ans) :
liste des marques, modèles,
éléments techniques…
qui pour l’instant n’était livré
que sous forme de fichier
•	la cote Argus®, à laquelle on
pourra désormais accéder
via une API de valorisation
contenant également nos
indicateurs Valeur Argus
Transactions® et Valeur Argus
Annonces® (entre autres).
”Groupe Argus
Benoît Chéroux
Responsable Données &
Modélisations
Des API few
de plus en plus
nombreux !
Nombreuses sont les entreprises à être attirées par les promesses
de simplification et de nouveaux usages offertes par les API, comme
en témoignent Benoît Chéroux (Groupe Argus) et Aude Launay
(Bouygues Telecom) :
“Un exemple d’utilisation
d’API : éviter aux banques de
couper les cartes bancaires à
mauvais escient lors d’un paiement
à l’étranger, en recoupant la
localisation du pays de retrait
avec celui du mobile. Nous
sommes en train de réfléchir à
une offre de ce genre autour
d’une API en temps réel utilisée
quand les banques émettent un
doute sur l’utilisation frauduleuse
de la carte. Actuellement elles
préfèrent couper les cartes, avec
les inconvénients afférents lors
d’une utilisation classique pour les
touristes concernés.
”Bouygues Telecom
Aude Launay
Big Data Business Manager
ASPECTS
TECHNIQUES
86
Cependant, comme le souligne NicolasGaude(BouyguesTelecom),
malgré ce fort intérêt pour les API, le marché a encore besoin de
gagner en maturité pour pouvoir profiter à plein de leur efficacité :
encyclopédie des big data
“ 
 Pour l’instant, les offres Big Data
offertes aux entreprises sont
plutôt packagées sous la forme de
services professionnels que sous la forme de
données pures à proprement parler. A terme
cependant, lorsque le marché sera plus mûr, on
se mettra à acheter de la donnée enrichie. C’est
dans ce cadre que les API, au sens SaaS, pourront
aider à fluidifier les échanges. Aujourd’hui,
certes, l’appétence qu’a le marché pour les API
est forte, mais dans les faits, lorsqu’elles sont
mises à disposition, les entreprises ne savent
plus quoi en faire et requièrent une prestation
de conseil associée.
”Bouygues Telecom
Nicolas Gaude
Senior Data Scientist
87
En dématérialisant l’usage qui
est fait des données, les Cloud
Data Services constituent pour
l’architecture informatique des entreprises l’opportunité d’une évo-
lution vers plus de flexibilité. Outre cet impact sur la structure même
des systèmes d’information, ils vont aussi se révéler une formidable
opportunité business pour celles et ceux qui sauront les utiliser à
bon escient. L’intérêt croissant que suscite ce mind changer n’est du
reste pas prêt de se démentir. D’autant qu’il constitue une façon
idéale d’aborder, pour la première fois, le vaste territoire des Big Data.
“  Les Cloud Data Services permettent de se
familiariser avec des traitements nouveaux de la
donnée, et de mettre un premier pied dans les Big Data. Au
début, on va commencer par un sandbox, un POC. Puis, on va
passer au cloud, sur lequel il ne sera pas nécessaire d’investir
un budget trop important. Et enfin, on opérera une transition
vers des solutions plus hybrides. En somme, les Cloud Data
Services sont une bonne option pour les PME qui n’ont pas
la possibilité d’avoir leurs propres infrastructures. Pour les
sociétés du CAC 40, ça va être surtout un bon début,
mais elles ne pourront, à terme, s’en contenter.
”Sogeti
Aroua Biri
Architecte Cybersécurité & Big Data
CLOUDDATA
SERVICES
SNCF
Maguelonne Chandesris
Responsable de l’équipe Innovation
& Recherche «Statistique, Econométrie et Datamining»
On a l’impression que le cloud, c’est la dématérialisation
de la donnée. Mais l’hébergement de la donnée dans
des serveurs physiques, c’est quelque chose qui est très
concret, et qui a, par exemple, un vrai impact écologique. On ne se pose
pas aujourd’hui la question de l’économie globale autour de la donnée,
car on est encore dans une phase d’abondance, et pas d’efficience.
””
IN
VIEWTER
ASPECTS
TECHNIQUES
88
encyclopédie des big data
“
Lanotionde“cloudcomputing”
recouvre des services différents
selon les prestataires et les contrats pro-
posés laissent parfois le client dans le
brouillard…
Une définition “officielle” a été publiée
au Journal Officiel du 6 juin 2010 : “Le
cloud computing est une forme parti-
culière de gérance de l’informatique, dans
laquelle l’emplacement et le fonctionne-
ment du nuage ne sont pas portés à la
connaissance du client”.
En pratique, on constate cinq caractéris-
tiques essentielles au Cloud Computing.
-	Le “self-service à la demande”
(c’est le client qui détermine ses
besoins en capacité de calcul, de
stockage, etc., le service lui est rendu,
sans intervention humaine, de ma-
nière automatique,
-	Le “large accès au réseau”
via une multiplicité d’appareils per-
mettant de se connecter à l’internet
(PC, Mac, tablettes, smartphones…),
-	La “mise en commun
de ressources”
qui permet de servir plusieurs clients
à partir d’une installation unique. Les
ressources physiques et virtuelles
sont attribuées de manière dyna-
mique en fonction de la demande.
Le client ignore la localisation des res-
sources mises à sa disposition, mais
peut prévoir une localisation dans un
pays ou un data center spécifique.
-	La “grande souplesse”
permettant au client de demander,
à tout moment, toute “quantité” en
termes de puissance informatique,
sans limitation, de sorte à l’adapter,
à la hausse comme à la baisse à ses
besoins,
- 	La “mesure des services”
qui permet une transparence en
termes de “quantité” et de “qualité”
de service.
Il existe 3 modèles principaux de
fourniture de service (“as a Service”) du
Cloud Computing :
- Infrastructure as a Service (IaaS),
- Platform as a Service (PaaS),
- et Software as a Service (SaaS).
Le plus souvent les offres de services
“cloud” sont proposées par le presta-
taire sous forme de contrat d’adhésion
(contrat en principe non négociable).
L’explication réside dans le fait que
le “Service” est modélisé pour le plus
grand nombre et que tant la construc-
tion technique qu’économique de
l’offre est fondée sur ce principe.
La capacité de négociation de tels
contrats dépend donc le plus souvent
de la taille du prestataire… Le client, s’il
ne peut négocier, pourra toujours com-
parer les conditions contractuelles pro-
posées par les différents prestataires. En
effet, les engagements d’un prestataire
peuvent être plus ou moins adaptés à
ses besoins.
Le client veillera plus particulièrement
aux clauses relatives aux niveaux de ser-
vices (le plus souvent regroupés au sein
d’une convention de services ou “SLA”),
aux conditions de reversibilité, à la limi-
tation de responsabilité du prestataire et
aux modalités de détermination du prix.
juridiqueHocheAvocats
encyclopédie des big data
DE
VUE
point
89
Les enjeux d’un contrat de SaaS
Le SaaS ne fait pas l’objet d’une défini-
tion légale et peut selon les prestataires
revêtir différentes formes. On comprend
dès lors l’intérêt d’une rédaction précise
des droits et obligations de chaque par-
tie dans le contrat qui va les lier.
Le service sous mode SaaS consiste à
fournir à un client la possibilité d’utiliser
via l’internet, sur une infrastructure de
type“cloud”,desapplicationsoulogiciels
mis à sa disposition par le prestataire.
Les applications sont accessibles sur
les différents équipements du client
soit par le biais d’une interface client,
en usant d’un navigateur web (par
exemple, pour le cas d’une messagerie
électronique), soit par le biais de l’inter-
face d’un programme. L’utilisateur ne
gère pas ou ne contrôle pas l’infrastruc-
ture cloud sous-jacente, incluant le
réseau, les serveurs, les systèmes d’ex-
ploitation, les systèmes de stockage et
même les capacités de chacune des
applications, sauf dans le cas où l’appli-
cation fait l’objet d’une limitation quant
au nombre d’utilisateurs, en raison de
configurations spécifiques.
L’offre SaaS peut impliquer l’interven-
tion de plusieurs prestataires (le presta-
taire principal qui conclut avec le client,
l’éditeur qui fournit le logiciel ou l’ap-
plication, un hébergeur, un prestataire
assurant les sauvegardes, un fournis-
seur d’accès à internet…) ce qui génère
des enjeux juridiques différents pour le
prestataire de solution SaaS et le client.
Le client veillera à avoir pour seul inter-
locuteur contractuel le prestataire de
services SaaS (et selon les cas le fournis-
seur d’accès à internet).
C’est avec celui-ci qu’il va négocier les
éléments principaux du contrat :
-	 disponibilité du service (temps
d’intervention et de résolution des
anomalies, pénalités applicables),
- 	performance du service (temps de
réponse, pénalités applicables),
- 	conditions d’évolution du service,
- 	prix (modalités de détermination et
de paiement),
- 	hébergement des données (dans
certains cas le client souhaitera que
ses données soient hébergées en
France ou dans l’Union Européenne)
- 	sécurité des données (confidentialité,
cryptage, intégrité, disponibilité),
- 	garantie d’éviction quant à l’utilisa-
tion des logiciels ou applicatifs,
- 	responsabilité en cas de perte de
données (limitation de responsabili-
té, assurance),
- 	réversibilité (procédure de réversibili-
té et mise à jour, prix).
Le prestataire de la solution SaaS veille-
ra quant à lui à répercuter a minima sur
ses différents prestataires ou sous-trai-
tants les obligations qu’il aura lui-même
souscrites envers son client.
”
ASPECTS
TECHNIQUES
Hoche Avocats
Régis Carral
Avocat – Associé
90
encyclopédie des big data
Aussi appelé exploration
ou fouille de données,
le data mining consiste à ex-
traire de la connaissance et
des apprentissages dans les monceaux d’informations stockées par
les systèmes informatiques. Grâce à un ensemble d’ algorithmes is-
sus du monde de la statistique et de l’intelligence artificielle, cette
phase d’exploration va permettre de tirer des enseignements de
la donnée, et, in fine, de la valeur. Pour le monde des entreprises,
il s’agit là d’une aubaine qui intéressera aussi bien le secteur de la
connaissance client (optimisation des sites web et des parcours uti-
lisateurs), que celui de la sécurité (renforcement des dispositifs de
data safety  ) ou l’industrie (nouvelles opportunités offertes par la
maintenance prédictive  ).
Comme le fait remarquer Pascale Dulac (France Loisirs), le data
mining n’est toutefois pas une discipline nouvelle, mais plutôt un
champ qui va trouver une ampleur nouvelle à l’ère du Big Data :
DATA
MINing
IN
VIEWTER
France Loisirs
Pascale Dulac
Responsable Connaissance Clients
Nous avons une équipe de data mining
quasiment depuis une éternité ! Les
nouveaux usages vont tourner autour de
l’enrichissement de l’information présente
dans nos bases, rechercher, étape par étape, de nouvelles
sources pour affiner ces dernières. L’arrivée du Big Data
va se traduire par un changement progressif de ces
équipes de data mining pour tenir compte des nouvelles
exigences technologiques, et surtout de la nouvelle façon
d’appréhender la donnée dans son ensemble.
”
91
ASPECTS
TECHNIQUES
Le data mining regroupe plusieurs sous-disciplines
d’extraction de données, comme la fouille de textes
(  text mining  ), de sites internet (web data mining),
d’images (image mining) ou de flot de données (data
stream mining). Il va également constituer une étape
cruciale dans certaines disciplines data driven, à com-
mencer par le machine learning comme l’explique
Nicolas Gaude (Bouygues Telecom).
“  Le data mining
est une étape capitale
pour extraire les bonnes données,
et éviter que les machines, via le
machine learning, se retrouvent
à apprendre du bruit. Il est pour
l’instant nécessaire d’avoir une
barrière à l’entrée, un être humain
qui va sélectionner les données
pour éviter que la machine
ne se perde.
”Bouygues Telecom
Nicolas Gaude
Senior Data Scientist
92
encyclopédie des big data
Les entrepôts de données
sont des bases dans les-
quelles vont être stockées
une partie des données
fonctionnelles d’une entreprise en vue de leur utilisation pour des
usages précis. L’information qui entre dans les data warehouses est
issue de sources hétérogènes, ce qui va nécessiter de les homogé-
néiser pour permettre de les qualifier et de les intégrer. Ce n’est ain-
si qu’une fois que les données auront été structurées qu’elles pour-
ront être mises en rayon. On y aura alors recours pour des analyses
précises, et récurrentes, en suivant des routines clairement définies.
Dans ce sens le data warehouse a une forte connotation silo – il va
stocker un certain type de données qui seront structurées en fonc-
tion d’un certain type d’usage – contrairement au data lake qui
gardera la donnée dans son format natif, permettant de l’interroger
par la suite dans le cadre d’analyses très variées. Ces deux fonctions
ne s’opposent pas, et sont au contraires complémentaires. Le data
warehouse se montrant notamment bien plus performant pour
procéder à des analyses répétitives.
IN
VIEWTER
Voyages-sncf.com
Angélique Bidault-Verliac
Responsable du Pôle Data & Webmining
Chez nous, la notion de data warehouse est
historiquement connectée à de la donnée « froide »
collectée à j+1 (achats, éléments clients) même si on y
injecte des données de navigation sous forme d’agrégats.
Ces data warehouses traditionnels ont été chamboulés par l’arrivée
d’Hadoop. Le nôtre, qui a une dizaine d’années, s’appuie sur une
donnée nettoyée et structurée, sur laquelle nous produisons
directement tous nos reportings utilisés pour le pilotage business.
La coexistence de cet environnement ancien, fort d’une longue
expérience, avec les nouveaux environnements plus orientés Big
Data, est un défi parfois compliqué à tenir, et qui nous fait nous
poser plusieurs questions, dont la principale n’est pas la plus simple à
trancher : doit-on faire évoluer notre data warehouse actuel ou bien
le remplacer purement et simplement par de nouvelles solutions
technologiques permettant le passage au temps réel et susceptibles
de bousculer nos méthodes de reporting ?
”
DATA
warehouse
93
ASPECTS
TECHNIQUES
Comment dénicher, dans l’immense masse indéterminée des in-
ternautes qui se connectent au site d’une entreprise, les profils
de ceux qui s’avéreront les plus intéressants pour cette dernière ?
C’est à cette question que sont censés répondre les modèles de
look-alike. La méthode permet d’assimiler, grâce à son cookie de
navigation, un individu dont on ne sait a priori rien, à un type de
comportement déjà bien connu (parce que clairement identifié
dans sa DMP  ) et qui a été étiqueté comme porteur de valeur. Cette
recherche de jumeaux statistiques va ainsi accroître l’audience quali-
fiée qui sera ensuite visée par des campagnes marketing.
Look-alike
Modeling
“
Lelook-alikemodeling,
celaressemblebeaucoup
àduprédictifappuyésurdu
scoring.C’estunproduitde
l’A/Btestingauquelnousavons
beaucouprecourspouranalyser
descomportementspostachat. 
”GrandVision
Pierre-Marie Desbazeille
94
encyclopédie des big data
“ Le look-alike modeling
est un sujet qui a
extrêmement bien marché
chez nous. Sur nos parcours
e-business sur site, nous
cherchons à identifier via
les informations indiquées
par les répondants s’ils
constituent des prospects
à forte valeur ou non. Pour
cela, nous allons par exemple, dans le
secteur de l’automobile, utiliser des
critères comme le type de véhicule,
la durée de détention, l’ancienneté
de permis, la sinistralité, le coefficient
de réduction, etc. Grâce à ça, on est
en mesure dans un premier temps
d’établir des scores de valeur. Puis le
look-alike modeling va permettre de
modéliser, dans un bucket de profils
inconnus, ceux qui sont les plus
proches des profils connus détenteurs
des plus hauts scores. On va pouvoir
dès lors les cibler en média, et vérifier
la pertinence du score. Par rapport à
un taux de prospects à forte valeur
naturelle, le taux des prospects ciblés
après ce travail en look-alike modeling
a vu sa valeur multipliée par deux.
”AXA France
Jonathan Badoux
Responsable Outils Digitaux
La simplicité théorique de ce modèle de recherche de prospects
à haut potentiel attire de nombreuses entreprises… qui com-
mencent déjà à en récolter les fruits, comme le confirment Pascale
Dulac (France Loisirs) et Jonathan Badoux (AXA France) :
Chacun
cherche
sesjumeaux
statistiques
“Dans nos campagnes
de recrutement sur internet,
nous avons commencé
à mettre en place, au
printemps, des logiques
de recherche de jumeaux.
Il s’agissait par exemple de
rechercher des profils de gros
lecteurs, pour pouvoir cibler
plus tard plus facilement en
amont les gens susceptibles
d’être intéressés par certaines
de nos offres. Les résultats
se sont avérés plutôt bons,
mais pour qu’ils soient encore
meilleurs, il va nous falloir
affiner le processus.
”France Loisirs
Pascale Dulac
Responsable
Connaissance Clients
95
ASPECTS
TECHNIQUES
“
Le grand potentiel du look-alike modeling aujourd’hui repose sur
l’émergence récente d’acteurs ouvrant des bassins d’audience gi-
gantesques à la publicité, comme Facebook ou Amazon. Les dernières
évolutions technologiques et statistiques ont révolutionné les façons d’ache-
ter la publicité : plutôt que de cibler des segments descriptifs sur la base d’in-
tuitions et de préconceptions (ex : mon produit A est conçu à destination des
hommes de moins de 35 ans vivant en milieu urbain, je vais donc cibler ce
segment), on peut désormais s’affranchir de la recherche de caractéristiques
descriptives pour qualifier une cible. Adieu la ménagère de moins de 50 ans !
On peut désormais par exemple, à partir d’une liste d’individus connus dont
le seul point commun identifié par l’humain sera d’avoir fait 3 achats dans les
6 derniers mois sur un site, trouver des individus inconnus, dont on prédit
qu’ils en feront de même s’ils sont amenés sur le site. Les machines peuvent
en effet prendre en compte des combinaisons de variables que l’esprit hu-
main ne pourrait synthétiser en concepts, et les analyser en quantités bien
supérieures. Les larges bassins d’audience qualifiés des grands ac-
teurs publicitaires cités plus haut permettent alors de trouver des
profils jumeaux de façon très fine.
” Lan Anh Vu Hong
Marketing Lead
55
D’ex
pert
AVIS
The Economist
Stéphane Père
Chief Data Officer (Global)
Le look-alike modeling permet souvent de se rendre
compte qu’il n’existe en réalité pas réellement d’attribut
décisif pour définir un profil type. Mais plutôt une somme
d’attributs. Alors qu’auparavant le media planing tradition-
nel reposait sur des critères précis (âge, sexe, éducation, revenus,
centres d’intérêts), nous avons tendance aujourd’hui à identifier
nos prospects en partant de nos abonnés. Nous utilisons le look-
alike pour les cibler et avons une stratégie qui va adapter les créas
au centre d’intérêt ainsi qu’au contexte de diffusion.
Les profils, vont être une somme de tous les critères accumulés
par la DMP, si bien qu’au final, nous nous affranchissons de la
logique catégorielle. Le ciblage des profils pertinents fonctionne
un peu comme une black box, mais permet pourtant une vraie
hausse du taux de transfo.
””
IN
VIEWTER
96
encyclopédie des big data
La Gestion des Données de Référence (GDR, mais l’on utilise-
ra plus communément l’acronyme anglais MDM pour Master
Data Management) peut être définie comme un ensemble de pro-
cessus délimitant le cadre dans lequel les données référentielles
d’une entreprise devront être utilisées. Des « données maîtres » qui
peuvent être schématiquement divisées en trois grands ensemble
visés par cette gestion interne : données financières, données
clients, et données produits. En réalité, leur nature peut varier d’une
entreprise à l’autre en fonction du cœur de métier.
IN
VIEWTER
Schneider Electric
Joël Aznar
Global Purchasing - Director, Master Data Governance
Chez Schneider Electric, au sein
du périmètre des achats, nous avons
défini cinq domaines Master Data :
• le référentiel fournisseur : pour tout ce qui concerne les achats
externes (hors groupe)
• le référentiel « materials/products » : relatif aux composants,
biens et services que nous achetons et pour lesquels nous
gérons certains attributs
• les contrats : les conditions d’achats dont notamment les prix
• les acteurs de la fonction achats : cela inclut la gestion des
accès, des rôles et responsabilités, droits et autorisations dans
un soucis de “Governance Risk Compliance” (GRC)
• les données liées au domaine finance et mises en œuvre dans
les processus : pour assurer un haut niveau de coordination
cross-fonctionnelle entre ces deux métiers.
”
master data
management
97
ASPECTS
TECHNIQUES
La MDM introduit une vision globale des données maîtres, qui va
à l’encontre des logiques d’utilisation traditionnelle en silo. Une lo-
gique centralisatrice mise en avant par les différents acteurs que
nous avons pu interroger sur la question :
“Pour le résumer brièvement,
le Master Data Management
recouvre la capacité,
indépendamment des systèmes
techniques sous-jacents, à gérer
efficacement des données de
références qui peuvent être
de plusieurs types (clients,
produits,…), de manières à ce
que celles-ci soient complètes,
cohérentes et exactes. Il a été
nécessaire, dès la fin des années
90, d’avoir une approche globale
de ces questions, en raison de
l’introduction des normes Bâle II.
Il a fallu rapatrier les informations
sur les crédits et les avoirs des
clients dans le
monde entier,
ce qui a supposé
de centraliser
l’information sur
ces clients au
niveau global.
Nous avons construit au tournant
des années 2000 un premier
référentiel au niveau mondial,
d’abord pour les gros avoirs (16
millions de clients sur 80 au total).
Ce référentiel est actuellement
complété pour couvrir la totalité
des 80 millions de clients.
”Directeur MDM
d’un grand groupe bancaire
“Le Master Data
ne s’accommode pas
de modèles locaux.
Il faut une approche
globale, et très
intégrée si l’on veut en
profiter à plein. On ne peut pas
partir du principe que l’on va faire
communiquer toute la diversité
de points de vue de chaque BU,
de chaque ERP. À un moment
donné, il faut mettre de l’ordre, et
de la rigueur.
”Schneider Electric
Joël Aznar
Global Purchasing -
Director, Master Data
Governance
“Notre MDM aujourd’hui,
c’est un référentiel client
unique qui sert de pivot à
toute la connaissance client, et
communique avec l’ensemble
de nos applicatifs (gestion
fidélité, gestion de campagne
marketing, …) On peut ainsi gérer
toute la data client en un seul
endroit, sans être tributaire d’un
autre système.
”Kiabi
Elisabeth Zehnder
Data Scientist
Leseffets
unificateurs
duMDM
98
encyclopédie des big data
“
Dans les entreprises et les organisations, les
données se sont accumulées en silos. Les
sources se sont multipliées et souvent, elles
sont restées indépendantes les unes des autres, donnant
lieu à des incohérences, des duplications ou des temps de
traitement longs.
A l’heure du multicanal, il est primordial de disposer d’une
vue 360° du client, c’est-à-dire une vue exhaustive, trans-
verse et cohérente des informations. Le MDM en est la clé
d’entrée.
Le MDM est une initiative stratégique pour l’entreprise.
C’est un pilier fondateur de l’entreprise, qu’il s’agisse de
clients, de produits, d’équipements… De plus, dans le
contexte des data lakes, le MDM devient l’étape préalable
incontournable pour disposer d’un référentiel unique à
toutes les informations structurées et non structurées qui
sont déversées dans ces nouveaux réservoirs.
Si l’état de l’art oriente les architectures vers des référentiels
transactionnels, il est évident que toutes les organisations
ne sont pas prêtes à cela, ni techniquement, ni psycholo-
giquement. Les référentiels virtuels constituent alors une
alternative. Ils permettent la mise en place très rapide de
projets tactiques. Ils offrent un excellent moyen de démar-
rer sa transformation en offrant une implémentation facile
et légère sans aucun impact sur les systèmes sources. C’est
un excellent moyen de créer immédiatement de la valeur
ajoutée à partir des données perdues dans l’éclatement
des silos.
” Dan Benouaisch
Directeur Technique Analytics
IBM France
AVIS
pert
D’ex
99
ASPECTS
TECHNIQUES
Modèles
d’attribution
En autorisant une lecture à la fois plus fine et plus globale des
leviers marketing ayant contribué à une vente ou à une conver-
sion, les nouveaux outils d’analyse de la donnée invitent le marketing
à repenser ses modèles d’attribution. Quelle importance donner aux
impressions par rapport au clic ? Combien de temps peut-on consi-
dérer qu’une publicité vue, ou bien un clic, a encore un impact sur
un prospect ? Comment évaluer la valeur de tel canal par rapport
à tel autre ? Si le modèle d’attribution au last click reste aujourd’hui
ultra-majoritaire (79% des entreprises n’utiliseraient que lui, selon
une étude de l’IFOP), ses limites sont bien connues de la plupart des
acteurs. En ne prenant en compte que le dernier clic avant la vente, il
évacue tous les autres points de contact, dont certains peuvent avoir
eu pourtant un rôle déterminant (par exemple, le premier clic qui ini-
tie le rapport entre l’internaute et la marque). Certains modes d’achat
comme le RTB dont le taux de conversion est bien plus faible que
d’autres, vont se retrouver de facto marginalisés dans une approche
ROIste pure. D’où l’apparition de nouveaux modèles qui tentent
de rendre leur importance relative aux autres points de contact en
amont du chemin de vente : attribution linéaire qui donne à chaque
point une valeur identique, dépréciation temporelle, qui donne de
plus en plus d’importance à tel point à mesure qu’il se rapproche de
la conversion, ou modèle en U qui attribue plus d’importance aux
premiers et derniers contacts, sans pour autant effacer entièrement
l’importance des intermédiaires.
100
encyclopédie des big data
L’idée d’un schéma idéal valant pour toutes les entreprises est de
toute façon à exclure. En matière d’attribution, les modèles doivent
se construire au cas par cas, et être suffisamment souples pour évo-
luer en permanence. Chez Renault, de nouveaux modèles d’attri-
bution multitouch sont ainsi testés actuellement sur les marchés les
plus avancés du groupe… avec des retours très positifs, explique
Laurent Aliphat :
IN
VIEWTER
Renault
Laurent Aliphat
Head of Digital Performance and Lead Management
La question du modèle d’attribution est une
problématique récurrente dans le monde
du marketing. Le modèle d’attribution à la
dernière touche (c’est à dire le fait d’attribuer
la conversion au dernier élément de la chaîne qui va la
susciter) est de loin le plus répandu : outre qu’il est simple à
comprendre, il permet de structurer dans un premier temps
sa pensée dans une approche ROIste des investissements
à la performance. C’est un mode d’attribution qui montre
toutefois très vite ses limites, les outils délivrant cette
mesure se révélant souvent juge et partie, et ayant
tendance à privilégier des solutions publicitaires connexes.
Chez nous les marchés les plus avancés commencent donc
à se diriger vers de l’attribution multitouch, qui permet
de créditer chacun des points de contact en fonction de
la contribution qu’ils ont aussi bien sur l’engagement que
sur la conversion. Nous n’avons pas encore généralisé ce
mode d’attribution, mais les résultats sont intéressants, et
permettent de challenger les équipes en bout de chaîne
chargées des investissements média.
”
101
ASPECTS
TECHNIQUES
“
Dans le monde de la publicité digitale, l’attribution
est une technique qui permet d’identifier la ou
les publicités qui ont poussé un consommateur
à effectuer l’action désirée, notamment l’acte d’achat. Au lieu d’im-
puter la réussite exclusivement à la dernière publicité vue par une
personne avant sa conversion – ce qui confère en général une
grande importance aux activités situées à la base de l’entonnoir
telles que le reciblage et les requêtes –, l’attribution multi-touch
permet de créditer plusieurs publicités en fonction de leurs contri-
butions correspondantes.
L’attribution multi-touch est une problématique majeure pour la
publicité digitale, puisqu’un grand nombre de canaux sont concer-
nés – le search, display, réseaux sociaux, mobile et vidéo. En lan-
çant des campagnes médias sur une seule plateforme, puis en
superposant les résultats de ces campagnes avec les données pro-
priétaires (« first party data ») relatives à la conversion des clients,
les annonceurs sont davantage en mesure d’évaluer les résultats
afin de comprendre le chevauchement entre appareils/canaux, la
livraison par appareil, l’attribution et les performances globales de
la campagne.
” Kamal Mouhcine
Directeur Commercial en Europe du Sud
Turn
D’ex
pert
AVIS
102
encyclopédie des big data
La collecte des données
personnelles (et notam-
ment celle d’adresses élec-
troniques) passe par l’obtention, en amont, du consentement de
l’internaute. Cet opt-in peut revêtir plusieurs formes : opt-in passif
par lequel l’internaute doit cocher volontairement une case pour
permettre l’utilisation ultérieures de ses données ; l’opt-in passif,
lorsque la case est pré-cochée ; l’opt-out actif, qui contraint l’inter-
naute à cocher une case pour, cette fois, ne pas être ciblé ; et l’opt-
out passif, où il est inscrit d’office, et devra par la suite procéder à
des démarches pour obtenir sa désinscription. Dans ce domaine qui
touche directement à la data privacy, et à la confiance des utilisa-
teurs en une marque, les entreprises n’ont d’autre choix que de dé-
finir une politique claire, et adaptée à leur cas particulier, ainsi qu’à
leur implantation géographique – les contraintes légales encadrant
l’opt-in variant grandement entre les pays. D’où des modèles d’opt-
in variant d’une société à l’autre. En voici quelques exemples :
Opt-in
“Les commerciaux
ont souvent plus une
démarche qui va dans
le sens de l’opt-out.
Mais dans le domaine de la recherche, c’est l’opt-in qui domine,
toutes les règles régissant la recherche biomédicale impliquent
le consentement éclairé de toutes les personnes participant aux
recherches. L’opt-in est le standard pour tout ce qui concerne la
recherche médicale. On se tourne dans une minorité des cas vers
l’opt-out par la suite, si l’on est confronté à des données massives
sans possibilité d’avoir accès facilement aux personnes.
”Sanofi
Pierre-Yves Lastic
Associate Vice President, Chief Privacy Officer
Chacun
sonopt-in, …
103
ASPECTS
TECHNIQUES
“En tant qu’organisme
de santé, le flou juridique
sur certaines questions
autour de la donnée est
un vrai problème pour
nous. La collecte d’un
opt-in clair auprès de nos
clients en magasin revêt
donc une dimension
centrale. Dans l’un de
nos magasins pilotes,
nous avons développé
un service de wireless
charging en échange d’un
consentement. A partir
de ce moment là, on va
pouvoir réconclier une
Mac Adress, un dispositif
mobile, avec un individu…
Ce qui permettra à notre
plan de tagging d’aller
jusqu’au bout de sa
démarche. Il faut donc
obtenir un double opt-in :
l’opt-in classique sur notre
site, et celui récolté en
magasin par lequel le client
va se rendre compte du fait
qu’il a été tracé.
”GrandVision
Pierre-Marie Desbazeille
Directeur CRM & Digital
“Notre position est simple : le
consommateur est propriétaire de sa
donnée. Il doit donc donner explicitement
son consentement pour que l’on puisse
la partager. En sachant qu’il se montre en
général plutôt ouvert à ce consentement
s’il obtient en contrepartie un service digne
de ce nom et une bonne connaissance de
l’usage qui sera fait de sa data.
Créer un tel cercle vertueux autour du
consentement suppose donc à la fois
un rapport gagnant gagnant, et
une grande transparence.
”Orange Technocentre
Tania Aydenian
Directrice du Programme Datavenue
…chacun
sonchemin
“Il n’y a pas un opt-in mais plusieurs
opt-ins, en fonction du contexte du client.
Il va ainsi y avoir une différence entre les
communications commerciales où l’opt-in
va être indispensable, avec possibilité de
se rétracter et facilité de désabonnement,
et les notifications opérationnelles liées au
voyage : dans ce cas-là, évidemment, on
n’attend pas le consentement du client pour
lui envoyer le billet qu’il vient d’acheter, ou
des notifications importantes sur son vol. On
va également proposer aux clients de notre
site un cycle de newsletters orchestrées qui
s’arrêtera après le voyage, communication
que l’on utilisera comme une opportunité
de cross selling.
”Air France-KLM
Max Vallejo
Head of eCRM, Digital Department
104
encyclopédie des big data
On le voit au travers de ces exemples, il n’existe pas, en matière
d’opt-in, de modèle idéal et univoque. C’est au contraire un sujet
complexe, auquel il faut accorder le temps d’une vraie réflexion,
comme le souligne Stéphane Père (The Economist) :
“
De manière intuitive, il semble évident de demander
un opt-in à n’importe quel consommateur visitant
un site. Mais la distinction service versus marketing
promotionnel n’est pas toujours évidente. Se pose aussi la
question de savoir ce qu’est un vrai opt-in, entre opt-in explicite
et implicite, ou un opt-in dont les conditions d’utilisation ne
sont pas claires. Quand un opt-in devient par exemple une
condition sine qua non d’accès au service, c’est un problème!
Autre difficulté : la valeur de la donnée vient d’autres usages
que celle pour laquelle on la collecte initialement. Par exemple,
les usages inventés autour des données géolocalisées qui vont
permettre de prédire le trafic, ce qui ne gêne personne. Il faut
commencer à réfléchir plus loin, à penser déjà en terme d’équité
de comportement responsable en tant que marketeur, plutôt
que de se cacher derrière une case à cocher.
”The Economist
Stéphane Père
Chief Data Officer (Global)
105
ASPECTS
TECHNIQUES
Apparu au cours de l’année 2010, ce nouveau
mode d’achat a chamboulé le paysage du
marketing. Alors que la publicité digitale tra-
ditionnelle reposait sur un modèle de vente et d’achat d’espaces
de gré à gré - l’annonceur, en fonction de ses besoins d’affichage,
négociait avec les éditeurs la mise à disposition d’emplacement –
le Real Time Bidding (ou enchères en temps réel) a automatisé ce
processus, permettant de piloter les campagnes en direct, grâce à
la data. Le principe est simple : à chaque fois qu’un visiteur arrive sur
une page équipée de bannières publicitaires RTB, son profil est ins-
tantanément mis en vente sur une plateforme d’enchères en ligne
(les Ad Exchange ). Les annonceurs intéressés par ce profil placent
alors leurs mises, et le plus offrant remporte le droit d’afficher sa
publicité sur la bannière proposée. L’ensemble du processus se dé-
roule en un dixième de seconde.
Une telle évolution a des conséquences qui vont bien au-delà de
la simple automatisation des achats médias. Avec le RTB, il ne s’agit
plus de choisir un emplacement publicitaire (visible par toutes per-
sonnes connectées sur le site), mais de cibler des audiences (qui se-
ront les seules à voir la publicité s’afficher). Plus besoin par exemple
pour le marketing de présupposer qu’une bannière pour une paire
de talons hauts sera plus susceptible de faire mouche sur le site
d’un magazine féminin que sur un forum de fans de football. Sans
a priori, en analysant les profils des visiteurs (renseignés grâce à
des cookies fournissant sur chaque internaute, informations socio-
démographiques, affinités avec tels produits, ou tels champs d’inté-
rêt), un algorithme se charge d’aller chercher lui même l’audience
qualifiée… quel que soit l’endroit où celle-ci se trouve !
RTB*
*RealTime
Bidding
106
encyclopédie des big data
“ Dans le métier de
l’hôtellerie (tout
du moins dans la partie
distribution) 60% des
réservations se font via
des canaux digitaux
(web, mobile, call centers…).
La bagarre de l’acquisition
du client va donc avoir lieu
sur le search et le display, face
à des acteurs très puissants
comme Booking.com,
capables d’investir plus d’un
milliard d’euros dans Google.
Nous investissons donc nous
mêmes beaucoup sur le
search, mais aussi sur le RTB
qui permet de suivre, via des
bannières, nos futurs clients
lorsque ceux-ci changent
de site. Cet outil d’enchères
en temps réel prend d’ailleurs
une proportion de plus en
plus grande dans
notre marketing.
”AccorHotels group
Fabrice Otaño
SVP, Chief Data Officer
“ Certains acteurs comme
AXA France, fortement
dépendants au search et à
l’affiliation, ne trouveront pas
forcément une rentabilité
immédiate en utilisant le
RTB et ce malgré l’impact
du ciblage data et des
algorithmes tels que le
look-alike. Tout du moins en
utilisant des indicateurs aussi
court-terme que le post-click.
L’analyse du cycle de vie client
et des data pertinentes pour
signifier l’intention d’achat
sont très importantes pour
appréhender l’utilisation
de ce canal, et évaluer
sa performance à l’aune
d’indicateurs plus composites
(click & view).
”AXA France
Jonathan Badoux
Responsable Outils
Digitaux
RTB,
unengouement
àdeux
vitesses
Ce mode d’achat trouve de plus en plus sa place au sein du plan
média des entreprises, et représente aujourd’hui, en France, près
de 24% des ventes totales d’inventaire en display (Observatoire de
l’e-pub SRI 2015). Certains secteurs en sont particulièrement friands,
alors que d’autres peinent à y voir pour l’instant de l’intérêt, comme le
confirment Fabrice Otaño (AccorHotels) et Jonathan Badoux (AXA
France) :
107
ASPECTS
TECHNIQUES
Marketing programmatique
“
Le marketing programmatique, c’est la possibilité d’automatiser des actions
marketing via l’utilisation de logiciels et d’algorithmes, en programmant la ré-
alisation de certaines actions à l’avance, mais sous réserve que des critères bien spéci-
fiques soient réunis. La décision de réaliser l’action se fait en “temps réel”. La caractéris-
tique principale du marketing programmatique par rapport au marketing traditionnel,
c’est qu’il est moins engageant, dans la mesure où il est dynamique et s’adapte à une
situation donnée, à l’instant de diffuser le message marketing pour maximiser l’effica-
cité de ce dernier. Ainsi, plutôt que de présenter le même site web à tous les visiteurs,
on peut personnaliser les contenus des pages en fonction de leurs actions sur le site.
En publicité, plutôt que d’acheter une campagne d’affichage sur des abribus ou sur
un site média six mois à l’avance en réservant les emplacements, on peut aujourd’hui,
sur les supports digitaux et digitalisés, reporter la décision d’achat au moment même
où l’impression se produit, et acheter chaque impression une par une. Tout cela n’est
utile que parce qu’on a la capacité aujourd’hui de connaître assez de caractéristiques
de l’individu exposé à l’impression publicitaire en amont, et ainsi, de décider
s’il constitue une cible intéressante pour soi. C’est la promesse, encore bal-
butiante, d’un marketing mieux adapté à l’individu en face, et au contexte.
Hugo Loriot
Director, Media Technologies | 55
AVIS
pertD’ex
En plus d’une hausse quantitative des usages, le RTB connaît depuis
quelques temps une amélioration qualitative des inventaires qu’il pro-
pose à la vente. Alors qu’à l’origine, il était surtout utilisé pour valoriser
des espaces invendables autrement – d’où une forte connotation low
cost de ce mode d’achat – il est de plus en plus compatible avec le
premium. C’est ce que constatent en tout cas de plus en plus d’édi-
teurs, à l’image de Mickaële Angeletti (Prisma Media Solutions) :
Au début, nous pensions limiter le RTB à des inventaires
display non qualifiés, par exemple à des invendus de
bas de page. Mais aujourd’hui, on se rend de plus en
plus compte que ce display doit être qualifié, avec un
bon indice de visibilité, même s’il est vendu via des Ad Exchange.
Le programmatique apparaît dès lors comme un outil compatible
avec la vente d’inventaires plus premium, incluant des
partenariats ad hoc (deal ID). 
” Prisma Media Solutions
Mickaële Angeletti
Directrice Recherche & Développement
108
AVIS
pert
D’ex
encyclopédie des big data
Enchères en temps réel
“
Lors de l’achat classique de supports digitaux, l’annonceur (ou
son agence) achète des inventaires sur le site web d’un média
spécifique et tombe d’accord quant au nombre d’impressions à un
taux de CPM fixe avant le lancement d’une campagne.
Les technologies programmatiques évaluent chaque impression par
rapport au profil de l’internaute, rendu anonyme, qui voit la publicité.
Elles prennent une décision en temps réel concernant le montant de
l’enchère à envisager pour pouvoir présenter une publicité à cette
personne. L’audience est devenue l’élément moteur, ce qui signifie
que la qualité des données et des informations concernant ce public
est essentielle. Tant dans le cas de la réponse directe (performance)
que des métriques de marque, le succès réside dans la capacité à tou-
cher l’audience ciblée et à l’engager à l’aide d’informations qualifiées,
mais aussi dans celle d’exploiter ces dernières en temps réel.
En évaluant chaque impression à l’aide d’une technologie program-
matique,lesannonceursontlesmoyensderéduirelespertesinduites
par des profils inadéquats en évitant de leur servir les publicités. Ils
peuvent ainsi attribuer une valeur distincte à chaque segment d’au-
dience, ou encore optimiser / ordonner dynamiquement leur mes-
sage créatif en fonction de facteurs tels que la valeur d’un client ou
son récent comportement en ligne.
Kamal Mouhcine
Directeur Commercial en Europe du Sud
Turn
109
ASPECTS
TECHNIQUES
Le web scraping ou web harvesting est un procédé par lequel l’on
extrait, à l’aide d’un programme, les contenus d’une multitude de
sites web, avant d’utiliser ceux-ci ultérieurement. Il s’agit d’une tech-
nique qui n’a pas bonne réputation (elle s’appuie, après tout, sur une
forme de pillage…), et si elle n’est pas à proprement parler illégale,
l’entre-deux juridique dans laquelle elle évolue invite à la circonspec-
tion, comme le confirme Benoît Chéroux (Groupe Argus) :
SCRAPING
“  Le scraping représente pour moi l’une
des seules méthodes accessibles pour collecter
de la donnée en gros volumes (hormis les GAFA ou NATU,
peu d’autres entreprises génèrent de gros volumes de
données). Il existe un vide juridique en France autour du
scraping : à qui appartient réellement l’annonce pour une
voiture d’occasion publiée sur un site internet ?
À la plateforme ? À celui qui l’a créé ? À tout le monde ?
Il y a peu de jurisprudence en France sur la question,
et il nous paraît donc nécessaire de prendre son temps,
d’attendre de voir comment les choses vont évoluer. 
”Groupe Argus
Benoît Chéroux
Responsable Données & Modélisations
110
encyclopédie des big dataencyclopédie des big data
C’est l’une des applications les plus répandues du data mining . La
fouille de texte (son appellation si l’on souhaite éviter l’anglicisme) re-
groupe un ensemble de traitements informatiques dont l’objectif est
d’extraire de la connaissance et des apprentissages potentiellement
porteurs de valeur au sein de données textuelles produites par des
humains et à destination d’autres humains : corpus d’articles, conte-
nus de sites internet, discussions sous forme de chat récupérées sur
les réseaux sociaux, scripts d’appels, etc… Toutes ces sources po-
tentielles de données vont être traitées en deux temps. D’abord on
va analyser le contenu à proprement parler des textes, en mettant
en œuvre notamment des logiques de traitement automatique du
langage naturel. Puis l’on procède à une interprétation des résultats
obtenus, afin d’en tirer un enseignement.
Le text mining peut revêtir un intérêt pour des business très variés,
comme en témoignent Benoît Chéroux (Groupe Argus) et Christian
Phan Trong (Swiss Life) :
Text
Mining
111
ASPECTS
TECHNIQUES
“ 
Au sein
du groupe Argus,
nous exploitons en
grande majorité
des données alphanumériques
dans le cadre de la production
d’informations sur le marché
automobile. Nous devons
être capables d’identifier,
de reconnaître à partir des
informations textuelles que l’on
capte autour d’un événement,
soit le produit qui se cache
derrière, soit l’individu. Cet
enjeu va devenir d’autant plus
fort que l’on travaille de plus en
plus avec des sociétés éditant
des applications et des logiciels
sur des voitures connectées,
de plus en plus en temps réel,
ce qui exclut toute capacité
humaine de traitement. Il faudra
que des machines se chargent
de reconnaître et de segmenter
automatiquement l’information
qui leur parviendra.
”Groupe Argus
Benoît Chéroux
Responsable Données
& Modélisations
“ L’exploitation des données
structurées est assez naturelle
dans le monde de l’assurance.
Mais nous sommes aujourd’hui
confrontés à des masses de
données non structurées qui
nécessitent de mettre en place
d’autres logiques si l’on veut en
tirer parti. Le text mining est
l’une de ces logiques qui doivent
permettre d’apporter une nouvelle
valeur. Le résultat des analyses
de text mining va permettre
d’alimenter les algorithmes de
data science avec de nouvelles
dimensions d’analyse pour
améliorer la connaissance client, le
marketing mais aussi la détection
des fraudes, l’optimisation du
service au client…
”Swiss Life
Christian Phan Trong
Directeur
de l’Architecture
Lesbienfaits
del’explication
detexte
112
encyclopédie des big dataencyclopédie des big data
Chez Orange, le text mining a notamment été utilisé
dans le cadre d’un projet d’optimisation des campagnes
digitales que détaille Geoffrey Zbinden :
IN
VIEWTER
Orange
Geoffrey Zbinden
Vice President Big Data Analytics
& Customer Base Management
Avec les réseaux sociaux, et avec le recueil
d’interactions clients, nous nous retrouvons en
possession d’une quantité de verbatims de plus
en plus importante… ceux-ci étant en général
peu, voire pas du tout exploités. Pour tenter d’en tirer de la
valeur, nous avons lancé récemment un pilote. Il s’agissait
de récolter tous les tweets parlant de la 4G, puis de nettoyer
ceux rédigés par des initiés (journalistes, spécialistes, …)
afin de se focaliser uniquement sur ceux émanant du grand
public et ce pour déceler s’il existait un langage naturel
autour de la 4G au sein de nos bases clients. Nous avons
ainsi identifié les mots qui étaient les plus parlants, qui
qualifiaient le mieux la 4G dans l’esprit des clients - mots
qui se sont avérés bien différents de ceux qu’utilisent des
spécialistes ! Parler de roaming 4G au grand public, ça
n’a par exemple aucun impact. Par la suite, nous avons
remplacé dans nos communications online ces mots trop
jargonnants par ce nouveau vocabulaire identifié comme le
plus susceptible de plaire et d’être compris, et nous avons
constaté une augmentation des taux de conversion et des
taux de clics de plus de 30%.
”
113
ASPECTS
TECHNIQUES
Dans le monde du marketing et de
la publicité digitale, le terme “third
party data” désigne l’ensemble des don-
nées fournies par des sociétés tierces. Vendues sous forme agrégée
par des acteurs spécialisés (en général des régies publicitaires, ou
lors de deals sur des data marketplaces), ces third party data vont
permettre à un annonceur d’optimiser ses campagnes en conso-
lidant sa connaissance client, et en optimisant sa segmentation :
First
Party
Data
Third
Party
Data /
“
L’avantage de la third party data
c’est qu’elle offre l’accès à un pool de
données très large. Mais on peut se poser la
question de la qualité réelle de ces données
vendues par des tierces parties. On peut aussi
faire appel à de la third party data pour pallier
un manque de données internes, ou la croiser de
façon efficace avec sa first party data, pour une
segmentation plus fine. 
”The Economist
Stéphane Père
Chief Data Officer
(Global)
114
encyclopédie des big dataencyclopédie des big data
L’objectif principal attribué à ce type de données est de
venir compléter d’éventuels « vides » au sein des bases
de données internes d’une entreprise, comme l’explique
Jonathan Badoux (AXA France) :
La first party data désigne quant à elle l’ensemble des don-
nées déjà présentes dans les systèmes d’information de l’en-
treprise. Tout l’enjeu va consister à valoriser ces gisements,
bien souvent en sommeil, en trouvant les bons cas d’usage
qui permettront leur exploitation.
IN
VIEWTERAXA France
Jonathan Badoux
Responsable Outils Digitaux
Le croisement des données first et third
party data au sein d’une DMP présente
plusieurs intérêts :
• enrichissement des données first party
exemple : un client automobile détecté au moment
de changer de véhicule par de la data tierce
• vérification de la pertinence des signaux (first ou third)
exemple : un client MRH scoré comme sans risque
de déménagement dans nos SI mais qui serait
détecté comme en cours de déménagement
par de la data tierce. 
”
115
ASPECTS
TECHNIQUES
“
Historiquement, l’achat média s’appuye sur
des données third party permettant de ci-
bler en fonction de critères socio-démogra-
phiques et d’intérêt. Ceux-ci reposent sur la compi-
lation et l’analyse de données déclarées et observées à partir
d’une multitude d’audiences. Aujourd’hui, la situation change,
car les données first party, propres à l’audience spécifique d’un
annonceur, souvent plus précises et fiables ne serait-ce que
parce qu’il en connaît l’origine et maîtrise leur durabilité, sont
plus riches et accessibles, grâce aux évolutions de l’adtech. Il y a
un changement d’approche et une prise de conscience concer-
nant leur potentiel pour améliorer la communication marque/
utilisateur. 55 accompagne les annonceurs dans ce change-
ment des façons de faire et de penser : mise en place d’un
tracking fiable, choix et implémentation de DMP quand cela
fait sens… En tant qu’agence data & média, nous privilégions
la donnée first party et sensibilisons les marques à la nécessité
de constituer un capital data durable, mais nous avons une ap-
proche pragmatique qui consiste à utiliser la meilleure donnée
en fonction de l’usage et des contraintes. On assimile souvent
reach à third party et qualité à first party mais c’est une vision
très grossière. De nombreux acteurs, trading desks en premier,
proposent de la donnée third party de qualité et accessible à un
coût moindre que la donnée first party.
Globalement il y a un mouvement d’assainissement de la don-
née sur le marché. On n’est plus coincé entre agrégateurs de
données opaques et données first party rares et difficiles à
obtenir. D’ailleurs, des entre-deux apparaissent : échanges ex-
clusifs entre partenaires via de la donnée “second party” (la
donnée first party d’un partenaire), ou des formes de
coopératives de données privées.
” Hugo Loriot
Director, Media Technologies
55
D’ex
pert
AVIS
116
encyclopédie des big data
AVIS
pertD’ex
“
Données propriétaires (first party data)
LesmarquesdisposentdedonnéesdeCRMtransactionnellesrelatives
aux personnes qui ont fait des achats dans des commerces physiques
ou sur votre site d’e-commerce – ces données proviennent des leads commer-
ciaux et des personnes qui ont interagi avec votre centre d’appels. Vous pouvez
égalementcollecterdesdonnéesconcernantvotresitewebetlesperformances
de vos campagnes via les canaux suivants : mails, display, vidéo, mobile, publici-
tédirecte,TV,print,etc.Cesdonnéesmaison–vosfirstpartydata–sontlepoint
de départ pour obtenir des informations sur votre audience idéale.
Il est indispensable de s’équiper d’une solution fiable de collecte de ces don-
nées propriétaires obtenues à l’aide de pixels en temps réel (tag management)
ainsi que de fichiers batch. Une fois ces données regroupées au sein d’une plate-
forme DMP, le système permet à un marketeur de transformer les informations
en segmentant les valeurs des transactions d’un panier d’achat puis en les ré-
partissant dans un ensemble de compartiments définis par ses soins. L’action
de transformer des données entrantes permet d’accélérer et de simplifier les
phases ultérieures de segmentation et de ciblage de l’audience. En effet, le pro-
cessus de standardisation des données brutes collectées permet d’en faire des
informations davantage exploitables en amont de vos campagnes.
Données émanant de tierces parties (third party data)
La valeur des données propriétaires augmente considérablement une fois
celles-ci mêlées aux données sur l’audience émanant de fournisseurs tiers.
Une plateforme de gestion des données vous permet d’exploiter vos données
« maison » dans le but d’identifier les clients présentant la plus grande valeur,
puis de superposer les données anonymes fournies par des tiers afin d’obte-
nir un panorama complet de leurs attributs, de leurs comportements et de leur
consommation de contenus. Commencez par exemple avec les personnes qui
naviguent sur les pages de vos sites web. Une DMP vous montrera ainsi, à partir
des données de votre site, quels visiteurs ont fait des achats ou ont été convertis
et comment, à partir des données de tiers, ces conversions ont été biaisées par
des facteurs économiques, de hiérarchie familiale, d’étape de vie et de préfé-
rences liées au style de vie. Vous pourrez alors découper les données
enfonctiondel’étapedevotrevisiteurauseinducycledevieclient.
”Kamal Mouhcine
Directeur Commercial en Europe du Sud
Turn
117
ASPECTS
TECHNIQUES
Parcoursdenavigationsurunsiteinternet,réactionauxbannières
publicitaires ou à la réception d’un email, propension à l’achat
sur une application mobile… Le tracking permet d’observer le com-
portement des internautes pour en tirer des enseignements au ser-
vice de l’entreprise, et en particulier de son marketing. Ses usages
les plus fréquents gravitent autour de la question de l’amélioration
de la connaissance client : enrichissement d’un fichier prospects à
fort potentiel, alimentation du CRM, optimisation des campagnes de
recrutement de trafic s’appuyant sur une meilleure compréhension
de la cible, etc… Pas étonnant dès lors que le tracking ait pris son
envol, en tant que sujet d’intérêt majeur, d’abord dans le domaine
de la vente en ligne.
Tracking
Voyages-sncf.com
Marie-Laure Cassé
Directrice Marketing Client & Data
La collecte des données de navigation est
devenue un enjeu très fort pour tous les
e-commerçants. Nous avons pris l’habitude
de définir, en amont de chaque projet, une
stratégie de collecte de la « bonne data », c’est à dire
celle la plus susceptible de répondre aux besoins des
métiers. Nous devons solliciter des experts de la data
compétents, polyvalents et capables de s’adapter à des
outils et des technologies qui évoluent en permanence
sur de nombreux domaines : site centric, ad-centric ou
customer centric, web et mobile…
””
IN
VIEWTER
118
encyclopédie des big data
L’idée de poser des tags pour récolter de l’information au service de
la connaissance client a trouvé de formidables opportunités dans
l’avènement du Big Data, dont les technologies vont permettre
de récolter, de stocker, et d’exploiter l’information de plus en plus
facilement, et à des tarifs de plus en plus intéressants. Elle s’est
étendue progressivement à bien d’autres domaines qu’à celui du
e-commerce. Dans le secteur de la banque, par exemple, le tracking
va offrir de nouvelles opportunités commerciales… A condition
d’être très clair avec les utilisateurs sur la façon dont sont utilisés leurs
cookies.
“
Dans la banque, le tracking va
permettre de bien connaître
ce que font nos clients et de
fluidifier les parcours de navigation, …
Plus on a d’informations pour comprendre
comment le client a converti, plus on
va pouvoir être pertinents dans notre
approche commerciale. Le tracking
suppose toutefois de bien informer le
client de ce qu’on va tracker, pour ne pas
entraîner de défiance de sa part. Cela
nécessite donc une bonne politique de
cookie consent.
”LCL
Christèle Baranco
Responsable Analyse
de la Donnée Client
119
ASPECTS
TECHNIQUES
Traitement
automatique
du langage
naturel
Les fondements théoriques de l’ingénierie linguistique, c’est-à-
dire de la mise en œuvre de techniques informatiques dans le
champ du langage humain, n’ont pas attendu l’ère du Big Data pour
faire leur apparition. Dès les années 1950, alors que l’ordinateur n’est
encore qu’un concept balbutiant, le mathématicien Alan Turing
imagine un test (le fameux test de Turing) destiné à évaluer l’in-
telligence artificielle d’une machine au travers d’une confrontation
verbale avec un être humain : si ce dernier ne s’avère pas capable
de déterminer s’il est en train de discuter avec un programme ou un
semblable, la machine aura fait la preuve de son intelligence.
S’il n’est pas une invention récente, le traitement automatique du
langage naturel (TALN) a toutefois trouvé dans les nouvelles tech-
nologies de la donnée un formidable catalyseur. Process de plus en
plus rapides, amélioration des outils de statistiques et d’intelligence
artificielle permettant une reconnaissance automatique de plus en
plus fine des éléments de langage…
120
Discipline à mi chemin entre linguistique, informatique, et intelli-
gence artificielle, le TALN n’est pas longtemps resté cantonné au do-
maine de la recherche pure, et intéresse une multitude d’entreprises
qui y puisent la réponse à une multitude de questions autour de
la connaissance client. A la SNCF, il va permettre, par exemple, de
mieux évaluer l’image de marque :
SNCF
Maguelonne Chandesris
Responsable de l’équipe Innovation
& Recherche «Statistique, Econométrie
et Datamining»
Les réseaux sociaux ont suscité
un regain d’intérêt pour les
problématiques liées au traitement
automatique du langage. Très classiquement,
beaucoup de choses se font sur l’analyse de
l’image de marque via cette matière. Plus
spécifiquement, nous nous intéressons aussi à
la façon dont les gens parlent de leurs voyages,
de leur mobilité en général. Notre enjeu est
de voir si nous allons être capables d’analyser
automatiquement ces corpus, de manière
anonyme, pour en tirer quelque chose de concret.
Pour cela, il est nécessaire de comprendre
une sémantique complexe, ce qui nécessite
de mobiliser des équipes de recherche et les
compétences pointues dans le domaine.
””
IN
VIEWTER
encyclopédie des big data
121
Dans le secteur de l’hôtellerie, on va aussi avoir recours au TALN pour
essayer de réagir le plus rapidement possible à des alertes émanant
de la clientèle, comme l’explique Fabrice Otaño (AccorHotels) :
“
Chez AccorHotels, nous avons un système
d’écoute et de satisfaction client très
développé, dans lequel le natural langage
processing va trouver tout naturellement sa place.
Les avis et les commentaires qui nous sont remontés
sont déversés dans notre datalake, pour que nous
les analysions avec des algorithmes de NLP avant de
déterminer le sentiment qui se cache dans la phrase.
On parlait avant d’analyse sémantique (quelle est,
par exemple, la différence entre « satisfait » et « pas
satisfait » ?). Aujourd’hui, chaque mot est un vecteur qui
porte plusieurs attributs, et qui une fois groupé avec
d’autres mots et d’autres vecteurs va permettre des
interprétations de plus en plus sensibles. Cela ouvre la
possibilité de déclencher des actions lorsque l’on repère
des alertes autour de la satisfaction client.
”AccorHotels group
Fabrice Otaño
SVP, Chief Data Officer
ASPECTS
TECHNIQUES
122
123
La vague du Big Data n’a
été rendue possible que par
une démocratisation des outils
rendant de plus en plus accessible
le traitement massif de données.
Dans cette jungle toujours plus
touffue de solutions logicielles
et de langages de programmation,
il n’est pas toujours évident
de s’y retrouver. Sont regroupés
ici les plus populaires,
de l’incontournable Hadoop
au récent Spark.
4. OUTILS
124
“ Nous utilisions
déjà régulièrement
les arbres de
décision dans des
logiques de segmentation,
ou pour certains travaux
exploratoires. Mais avec le
traitement massif des données,
ceux-ci se complexifient
considérablement… avec le
risque parfois d’un trop plein
d’information.
”France Loisirs
Pascale Dulac
Responsable
Connaissance Clients
encyclopédie des big data
Promenons-nous
dans les forêts
aléatoires
Cet outil d’aide à
la décision s’ap-
puie sur un modèle
ramifié, dans lequel
chaque « branche » représente un chemin possible, et chaque ex-
trémité une des différentes décisions qui en résultent. Cette forme
de représentation en arbre le rend calculable facilement et automa-
tiquement par des algorithmes d’apprentissage, d’où sa popularité
dans le champ de l’exploration de données. Déjà communément
utilisé en statistiques et en informatique décisionnelle, les arbres de
décisions entrent, avec les Big Data, dans une nouvelle dimension,
comme le confirment Stéphan Clémençon (Télécom-ParisTech)
et Pascale Dulac (France Loisirs) :
Arbre de
décision
“Les approches reposant sur
des arbres de décision - ou des
agrégations d’arbres de décisions,
comme les forêts aléatoires, les
algorithmes de type boosting - ont
l’avantage de bénéficier d’une bonne
interprétatibilité. C’est ce qui explique
leur succès dans certains types
d’applications qui ne peuvent pas
s’accommoder du côté boîte noire des
réseaux de neurones.
”Télécom-ParisTech
Stéphan Clémençon
Professeur et Responsable
du Mastère Spécialisé
Big Data
125
OUTILS
Même si le fonctionnement des arbres de déci-
sion est plus facilement interprétable que celui
des réseaux de neurones , leur complexification
nécessite de laisser aux machines le soin de leur trai-
tement. D’où un sentiment de perte de contrôle qu’il
faut savoir accepter, explique Christèle Baranco (LCL) :
“ 
 Avec le temps réel, et le besoin
de calcul rapide, on accepte de
moins comprendre les variables
sur lesquelles les machines vont opérer leurs
calculs. Avec des méthodes comme Random
Forest (forêt d’arbres décisionnels), on obtient
de bonnes performances même s’il est plus
difficile de décrire ce qui se passe et quelles
sont les variables explicatives. Nous testons
ce type de méthodologies sur des scores que
nous avions jusqu’aujourd’hui l’habitude de
traiter en régression logistique, pour voir si
elles s’avèrent plus performantes.
”LCL
Christèle Baranco
Responsable Analyse
de la Donnée Client
126
Emprunté au monde
de la physique et
de la chimie, où il ren-
voie à un agrégat d’atomes, ce terme a commencé à être utilisé en
informatique à la fin des années 1980, lorsque des ingénieurs ont
commencé à développer des « multi-ordinateurs ». Le mot cluster
(grappe de serveurs, ou ferme de calcul en français) a dès lors servi
à désigner une technique de regroupement de plusieurs serveurs
indépendants. Cette mutualisation des efforts va se traduire par
une montée en puissance, et de plus grandes capacités de stoc-
kage et de mémoire vive qui vont permettre le calcul distribué. Le
framework Hadoop a contribué à populariser les clusters, puisqu’il
s’appuie entièrement sur cette technologie, comme l’explique
Maguelonne Chandesris (SNCF) :
Cluster
“
Aujourd’hui,letermecluster
esttellemententrédanslelangage
eninformatiquequ’ilestdifficilededélimiter
sesusages.Ildésigneentoutcasune
importanteressourcedecalculsfondée
surunregroupementdecomposants. 
” Intel
Marie-Christine Sawley
encyclopédie des big data
“ 
 Si l’on part du principe que les Big Data sont une
mine, on peut concevoir deux manières d’en extraire
le précieux minerai. Soit on se fait fabriquer un
énorme extracteur sur mesure. Soit on utilise plutôt une grande
quantité de petits extracteurs standards. Pour filer la métaphore,
Hadoop, fonctionne plutôt comme une agrégation de plusieurs
petits extracteurs, en l’occurrence des clusters.
” SNCF
Maguelonne Chandesris
Responsable de l’équipe Innovation
& Recherche « Statistique, Econométrie
et Datamining »
127
OUTILS
“
L’avenir,cen’est
plusledatamart,
maisledatalake,
quipermettra
undésilotage
enrègle. 
”Orange
Geoffrey Zbinden
Où déverser le flot de
données qui inonde
les systèmes d’information
de l’entreprise ? Dans un
immense réservoir prévu à cet effet ! Voilà à quoi doit servir le data
lake, qui contrairement à un data warehouse stockant les don-
nées en les classant en fichiers, va recevoir celles-ci tous azimuts et
dans leur format natif. L’information n’étant ainsi plus structurée et
divisée en silos, elle va pouvoir garder une neutralité totale en at-
tendant que lui soit attribué un usage. Cet intérêt est d’autant plus
fort qu’avec des technologies comme Hadoop  , on stocke des
quantités de plus en plus importantes de données dont la struc-
ture varie, et sans toujours savoir à l’avance comment on pourra
les utiliser et les analyser.
DATA
LAKE
128
encyclopédie des big data
L’architecture plate des lacs de données convient
ainsi parfaitement à des données qu’on souhaite
mettre en attente pour des besoins ultérieurs qu’on
devine sans pour autant être capable de les définir.
La structure permettant l’analyse sera créée in situ,
une fois le moment venu. Dans le cadre de don-
nées structurées utilisées dans des analyses répéti-
tives, le data lake sera en revanche contre productif
car il devra recréer une structure pour chaque ana-
lyse, consommant ainsi des ressources machines.
Dans ces cas là, le data warehouse reste le mieux
adapté, ce qui en fait une solution complémentaire
au data lake, et pas nécessairement exclusive.
IN
VIEWTERBouygues Telecom
Nicolas Gaude
Senior Data Scientist
Aujourd’hui, il existe une sorte
d’antichambre au stockage de la
donnée, avant le data warehouse
classique, que les pro Big Data
vont appeler le data lake et que les vendeurs
de solutions propriétaires préfèrent désigner
par le terme de «marécage de données».
Dans tous les cas son but est le même : servir
de déversoir pur et simple à des données
non structurées. On va simplement s’attacher
à avoir au moins une clé (texte, log, image,
binaire) pour accéder au fragment.
”
129
OUTILS
IN
VIEWTERSwiss Life
Christian Phan Throng
Directeur de l’Architecture
Le data lake est un concept issu du décisionnel
qui passe en version 2.0 avec l’avènement
du Big Data. Auparavant, on déposait une
multitude de données à l’intention du
décisionnel dans des zones de dépôt, pour une
mise à disposition, après chargement, retraitement,
formatage consommateur en délai, dans les
datamarts. Avec le data lake on va généraliser les
zones de dépôt en les pérennisant. Cela va permettre
d’accéder à l’ensemble des données brutes historisées
de l’entreprise, de façon à ce que les data scientists
puissent, en fonction de la question qui leur est
posée, piocher dans le bon gisement de données.
Au final, le data lake permet donc une agilisation du
travail des data scientists.
”
En centralisant dans un même réservoir l’ensemble
des données de l’entreprise, le data lake va avoir
un effet désilotant et nécessiter du même coup,
une réflexion importante sur la data gouvernance
si l’on veut garantir une bonne harmonie dans ses
usages. Cela étant acquis, il pourra servir de base
commune dans laquelle viendront picorer les data
scientists pour leurs projets, comme l’explique
Christian Phan Trong (Swiss Life) :
130
“
Le data lake a pour vocation de stocker de
manière quasi exhaustive les données métiers
d’une organisation. Par rapport aux architectures ana-
lytiques antérieures fondées sur un data warehouse et/
ou des datamarts, il ne repose pas sur une modélisa-
tion préalable des données. De ce fait, le data lake pré-
sente plusieurs avantages. D’une part, il peut stocker
tous types de données, structurées et non structurées.
D’autre part, il permet d’intégrer des données sans né-
cessairement passer par un processus ETL. Il permet
donc d’accueillir très rapidement des données dans
leurs formats natifs et de les rendre immédiatement
disponibles pour l’analyse. C’est ensuite, au moment
de l’utilisation, que les données sont interprétées dans
leur structure.
Du fait de la grande variété de données hébergées, la
gouvernance du data lake constitue un enjeu impor-
tant. Il convient de s’assurer que les utilisateurs com-
prennent les données qu’ils manipulent.
Le data lake s’est démocratisé avec l’émergence des
solutions tel que Hadoop qui permettent de stocker
et d’analyser de grands volumes d’informations à des
coûts maîtrisables.
” Jacques Milman
Architecte Senior Analytics
IBM
encyclopédie des big data
D’ex
pert
AVIS
131
OUTILS
La plateforme de gestion d’audience (ou
DMP, pour Data Management Plateforms)
est une technologie qui permet d’unifier des
données consommateurs en segmentant des cookies (aussi bien
first que third party) et à des fins d’optimisation du marketing. Uti-
lisées initialement comme des solutions dédiées à l’achat de publi-
cité display, les DMP sont rapidement devenues, avec l’apparition
de nouveaux modes d’achats (RTB notamment), des technologies
indispensables pour enrichir sa connaissance client, et piloter les
campagnes publicitaires tous leviers. Elles s’adressent du reste es-
sentiellement à deux types d’acteurs : les agences (auxquelles elles
vont permettre de centraliser les données clients issues de sources
multiples, et de contrôler toute la chaîne des actions marketing) et
les annonceurs, qui vont pouvoir, grâce à elles, mieux cibler leurs
audiences en les segmentant efficacement.
DMP*
*DataManagement
Plateform
“ 
 Cette idée de segmentation selon une
multitude de critères - données tierces,
externes, internes, socio-démographiques,
comportementales, etc - se trouve au service d’une
activation de la donnée à deux niveaux :
- soit en mode campagne en visant
un segment spécifique
- soit en mode « on-going », en associant des règles
d’activation marketing à chaque segment
pour mener des actions en temps réel.
”The Economist
Stéphane Père
Chief Data Officer (Global)
132
encyclopédie des big data
“ La DMP, que nous
utilisons principalement dans
une logique d’acquisition, a
révolutionné notre manière
de faire de la pub. Avant, nous
travaillions avec des agences,
auxquelles nous fournissions
un profil type, et en restant
finalement dans les clous du
media planning traditionnel.
Aujourd’hui nous allons nous
pencher de plus en plus
sur qui est véritablement
notre client…Et surtout sur
la meilleure façon d’aller
chercher des profils similaires
à celui-ci.
”The Economist
Stéphane Père
Chief Data Officer
(Global)
La DMP est souvent l’un des premiers projets que vont implémenter
les entreprises pour tenter de tirer parti du Big Data. En témoignent
ces récentes expériences menés chez Renault et The Economist :
Réinventer
laconnaissance
clients
grâce
auxDMP“Nous sommes en train
de tester un outil DMP avec
des résultats positifs très
significatifs (gain sur les
conversions, baisse des coûts
sur les leads,…) Ces premiers
tests nous ont notamment
convaincu de l’intérêt de
multiplier les sources de
données pour affiner la
segmentation. Ils ont aussi
introduit une dimension de
temps réel qui n’existait pas
auparavant, et qui contribue
à une augmentation
de l’efficacité de notre
marketing.
”Renault
Laurent Aliphat
Head of Digital
Performance and
Lead Management
133
OUTILS
IN
VIEWTER
IN
VIEWTER
Prisma Media
Yoann Denée
Chief Data Officer
Nous sommes équipés d’un écosystème
de DMP propriétaire qui sert de socle interne
de données, dans une logique patrimoniale
et de contrôle de la sécurité et des prestataires
externes. Parallèlement, nous utilisons des DMP métier
que nous contrôlons, mais dont la donnée anonymisée
est hébergée à l’extérieur.
”AXA France
Jonathan Badoux
Responsable Outils Digitaux
La DMP est un sujet complexe qui demande du
temps pour être appréhendé avec efficacité. En
effet, ce type de projet implique la participation
de tous les services de l’entreprise et ce dès
le début de l’élaboration des use cases. Use cases qui
devront être approchés en mode test and learn afin de
déceler les “pépites” qu’ils peuvent révéler et ainsi lancer
l’industrialisation. Sans oublier l’intégration technique avec
les systèmes d’information des différents annonceurs.
”
Malgré la popularité grandissante de cette solution et la prise de
conscience des intérêts qu’elle représente, s’équiper d’une DMP ne
constitue pas une évolution mineure pour une entreprise. Pour être
sûr de transformer l’essai, il faut savoir s’armer de patience, et trou-
ver la solution correspondant le mieux à son cas particulier. C’est en
tout cas ce que mettent en avant Jonathan Badoux (AXA France)
et Yoann Denée (Prisma Media) :
134
“
Ce qui se joue actuellement avec l’équipe-
ment des annonceurs en Data Management
Platform, ce sont principalement trois choses : la
digitalisation, la souveraineté sur son patrimoine
client,etenfinl’agilité.Ladigitalisationparcequ’une
DMP permet de réconcilier tout type de données :
données issues du digital comme du monde phy-
sique, du back-office comme de fournisseurs tiers.
L’enjeu de souveraineté, c’est ce qu’on entend par
avoir une approche “patrimoniale” de la donnée,
considérée comme un actif de la marque. Il s’agit
de rapatrier la connaissance client chez soi, plutôt
que de l’héberger chez un ou plusieurs presta-
taire(s) - agence ou fournisseur technologique. En-
fin, contrairement à une base de données classique
ou aux entrepôts de données (data warehouses), la
DMP est une solution au service de l’agilité, dont
le but premier est de faire communiquer différents
systèmes simplement, en acheminant les bonnes
données aux plateformes d’activation dans les dé-
lais voulus (temps “réel”). Plus qu’une base, c’est
une sorte de hub de données intelligent.
”Pierre Harand
Director, Consulting
and Business Development
55
encyclopédie des big data
D’ex
pert
AVIS
135
OUTILS
Sogeti
Aroua Biri
Architecte Cybersécurité & Big Data
De plus en plus, on va exploiter la possibilité de
pouvoir traiter très rapidement de grandes quantités
de données. Auparavant, avec les firewalls, le gros
problème c’était d’empêcher le paquet de rester
trop longtemps au niveau de l’équipement réseau. Du coup, on
était obligé de s’arrêter à l’en-tête, parce qu’il fallait trouver un
compromis entre le délai de traitement du paquet, et sa bonne
circulation. Avec le Big Data, en utilisant Spark notamment, on va
pouvoir traiter les paquets qui passent de manière très rapide, et
donc inspecter plus profondément ces derniers, ne plus s’arrêter
sur l’en-tête. Le Big Data permet ainsi de démocratiser le « Deep
Packet Inspection »… reste à prendre en compte les aspects
réglementaires relatifs à ce sujet !
””
IN
VIEWTER
Cet acronyme renvoie au Deep
Packet Inspection, une méthode
informatique consistant à analyser
dans le détail - c’est à dire en ne s’arrêtant plus à son en-tête - le
contenu d’un paquet réseau. De cette façon, il va être possible non
seulement de filtrer plus efficacement les paquets, de détecter
(et de bloquer) ceux qui sont assimilables à du spam, ou peuvent
constituer une menace d’intrusion, mais aussi d’en tirer des insights
en les analysant, et en faisant tourner des outils de statistique. Cet
affinage dans la compréhension des paquets est rendue possible
par les technologies de traitement massif de la donnée, comme
l’explique Aroua Biri (Sogeti).
DPI*
*DeepPacket
Inspection
136
encyclopédie des big data
Aussi connu sous le nom de datapumping, l’ETL (acronyme pour
Extract-Transform-Load) est un processus opéré au sein d’une
database, et qui va permettre la migration et la synchronisation des
données d’une base vers une autre. Comme son nom l’indique,
l’opération consiste d’abord à extraire la data depuis des sources ho-
mogènes ou hétérogènes, puis à la transformer dans un format qui
permettra de l’analyser et de la soumettre à des requêtes, et enfin
de la charger vers sa destination cible. Pour expliquer plus concrè-
tement les objectifs de l’ETL, Maguelonne Chandesris (SNCF)
convoque une métaphore… Culinaire !
ETL*
“ 
Lorsque l’on fait du traitement massif
de données, le départ, c’est la source,
ou plutôt, la multitude de sources.
La première étape va être de collecter ces
données multi-sources (extract) pour les mettre
ensemble (transform) avant des les charger (load)
pour permettre ensuite les analyses. Pour prendre
une image, l’ETL, c’est donc ce travail préparatoire,
similaire à celui qui consiste à préparer tous les
ingrédients qui permettront ensuite d’exécuter
une recette de cuisine. C’est donc la pierre
angulaire d’énormément de systèmes.
”SNCF
Maguelonne Chandesris
Responsable de l’équipe Innovation
& Recherche «Statistique,
Econométrie et Datamining»
*Extract-Transform-Load
137
OUTILS
IN
VIEWTER
GrandVision
Pierre-Marie Desbazeille
Directeur CRM & Digital
Nous allons pour notre part y avoir
recours pour un cas pratique qui
ne peut fonctionner qu’avec de la
transformation rapide de flux : il
s’agit, sur un dispositif mobile vendeur, de faire
appel à deux bases complètement différentes
(bases mutuelle connectées en EDI, et notre
base de verres). Développons : nos vendeurs
vont utiliser en magasins une application
permettant de faire la meilleure offre verres au
client qu’ils sont en train de servir, en tenant
compte de nombreux paramètres (pathologie,
usage, mutuelle, style de vie). Le résultat est
obtenu en une seconde. Sans ETL, ce serait
tout bonnement impossible, car il aura fallu,
pour obtenir la recommandation, interroger la
base mutuelle, la base verres, et émettre une
proposition unique adaptée à la pathologie.
Avant les ETL… on passait par le fax !
”
Un tel travail préparatoire existe de longue date. Sa démocratisation
et sa généralisation, en revanche, sont récentes, et vont stimuler de
plus en plus de cas concrets d’usage. Comme celui que présente
Pierre-Marie Desbazeille (GrandVision).
138
Àl’origine, c’était le petit nom d’un éléphant en peluche, celui
du fils de Doug Cutting, un ingénieur employé chez Yahoo.
Depuis, c’est devenu l’appellation d’un framework Java développé
par la fondation Apache, qui s’est choisi un pachyderme comme
logo, et s’est surtout imposé, depuis sa première release en dé-
cembre 2011, comme le poids lourd de la révolution Big Data. Auto-
risant, grâce à son architecture distribuée en clusters (HDFS pour
Hadoop Distributed File System) le stockage de très gros volumes,
il permet à des applications de travailler sur des pétaoctets de don-
nées. Initialement orienté batch, il s’est équipé depuis 2013, avec
YARN  , d’une solution qui lui permet aussi, en plus du traitement
massif de données, de faire du streaming et du temps réel. Ces
atouts ont convaincu des géants comme Facebook, Yahoo ! ou
Microsoft, qui se sont tous équipés de solutions Hadoop. Les en-
treprises françaises, elles, même si elles peuvent parfois hésiter de-
vant le caractère open source d’une telle solution, sont de plus en
plus nombreuses à franchir le pas, comme le confirment Elisabeth
Zehnder (Kiabi), Olivier Brousseau (Schlumberger) et Christèle
Baranco (LCL) :
Hadoop
encyclopédie des big data
139
“ C’est le premier
mot que l’on associe
instinctivement à la
notion de Big Data.
Grâce à Hadoop,
on va moins se poser la
question, comme cela
pouvait être le cas avant
dans le cadre d’une
architecture physique
structurée autour de
bases de données
relationnelles, de réfléchir
en amont au stockage de
la donnée. Désormais, on
va stocker ces data sans
trop de contraintes.
”LCL
Christèle Baranco
Responsable
Analyse de la
Donnée Client
“ Hadoop a rendu possible
l’exploitation des machines data, en
permettant d’exploiter des volumes
d’informations conséquents à des
prix d’exploitation raisonnables.
C’est une technologie en flux
permanent, qui se consolide au fur
et à mesure. Le fait qu’Hadoop soit
en permanence en mode lab, c’est
loin d’être dérangeant pour nous,
car c’est aussi notre façon d’aborder
l’utilisation de la data pour
ces cas d’utilisation.
”Schlumberger
Olivier Brousseau
IT Business Intelligence
Strategy Manager
OUTILS
Un éléphant
qui compte
énormément
“Le caractère volatile des technos utilisées
dans le cadre d’Hadoop nous a d’abord fait
hésiter. Il faut dire que nous ne voulions pas
mettre en place un tel système pour de la R&D,
mais pour des usages de production… d’où
certaines hésitations légitimes. Au final, nous
avons décidé de nous jeter à l’eau. Nous avons
donc décidé de mettre en place du Hadoop il y
a un an. C’est rapidement devenu le coeur
du sujet technique côté IT : sans Hadoop
rien n’aurait été possible.
” Kiabi
Elisabeth Zehnder
Data Scientist
140
encyclopédie des big data
Premier pas vers le Big Data, l’arrivée d’Hadoop
au sein de l’entreprise est souvent vécu, ex-
plique Yoann Denée (Prisma Media) comme
un bouleversement :
“ 
L’arrivée des technologies
de traitement massif de la
donnée au sein de notre
entreprise, quand bien même elles ne
sont pas pour l’heure utilisées pour des
usages de Big Data stricto sensu, a été pour
nous une vraie lame de fond. Les tests
sur Hadoop réalisés depuis deux ans, et
le recours à MongoDB, qui a l’avantage
d’être compatible Hadoop et permet
d’avoir des performances en phase à la
fois avec les besoins métiers et la gestion
des coûts, ont pris l’apparence d’une
révolution.
” Prisma Media
Yoann Denée
Chief Data Officer
141
OUTILS
“
La plateforme open source Hadoop est de-
venue synonyme de Big Data. Hadoop peut
être considérée comme une petite révolu-
tion dans le monde des technologies, quel que soit le re-
gard qu’on y porte :
•	Technologie : Elle donne des perspectives qu’on n’ima-
ginait pas avant : des capacités de traitement qui s’ap-
pliquent sur des volumes quasi-illimités, une prédic-
tibilité dans les temps de réponse et des langages de
manipulation et de traitement adaptés aux usages.
•	Coût : des logiciels basés sur du code open source ins-
tallés sur du matériel de commodité.
•	Ecosystème hyperactif : les grandes entreprises IT d’une
part, les projets Apache de l’autre, stimulent la commu-
nauté des développeurs qui participent activement au
développement du Big Data.
Hadoop est un ensemble de composants adressant cha-
cun un besoin spécifique. Cela devient complexe lorsque
des choix technologiques sont à faire, c’est pourquoi des
initiatives comme odpi.org garantissent aux entreprises la
compatibilité entre ces composants.
De ce foisonnement technologique résulte un vrai chan-
gement dans les organisations et les modes de fonc-
tionnement des DSI vis-à-vis des métiers car le monde
Hadoop évolue vite : un composant peut devenir obso-
lète en quelques mois (cf. MapReduce vs Spark). Cela im-
pacte les processus de formation des ingénieurs et leur
recrutement, les cycles de développement applicatif ou
les modes de mise en production. C’est au prix de ces
changements que les DSI continueront à être un
support au développement des métiers.
”Laurent Sergueenkoff
Analytics Platform Sales Team Leader
IBM France
D’ex
pert
AVIS
142
encyclopédie des big data
Ce logiciel libre de traitement des données et d’analyse statis-
tiques est devenu, avec Python  , l’un des langages de pro-
grammation de référence pour le Big Data. Développé au début des
années 1990 par Ross Ihaka et Robert Gentleman (deux universitaires
nord-américains), il s’est rapidement implanté dans les universités et
le monde de la recherche en général. Mais le monde des entreprises
s’y intéresse de plus en plus, et nombreux sont aujourd’hui les statis-
ticiens à abandonner les anciens langages pour adopter R.
LCL
Christèle Baranco
Responsable Analyse de la Donnée Client
L’arme de séduction massive de R auprès des entreprises, c’est son
caractère Open Source. Nombreux sont ainsi les acteurs à le mettre
au banc d’essai dans une logique de maîtrise des coûts, comme
l’explique Elisabeth Zehnder (Kiabi) :
“ 
 Les entreprises étaient initialement
très orientées SAS. R, qui propose
beaucoup de choses similaires à
SAS, mais avec une nouvelle vision des choses,
remporte un succès grandissant.
”
LANGAGE r
IN
VIEWTER
Kiabi
Elisabeth Zehnder
Data Scientist
R nous permet de travailler nos algos avec un
langage Open Source, et donc de réduire nos coûts.
Quand je suis arrivée chez Kiabi, il n’y avait pas
d’outils de stats à proprement parler. Nous avons vu
plusieurs éditeurs, qui ne maîtrisaient pas toujours leurs coûts,
ce qui peut faire peur. Tant que R répond à nos besoins, il nous
semble judicieux et avantageux de l’utiliser.
”
143
OUTILS
“
De la même façon que les logiciels,
les langages de développement in-
formatique ont largement évolué ces
dernières années. Les communautés scientifiques,
les hackers et les métiers technologiques ont ainsi
développé une nouvelle génération de langage, ap-
pelé langage de 4e
génération, qui permet de syn-
thétiser les principales instructions d’un code d’un
programme. Ces langages ne recherchent pas de
performance computationnelle mais se focalisent
davantage sur une souplesse de manipulation et
une lecture facilement interprétable. Ce sont gé-
néralement des langages exécutables dans des en-
vironnements interactifs où chaque instruction de
code produit un résultat (REPL). Ils sont souvent utili-
sés pour proposer des interfaces de programmation
riches (API) permettant d’encapsuler un programme
codé dans un autre langage aux performances plus
élevées. Ainsi les langages R et Python sont les lan-
gages de programmation plébiscités par la commu-
nauté des data scientists car ils offrent une grande
rapidité de prise en main et encapsulent facilement
des programmes codés dans d’autres langages.
”Marc Damez-Fontaine
Senior Manager
PwC
D’ex
pert
AVIS
144
Popularisé par Google, MapReduce est un modèle d’architecture
et de développement informatique qui permet de procéder à
des calculs parallèles sur des masses de données. En distribuant
celles-ci dans un cluster de machines, il va permettre le traitement
de grosses volumétries (supérieures à 1 téraoctet).
MaPReduce
Intel
Marie-Christine Sawley
Exascale Lab Director
C’est un algorithme qui s’appuie sur une idée simple :
traiter localement des données qui ont été au préalable séparées
en petits morceaux, avant de les faire remonter pour avoir une
vision d’ensemble sur une masse bien plus importante.
Une telle vision a permis le démarrage du Big Data en général, en offrant
des nouvelles solutions de traitement des données massives.
”
encyclopédie des big data
“
MapReduce, c’est une manière de faire des calculs adaptée
au système Hadoop. Il permet la distribution des tâches au sein
de cette architecture distribuée, et la répartition des calculs pour
permettre de remonter progressivement les résultats.
”SNCF
Maguelonne Chandesris
Responsable de l’équipe Innovation & Recherche
« Statistique, Econométrie et Datamining »
LCL
Christèle Baranco
Responsable Analyse de la Donnée Client
Le MapReduce, c’est la manière dont on va désormais coder
pour effectuer des calculs parallèles permettant d’attaquer plus
efficacement de gros volumes de données. Les données sont
découpées en entrées et dans un premier temps il s’agit de les
« maper » noeud par noeud. Puis ensuite de les agréger et ainsi de réduire
ces données. Il est nécessaire de coder différemment pour utiliser toute la
puissance du calcul distribué à laquelle donne notamment accès Hadoop.
”
IN
VIEWTER
IN
VIEWTER
MapReduce a entraîné la naissance de nombreux frameworks,
dont le plus connu est Hadoop  . Les deux termes sont encore au-
jourd’hui intimement liés, comme le rappellent Christèle Baranco
(LCL) et Maguelonne Chandesris (SNCF) :
145
OUTILS
Python
Celangagedeprogrammationorienté objets’estimposécomme
un outil essentiel du Big Data. Inventé à la fin des années 1989
par Guido van Rossum (un développeur néerlandais, fan des Monty
Python à ses heures perdues), Python a d’abord été largement utilisé
dans le domaine scientifique (on lui doit notamment le traitement
des images spatiales récoltées par le téléscope Hubble et le mo-
dèle expérimental ayant permis la découverte du Boson de Higgs).
Flexible, puissant, facile à apprendre et à utiliser, et présentant l’im-
mense avantage d’être en open source, il a investi ensuite le champ
de la donnée, permettant sa manipulation et son analyse, et s’impo-
sant comme un apprentissage indispensable dans le savoir-faire des
data scientists  . Ces derniers sont aujourd’hui systématiquement
formés à Python, explique Marie-Christine Sawley (Intel) :
“ 
Je fais partie de la génération des
informaticiens qui n’ont pas appris
Python, et cela se voit ! C’est un langage
qui a pris ses marques dans la formation ou il est
devenu incontournable, car « multiforme », applicable
du PC à la tablette et au téléphone. Les générations
« Python » sont maintenant bien installées dans
le monde du travail et trouvent chaque jour de
nouvelles manières de l’utiliser, notamment comme
langage de scripting. Python joue un rôle important,
par sa richesse et sa versatilité, aussi bien dans
l’enseignement qu’en production.
” Intel
Marie-Christine Sawley
Exascale Lab Director
146
encyclopédie des big data
IN
VIEWTER
SNCF
Maguelonne Chandesris
Responsable de l’équipe Innovation
& Recherche «Statistique,
Econométrie et Datamining»
Historiquement, deux communautés
scientifiques différentes se sont
lancées à l’assaut du Big Data :
d’un côté des gens faisant surtout
de l’algorithmie, de l’autre ceux qui faisaient
essentiellement de la statistique. Les premiers
utilisent Python, les seconds, R. Aujourd’hui ces
communautés sont amenées à se mélanger de
plus en plus, ce qui a nécessité de faire évoluer
ces langages initiaux. Cela reste deux langages
différents, mais leurs fonctionnalités sont
aujourd’hui en réalité assez semblables.
”
Python est souvent opposé, ou mis en concurrence avec un
autre langage de programmation, qui s’est imposé lui aussi dans
le monde du Big Data au cours des dernières années : R  . Si ces
deux solutions sont effectivement, à la base, utilisées par des com-
munautés différentes, leur usage est en réalité assez similaire, et les
possibilités qu’elles offrent, presque les mêmes. C’est en tout cas
l’avis de Maguelonne Chandesris (SNCF) :
147
OUTILS
IN
VIEWTER
Réseau
de neurones
Ce modèle de mathématiques paramétriques s’inspire de la
transmission synaptique (et donc de la biologie) en déployant
un réseau constitué d’une multitude de nœuds et au sein duquel
l’information va se propager jusqu’à atteindre la couche finale. Uti-
lisés initialement pour résoudre des problèmes d’ordre statistique
(la classification automatique des codes postaux par exemple), les
réseaux de neurones ont aussi investi le champ de l’intelligence arti-
ficielle, grâce à leur mécanisme perceptif indépendant des idées de
celui qui l’implémente et qui va permettre un apprentissage auto-
nome. Cette forme de liberté de fonctionnement rend toutefois leur
compréhension ardue, ce qui peut décourager certaines entreprises
qui ont besoin d’une grande lisibilité. Voilà ce qu’explique Stéphan
Clémençon (Télécom-ParisTech) : 
Télécom-ParisTech
Stéphan Clémençon
Professeur et Responsable
du Mastère Spécialisé Big Data
Dans les années 80-90, les réseaux de
neurones ont eu du mal à s’imposer, en raison
de la difficulté à les rendre interprétables.
Aujourd’hui, ils reviennent à la mode, parce
que dans les applications liées au domaine internet,
l’interprétabilité a une moindre importance, et que le
côté boîte noire des technologies faisant appel à des
algorithmes n’est pas conçu comme un facteur limitant.
Pour les entreprises plus traditionnelles, en revanche, la
nécessité d’interpréter physiquement les modèles rend le
recours aux réseaux de neurones moins évident.
”
148
Publicis Worldwide
Samir Amellal
International Chief Data Officer
Les approches en deep learning qu’ont
menées Facebook et Google nous ont inspirés
pour plusieurs projets. Nous avons ainsi
déployé une approche deep learning pour
un client : il s’agissait de décomposer leur problématique
globale, complexe, en plusieurs sous-problématiques que
nous avons confiées à des réseaux de neurones. Chaque
résolution de sous-problème, allait alimenter une couche
inférieure, permettant d’être de plus en plus performant
sur la résolution de la problématique d’ensemble.
L’intelligence artificielle (c’est à dire pour moi, le système
intelligent, et non la conscience artificielle), commence
à devenir une solution très intéressante, puisqu’elle va
permettre de résoudre de plus en plus des problématiques
auxquelles nous n’avions aucun accès précédemment.
”
encyclopédie des big data
IN
VIEWTER
Le recours efficace aux réseaux de neurones constitue donc, pour le
moment, surtout un enjeu d’avenir pour les entreprises. Si certaines
ont déjà lancé des projets concrets ayant recours à cette forme
d’intelligence artificielle, la plupart sont en attente de cas concrets
d’utilisation… Et les promesses sont nombreuses, reconnaissent
notamment Nicolas Gaude (Bouygues Telecom) et Samir Amellal
(Publicis Worldwide) :
“
Unjour,peutêtre,d’icicinqàdixans,
lesréseauxdeneurones(deeplearning)
aurontlacapacitédefairedufeature
engineering,d’allerconstruired’euxmêmes
àpartirdesdonnéesbrutesdesfeatures
importantesensepassantdu
raisonnementhumain. 
” Bouygues Telecom
Nicolas Gaude
149
OUTILS
Sogeti
Aroua Biri
Architecte Cybersécurité & Big Data
Hormis le fait qu’il est un vrai enabler, Spark offre
surtout la possibilité de créer très rapidement des
applications innovantes. On remarque sur internet
de plus en plus de flux de données. Auparavant,
nous n’avions pas la capacité de traiter ces données
circulant tous azimuts dans les data centers. Pour parvenir
à exploiter cette puissance là, il va falloir mettre en œuvre
des applications, des services efficaces. Spark, dans sa
capacité à traiter très rapidement de gros volumes, de gros
flux, est l’outil idéal pour mettre en œuvre ces applications.
Reste à trouver les bons cas d’usage !
””
IN
VIEWTER
Développé initialement au sein de l’AMP Lab de l’université
de Berkeley (Californie), ce projet de framework open source
a rejoint en 2013 l’incubateur Apache. Depuis la release de sa pre-
mière version, en mai 2014, Spark n’en finit plus de grandir, avec
un écosystème d’outils permettant à la fois le traitement de bat-
ch, l’analyse en continu de flux de données, le machine learning, le
calcul de graphes, et l’interrogation de données en SQL-like. Avec
son modèle de programmation souvent jugé plus simple que celui
d’ Hadoop  , et qui fait appel non pas au MapReduce sur disques,
mais à de l’in-memory, il autorise des temps d’exécution beaucoup
plus courts (jusqu’à 100 fois). De telles caractéristiques font de Spark
un outil tout trouvé pour la mise en place d’applications novatrices,
explique Aroua Biri (Sogeti) :
SPARK
150
encyclopédie des big data
Autre avantage : Spark s’intègre facilement dans l’écosystème
Hadoop, avec lequel il est entièrement compatible, et permet par
exemple d’utiliser le gestionnaire de cluster YARN.
Avec de tels arguments, le framework est
en train de séduire de plus en plus d’entre-
prises françaises, qui n’hésitent plus à le faire
passer sur le banc d’essai. Voici quelques
retours d’expérience, chez AccorHotels,
Bouygues Telecom, ou encore Kiabi :
“
Capablederépondreàtouslesbesoins
delachaînedetransformationet
d’exploitationdeladonnée,Sparkestun
peulecouteausuissedudatalearning. 
”Solocal Group - PagesJaunes
Bruno Guilbot
“ Spark c’est l’outil qu’on utilise
quand Python et R ne suffisent plus.
Pour traiter efficacement les données,
il faut être capable de les stocker dans
la mémoire des indicateurs. Or au delà
de 128 Gigaoctets, pour un ordinateur
même performant, cela ne passe plus
en mémoire. Spark va alors permettre
de passer à l’échelle en distribuant les
calculs auprès des données. Spark est
à Python ou à R ce que Hadoop est au
file system classique.
”Bouygues Telecom
Nicolas Gaude
Senior Data Scientist
“Nous commençons tout juste
à travailler avec Spark. Parmi tous
les outils qui sont à disposition,
et qui sont pour la plupart très
volatiles, c’est celui qui semble
émerger comme étant le plus
stable, le plus évident… Celui en
tout cas à côté duquel on ne pourra
pas passer. Je suis convaincue de
son intérêt, mais nous sommes
en train de voir s’il correspond
bien, très pragmatiquement à nos
attentes, en y développant
un cas d’usage.
”Kiabi
Elisabeth Zehnder
Data Scientist
Quand
Spark
fait des
étincelles
151
OUTILS
“
Spark constitue le cadre architectural idéal pour le
traitement de données massives et les applications
analytiques. Sur le plan des performances, son architecture de
traitement en mémoire permet d’effectuer des calculs complexes
à très grande vitesse sur des clusters de taille quasi-illimitée. Son
architecture est parfaitement adaptée aux algorithmes itératifs tel
que le machine learning. Avec Spark, ces algorithmes peuvent être
jusqu’à100foisplusrapidesqu’avecsonprédécesseurMapReduce.
Du fait de son support de langages de haut niveau et de sa grande
richesse fonctionnelle, Spark simplifie significativement le déve-
loppement d’applications Big Data, en particulier avec Hadoop.
Spark supporte les langages Java, Scala et Python. Il intègre un
moteur SQL et supporte les traitements en mode streaming. Il per-
met, avec très peu de lignes de code, d’écrire des applications Big
Data très sophistiquées. Il est devenu depuis peu l’outil de travail
de prédilection du Data Scientist.
Couplé à Hadoop, Spark constitue aujourd’hui une architecture Big
Data de référence dont on anticipe qu’elle va s’imposer
dans les mois et années à venir.
” Jacques Milman
Architecte Senior Analytics
IBM
D’ex
pert
AVIS
“Spark accélère le time to market de nos algorithmes,
tout en optimisant leur fonctionnement. Auparavant les data
scientists trouvaient un algorithme grâce à leurs outils (Python
ou R), puis livraient ensuite une série de formules mathématiques
que l’informatique se chargeait de coder en SQL. Cela prenait
du temps et cela dégradait (souvent presque de moitié) la
pertinence de l’algorithme. Aujourd’hui, au contraire on va coder
directement les algorithmes dans Spark, sans passer par une
couche de recodage. Les algorithmes sont donc mis en place
beaucoup plus rapidement. Qui plus est, les data scientists vont
pouvoir penser en amont à la mise en production
tout en travaillant à leurs algorithmes.
”AccorHotels group
Fabrice Otaño
SVP, Chief Data Officer
152
encyclopédie des big data
Cet outil web de gestion des tags permet de
contrôler aisément les différents systèmes
d’analyse, de test et de marketing - en somme
toute technologie s’appuyant sur du tagging. Les Tags Management
Systems (TMS) vont agir comme une conciergerie du site web d’une
entreprise : lorsqu’un utilisateur se connectera à certaines pages, ou
opéreront certaines actions, ils déclencheront différents pixels de
tracking, et passeront le message aux différents outils analytiques et
canaux marketing (paid search, affiliation, display, email) que quelque
chose de positif ou de négatif vient de se produire. Alors que des me-
sures de campagne de ce type requièrent habituellement la gestion,
par des développeurs, d’une multitude de fragments de javascript
dispersés dans différents sites, les TMS vont centraliser ces scripts, et
simplifier le tracking.
Au-delà de ces aspects classiques orientés contrôle du site internet et
du chemin de conversion, Pierre-Marie Desbazeille (GrandVision)
voit aussi dans les TMS un outil au service du drive-to-store :
Tag Management
System
IN
VIEWTER
GrandVision
Pierre-Marie Desbazeille
Directeur CRM & Digital
Nous nous sommes équipés d’un Tag Management
System il y a un peu plus d’un an maintenant. Nous avons
construit une plateforme pour le monde de l’optique, avec
une déclinaison par pays. Le déploiement s’est fait pour l’instant en
France, en Chine, et est en cours au Bénélux et en Allemagne. L’enjeu à
terme va être de faire de ce TMS un outil de commerce en drive-to-store.
Le e-commerce ne sera pas, dans les années à venir, quelque chose de
significatif en termes de volume dans le monde de l’opt-in. La notion de
tag va donc être importante chez nous pour évaluer le drive-to-store.
Il faut que cela soit un outil de tracking puissant, qui pourra être
remergé avec le comportement client dans son ensemble, et pas
simplement une vision du site internet, et du tunnel de conversion.
”La mise en place d’un TMS pose aussi la question du rapport qu’en-
tretient l’entreprise avec la valorisation des tags : doit-elle confier leur
gestion à un prestataire extérieur ? Et en interne, qui doit s’occuper de
ce domaine ? Pour Laurent Aliphat (Renault), Bruno Guilbot (Solocal
Group - PagesJaunes) et Jonathan Badoux (AXA France) deux maître
mots : contrôle et autonomie.
153
OUTILS
“Cela fait quatre ans que nous utilisons des outils de
Tag Management System. Nous avons acquis très vite la
conviction qu’il était nécessaire de reprendre une certaine
forme d’autonomie par rapport à des intégrateurs, ou à
une Direction informatique. Aujourd’hui, l’usage du TMS
est généralisé chez Renault, et les métiers utilisateurs sont
très familiers de l’outil. Vue la volumétrie des tags médias
chez nous, il était capital de
donner l’autonomie à chaque
pays de faire ce qu’il veut, quand
il veut, et sans dépendre d’un
planing commun.
”Renault
Laurent Aliphat
Head of Digital
Performance and Lead
Management
Nepas
laisser
sestags
dans la
nature
“Le TMS est aujourd’hui
un outil indispensable sur les
sites et les applis. Il permet de
gagner en agilité, en réactivité
et en cohérence, et d’être
très rapide sur la mise en
production de modifications du
plan de marquage. Plutôt que
d’utiliser une des solutions de
TMS disponible sur le marché,
nous avons développé notre
solution “maison”, que nous
avons mis en place en 2012.
Cela est satisfaisant pour un site
comme PagesJaunes sur lequel
on ne fait pas beaucoup de
campagnes d’acquisition.
”Solocal Group -
PagesJaunes
Bruno Guilbot
Responsable Smart
Data et Advanced
Analytics
“Afin de mieux contrôler l’ensemble
des flux de données issus de nos sites
internet, nous avons décidé d’internaliser
le tag management anciennement aux mains
de nos agences média.Nous avons donc
le contrôle sur l’ensemble des étapes clés
du Tag Management pour chacun des tags :
-	 Validation technique des tags
-	 Définition des paramètres envoyés
-	 Définition des règles de déclenchement
-	 Contrôle des appels en cascade
-	 Intégration dans le TMS
-	Maintenance
Ce contrôle nous a permis d’optimiser
les performances de chargement de pages
de nos sites internet ainsi que la lecture
des résultats de campagne média. 
”AXA France
Jonathan Badoux
Responsable Outils Digitaux
154
Sous l’acronyme en forme de clin d’oeil (Yet-Another-Resource-
Negotiator) se cache l’une des évolutions architecturales ma-
jeures caractéristiques de la nouvelle génération d’Hadoop. Appa-
rue en octobre 2013, et aussi baptisée MapReduce 2.0, YARN est une
plateforme de gestion des ressources, qui va permettre à Hadoop
d’offrir un plus large éventail d’applications et de processus qu’au-
paravant. Grâce à lui, le framework d’Apache va ainsi être capable,
par exemple, de faire tourner, en même temps que des travaux
classiques de MapReduce sur des batchs, des requêtes interactives,
et des flux de données. En séparant de la sorte la gestion à propre-
ment parler des ressources des clusters et le traitement des don-
nées, YARN rend, au final, possible le temps réel sur Hadoop. Ce que
confirme Fabrice Otaño (AccorHotels) :
YARN
“ 
Au départ, les distributions Hadoop
n’étaient pas capables de faire du real
time, en raison de leur structure même,
en clusters. C’est YARN qui, en accélérant radicalement
le processus, en calculant des algorithmes à la volée,
va permettre de plus en plus de se servir des systèmes
d’information en temps réel.
”AccorHotels group
Fabrice Otaño
SVP, Chief Data Officer
encyclopédie des big data
155
OUTILS
156
encyclopédie des big data
156
Au terme de cette liste de mots,
certains de nos lecteurs auront
sûrement constaté quelques absences,
quelques notions qui auraient assurément
mérité, elles aussi, de figurer dans ce petit
dictionnaire. La raison est simple :
nous avons dû faire des choix. Le vocabulaire du Big Data est,
à l’image du secteur qu’il met en mots, en pleine expansion.
Alors que les termes les plus fréquents bénéficient d’un
éclairage qui les rend de plus en plus compréhensibles y
compris pour le grand public, la partie immergée de l’iceberg,
elle, continue de grossir en inventant sa propre langue, son
propre jargon, compris seulement
des techniciens du sujet. Rendre intelligible par le plus grand
nombre cette novlangue, qui dans les faits, rend ce secteur
opaque pour les non-initiés, voilà un des nombreux défis
auquel est confronté le secteur du Big Data sur le chemin
de sa démocratisation.
CON
sionCLU
157157
G
A
TA
BIG
TADA
G
DA
158
159
CONTRIbuteurs
160
AccorHotels group
Fabrice Otaño
SVP, Chief Data Officer
Fabrice est responsable de la Data pour le groupe
AccorHotels qui inclut l’ensemble des ressources
BI & Data Science pour la finance, la distribution (Web, Sales,
Customer Loyalty, Marketing) et le Revenue Management (Yield,
Pricing, Channels) ainsi que les ressources IT du centre de compé-
tences technologiques. Cette Direction anime un réseau de 2000
Business Analysts et Revenue Managers sur l’ensemble du groupe.
Après une première expérience chez AT Kearney dans le conseil en
stratégie, Il rejoint Softcomputing, startup spécialisée dans la Data
science puis prend en charge les équipes de Business Technology
Consulting France chez Capgemini. Fabrice est diplômé de l’ESCP
(87) et de l’université d’Orsay Paris XI (BSc en Mathématiques).
Air France-KLM
Max Vallejo
Head of eCRM, Digital Department
Max est responsable eCRM au sein de la Direction
Digitale Air France-KLM depuis 2011. Il est en charge
de la personnalisation du parcours client en ligne, du dévelop-
pement du compte client et de l’outil de gestion de campagnes.
Après une première expérience au sein du cabinet Deloitte, il
rejoint Air France en 2004, d’abord comme responsable de la
synthèse économique du groupe Air France, puis comme Senior
Manager en charge du développement du réseau Amérique,
Caraïbes et Océan Indien. Il est diplômé de l’école Polytechnique
(X99) et de l’Ecole Nationale de la Statistique et de l’Administration
Economique.
encyclopédie des big data
161
Groupe Argus
Benoît Chéroux
Responsable Données & Modélisations
Benoît est Responsable Données & Modélisations
au sein du groupe Argus, (re)connu notamment
pour sa Cote Argus Personnalisée® et ses hors-séries trimestriels
Véhicules d’Occasion. Durant une décennie, il a travaillé au sein
du Groupe Business & Décision, sur la mise en place de système
d’information décisionnel (Moulinex, Virbac, Les Mousquetaires)
mais aussi sur la mise en place de systèmes d’élaboration
budgétaire ou de consolidation de trésorerie (BNP Paribas, Technip,
Lafarge). Il est ensuite entré au sein de la DSI du groupe Argus (en
tant que chef de projet Décisionnel) avant d’évoluer sur le poste
de responsable Données & Modélisations, avec pour vocation de
capter le maximum de données pour produire les indicateurs & les
études de marché proposées aux clients du groupe Argus.
Benoît est diplômé de l’Ecole Internationale des Sciences du
Traitement de l’Information (EISTI, 98).
AXA France
Jonathan Badoux
Responsable Outils Digitaux
Jonathan est responsable de l’intégration des outils
digitaux d’AXA France. Après une première expé-
rience chez Johnson & Johnson dans un poste de chef de projet
digital transverse car mélangeant achat média, refonte de site web
et programme CRM, il travaille depuis un an sur l’implémentation
des outils tels que la Data Management Platform, l’adserver et l’ou-
til de recommandation pour AXA France à destination des équipes
achat média et webmarketing. Jonathan est diplômé du MBA
E-Business de l’Ecole Supérieure de Gestion de Paris (2012).
CONTRIBUTEURS
162
Bouygues Telecom
Aude Launay
Big Data Business Manager
Aude est Responsable de l’activité Big Data au sein
du département Marketing de Bouygues Telecom,
avec pour objectif de définir les offres, le go-to-market et d’assu-
rer la commercialisation d’Etudes agrégées et anonymisées à des
clients majoritairement B2B. Diplômée de l´ESIEE Paris, elle a débuté
sa carrière en 1997 chez Nortel avant de devenir ingénieur avant-
vente. En 2002, elle a intégré la Direction Marketing de SPIE Com-
munications, qui lui a confié le lancement des partenariats avec Sie-
mens, puis Microsoft. Elle a ensuite rejoint Dimension Data où elle a
dirigé l´équipe marketing et avant-vente sur les solutions de com-
munications unifiées, tout en définissant les offres, les partenaires et
la stratégie marketing associées. Aude a ensuite intégré Bouygues
Telecom fin 2008, avec la charge successivement du marché PME
puis de la stratégie Marketing Entreprises.
Bouygues Telecom
Nicolas Gaude
Senior Data Scientist, Head of Big Data Lab
Senior Data Scientist, Nicolas dirige le Big Data Lab
au sein du département Innovation de Bouygues
Telecom. A la croisée des chemins entre Big Data et Machine Lear-
ning, le Big Data Lab construit des modèles prédictifs à usage de
services internes, fraude, attrition, achat,… et développe à l’externe
des offres B2B de données issues de l’activité du réseau télécom.
Ingénieur Physicien diplômé de l’INPG, il a débuté sa carrière en
2000 dans les médias numériques chez Canal Plus puis Technicolor.
En 2006 il a rejoint la Direction innovation de NDS-Cisco en qualité
d’expert système embarqué. En 2011, Bouygues Telecom lui a
confié les équipes logicielles en charge du développement de la
BBox Sensation. En 2014 Nicolas a démarré l’activité de valorisation
externe des Big Data Bouygues Telecom, mission étendue depuis
aux services internes.
encyclopédie des big data
163
France Loisirs
Pascale Dulac
Responsable Connaissance Clients
Pascale est Responsable du département
Connaissance Clients de France Loisirs qui inclut
notamment les Etudes Datamining, Etudes Marketing et le Data
management /gestion opérationnelle de la BDD. Après différentes
expériences dans le domaine du conseil et des études, elle a
rejoint la société France Loisirs pour prendre en charge le dépar-
tement Connaissance Clients au sein de la Direction Marketing.
Pascale est diplômée de l’Ecole des Mines/Paris XIII (D.E.A. Organi-
sation Industrielle, Innovation et Stratégies Internationales).
GrandVision
Pierre-Marie Desbazeille
Directeur CRM & Digital
Directeur CRM & Digital, Pierre-Marie Desbazeille et
son équipe sont en charge de la transformation
digitale au sein de GrandVision France (GrandOptical et Générale
d’optique), leader de l’optique mondial. Refonte des plateformes
relationnelles, digitalisation des parcours client : lancement des sites
e-commerce/déploiement de dispositifs « drive to store », et
mobiles in store, DMP et scoring de réachat sont les principaux
challenges relevés ces derniers mois. Entrepreneur dans l’âme,
Pierre-Marie a créé sa première agence digitale en Espagne à 27
ans et après de nombreuses années passées en agences
spécialisées dans le CRM & Digital, il apporte toute son expertise IT
et marketing au sein du Groupe GrandVision NV pour développer
une plateforme omnichannel internationale dans 43 pays.
CONTRIBUTEURS
164
Hoche Société d’Avocats
Régis Carral
Avocat – Associé
Régis est avocat associé responsable du départe-
ment Propriété Intellectuelle & Technologies de
l’Information (IP/IT) au sein de Hoche Société d’Avocats. Régis a
auparavant créé et animé pendant plus de 15 ans le département IP/
IT du Cabinet PwC Avocats (anciennement Landwell & Associés). Il
a développé des compétences spécifiques en matière d’assistance
juridique des problématiques NTIC, e-commerce, télécom dans le
cadre de projets informatiques et internet (contrats d’intégration
d’ERP, licence de progiciels, création de plateformes e-commerce,
maintenance, externalisation, dématérialisation, projets Big Data et
Cloud Computing, problématiques « privacy » et CNIL, jeux et paris
en ligne, etc.). Il anime et participe à de nombreux séminaires et
conférences en France et à l’étranger (Les Echos, Legiteam, Cerist à
Alger, …) et est chargé de cours à l’Ecole Nationale Supérieure des
Mines de Paris, Master Spécialisé en Management des Systèmes d’In-
formation et des Technologies.
Intel Corporation France
Marie-Christine Sawley
Exascale Lab Director
Marie-Christine Sawley dirige depuis 2010 l’Intel
Exascale Lab de Paris. Diplomée de l’EPFL en
physique et titulaire d’une thèse en Physique des Plasmas, son
expérience du HPC et de l’analyse de données massives s’est
constituée au fil de la direction de projets : notamment en tant
que Directrice du Centre de Calcul National en Suisse de 2003 à
2008 mais aussi comme l’une des fondatrices en 2002 du centre
Vital-IT à Lausanne dédié à la bioinformatique et biosimulation,
comme partenaire de EGEE de 2005 à 2007, et en tant que senior
scientist sur l’expérience CMS au CERN de 2008 à 2010.
encyclopédie des big data
165
CONTRIBUTEURS
Kiabi
Elisabeth Zehnder
Data scientist
Elisabeth est en charge du projet Big Data -
Connaissance Client pour les utilisateurs métier
Kiabi. Après un parcours d’analyse de données, conception de
systèmes de décision et outils statistiques dans le risque de crédit
et le marketing, essentiellement dans le milieu bancaire, Elisabeth
a intégré Kiabi pour mettre en place le référentiel Client Unique
avant d’enchainer avec la mise en place du projet Connaissance
Client coté métier.
LCL
Christèle Baranco
Responsable Analyse de la Donnée Client
Christèle est responsable du pôle Analyse de
la Donnée Client au sein de la Direction du
Management de la Donnée et de la Relation Client de LCL. Elle a
en charge une équipe d’une quinzaine de personnes regroupant
le centre de service de la donnée, le datamining, le géomarketing
et le Big Data. Depuis 13 ans au sein du groupe Crédit Agricole, elle
a commencé sa carrière comme ingénieur d’études statistiques
à la fois dans le domaine marketing et risque, avant de participer
au projet de lancement de BforBank, banque en ligne du groupe
avec notamment la mise en place de l’équipe Connaissance Client.
Christèle est diplômée de l’Ecole Nationale de la Statistique et de
l’Analyse de l’Information (ENSAI – promotion 2002).
166
encyclopédie des big data
Groupe Numericable-SFR
Morgane Castanier
Directrice Data et CRM
Morgane Castanier est diplômée de l’Ecole
Supérieure de Commerce de Grenoble et a débuté
sa carrière aux Editions Play Bac en 1997. Elle a ensuite rejoint
le groupe Hebdomag France en 1999 pour prendre la responsabili-
té du Minitel et de l’Internet, et a été nommée Responsable
Marketing online et e-business en novembre 2002. Début 2005,
Morgane a rejoint le Groupe Manutan, en qualité de Directrice
Marketing et Commerciale. Fin 2006, elle a créé, en association
avec le PDG de Netbooster, une agence de conseil en e-marketing,
spécialisée dans l’accompagnement et la transformation digitale
des entreprises. Début 2008, après une longue mission d’accom-
pagnement en régie au sein du Groupe Sud Ouest, on lui confie la
Direction des Nouveaux Media de la filiale S3G. Fin 2010, Morgane
a rejoint SFR pour prendre la Direction du Marketing Internet.
Début 2015, elle a pris la Direction de la Data et du CRM du nouvel
ensemble Numericable-SFR-Virgin avec pour objectif de mettre
le digital et les nouveaux outils de traitement et d’activation de la
données au cœur des dispositifs et de la stratégie omnicanale.
Oney Banque Accord
Mathieu Escarpit
Directeur Général Italie et Joias
Mathieu est Directeur Général de deux « Data
Company » : Oney située à Milan et Joias située
à Lisbonne. Ces 2 entreprises sont spécialisées dans le Data
Analytics (Big Data, CRM, etc.) pour le retail. Après avoir débuté
dans le monde digital des startups, il rentre chez Oney Banque
Accord (Groupe Auchan) en 2004 comme Responsable du digital
où il y créera notamment l’activité e-commerce. Il rejoint ensuite
Nectar (création du plus grand programme de fidélité) en Italie
comme Directeur Marketing puis devient Directeur Général de
Oney Banque Accord en Italie où il lance la nouvelle activité de
Data Analytics. Depuis 2014 il est aussi Directeur Général de Joias.
Mathieu est titulaire d’un DESS de Marketing Direct de l’IAE de Lille.
167
Orange
Geoffrey Zbinden
Vice President Big Data Analytics
& Customer Base Management
Geoffrey Zbinden est Vice President Big Data
Analytics & Customer Base Management au sein du groupe
Orange. Son département est en charge de la stratégie et
du déploiement des outils de business intelligence pour les filiales
Orange en Europe, Afrique et Moyen-Orient. Geoffrey est en charge
de l’utilisation du Big Data pour augmenter la fidélité des clients,
l’adoption des nouveaux usages digitaux et la croissance des
revenus à travers une centaine de « use cases ». Précédemment,
Geoffrey a été Directeur Financier du marché Entreprises d’Orange
France, puis Directeur du programme « Machine-to-Machine »
d’Orange. Il a également travaillé aux Etats-Unis. En 2010, il a publié
un livre intitulé  « L’internet des objets, une réponse au réchauffe-
ment climatique » aux éditions du Cygne.
Orange Technocentre
Tania Aydenian
Directrice du programme Datavenue
Tania pilote le programme Datavenue, une solution
du groupe Orange à la croisée de l’Internet des
Objets et de la Data. Datavenue vise à répondre aux enjeux
de transformation digitale des entreprises en fournissant un
ensemble de solutions et services autour de la donnée et des
objets connectés. Après une première expérience en avant-ventes,
Tania a poursuivi sa carrière dans la division des achats du groupe
où elle a mené des opérations d’outsourcing dans les différentes
filiales Orange. Elle a ensuite basculé dans le digital en tant
que responsable de partenariats stratégiques dans l’univers de
l’Internet et du mobile où elle a établi des accords-cadres avec
des acteurs du web et des équipementiers. Tania a une formation
d’Ingénieur Telecom au Liban, suivie d’un Mastère en Conception
et Architecture de Réseaux à Telecom ParisTech.
CONTRIBUTEURS
168
Prisma Media Solutions
Mickaële Angeletti
Directrice Recherche & Développement
Mickaële Angeletti a intégré Prisma Media en
2000, d’abord comme Directrice de publicité de
VSD, poste qu’elle a occupé pendant près de 4 ans, puis comme
Directrice Service Clients jusqu’en 2005. Elle a ensuite évolué vers
le poste de Directrice Etudes Publicitaires et Service Clients puis
Directrice Media Solutions avant de devenir Directrice Recherche
et Développement. Elle se charge notamment de la veille interna-
tionale, de l’analyse de marchés avec identification de potentiel
de chiffre d’affaires publicitaire (Presse et Digital) et du développe-
ment d’offres stratégiques. En parallèle, elle coordonne le projet
Media du Futur.
Groupe Prisma Media
Yoann Denée
Chief Data Officer
Yoann Denée a exercé des fonctions de Direction
Générale entre 2007 et 2012 au sein de groupes
technologiques tels que Directinet-Netcollections, NP6. Il a rejoint
Prisma Media en 2012 pour prendre la Direction de la filliale
performance «p-comme-performance» dont il restructure l’offre,
son positionnement et procède à son intégration. En parallèle,
depuis 2013, il prend en charge le projet d’entreprise PrismaData.
Depuis 2015, Yoann Denée est Chief Data Officer de Prisma Media
et assure également la fonction de Correspondant Informatique
et Libertés.
encyclopédie des big data
169
Publicis Worldwide
Samir Amellal
International Chief Data Officer
Après des débuts à La Redoute, puis plusieurs
années chez Buongiorno, filiale de l’opérateur
télécom japonais NTT Docomo sur des projets R&D, Samir Amellal
a rejoint l’agence Publicis ETO en tant que Directeur de compte
Data avant de prendre la Direction de son pôle Data Science.
Depuis peu Samir est le Chief Data Officer de Publicis WW
et a pour mission de rendre la donnée plus accessible et
mieux exploitée dans l’ensemble du réseau Publicis WW.
Groupe Renault
Laurent Aliphat
Head of Digital Performance
and Lead Management
Laurent est manager de l’activité Performance au
sein de la Digital Factory au siège international de Renault. La finalité
principale est d’aider les équipes à valoriser la contribution aux
ventes et de les animer dans une logique de tests et de progrès
permanent. L’utilisation de la data est au cœur des leviers d’opti-
misation paid, owned et earned media. Il a rejoint le groupe il y a
quatre ans, après une précédente expérience de responsable de la
publicité, des médias et du digital pour les marques Fiat, Lancia et
Alfa Romeo. Laurent est diplômé de NEOMA – Sup de Co Reims (51).
CONTRIBUTEURS
170
Sanofi
Pierre-Yves Lastic
Associate Vice President, Chief Privacy Officer
Pierre-Yves est le responsable mondial de la
protection des données personnelles de Sanofi.
Il a étudié la biologie, les langues et l’informatique en France et
en Allemagne, et est titulaire d’un doctorat ès sciences de l’uni-
versité de Bayreuth. Après un premier poste universitaire, il a fait
l’essentiel de sa carrière au sein de la R&D pharmaceutique, où il
a occupé depuis 25 ans différentes fonctions de management,
en particulier en gestion de données, biostatistique, gestion des
études cliniques, gestion de l’information et protection des don-
nées. Il exerce également plusieurs mandats au sein de différents
consortiums : Chairman of the Board of Directors of the Clinical Data
Interchange Standards Consortium (CDISC), member of the Board
of Directors of the International Pharmaceutical Privacy Consortium
(IPPC) et member of the Executive Advisory Board of Safe BioPharma.
Enfin, il participe en tant qu’expert à l’EudraVigilance Expert Working
Group et au TelematicsImplementationGroup de l’Agence Européenne
du Médicament (EMA) et enseigne le Data Management à l’European
CentreofPharmaceuticalMedicine(ECPM) à Bâle.
Schlumberger
Olivier Brousseau
IT Business Intelligence Strategy Manager
Olivier est responsable de la stratégie Business
Intelligence pour Schlumberger. Après une
première expérience en R&D télécom et intégration de système,
il a rejoint Schlumberger pour piloter la cellule d’Enterprise
Architecture, puis a pris la responsabilité opérationnelle de la
plateforme BI globale à l’entreprise. Olivier est diplômé de l’ICAM
(96) et Supélec (97).
encyclopédie des big data
171
Schneider Electric
Joël Aznar
Global Purchasing - Director,
Master Data Governance
Joël Aznar est Directeur de la Gouvernance des
Master Data pour la fonction Achats du groupe Schneider Electric.
Cette organisation globale est en charge de la gestion des réfé-
rentiels Achats dans le but de faciliter la mise à disposition de ces
données, de garantir leur cohérence, leur validité et leur précision,
afin d’améliorer la prise de décision ainsi que l’efficacité globale
de la fonction. Depuis plus de 19 ans chez Schneider Electric, Joël
a débuté sa carrière en tant que manager Achats au sein de la
filiale Schneider Electric Espagne, puis responsable des systèmes
d’information Achats France, Europe et EMEAS avant de rejoindre
la Direction Achats groupe. Joël Aznar est également professeur
partenaire de Grenoble Ecole de Management (GEM - ESC) depuis
2006 dans le cadre du Master en Management des Achats. Il
enseigne par ailleurs à l’ESIAC/ESCA (Maroc), à MDI (Algérie) et en
France à l’EHESP (Ecole des Hautes Etudes de la Santé Publique).
Enfin il intervient comme membre du comité de pilotage de
l’Institut de Recherche et d’Innovation en Management des Achats
«IRIMA» en tant qu’expert en SRM, e-procurement et P2P. En
charge des enjeux Master Data depuis bientôt 3 ans, son approche
est essentiellement pragmatique et centrée sur les résultats et
l’efficacité du métier.
SNCF
Maguelonne Chandesris
Responsable de l’équipe Innovation & Recherche
«Statistique, Econométrie et Datamining»
Maguelonne Chandesris est responsable de la
thématique Innovation & Recherche «Data, Mobilité et Territoires»
pour la SNCF. Elle est également en charge de l’équipe «Statistique,
Econométrie et Datamining» qui développe des solutions de
traitements statistiques avancées et de visualisation d’importants
volumes de données au service de différentes activités du groupe
SNCF. Diplômée de l’Ecole Nationale de la Statistique et de
l’Analyse de l’Information (ENSAI), elle est également titulaire d’un
doctorat de Paris VI en mathématiques.
CONTRIBUTEURS
172
Sogeti
Aroua Biri
Architecte Cybersécurité & Big Data
Aroua Biri est architecte en cybersécurité et Big
Data chez Sogeti. Elle travaille depuis 2006 pour le
compte de grands consortiums européens et nationaux ainsi que
pour le compte de grands groupes du CAC 40 (Société Générale,
Engie, ERDF, Total etc.). Elle fait également partie des 150 expertes
du numérique recensées en France par GirlInWeb. Ce projet d’an-
nuaire est soutenu par Google for Entrepreneurs, NUMA et le Wo-
men’s Forum. Par ailleurs, elle travaille actuellement sur les impacts
de la transformation digitale sur les business models ainsi que sur
la sécurisation des architectures Big Data et la supervision métier
des objets connectés. Aroua est ingénieur informatique diplômée
d’un doctorat en cybersécurité de Télécom SudParis et de l’UPMC
ainsi que d’un Master en Réseaux Informatiques de l’UPMC.
SolocalGroup-PagesJaunes
BrunoGuilbot
ResponsableSmartDataetAdvancedAnalytics
Bruno est responsable des analyses et de l’exploi-
tation des données digitales de Solocal Group, qui
comprend notamment les marques PagesJaunes, Mappy, Ooreka
et A Vendre à Louer. Il travaille sur les problématiques Big Data, sur
l’exploitation et la valorisation des données via la data science et
la data visualization. Après une première expérience de Dataminer
en agence marketing (Draft Paris), il s’est orienté vers le digital en
travaillant d’abord sur l’email marketing (chez Directinet) puis en
agence CRM et Digital (Ogilvy One) sur du conseil data-marketing.
Il a rejoint le groupe Solocal en 2011 pour travailler sur la connais-
sance et la fidélité des utilisateurs des services PagesJaunes et
exploite aujourd’hui l’ensemble des données digitales pour opti-
miser les services et démontrer le ROI des produits publicitaires du
groupe. Bruno est diplômé de l’Ecole Nationale de la Statistique et
de l’Analyse de I’Information (ENSAI 2003).
encyclopédie des big data
173
Swiss Life France
Christian Phan Trong
Directeur de l’Architecture
Christian est Directeur de l’Architecture au sein de
la DSI de Swiss Life. Il est en charge de définir les
orientations d’évolution du SI et d’accompagner les projets dans
leur concrétisation, ce qui implique un rôle de conseil et d’anticipa-
tion par rapport aux évolutions liées au digital, dont les usages Big
Data. Christian est diplômé de l’Ecole Centrale de Lyon et a exercé
pendant 13 ans en société de services informatique, notamment
chez Lyon Consultants et IBM Global Services avant de rejoindre
Sanofi Aventis, puis en 2007 AXA France où il a œuvré comme
Architecte d’Entreprise sur le périmètre Distribution, Internet et
Marketing. Il a intégré Swiss Life France en 2012.
Télécom-ParisTech,
Institut Mines-Télécom
Stéphan Clémençon
Professeur et Responsable
du Mastère Spécialisé Big Data
Stéphan Clémençon est Professeur à Télécom-ParisTech, Institut
Mines-Télécom, au sein du Département TSI et anime le groupe de
recherche STA. Il effectue ses travaux de recherche en mathéma-
tiques appliquées au LTCI UMR Télécom ParisTech/CNRS No. 5141.
Ses thématiques de recherche se situent principalement dans
les domaines du machine-learning, des probabilités et des statis-
tiques. Il est responsable du Mastère Spécialisé Big Data à Télécom
Paris-Tech et titulaire de la chaire industrielle « Machine-Learning
for Big Data ».
CONTRIBUTEURS
174
Thales Communications
et Sécurité
Jean-François Marcotorchino
Vice Président et Directeur Scientifique
de Thales GBU SIX
Jean-François Marcotorchino est actuellement et depuis 10 ans
Vice Président, Directeur Scientifique de Thales GBU SIX, et « Thales
Technical Fellow ». Parallèlement à son activité Thales, Jean-François
Marcotorchino est titulaire du titre de Professeur des Universités
(Directeur de Recherche au Labo de Statistique Théorique et
Appliquée LSTA de Paris VI). Il a auparavant été pendant 30 ans
membre d’IBM France et d’IBM EMEA, et en particulier pendant 10
ans, Directeur du Centre Scientifique IBM de Paris et de l’ « Euro-
pean Centre for Applied Mathematics (ECAM )» d’IBM EMEA.
The Economist
Stéphane Père
Chief Data Officer (Global)
Stéphane Père est  Chief Data Officer (Global) chez
The Economist. Sa mission est  de promouvoir les
données au rang  d’actif stratégique de l’entreprise, de les protéger
en tant que tel ;  mais aussi d’utiliser le traitement des données
pour soutenir la croissance des revenus de la diffusion et  de la
publicité,  ainsi qu’explorer les nouvelles perspectives offertes par
les Big Data. Il a rejoint The Economist dans ses bureaux à Paris en
2007 dans le but de gérer les ventes de publicité en ligne pour
l’Europe Continentale, le Moyen-Orient et l’Afrique. En 2010, il
s’installe à New York pour lancer Ideas People Channel (un réseau
publicitaire). A partir de 2012, il était aussi le Directeur Commercial
de The Economist pour les Agences et la publicité digitale de la
région Amériques. Avant de rejoindre The Economist, Stéphane
Père a eu une carrière variée  dans le secteur de la publicité : en
ligne chez Yahoo!, télévision pour Bloomberg et aussi animation
commerciale d’un réseau d’agents  pour Canal+.
encyclopédie des big data
175
Voyages-sncf.com
Angélique Bidault-Verliac
Responsable du Pôle Data & Webmining
Angélique a débuté sa carrière en tant que
Consultant Data dans une web-agency sur des
problématiques CRM & web analytiques. Chez Voyages-sncf.com,
elle est responsable du Pôle Data & Webmining dont l’un des
enjeux est de développer la connaissance client, en s’appuyant
notamment sur les nouvelles opportunités du Big Data. Angélique
est diplômée d’un DEA de Mathématiques à l’Université Pierre et
Marie-Curie et elle a obtenu un Mastère Spécialisé en Marketing
Management à l’ESSEC.
Voyages-sncf.com
Marie-Laure Cassé
Directrice Marketing Client & Data
Chez Voyages-sncf.com depuis 2010, Marie-Laure
Cassé a occupé la fonction de Directrice Marketing
Digital avant de prendre la responsabilité depuis un an du « Big
Data client » dont les missions consistent, grâce à l’exploitation de
la data à développer la connaissance clients, à implémenter des
solutions pour mieux personnaliser l’expérience utilisateur, à
booster la performance du marketing digital etc. Auparavant,
elle a exercé plusieurs fonctions au sein du marketing de La Fnac.
Marie-Laure Cassé est diplômée de l’ESCP Europe.
CONTRIBUTEURS
176
177
PARTENAIRES
178
encyclopédie des big data
fifty-five accompagne les entreprises dans l’exploitation
de leurs données au service d’un marketing et un achat-média
plus performants. Partenaire des annonceurs de la collecte
à l’activation des données, l’agence aide les organisations
à devenir de véritables entités omnicanales, maîtrisant l’efficacité
de leur écosystème digital et ses synergies avec le monde physique.
Reconnue «J eune Entreprise Innovante » et membre du réseau
Bpifrance Excellence, fifty-five propose des prestations associant
conseil, services et technologie et compte aujourd’hui 3 bureaux
à Paris, Londres et Hong Kong.
Son offre s’articule autour de quatre piliers stratégiques :
Collecte
de données
Connaissance-client
et engagement
Stratégie data
& digitale
Efficacité
média
179
fifty-five
•	La première agence
	 à l’ADN 100 % data
•	
Plus de 20 partenariats
	 avec les leaders technologiques mondiaux :
	 Google, Facebook, Adobe, Oracle, Tableau Software, Baidu…
•Plus de 80 clients actifs,
	 dont 40 % du CAC 40
	
	 labels ou prix
•	10	d’excellence et d’innovation
•	 L’équivalent de
	 15 % des effectifs
	 investis en R&D
•	3 bureaux : Paris, Londres, Hong Kong
•	Une approche holistique
	 de l’activité digitale
•	Des clients
	 dans tous les secteurs,
	 du Travel au Luxe, du FMCG à l’Entertainment
180180
A
vec le développement
d’Internet et des
usages mobiles et
cross-canaux, la quantité de
données disponibles explose,
et le marketing devient de
plus en plus technologique.
Ces données représentent
une énorme opportunité pour
les Directions Marketing pour
mieux connaître leurs cibles,
segmenter leurs audiences et
avoir une communication plus
efficace. Mais c’est aussi un défi
considérable d’un point de vue
technologique, organisationnel
et méthodologique, de
collecter, analyser et exploiter
ces données.
Née de ce constat, fifty-five
a pour vocation de mettre
la donnée au service du
marketing et de l’expérience-
client, grâce à l’alliance native
de ces différentes expertises.
Proposant une approche
holistique du marketing, fifty-
five intervient sur la globalité de
la chaîne de valeur de la data,
de la collecte à l’activation,
en passant par toutes les
étapes du travail de la donnée
qui lui confère sa valeur :
réconciliation, fiabilisation,
organisation, mining, scoring,
etc. Pionnière dans le secteur,
fifty-five est une nouvelle
forme d’agence, à la confluence
de l’achat-média, du conseil, de
l’analytics et de l’ingénierie.
Partenaire des solutions les
plus innovantes et les plus
robustes du marché, dont
Google, Facebook, Adobe,
Oracle, Acxiom, ou encore
Baidu, fifty-five est agnostique
sur le plan technologique.
Cela lui permet de mettre sa
connaissance fine des différents
écosystèmes digitaux et
technologiques (“stacks”) au
service de ses clients, pour les
accompagner dans le choix et
l’implémentation des solutions
les mieux adaptées à leurs
besoins.
Ce positionnement original,
alliant expertise technique,
vision stratégique et excellence
opérationnelle, fait de fifty-five
un pure player disruptif sur le
marché de l’achat média et du
conseil, catalyseur d’innovation
pour les marques.
fifty-five
4, place de l’Opéra
75002 Paris
contact@fifty-five.com
+33 1 76 21 91 37
encyclopédie des big data
181
Nicolas Beauchesne, Co-fondateur, DG
Plus de dix ans d’expérience dans le web ont rompu Nicolas aux nouveaux formats
publicitaires et aux problématiques e-commerce. Diplômé d’ESCP Europe, il fait
ses premières armes au sein du groupe Vivendi Universal, avant de rejoindre
Photoways.com en tant que DG-adjoint. Chez Google, il travaille d’abord au
déploiement de l’offre Adwords dans le secteur Media & Entertainment, jusqu’au
lancement de l’offre YouTube et Google Display dont il devient Directeur.
Chez fifty-five, il est en charge du développement commercial et du staffing.
Alan Boydell, Co-fondateur, Directeur Data Insight & Analytics
De nombreuses années chez Google comme responsable Google Analytics pour
l’Europe du Sud ont fait d’Alan un expert européen en webanalyse et en testing.
Auteur du blog «The Analytics Factor», cet universitaire écossais détenteur de deux
Masters of Arts a également co-écrit le premier manuel d’utilisation francophone sur
Google Analytics, paru chez Pearson en 2010. Il quitte Google pour l’agence Keyade,
avant de co-fonder fifty-five.
Mats Carduner, CEO et co-fondateur
Mats Carduner débute sa carrière au marketing chez L’Oréal en 1992 avant
d’entrer rapidement dans le secteur d’Internet, en 1995. Il entre chez le fournisseur
d’accès Infonie, puis atterrit chez Havas où il est chargé de trouver des débouchés
numériques aux contenus, jusqu’en 1998. Il devient ensuite Directeur Général de
Monster, qu’il développe en France pendant cinq ans, avant de tout quitter pour créer,
avec deux amis, son réseau social professionnel. En 2004, il prend les rênes de Google
France, puis Europe du Sud. Six ans plus tard, il crée la data agency fifty-five.
Arnaud Massonnie, Co-fondateur, DG
Diplômé de l’EDHEC, Arnaud est un entrepreneur dans l’âme, avec à son actif un
brevet et trois startups Internet, dont un réseau social cédé au Figaro. Après avoir
débuté chez Havas Interactive, il rejoint Monster.com comme Directeur Marketing
France. Il monte ensuite la division e-learning de Atlas. Il entre enfin chez Google en
2005, où il prend la Direction des opérations pour l’Europe du Sud, puis co-fonde
fifty-five.
Jean Neltner, Co-fondateur, DG
Diplômé de l’EM Lyon, Jean Neltner est spécialiste du business développement sur
Internet. Son expertise porte sur tous les secteurs : finance, technologie, CPG, B2B. Il
participe à la croissance rapide du secteur de l’Internet d’abord en tant que Directeur
Commercial chez Infonie, puis comme Directeur du Business Development chez
Lycos et EGG. Avant de co-fonder fifty-five en 2010, Jean Neltner passe par Google
pour gérer les partenariats stratégiques.
fifty-five
182
IBM considère la data comme une matière première très précieuse,
au cœur de la transformation des entreprises. Sur un marché
concurrentiel accru par l’arrivée de nouveaux acteurs, les entreprises
ont plus que jamais besoin de transformer des données brutes en
informations pertinentes pour aider à la prise de décision.
encyclopédie des big data
Aider les entreprises à être plus réactives
et à prendre les meilleures décisions possibles
Dans ce contexte, IBM aide les entreprises à valoriser les données –
internes et externes, structurées et non structurées – pour prendre
les meilleures décisions possibles sur des sujets tels que :
- Améliorer le pilotage
de la performance
- Disposer d’une vision 360°
d’un client ou d’un produit
- Développer l’intimité client
- Optimiser les stocks
et le réassort des produits
- Choisir l’implantation
des points de vente
- Analyser les interactions
des marques avec les clients
via les réseaux sociaux
- Créer des expériences clients
personnalisées, etc.
IBM, Partenaire de la transformation numérique
des entreprises
IBM est un acteur international majeur dans le domaine des
services et solutions analytiques et Big Data. Nous accompagnons
les entreprises de toutes tailles et de tous secteurs depuis la phase
de cadrage jusqu’à la mise en œuvre de leurs projets autour de la
donnée et les aidons à créer de nouveaux modèles économiques.
Nous nous appuyons sur une expertise IT et métier reconnue, des
technologies innovantes et ouvertes et une approche agile.
De plus, afin de permettre aux entreprises de corréler leurs
données internes avec des informations issues de l’extérieur pour
en tirer plus de valeur, IBM a noué des partenariats stratégiques,
avec Twitter par exemple, et a acquis des actifs de The Weather
Company, spécialiste américain de la météorologie. Enfin, IBM
investit de manière importante dans l’Internet des Objets et
l’informatique cognitive avec Watson.
Big Data & Analytics
183
• BigInsights for Apache Hadoop :
Traiter et analyser tous types
de données sur des clusters
de serveurs
•	Stream computing (Streams) :
Analyser en temps réel, sur des flux
de tous types, des volumes massifs
de données
•	Solutions de Data Warehousing :
en mode appliance (PureData for
Analytics), Software (DB2 BLU)
ou en mode Cloud (dashDB)
Effectuer des analyses poussées
« in database »
• Data visualization
(Watson Explorer, Watson Analytics
et Cognos Analytics) :
Chercher, découvrir
et visualiser des données
quels que soient leur source
ou format
• Intégration et gouvernance
des données (InfoSphere) :
Comprendre, créer, gérer,
transformer et distribuer
des données de qualité
• Business Intelligence
(Cognos) :
Accéder et analyser
les informations nécessaires
à la prise de décisions
• Analyse prédictive
(SPSS) :
Découvrir des tendances
non visibles et anticiper
avec précision les résultats
• Cloud Data Services
(Cloudant, dashDB) :
Collecter, traiter et analyser
la donnée dans le Cloud IBM
Un large portefeuille d’offres pour collecter, stocker,
traiter et valoriser la donnée
Les offres d’IBM sont disponibles « on premise » et/ou en mode
SaaS. En complément de ses solutions propriétaires, IBM se
positionne sur les technologies open source avec son offre
BigInsights for Apache Hadoop et est un acteur majeur de la
communauté Apache Spark. Signe de son engagement fort dans
l’open source, IBM est membre fondateur du consortium Open
Data Platform (ODPi.org).
Pour en savoir plus,
consultez notre site Internet :
www.ibm.com/software/fr/data/bigdata/
IBM
184
encyclopédie des big data
Experts IBM cités dans cet ouvrage :
Laurent Sergueenkoff
Analytics Platform Sales Team Leader
IBM France
Laurent Sergueenkoff est en charge de la vente des
offres IBM Analytics Platform (gestion de la donnée)
auprès des grands clients français. Après un DEA
d’informatique à l’université de Paris VII Denis
Diderot, il travaille pendant 10 ans sur des projets
autour des bases données. Il rejoint ensuite les
entités commerciales Sun puis Oracle. Depuis 2011 chez IBM, il
développe les activités logicielles autour du Datawarehouse et du
Big Data. A ce titre, et fort de nombreux retours d’expérience
clients, il participe régulièrement à des communications et
événements liés au Big Data en France et aux Etats-Unis.
IBM
17 avenue de l’Europe,
92275 Bois Colombes
France
+33 (0)1 58 75 00 00
www.ibm.com/fr
Contact
Aline Michel
Portfolio Marketing Manager – Big Data & Analytics
IBM France
+33 (0)6 08 88 37 06
aline.michel@fr.ibm.com
185
Jacques Milman
Architecte Senior Analytics
IBM France
Jacques Milman est consultant architecte senior
avec une très grande expérience des solutions Big
Data & Analytics. Il a mené de grands projets de
Datawarehouse et de Big Data dans le monde
entier et se consacre quasi exclusivement depuis
quatre ans aux projets Big Data. Jacques Milman a
débuté comme consultant dans le monde du conseil et des
sociétés de service pour ensuite évoluer vers le monde des
éditeurs. Il occupe actuellement le rôle d’architecte leader sur les
solutions Big Data & Analytics pour IBM France. Auparavant, il a
travaillé deux ans en Asie et avait la responsabilité de l’animation
et du coaching de la communauté des architectes IBM dans le
domaine Big Data.
Dan Benouaisch
Directeur Technique Analytics
IBM France
Après un double diplôme franco-britanique en
management, Dan Benouaisch réalise sa première
expérience professionnelle aux Etats-Unis dans un
groupe industriel et consolide son parcours en
effectuant une évolution de carrière progressive
chez IBM ; il débute comme consultant dans les
systèmes d’information. Depuis 2011, Dan Benouaisch est
Directeur Technique dans l’entité Analytics d’IBM France. Son rôle
est de conseiller et de proposer des solutions en matière
d’intégration de données, de Master Data Management et de
Content Management pour répondre aux besoins de
gouvernance des entreprises.
IBM
186
PwC développe en France et dans les pays francophones
d’Afrique des missions d’audit, d’expertise comptable
et de conseil créatrices de valeur pour ses clients, privilégiant
des approches sectorielles.
La raison d’être de PwC est de renforcer la confiance au sein de la
société et d’apporter des solutions aux enjeux stratégiques de ses
clients. Plus de 208 000 personnes dans 157 pays à travers le réseau
PwC partagent idées, expertises et perspectives innovantes au
bénéfice de la qualité de service pour leurs clients et partenaires.
Les entités françaises et des pays francophones d’Afrique
membres de PwC rassemblent 5 000 personnes couvrant 23 pays.
PwC accompagne les entreprises françaises et internationales
à travers ses trois activités de conseil :
• Conseil en stratégie
• Conseil en en management & organisation
• Conseil en transactions
PwC
France & Afrique francophone
toutes activités confondues
a enregistré
810
millions d’€
de chiffre
d’affaires
L’activité
Consulting
réalise
+15%de chiffre
d’affaires
sur l’année 2014-2015
encyclopédie des big data
187
pwc
Aujourd’hui, pour gagner des parts de marché, il ne suffit pas d’avoir
des stratégies bien pensées. Il faut aussi qu’elles soient bien exécutées.
C’est pourquoi nous accompagnons nos clients sur l’ensemble de la chaîne
de valeur, de la vision à l’action.
L’activité Consulting de PwC France réalise ainsi + 15 %, soit un taux de
croissance nettement au-dessus du marché. Cette performance s’explique
par notre stratégie de croissance externe et de développement de
nouvelles compétences, de nouvelles offres et de nouveaux outils.
Le conseil en stratégie reste pour PwC un axe majeur d’investissement.
Nous avons finalisé l’intégration des équipes de Strategy& au sein de PwC
avec un pôle significatif de 130 consultants en stratégie. Nous avons ainsi la
volonté de proposer un continuum de services entre la stratégie et sa mise
en œuvre opérationnelle, en abordant les projets de transformation le plus
en amont possible, tout en ayant ensuite la capacité de mettre en place
les outils les plus adaptés. Nous avons ainsi développé de fortes expertises
dans le domaine des nouvelles technologies, qui nous permettent
d’accompagner nos clients jusqu’à la mise en œuvre effective de leur
transformation.
Tous les grands groupes se posent aujourd’hui des questions sur la
transition numérique et ses impacts sur leur stratégie. Alors que l’expertise
de Strategy& est reconnue dans le domaine de la transformation digitale,
nous avons décidé de pousser notre logique de continuum de services
très loin dans l’exécution. Nous venons ainsi d’acquérir Nealite, une agence
digitale de 40 personnes, leader français du « design de services » et de
l’expérience utilisateur, qui propose une méthodologie innovante alliant
conseil et réalisation et permet d’imaginer et de concevoir des services
multicanaux et digitaux toujours plus innovants.
188
encyclopédie des big data
L’avalanche de données constitue également un moteur profond
de transformation pour les entreprises. Nous investissons donc
sur la donnée pour accompagner les entreprises vers des organisations
« data driven » et avons créé un laboratoire « Data Analytics » dès 2013.
Si le marché du conseil est stimulé par la transformation
digitale de nos clients, nous nous transformons aussi. Chez PwC,
nous développons, en mode laboratoire, des approches expérimentales
qui préfigurent le conseil de demain. Nous nous imprégnons de l’esprit
startup pour changer nos méthodes de travail. A titre d’exemple,
nous investissons dans l’open innovation en nous appuyant sur de jeunes
consultants, qui apportent des idées de nouveaux services ou imaginent
de nouveaux modes de fonctionnement. Les consultants doivent
être agiles, proposer à leurs clients de travailler en cycles courts,
cibler rapidement et de façon objective les enjeux clés et délivrer
des résultats dès les premières étapes.
PwC
63 Rue de Villiers
92208 Neuilly-sur-Seine
France
+33 (0)1 56 57 58 59
www.pwc.fr
189
pwc
Marc Damez-Fontaine
Senior Manager
PwC
Marc Damez-Fontaine est Docteur en informatique
avec une spécialité en intelligence artificielle et en
machine learning de l’Université Pierre et Marie
Curie. Après plusieurs années de recherche dans un
laboratoire du CNRS pendant lequel il expérimente
de nombreux algorithmes d’analyses données
sur de nombreux cas pratiques, il s’oriente vers le conseil comme
Responsable scientifique d’une solution logiciel. Passionné par la data
science et l’innovation dans les entreprises il rejoint l’équipe New
Business de PwC en 2015 afin d’élargir l’offre de conseil en technologie.
Loïc Mesnage
Partner
PwC
Loïc Mesnage, est diplômé d’un MBA de la Booth
School of Business (University of Chicago) et de
l’Institut Supérieur du Commerce. Il débute sa carrière
comme contrôleur de gestion chez Carbone Lorraine
(Groupe Pechiney), avant de rejoindre Concept,
éditeur de logiciel financier, à différents postes. En
2001, il intègre PwC au sein de l’activité Développement, avant de
rejoindre en 2008 les équipes Consulting. Spécialisé dans les secteurs
Energy & Utilities et Consumer Goods, Loïc Mesnage est spécialisé
en stratégie des systèmes d’information, transformation par les
systèmes d’information, conception et mise en œuvre de systèmes
d’information financiers, et Big Data.
190
encyclopédie des big data
TURN fournit des informations en temps réel qui révolutionnent
le processus de prise de décision en matière de marketing des
agences média et des entreprises leader. Notre plateforme digitale
dédiée aux professionnels du marketing (DSP + DMP)  permet de
centraliser les données, de lancer des campagnes sur différents
terminaux et de réaliser des analyses poussées, le tout en ayant
accès en un clic à plus de 150 partenaires technologiques et de
données intégrées. Turn, dont le siège se situe dans la Silicon
Valley, compte des clients utilisateurs de ses produits et services
dans le monde entier. Pour plus de détails, rendez-vous sur
www.turn.com ou suivez-nous sur @turnplatform.
Digital Hub de Turn
pour les spécialistes
du marketing
Des renseignements au passage à l’action.
Une plate-forme intégrée et unique de marketing.
Bienvenue dans l’ère du marketing vivant et évolutif
Digital Hub de Turn pour spécialistes du marketing est une
plateforme intégrée dès l’origine, qui vous met en contact avec
vos audiences et leurs besoins en constante évolution, si bien
que chaque interaction est motivée par des données adaptées
et spécifiques à une audience précise. Que l’objectif soit le
développement de votre marque ou le lancement d’une campagne
de réponse directe, notre accent sur l’intégralité du parcours d’achat
vous apporte les données en temps réel et la profondeur de
renseignements nécessaire à l’atteinte de vos objectifs.
encyclopédie des big data
191
Le marketing guidé par les données n’a aucune raison
d’être compliqué
Digital Hub simplifie et rationalise le marketing en supprimant les obstacles
entre sources de données et actions de marketing. Notre plateforme unique
allie une puissante plateforme de gestion des données (DMP) et une
plateforme côté demande (DSP) étendue, le tout supporté par une analyse
robuste des données et un vaste écosystème de partenaires. Ceci vous permet
de comprendre les données d’audience et de campagne, puis de les utiliser
à des fins de planification et d’activation sur tous les canaux. Vous réagissez
ainsi aux actions de votre audience tout en offrant à chacun de vos clients une
expérience de marque cohérente.
La puissance d’une plateforme intégrée
Grâce à Digital Hub, votre gestion des données, vos segments d’audience,
vos achats numériques et vos analyses avancées fonctionnent toutes sur
les mêmes profils de consommateurs. Ainsi, vos données d’audience sont
constamment mises à jour et vos achats programmatiques sont toujours
basés sur les données d’audience et de campagne les plus récentes et les plus
appropriées. En outre, l’intégration supplémentaire des analyses granulaires
de marché et le reporting en temps réel vous donnent un accès direct à des
données et à des renseignements de grande valeur, que ce soit en termes
d’optimisation immédiate ou de planification de campagnes à venir.
Aucune perte de données : touchez 100% de votre audience
Lorsqu’une plateforme DMP autonome se connecte à une DSP également
autonome, elle subit une perte de données allant de 20 à 40%. À quoi
correspond cette déperdition ? À votre capacité à atteindre les segments
d’audience prévus dans votre DMP. Ceci est dû au fait que ces systèmes
distincts utilisent des ID d’utilisateur différents, ce qui rend impossible une
correspondance parfaite. Et si vous ne parvenez pas à faire correspondre
les utilisateurs de votre DMP à ceux de la DSP, vous ne pouvez jamais les
atteindre. En revanche, la plateforme de Turn est intégrée dès l’origine, ce qui
élimine les pertes de données entre les systèmes et vous permet d’atteindre
toutes les audiences qui représentent un intérêt pour vous.
TURN
192
encyclopédie des big data
Aucune déperdition : accédez à l’intégralité de vos données,
quel que soit le moment où vous en avez besoin
Les DMP autonomes ne permettent pas un accès immédiat aux données
de média vitales générées dans la DSP, données qui sont pourtant cruciales
pour une bonne compréhension de la manière d’optimiser les campagnes
et d’interagir au mieux avec votre audience. De plus, les plus grands réseaux
publicitaires, tels que Google Display Network, appliquent des règles qui
empêchent les plateformes de gestion des données (DMP) autonomes de
recueillir des données de campagne. Seule la plateforme intégrée de Turn
est capable de fournir un accès instantané aux renseignements dont vous
avez besoin : performance de votre campagne, sur quels médias et auprès
de quelles audiences. Il vous suffit alors de les relier à vos profils d’audience
personnels pour avoir une vision claire de vos données publicitaires.
Aucune latence : ne manquez aucune occasion d’interaction
En matière de programmatique, chaque milliseconde compte. L’action en
temps réel est ce qui sépare l’interaction aux moments cruciaux de la perte
d’occasions qui auraient pu influencer la décision des clients ou améliorer
leur expérience de marque. Les DMP autonomes mettent du temps à se
synchroniser avec les DSP − jusqu’à 24 heures dans la plupart des cas, ce qui
équivaut à environ 485 occasions ratées. Grâce à la plateforme intégrée de
Turn, vos données sont mises à jour en quelques millisecondes − ce qui vous
permet de tirer profit d’une segmentation et d’une classification en temps réel
pour identifier, convertir et interagir avec les bonnes audiences.
Contact : Kamal Mouhcine
Directeur Commercial de Turn en Europe du Sud
kamal.mouhcine@turn.com | +33 6 42 10 97 69
18 rue Pasquier - 75008 Paris | +33 1 70 61 05 06 | www.turn.com
Avec plus de 10 ans d’expérience dans l’industrie des médias,
Kamal Mouhcine a pour principales missions de développer le chiffre
d’affaires de la société pour l’Europe du Sud. Avec un début de carrière chez
Microsoft Advertising dans le cadre du programme Mach réservé aux « hauts
potentiels », où il était en charge du développement des offres commerciales
de la régie pour les plus grandes agences stratégiques comme AEGIS et
Publicis, Kamal a par la suite acquis une solide expérience internationale de
Management d’équipe chez Yahoo Europe (Barcelone). Il a dans un premier
temps développé le Midmarket pour les marchés Français et Espagnol avant
de revenir chez Yahoo France (Paris) pour prendre le management des équipes
Annonceurs en charge des verticaux stratégiques Telco, Finance et Gambling.
193
0,36 0,36 seconde
Le navigateur affiche la page web en intégrant
l'annonce gagnante et informe le DSP gagnant
que
0 0,04 seconde
turn.com © 2013 Turn Inc., Tous droits
0,125 seconde
0,31 seconde
Le serveur publicitaire de l'annonceur
envoie
0,23 seconde
0,19 seconde
0,18 seconde
0,14 seconde
0,13 seconde
0,12 seconde
0,10 seconde
ACHAT D'UNE PUBLICITÉ
EN TEMPS RÉEL
ÉLABORATION
D'UNE CAMPAGNE
PUBLICITAIRE EN LIGNE
Si l'élaboration de la stratégie de campagne publicitaire
parfaite peut prendre des semaines au marketing, il suffit
d'une fraction de seconde pour livrer et afficher la publicité.
Le serveur publicitaire de l'éditeur indique au
navigateur
L’Ad Exchange envoie le tarif et l'annonce de
l'offre gagnante au serveur publicitaire de
l'éditeur.
L’Ad Exchange effectue alors une seconde enchère
et sélectionne l'offre gagnante en fonction des
réponses des DSP.
Chaque DSP soumet une offre à la
requête de l'Ad Exchange.
Chaque algorithme de DSP évalue et calcule
l'enchère optimale à soumettre à l'annonceur.
Chaque DSP intègre les règles de ciblage et de
budgétisation de l'annonceur et applique les
données de third-party.
L’Ad Exchange envoie à chaque DSP le profil anonyme de
l'utilisateur X, la catégorie du site Internet, et les informations
de sécurité de la page.
0,08 seconde
L’Ad Exchange diffuse la requête d'annonce
publicitaire à plusieurs plates-formes de gestion de
la demande (DSP), la technologie d'achat média.
L'éditeur demande à son serveur publicitaire s'il y
a une annonce disponible à afficher. S’il n’y en a pas,
il fait appel à un Ad Exchange.
Dès que l'« utilisateur X » clique sur une URL,
le contenu de l'éditeur commence à se
télécharger dans le navigateur.
8. RENSEIGNEZ vos futurs projets en
sauvegardant les données de votre
campagne
actuelle dans la plate-forme de gestion
7. OPTIMISEZ la performance de votre
campagne et analysez les résultats.
6. DIFFUSEZ LA PUBLICITÉ
à partir d’une Demand Side Platform
(DSP – plate-forme axée sur la demande),
la technologie d'achat média.
5. CONCEVEZ une annonce adaptée à
plusieurs supports (vidéo, display, mobile
ou réseaux sociaux) et appareils.
4. CONVENEZ D'UN BUDGET pour la
campagne publicitaire en ligne et
développez un plan média.
3. ÉLABOREZ une campagne publicitaire
qui cible votre audience.
2. DÉFINISSEZ les segments d'audience
dans la plate-forme de gestion des
données (DMP) en fonction des besoins de
1. CONNECTEZ les données first
party provenant du CRM, de la campagne
et du site web de l'annonceur avec les données
provenant des analyses, comportementales,
contextuelles et démographiques (third party)
au sein d’une plate-forme de gestion des
données (DMP).
LA VIE D'UNE PUBLICITÉ
SECONDE
SECONDE
TURN
194
encyclopédie des big data
Avec 600 sociétés adhérentes, dont l’intégralité du CAC 40
et du SBF 120 et plus de 110 000 professionnels, l’EBG constitue
le principal think-tank français sur l’économie digitale.
L’EBG a pour vocation d’animer un réseau de décideurs, en
suscitant des échanges permettant aux cadres dirigeants
de se rencontrer et de partager bonnes pratiques et retours
d’expérience.
Plus de 150 événements et 5 à 6 ouvrages sont réalisés chaque
année, permettant de fédérer des décideurs d’entreprises issus
de tous les métiers : Directeurs Marketing, Directeurs Digital,
Directeurs Achats, DSI, DRH, DG etc.
Le Conseil d’Administration de l’EBG
se compose des personnalités suivantes :
Stéphane Richard, CEO d’Orange – actuel Président de l’EBG
Jean-Bernard Levy, PDG d’EDF
Steve Ballmer, ex-CEO de Microsoft
François-Henri Pinault, Président de Kering
Pierre Louette, Directeur Général Adjoint d’Orange
Patrick Le Lay, Ancien PDG de TF1
Grégoire Olivier, Directeur zone Asie de PSA Peugeot-Citroën
Didier Quillot, Administrateur du fonds 21 Centrale Partners
Sir Martin Sorrell, Président de WPP
Jean-Daniel Tordjman, Ambassadeur, Inspecteur Général des Finances
Wu Janmin, Président de l’Institut de la Diplomatie de Beijing,
Président du Bureau International des Expositions
Philippe Rodriguez, Trésorier
Pierre Reboul, Secrétaire Général
195
• 	Les Référentiels :
- 	étude de grande ampleur sur l’évolution
	 d’un métier, d’un secteur, ou une grande
	 mutation des organisations
- 	100 interviews de Directeurs de grands groupes,
- 	200 pages d’analyses, cas concrets et citations.
Titres parus : Référentiels des Directeurs Achats,
Référentiels des Directeurs Marketing, Référentiels des DSI,
Référentiel de la Transformation Digitale…
• 	Les Livres Blancs
- 	étude sur un sujet innovant
	 (Data Visualization, Cloud etc.)
- 	30 interviews de Décideurs qui portent
	 un projet lié à la thématique
- 	entre 100 et 150 pages d’analyses,
	 cas concrets et citations
Titres parus : Cloud et nouveaux usages de l’IT,
Data Visualization, Big Data, Marketing comportemental,
Internet des Objets, Encyclopédie des Big Data …
•	 Les Baromètres
- 	étude quantitative menée auprès
	 de toute la communauté EBG pertinente
- 	entre 500 et 1000 répondants par étude
- 	20 à 30 pages d’analyses, de tableaux et graphiques
Titres parus : Performance du Marketing Digital,
État des lieux du Programmatique en France,
L’impact du digital dans la performance
marketing et commerciale
•	 Internet Marketing
- 	70 décryptages de campagnes marketing
- 	10 000 exemplaires diffusés
- 	500 pages de techniques et méthodes
ebg
LE PÔLE ÉTUDES DE L’EBG
L’EBG édite quatre collections d’ouvrages uniques en leur genre,
permettant de recueillir les témoignages les plus pointus
et les visions de nos adhérents sur des sujets d’actualité.
Source
:IBMCenterforApplied
Insights
-www.ibmcai.com
RéféRentieltRansf
oRmationDigital
e2015
Conversations aveC
le CaC40
100 interviews
de décideurs
tRans-
foRmation
Digitale
2015
Ventes
de PC (millions)
Ventes
tablettes
et
smartphones
(millions)
Ventes
comparée
s
PC / Smartpho
nes et tablettes
de 1996 à 2014
1 200 000 000
600 000 000
L’impact du digital dans
la performance marketing
et commerciale
Résultats du Baromètre 2015
196
encyclopédie des big data
Pour plus d’informations
sur les événements
ou le pôle études de l’ebg
Arthur Haimovici
Responsable du Pôle Études / Pôle BtoB
01 48 01 65 61
arthur@ebg.net
Ligia Rodrigues
Chargée de Projets du Pôle Études
01 48 00 00 38
ligia.rodrigues@ebg.net
197
L’AUTEUR
Clément Imbert
Diplômé du CFJ,
et ancien collaborateur de
l’association des journalistes
économiques et financiers,
Clément Imbert est journaliste freelance
et collabore régulièrement aux titres
du groupe Prisma Media.
ebg
Imprimé en France
par Aubin Imprimeur, 86 240 Ligugé
Conception graphique/maquette :
Thierry Badin : www.hite.fr
Copyright © 2016 EBG-Elenbi – 55 – IBM – PwC – Turn
Tous droits réservés. Cet ouvrage ne peut en aucune
manière être reproduit en tout ou partie, sous quelque
forme que ce soit ou encore par des moyens mécaniques
ou électroniques, y compris le stockage de données et
leur retransmission par voie informatique sans autorisation
des éditeurs, EBG-Elenbi, 55, IBM, PwC, Turn.
La citation des marques est faite sans aucun but publicitaire.
Les erreurs ou les omissions involontaires qui auraient pu
subsister dans cet ouvrage malgré les soins et les contrôles
de l’EBG-Elenbi, 55, IBM, PwC et Turn ne sauraient engager
leur responsabilité.
EBG-Elenbi – 55 – IBM – PwC – Turn
BIG
TADA

L'Encyclopédie des Big Data 2016

  • 1.
  • 2.
  • 3.
    1 I nterrogez des DSIou des Directeurs Digitaux sur ce que représentent pour eux les « Big Data » : la moitié d’entre eux vous en parlera comme de la clé de voûte de leur stratégie d’innovation, l’autre moitié vous regardera de travers et rejettera l’expression comme un buzzword nébuleux, forgé par les éditeurs à des fins strictement commerciales. Pour le grand public, le terme est couramment associé à Google, Facebook et consorts et à l’idée que ces géants du numérique savent tout sur notre vie et pourraient bien un jour nous renvoyer en 1984. Bref, le besoin de clarification était criant. Il n’est pas certain que, de cet ouvrage, les réfractaires sortent convaincus, ni que les aficionados y retrouvent exactement leur vision. Avec cette Encyclopédie nous avons tenté de définir un objet multiple et mouvant, qui évolue avec les moyens technologiques et les pratiques de ceux qui le construisent. C’est pour cette raison que nous avons associé à cette démarche trente pratiquants des Big Data, dont les témoignages nous ont paru indispensables pour expliquer concrètement les notions rassemblées ici. C’est pour cela aussi qu’il ne faut pas voir ce lexique comme une base de connaissances consolidées pour la postérité, mais comme un bilan d’étape d’une transformation en cours, une incitation à la réflexion. Nous avons largement profité dans cette entreprise des excellents conseils de nos quatre partenaires (Fifty-Five, IBM, Turn et PwC) sans lesquels ce projet et les nombreux événements de la Commission Big Data n’auraient pas pu voir le jour. Merci également aux contributeurs qui ont eu la gentillesse de nous recevoir dans leurs locaux et de partager leurs idées et leurs retours d’expérience avec nous. Merci à vous enfin, qui avez pris le temps d’ouvrir ce petit livre au lieu de vous consacrer à votre travail ou à vos enfants. Arthur Haimovici EBG PRÉAMBULE
  • 4.
    2 Préambule p.1 Introduction p.4 SOMMAIRE encyclopédiedes big data GRANDS 1 CONCEPTS p.7 Transformation 2 de l’entreprise p.53 3Vp.8 Algorithmep.10 Crowdsourcingp.14 Data privacyp.16 Data visualizationp.20 Machine learningp.22 MAINTENANCE PRÉDICTIVE p.26 Objets connectés p.29 OPEN Data p.31 Sécurité des données p.32 smart Data p.35 Temps réel p.38 Valeurp.40 Variétép.41 Véracité p.44 Vitesse/VÉLOCITÉp.46 Volume p.48 WEB 3.0/WEB 4.0 p.50 Chief Data Officer p.54 CNIL p.57 Data Driven Organisationp.59 Data gouvernance p.62 Data scientistp.65 Désilotagep.69 MODE AGILEp.73 Test & learnp.75
  • 5.
    3 conclusion p.156 contributeurs p.159 PARTENAIRESp.177 SOMMAIRE 4 OUTILS p.123 A/B Testing p.80 Ad Exchangep.83 API p.84 Cloud data services p.87 Data MINing p.90 Data warehouse p.92 Look-alike Modelingp.93 Master Data Management p.96 modèles d’attribution p.99 Opt-in p.102 RTB p.105 Scraping p.109 Text mining p.110 THIRD Party Data / FIRST Party Data p.113 Tracking p.117 Traitement automatique du langage naturel p.119 aspects 3 techniques p.79 ARBRE DE DÉCISIONp.124 Cluster p.126 Data Lakep.127 DMP p.131 DPIp.135 ETLp.136 Hadoop p.138 Langage R p.142 MapReduce p.144 Python p.145 réseau de neurones p.147 Sparkp.149 TAG MANAGEMENT SYSTEM p.152 YARN p.154
  • 6.
    4 encyclopédie des bigdata Signe d’un engouement croissant pour le sujet, les ouvrages consacrés au phénomène Big Data ont fleuri au cours des dernières années. Il y a, bien sûr, la cohorte des manuels pratiques destinés aux professionnels, qui s’attardent à explorer un aspect en particulier de cet immense champ nouveau, en le rattachant à des aspects très orientés business, ou en s’attaquant à son versant technique. Mais il y a aussi, de plus en plus, ces livres destinés au grand public, et qui tentent de décrypter - en les « dramatisant » bien souvent - les nouveaux enjeux de ce qu’ils présentent comme une révolution. Entre ces deux catégories, l’une ancrée dans les usages métiers, à fort degré de technicité - et par la force des choses très jargonnante - l’autre ouverte à l’analyse et à la prospection quand ce n’est pas aux fantasmes, il n’existe en réalité pas vraiment d’intermédiaire. S’il n’entend évidemment pas combler à lui seul un tel vide, l’ouvrage que vous vous apprêtez à lire a néanmoins la prétention de se placer exactement dans cet interstice. Pour cela, il a décidé de s’appuyer sur l’expérience d’une trentaine d’acteurs majeurs du monde des Big Data. Directeurs scientifiques ou marketing, chief data officers, data scientists, professeurs, consultants : ils ont partagé avec nous non seulement des cas concrets auxquels l’importance croissante des données massives au sein des entreprises les confrontent de plus en plus. Mais aussi une vision globale de ce nouveau sujet, faite d’enjeux à courts terme et de perspectives plus lointaines. Leurs témoignages, campés dans la réalité de leur business, sont le fil rouge de ce livre. Quant à la forme de ce dernier, elle est assez classique, mais s’impose pour espérer traiter, dans ses grandes largeurs, d’un sujet aussi vaste. C’est celle d’un dictionnaire, d’une encyclopédie, oserons nous dire. Nous avons regroupé ici les termes qui sont revenus le plus souvent dans la bouche de nos interlocuteurs pour parler de Big Data. Et nous leur avons donné une définition, ni rigoureusement technique, ni éminemment conceptuelle, mais enracinée dans l’expérience. Ces quelque soixante entrées INTRO tionduc
  • 7.
    5 INTRODUCTION se répartissent enquatre grandes catégories, au sein desquelles ils sont classés par ordre alphabétique. La première partie est celle des grands concepts qui se rattachent au Big Data, et l’on y trouvera des notions aussi variées que le machine learning, la data privacy, ou les objets connectés. La seconde s’intéresse aux impacts que peuvent avoir les données massives sur la structure même des entreprises, et aux transformations à l’œuvre dans ces dernières : désilotage, nouveaux modèles d’attribution, mise en place d’une data gouvernance, etc. La troisième est dédiée aux aspects techniques (et ils sont nombreux !) qui accompagnent les projets Big Data, qu’on pense tracking, A/B testing, ou traitement automatique du langage naturel. Enfin, la dernière partie regroupe les outils les plus couramment utilisés pour se lancer dans le traitement massif de la donnée, depuis les langages Python ou R, jusqu’aux solutions Spark, YARN ou Hadoop. Signalons que tous ces mots s’inscrivent dans un écosystème complexe qui tisse entre eux une multitude de liens… si bien qu’il est illusoire de s’attacher à développer chacun en faisant abstraction des autres. Voilà pourquoi vous trouverez souvent, dans les entrées de ce dictionnaire, des termes qui font l’objet ailleurs d’un paragraphe spécifique, et qui sont signalés par un système de renvoi. Dans la version papier de cet ouvrage, ces termes ont été surlignés en couleur. Dans la version numérique, ils sont cliquables sous la forme de lien hypertexte pointant vers leur définition. Les définitions de cet ouvrage ne prétendent pas à l’exhaustivité, et beaucoup de nos lecteurs en connaîtront sans doute déjà l’essentiel. Ils trouveront pourtant dans chacune, nous en sommes sûrs, de nouvelles perspectives, de nouveaux éclairages, et peut être aussi parfois, quelque fait, quelque anecdote qui aura échappé à leur connaissance. Et puis, dans tous les cas, pour s’y retrouver dans un secteur aussi dense et complexe que celui des Big Data, avoir à portée de main un recueil de mots intelligibles et clairs, ne peut être qu’une bonne idée !
  • 8.
  • 9.
    7 En prenant conscience del’importance grandissante qu’allaient être amenées à jouer les Big Data, les entreprises se sont retrouvées confrontées à une foule de grandes notions, aux contours flous, dont il s’agit désormais de tirer parti. Algorithmes, Smart Data, temps réel, objets connectés… La maîtrise de ces nouveaux domaines riches en promesses passe d’abord par la compréhension de ce que les Big Data impliquent d’un point de vue business. 1. GRANDS CONCEPTS
  • 10.
    8 3V* *Volume,Variété,Vitesse P our tenter dedonner un cadre théorique à la data revolution, qui pointait déjà, au tournant des années 2000, le bout de son nez, Doug Laney, analyste chez META Group (une société améri- caine de conseil et d’audit rachetée entre temps par Gartner) pro- pose en 2001, un modèle d’interprétation qui a fait, depuis, florès : les 3 V, c’est-à-dire Volume , Variété , et Vitesse . Efficace et simple à comprendre, ce résumé des trois variables caractéristiques du Big Data a par la suite été repris par les consultants du monde entier. Mieux : malgré les évolutions considérables qui agitent le monde de la donnée, il se montre toujours capable d’en saisir la substan- tifique moelle. Repre- nant ce modèle devenu classique, Samir Amellal (Publicis Worldwide) livre ainsi cette interprétation : “ LeVolumeetlaVariété sontuneconséquence directedeladigitalisation. Ilssontenquelquesorte subis.Cesdeuxpremiers “V”induisentunenécessité, laVélocité,quiconstitue letroisième.  ”Publicis Worldwide Samir Amellal encyclopédie des big data
  • 11.
    9 Pour rendre pluspertinente et plus actuelle cette analyse tricéphale, certains acteurs peuvent ressentir le besoin d’y ajouter un ou deux autres V (à savoir la Véracité et la Valeur  . On parlera alors des 5V du Big Data. Mais peu importe, en réa- lité, le nombre de critères. L’impor- tant pour une entreprise va surtout consister à déterminer lequel revêt le plus d’intérêt pour elle, en fonction de ses propres spécifici- tés. Rares en effet sont aujourd’hui les acteurs à être concernés à va- leur égale par chacun des 5 V. Chez Orange Datavenue, plateforme dédiée à la collecte, au stockage et à l’agrégation de données, c’est par exemple sur le terme de Variété que l’on met l’accent avant tout. “ QuandonparleBig Data,onvatoutde suiteparler volumededonnées. Maisaudelàduvolume, rienquelavariété decesdernières vaconstituerunenjeu crucial,cephénomèneest amplifiéparl’avènement desobjetsconnectés. ”Orange Technocentre Tania Aydenian GRANDS CONCEPTS
  • 12.
    10 Algorithme S i le BigData était un organisme vivant, la donnée en consti- tuerait le sang, et les algorithmes… le cerveau. Cette méthode mathématique de résolution de problèmes est le moteur de l’intel- ligence artificielle. Elle consiste en la description, dans un langage de programmation, d’une suite finie d’étapes qui, à partir de don- nées en entrée, livre des données en sortie, en vue d’un objectif prédéterminé. Les algorithmes utilisés en informatique exécutent ainsi des tâches définies par un humain, mais à des vitesses infi- niment plus rapides que ce dernier, rendant possible la réalisation de calculs inenvisageables auparavant. La montée en puissance des ordinateurs permet de faire tourner des algorithmes de plus en plus complexes, qui vont intervenir dans des domaines aussi variés que le routage de l’information, l’optimisation de l’usage des ressources, la prédiction, le machine learning , etc… Face à un éventail aussi large, il s’agit pour les entreprises de trouver le bon cas d’usage, sus- ceptible de leur apporter de la valeur … Et qui cor- respondent aussi, souligne Elisabeth Zehnder (Kiabi), aux attentes des métiers : encyclopédie des big data Lesalgorithmesvont nouspermettrede ciblernosclients,de mesurerl’adéquationentre clientsetproduits.C’estun motquirésonnedonccôté métier,etilfautvraiment queleurmiseenplace correspondeàunbesoin métiertroisième.  ”Kiabi Elisabeth Zehnder
  • 13.
    11 IN VIEWTER GRANDS CONCEPTS Avec l’augmentation radicaledes volumes de données, certains algorithmes, qui n’avaient auparavant qu’une existence théorique, finissent par susciter un vrai intérêt de la part des entreprises, et par s’incarner dans des projets concrets. C’est le cas des algorithmes de recommandation, dont nous parle Angélique Bidault-Verliac (Voyages-sncf.com) : Voyages-sncf.com Angélique Bidault-Verliac Responsable du Pôle Data & Webmining Les algorithmes de recommandation, pour lesquels il existait déjà une abondante littérature scientifique, n’ont commencé à trouver chez nous des débouchés concrets que très récemment. Leur mise en place a nécessité la levée de certaines difficultés, grâce à une démarche innovante. Il s’agissait en effet de recommander à nos internautes des voyages, en s’appuyant sur leurs recherches. Pour cela, il fallait être capable d’interroger non pas une dimension unique (l’internaute voit un produit, le moteur lui en suggère un autre qui est lié), mais deux dimensions (le point de départ du voyage, et la destination à recommander). ”
  • 14.
    12 Même si lesalgorithmes ne font « que » exécuter des tâches qui leur sont confiées par des humains, le fait qu’ils constituent souvent des solutions techniques proposées par des prestataires extérieurs peut donner l’impression, à certains acteurs, de perdre le contrôle sur leur usage. D’où le besoin, souligné par Geoffrey Zbinden (Orange), de reprendre la main : encyclopédie des big data “   Le risque principal lorsqu’on se met à faire tourner des algorithmes achetés à des partenaires extérieurs, c’est que ceux-ci fonctionnent entièrement comme des blackboxes. On ne peut pas se contenter d’acheter l’algorithme, il faut aussi maîtriser son fonctionnement, et maîtriser la donnée qu’il utilise. L’enjeu du Big Data, c’est moins la partie IT que l’optimisation de ce type de solutions. ”Orange Geoffrey Zbinden Vice President Big Data Analytics & Customer Base Management
  • 15.
    13 GRANDS CONCEPTS “ Les algorithmes sontdevenus un des outils de travail quotidiens du marketing.Ilspermettentunecompréhension plus fine des consommateurs et notamment des internautes, des mobinautes. Grâce à la vitesse de calcul disponible aujourd’hui et aux APIs, ils produisent une information précieuse qui est actionnable immédiatement. Nous avons par exemple développé un algorithme visant à automatiquement ajuster l’ordonnancement des produits dans les listes de sites de e-commerce : cela rend service à l’utilisateur en lui affichant le contenu le plus judicieux, tout en permettant au e-commerçant d’augmenter ses taux de conversion. Notre solution est basée sur un algorithme de machine learning, cela implique qu’elle s’affine avec le temps à mesure que de la donnée est emmagasinée : l’algorithme apprend de lui-même, et sa performance est à tout instant mesurableviaunelogiqued’A/Btest.L’algorithme permet donc de transformer la donnée brute en information précieuse dans le but d’une optimisation. Recommander du contenu plus pertinent ou optimiser l’affichage d’une page web grâce à un algorithme… l’automatisation a ses limites : l’algorithme n’est pas une solution miracle pour le tout venant. S’il se décompose en une suite de calculs que la machine opère plus rapidement que l’homme, pour être et rester efficace, il doit être supervisé par un data scientist et se nourrir d’un volume de données suffisant, mais surtout, il doit refléter une réalité métier spécifique et être construit dans le but de remplir un objectif précis. ” Romain Warlop Data Scientist 55 D’ex pert AVIS
  • 16.
    14 F aire appel àla foule, à la collectivité, pour réaliser des tâches ha- bituellement réalisées par des individus isolés : voilà une idée totalement en phase avec une conception ouverte et innovante de la donnée. L’idée directrice du crowdsourcing, c’est que la mise en commun des intelligences et des savoir-faire va permettre l’émer- gence de connaissances qui n’auraient pas pu voir le jour autrement. IN VIEWTER crowdsourcing  encyclopédie des big data Intel Marie-Christine Sawley Exascale Lab Director Le crowdsourcing est la traduction IT des « petits ruisseaux qui font de grandes rivières ». Ce concept - matérialisé par exemple par la croissance de la base de connaissances Wikipédia ou par le guidage en temps réel Waze - a pris beaucoup d’ampleur au cours des dernières années. Ceci change la donne sur la fréquence et l’impact des informations recueillies par les entreprises auprès de clients ou utilisateurs finaux. Le crowdsourcing risque aussi de redéfinir en interne les vecteurs par lesquels la base peut remonter les idées pour l’innovation des produits et services. ””
  • 17.
    15 IN VIEWTER GRANDS CONCEPTS Les technologies BigData, en permettant la mise en commun de sources de données toujours plus grandes, et en ouvrant surtout la perspective de traitement en temps réel joue le rôle de facilitateur pour les projets de crowdsourcing, comme le constate Aroua Biri (Sogeti) : Pour les entreprises, le crowdsourcing constitue un uni- vers nouveau propice à l’exploration. A la SNCF, plusieurs projets faisant appel à l’intelligence des foules ont ainsi vu le jour ces dernières années. Voici deux d’entre elles : SNCF | Maguelonne Chandesris Responsable de l’équipe Innovation & Recherche «Statistique, Econométrie et Datamining» Nous avons lancé plusieurs projets qui s’appuient sur une forte composante crowdsourcing. http : //garantiedesgares.com/ permet par exemple aux usagers de nos gares de nous signaler en direct des dysfonctionnements. Ce genre d’initiative a un impact direct sur notre entreprise. Ma conviction c’est que derrière les Big Data, il y a, outre la tech- nique, des aspects humains très forts, liés à notre façon d’appré- hender notre métier. Suite à un Hackathon, nous avons également développé en partenariat avec une startup une application, Tranquilien, qui permet de localiser le prochain train dans lequel il y a suffisamment de place pour s’asseoir. C’est un système qui s’appuie massivement sur du crowdsourcing, dans la mesure où ce sont les utilisateurs eux mêmes qui ajoutent des indications en temps réel sur l’état des trains. ”” “  Le Big Data sert d’accélérateur au crowdsourcing, en donnant une nouvelle envergure aux projets mis en oeuvre. Ces derniers ont souvent des difficultés en terme de synchronisation des différentes contributions : comment les mettre de concert, comment les traiter au mieux ? Le Big Data va permettre d’automati- ser beaucoup de choses, tout en rendant les processus plus rapides. Il va ainsi agir comme un catalyseur du crowdsourcing, en permet- tant d’en tirer de mieux en mieux profit. Il va aussi permettre la dé- mocratisation de cette pratique. On peut désormais penser grand, et avec peu de budget, grâce notamment aux offres de Big Data dans le cloud. ” Sogeti | Aroua Biri Architecte Cybersécurité & Big Data
  • 18.
    16 J usqu’où une entreprisepeut-elle aller dans l’exploitation des données personnelles qu’elle récolte ? Et corollaire : la loi en vigueur doit-elle être le seul cadre limitatif à ses ambitions ? Ré- pondre à ces interrogations, qui ne peuvent manquer d’apparaître dès lors qu’une entreprise monte en maturité sur le sujet des datas, est une nécessité autant qu’une urgence, puisqu’elles touchent di- rectement à des questions légales de respect de la vie privée, bien sûr, mais aussi de la confiance des utilisateurs / des clients, envers une marque. Relever un tel défi suppose de mettre en place une politique solide et claire de data privacy, et donc de définir un en- semble de règles encadrant l’usage des données personnelles. En- core faut-il être en mesure de définir d’abord ce que recouvre une telle notion, par nature mouvante ! “ La data privacy est un challenge que je rencontre souvent, et qui va être de plus en plus prégnant avec le développe- ment des technologies Big Data qui exacerbe les probléma- tiques autour de la donnée. Lorsque des entreprises mettent en place des infrastructures et des démarches Big Data, elles sont amenées à stocker des données personnelles - parfois même sans le faire exprès ! Il va d’abord falloir pour elles qualifier ce qui relève ou non de la donnée personnelle, ce qui est loin d’être évident, car la Big Data rend floue cette notion même. Les courbes de charge - composées par la consommation électrique suivant un pas de mesure - remontées par les compteurs intelligents, par exemple, sont considérées comme des données personnelles, ce qui n’est pas évident à première approche.  ”Sogeti Aroua Biri Architecte Cybersécurité & Big Data DATA PRIVACY encyclopédie des big data
  • 19.
    17 GRANDS CONCEPTS De manière évidente,la première des règles en terme de data privacy, c’est le respect des lois en vigueur encadrant la protection de la vie privée et le droit à l’oubli. Pas question de transiger sur ce point, surtout sur un sujet aussi sensible, voilà ce que clame Marie-Laure Cassé (Voyages-sncf.com) : Mais une telle démarche légaliste n’est pas toujours évidente à mettre en place pour des entreprises implantées dans plusieurs pays. La sensibilité culturelle autour de la donnée personnelle, et les arsenaux juridiques qui en découlent varient en effet d’une géogra- phie à l’autre, comme l’expliquent Geoffrey Zbinden (Orange) et Mathieu Escarpit (Oney Banque Accord) : “ La notion de respect des lois et des réglementations en vi- gueur doit primer aussi bien au moment de la collecte des données que de leur exploitation afin de préserver les droits et les libertés de nos clients. Chez Voyages-sncf.com, nous rendons anonymes les données personnelles pour toute analyse Big Data. Les Directions juridiques et sécurité encadrent ce processus de façon très stricte. ”Voyages-sncf.com | Marie-Laure Cassé Directrice Marketing Client & Data En Italie, les contraintes légales autour de la donnée sont encore plus fortes qu’en France. Pour un programme de fidélité par exemple, il faut que le client signe pratiquement quatre fois le formulaire d’inscription. On ne peut pas non plus détenir un historique de plus de deux ans sur certains types de données et selon l’usage que l’on souhaite en faire. Alors qu’en Angleterre, notamment, il n’y a pas de date limite d’exploi- tation des données tirées de programme de fidélité. Ces restrictions empêchent, dans certains pays, de tirer profit au maximum des outils de Big Data. ”Oney Banque Accord | Mathieu Escarpit Directeur Général Italie et Joias “ Les contextes législatifs sur la data privacy varient du tout au tout d’un pays à l’autre. En Europe, on est extrêmement sensibles à tout ce qui touche à l’utilisation des données, et certaines pratiques peuvent être rapidement associées à de la violation de vie privée. Récemment, un projet qui consistait à vendre des données pour piloter des implantations commerciales a été arrêté en Allemagne, parce qu’on a considéré qu’il fallait nécessairement récolter l’assentiment du client - y compris pour des données anonymisées. ”Orange | Geoffrey Zbinden Vice President Big Data Analytics & Customer Base Management ÀRome traitetadata comme lesRomains
  • 20.
    18 “Orange cherche à mettreen place un modèle de confiance vis-à-vis du client concernant l’usage qui sera fait de ses données. L’idée derrière ce Data Privacy Dashboard : demander au client son autorisation pour utiliser ses données non afin de les vendre en externe, mais pour lui offrir un aperçu en temps réel de l’usage qui est fait de sa data. On pourrait ensuite imaginer une sorte de « mode invisible » qu’il suffirait au client d’activer pour bloquer instantanément toute utilisation de sa donnée.  ”Orange Geoffrey Zbinden Vice President Big Data Analytics & Customer Base Management encyclopédie des big data Une politique de Data privacy efficace ne peut pourtant se limiter à un respect scrupuleux de la loi en vigueur. Elle va devoir aussi prendre en compte la sensibilité des clients sur le sujet délicat des données personnelles. La construction d’un rapport de confiance en dépend, comme on juge bon de le rappeler chez Orange et ailleurs : “Notre position est simple : le consommateur est propriétaire de sa donnée. Il doit donc donner explicitement son consentement pour qu’elle soit partagée avec un tiers. En sachant qu’il se montre en général plutôt ouvert à ce consentement s’il obtient en contrepartie un service digne de ce nom et une bonne connaissance de l’usage qui sera fait de sa data. Créer un tel cercle vertueux autour du consentement suppose donc à la fois un rapport gagnant gagnant, et une grande limpidité.  ”Orange Technocentre Tania Aydenian Directrice du Programme Datavenue Dela confiance avant toute chose Legrandenjeudeladataprivacy, c’estàlafoisderespecterl’intimitédescitoyens toutenayantlescoudéessuffisamment franchespourluttercontrelesGAFA… quiontmoinsdescrupulessurl’usage deladonnée.  ”AccorHotels group | Fabrice Otaño
  • 21.
    1919 GRANDS CONCEPTS « Dès lors qu’ellesconstituent une donnée à caractère personnel, c’est-à-dire qu’elles constituent une “information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres” (art. 2 de la loi Informatique et Libertés), leur protection de leur traitement relève d’une obligation légale. Le responsable du traitement est tenu de prendre toutes précautions utiles, au regard de la nature des données et des risques présentés par le traitement, pour préserver la sécurité des données et, notamment, empêcher qu’elles soient déformées, endommagées, ou que des tiers non autorisés y aient accès (art. 34 de la loi Informatique et Libertés). Les mesures de sécurité sont d’ordre physique (sécurité des locaux), logique (sécurité des systèmes d’information) et doivent être adaptées à la nature des données et aux risques présentés par le traitement. Le non respect de cette obligation de sécurité est sanctionné de 5 ans d’emprisonnement et de 300.000 € d’amende (art. 226-17 du code pénal). Les données à caractère personnel doivent en outre être collectées et traitées de manière loyale et licite, pour des finalités déterminées, explicites et légitimes et ne doivent pas être traitées ultérieurement de manière incompatible avec ces finalités (art. 6 de la loi Informatique et Libertés). Le respect de ces obligations peut s’avérer complexe dans le cadre de projets “Big Data” dès lors par exemple que des données apparemment anonymisées peuvent par recoupement permettre d’identifier indirectement un individu et que les finalités des traitements évoluent au gré des nouveaux projets et marchés des entreprises. » POINT VUEDE juridiqueHocheAvocats Hoche Avocats Régis Carral Avocat – Associé
  • 22.
    20 encyclopédie des bigdata “Nous avons lancé plusieurs POC pour trouver le bon outil de dataviz, avant de nous arrêter sur la solution éditée par Tableau Software. L’idée était d’avoir un outil accessible au plus grand nombre, capable de mettre à disposition la donnée des métiers en leur permettant de l’explorer de façon autonome, en étant le moins tributaires possibles de la DSI et de développements spécifiques. L’intérêt de la dataviz va être de montrer la valeur des données, de mettre l’accent sur certains éléments qui apparaîtront de façon claire et évidente.  ”Kiabi Elisabeth Zehnder Data Scientist “Il y a deux ans, nous avons mis en place des solutions de data visualization, sur lesquelles se connectent environ 10 000 users, et représentant aujourd’hui à peu près le même volume que la BI traditionnelle. Cela constitue une offre BI complémentaire fournissant une BI agile, mais aussi une solution de prototypage.  ”Schlumberger Olivier Brousseau IT Business Intelligence Strategy Manager R endre clairement interprétable une masse de données en la re- présentant de façon simple et exhaustive sous la forme d’objets visuels (graphs, tableaux, successions de points), voilà le précepte directeur de la data visualization. Dans un cadre aussi complexe et ardu que celui du Big Data, on comprend qu’une telle ambition ait pu prendre la forme d’une panacée. Et qu’une multitude de solu- tions aient fait leur apparition sur le marché, promettant aux utili- sateurs de rendre leurs données claires comme de l’eau de roche, grâce à la magie des images. Attention cependant de ne pas se lais- ser leurrer par le côté gadget de certains outils de dataviz. Pour avoir une vraie valeur, et servir véritablement les métiers, ces derniers doivent répondre à deux mots clefs : la simplicité et l’exhaustivité. data visualization  GARDER unœil surses données
  • 23.
    21 GRANDS CONCEPTS GRANDS CONCEPTS Enfin, même siles solutions de data visualization doivent se ran- ger au service de la simplicité, il ne faut pas croire que leur mise en œuvre est une promenade de santé. Pour qu’elles soient efficaces, il est nécessaire de procéder à un important travail préparatoire, comme l’indique Mathieu Escarpit (Oney Banque Accord) : “  Le travail en amont de définition des KPI est une phase fondamentale pour profiter à plein de la data visualization. Le dernier outil de dataviz que nous avons mis en place a ainsi nécessité quatre mois de travail en amont sur la qualité du reporting, la définition des KPI, les ajustements après feedback… alors que le développement dans l’outil et son déploiement ont pris seulement un petit mois. ”Oney Banque Accord | Mathieu Escarpit Directeur Général Italie et Joias “ Les outils de data visualization sont une nouvelle géné- rationd’outilspermettantdecomblercertaineslacunes des outils de Business Intelligence. Plus agiles, plus interactifs, et davantage opérables dans de multiples environnements de données, ils permettent d’aborder les tâches de fouille de données de nou- velles façons. Les données sont chargées en mémoire et la modélisation effectuée en amont facilitent les opérations de filtrage et d’agrégation. La conception des vues graphiques où la navigation est effectuée en pro- fondeur (deep dive dans les données) permet une grande souplesse dans l’extraction des informations clé de pilotage. Rapidement appréhendables pour de premières investigations, il s’avère nécessaired’utiliserdescompétencesdeUXdesignpourtirerlaplusgrande valeur de ces outils et des données représentées. Grâce à ces outils, les données métiers des entreprises sont facilement analysées et les décisions business peuvent être réalisées en fonction des états d’indicateurs objectifs (fact based). La publication et la diffusion de rapports synthétiques, interprétables par les fonctions métiers permettent une plus grande transparence dans l’organisation. On parle d’organisation guidée par les données (data-driven). ” Marc Damez-Fontaine Senior Manager|PwC D’ex pert AVIS
  • 24.
    22 Machine learning encyclopédie des bigdata C e processus d’automatisation de l’apprentissage (on parle d’ail- leurs en bon français, d’apprentissage statistique) fait appel à des logiques d’intelligence artificielle pour mettre une machine en capacité d’assimiler elle-même des modèles à partir des données auxquelles elle a accès. Il ne s’agit donc plus de spécifier à l’avance un modèle de comportement, mais de laisser à des algorithmes le soin de construire eux mêmes ce dernier, en allant piocher dans un très large dictionnaire de modèles potentiels. Avec le machine learning, certains systèmes vont ainsi pouvoir améliorer leur per- formance prédictive, optimiser leur fonctionnement général, et gagner en clarté dans leur mode de représentation de la donnée. “  Biométrie, prédiction des anomalies dans un système complexe, scoring, moteurs de recommandation et moteurs de recherche… Le nombre d’applications du machine learning ne cesse de croître, à mesure que la quantité de données mobilisables augmente.  ”Télécom-ParisTech Stéphan Clémençon Professeur et Responsable du Mastère Spécialisé Big Data Se lancer dans le machine learning suppose toutefois de faire, d’une certaine façon, confiance à la machine, et de la laisser fonctionner en aveugle, sans être capable d’interpréter clairement son travail. Certains business et certaines structures d’entreprises se montrent plus propices que d’autres lorsqu’il s’agit de faire ce genre de concession, constatent Christèle Baranco (LCL) et Jonathan Badoux (AXA France) :
  • 25.
    23 GRANDS CONCEPTS “On a souventtendance à opposer le modèle statistique et le machine learning, plus complexe et informatique. L’intelligence artificielle et tout ce que l’on peut en faire, ce n’est pas quelque chose que l’on avait l’habitude d’utiliser dans les métiers du marketing. Auparavant, on cherchait à obtenir des scores, qui soient utilisables concrètement par le métier final (scoring autour de l’appétence par exemple, sur des modèles de régression logistique). Depuis trois/ quatre ans, ce qui change, c’est la mise en place, parallèlement à cette logique, de techniques de machine learning qui supposent de faire confiance à la machine, et aux résultats qu’elle obtiendra. Maintenant que le temps réel est devenu une notion cruciale pour les entreprises, celles-ci vont de plus en plus accepter de moins comprendre sur quelles variables se font les calculs qu’opèrent la machine, pour se concentrer sur les résultats de ceux ci. ”LCL Christèle Baranco Responsable Analyse de la Donnée Client “ Le machine learning est un élément nouveau de la transformation digitale des entreprises. Accepter de laisser une machine effectuer une recommandation et donc de sortir des idées marketing préconçues et 100% maîtrisées n’est pas simple à gérer dans un marché où chaque acteur souhaite contrôler parfaitement son discours avec ses prospects/clients. Il faut donc passer par de l’éducation des équipes sur le fonctionnement de ces algorithmes afin que chacun puisse utiliser à bon escient les réponses proposées par ces mêmes algorithmes. ”AXA France Jonathan Badoux Responsable Outils Digitaux CESROBOTS nousveulent-ils du bien ?
  • 26.
    24 encyclopédie des bigdata “ Avec le machine learning, ce n’est plus l’homme qui donne des poids à chaque variable, mais l’algorithme qui les cal- cule en fonction des données observées. Ainsi ces poids - mis à jour à chaque nouvelle entrée de données - reflètent ce qui s’est réellement passé. Par exemple, un algorithme de machine learning dont le but est de scorer les utilisateurs va calcu- ler les pondérations optimales en fonction des actions passées des utilisateurs pour prédire au mieux leur comportement de demain. Cependant le machine learning ne se fait pas sans l’homme. En effet, pour avoir un bon modèle il faut une bonne connaissance du domaine d’application : si on demande au modèle de calculer les poids qui relient la quantité de lait qu’il y a dans mon frigo chaque jour au parcours des utilisateurs sur unsite,illefera…etlemodèleneserasûrement pas très bon. Il faut donc une bonne expertise du domaine d’application pour nourrir le modèle avec de bons signaux et pour inter- préter et valider les résultats. ” Romain Warlop Data Scientist 55 D’ex pert AVIS Rendre interprétables par l’entreprise les progrès que font, dans leur coin, les machines, voilà l’un des grands enjeux du machine learning. Dans le secteur des telecoms, l’invention du Net Promo- teur Score doit justement servir ce délicat objectif : Bouygues Telecom Nicolas Gaude Senior Data Scientist Avec le machine learning, les machines apprennent, via différents outils mathématiques (réseaux de neurones, random forest, gradient boosting) à s’approcher le plus près possible de l’objectif qui leur est attribué. L’inconvénient, c’est que la façon dont on va influer sur la mesure n’est plus lié à un ou deux éléments clés (par exemple la satisfaction du client, le temps de réactivité avant la résolution d’un problème, bref, des métriques en interne), mais à une combinaison non linéaire de variables qui n’ont plus aucun sens explicatif (lignes de code produites, puissance consommée par le datawarehouse, etc). Voilà pourquoi, pour rattraper le management, nous sommes contraints de créer des indicateurs composites qui vont incarner la performance (un peu comme le CAC 40 reflète la santé économique de l’industrie française). Le Net Promoter Score par exemple est ainsi, dans le domaine des telecoms, un indicateur composite accepté et approprié au management en ce qu’il permet refléter la capacité qu’a une marque à être recommandée par un individu lambda. ” IN VIEWTER
  • 27.
    25 GRANDS CONCEPTS “Desmachinesdeplusenplusapprenantes L’apprentissage artificiel (ouapprentissage automatique, « machine learning » en anglais) est une famille d’algorithmes dont l’objectif est la dé- tection automatique de motifs dans un jeu de données, sans connaissance à priori sur ces données. Ces motifs forment un modèle et l’application de ce modèle à d’autresjeuxdedonnéespermetdeprédireuncomportement.Onappellecelalacapacité degénéralisationdumodèled’apprentissage. Unalgorithmed’apprentissageartificielimitel’apprentissagehumaindanssa capacitéàreconnaîtredescomportementssimilaireslorsd’expériencessuccessives. Il existe deux familles d’algorithmes d’apprentissage : supervisé et non-supervisé. La pre- mièreestutiliséelorsquel’algorithmeconstruitunmodèlesurunevariabledesortieparti- culière (ex : quel est le prochain article que mon client va acheter ?) alors que la deuxième effectue une découverte sans objectif (ex : que dit-on de mon entreprise sur les réseaux sociaux ?). Un algorithme d’apprentissage artificiel sera performant si et seulement si le nombred’expériences(dedonnées)estimportantetsiladescriptiondesexpériences(pro- priétésdesdonnées)sontsignificativesauregarddelatâched’apprentissage. Unedescriptionappropriéedel’événementestunpointcrucial delaqualitédel’apprentissage. Lesméthodesd’apprentissageslesplusmodernestellesquel’apprentissageprofond(deep learning)sontcapablesd’extraireautomatiquementlesmeilleurscaractéristiquesdescrip- tivesdesévènements(propriétés)silesdonnéessontsuffisammentnombreuses. ” “Lescoringouvrelesportesdelaprédiction Lesméthodesdescoringsontunsous-ensembledesméthodesdemachinelearning. Bâtir un score consiste à exécuter un algorithme sur une base de données pour extraire un score de prédiction permettant de prédire un comportement futur des individus de la base.Parexemple,lescored’unclientpeutreflétersesintentionsd’achat,ousesintentions de quitter un service (churn). Les enjeux de généralisation et robustesse d’un modèle de scoring permettent de garantir que le modèle peut scorer correctement de nouveaux jeux dedonnéesoudespériodes futuresd’activité.Lesméthodesdescoringpossèdent2carac- téristiquesparticulières.Lapremièreconsisteàobserverladistributiondesscores.Ainsi,un palier ou une chute importante du score permet de cibler la quantité d’individus suscep- tiblesderépondrecorrectementaumodèleprédictif.Onpeutainsiestimerplusfacilement la pertinence d’un budget au regard d’une campagne de communication. La deuxième caractéristiqueestl’ordreinduitparunalgorithmedescoring.Eneffet,lesindividusayant un score plus élevé sont plus facilement prédictibles que les individus ayant unscoreplusfaible. ” Marc Damez-Fontaine Senior Manager PwC D’ex pert AVIS
  • 28.
    26 Aussi appelée maintenance prévisionnelle,cette nou- velle façon de concevoir l’optimisation des outils industriels est l’un des cas d’usage les plus prometteurs du Big Data. Il va s’agir, comme son nom l’indique, d’anticiper les pannes et les dégradations sus- ceptibles de survenir sur une machine pour pouvoir les gérer en amont, et donc améliorer la durée de vie de l’appareil en question, réduire ou supprimer les temps d’immobilisation pour réparation, et faire baisser les coûts d’entretien et d’intervention. De tels bénéfices vont être rendus possibles par la capacité de ces outils industriels à faire remonter une foule de données grâce à leur informatique embarquée. Et surtout, comme le souligne Stéphan Clémençon (Télécom-ParisTech), par le traitement de plus en plus fin de ces informations grâce aux technos Big Data : IN VIEWTER encyclopédie des big data La maintenance prédictive est devenue l’un des grands champs d’application du Big Data, avec la possibilité, grâce à l’implémentation d’une multitude de capteurs plus ou moins intelligents dans des réseaux de machines, de monitorer le système en temps réel. Pour des entreprises industrielles qui évoluent de plus en plus vers la mise à disposition de services, c’est la possibilité d’assurer la pérennité de ce service, en rendant la maintenance intelligente. Parvenir à de tels objectifs suppose de résoudre quelques problèmes mathématiques importants : comment adresser une telle volumétrie de données ? Comment produire des prédictions efficaces en temps réel ? Comment exploiter efficacement des systèmes d’information qui sont fondamentalement distribués ? Cela demande de revisiter complètement l’algorithmie. ”” maintenance prédictive Télécom-ParisTech Stéphan Clémençon Professeur et Responsable du Mastère Spécialisé Big Data
  • 29.
    27 De telles perspectivesne peuvent manquer d’inté- resser les grands groupes industriels, dans des sec- teurs aussi variés que le transport, l’aviation, l’éner- gie… Dans celui de l’oil & gaz, l’entrée dans cette nouvelle ère de la maintenance constitue ainsi, un véritable step change, comme le détaille Olivier Brousseau (Schlumberger) : GRANDS CONCEPTS Schlumberger Olivier Brousseau IT Business Intelligence Strategy Manager Cela fait partie depuis longtemps des best practices de notre secteur de posséder, dans chacune de nos machines, une carte de stockage pouvant tout monitorer. Mais ce qui manquait jusqu’à présent, c’était la discipline et les process permettant de tirer de la valeur des informations dormant dans ces cartes, en les rapatriant en central pour les exploiter dans une boucle plus longue. Cette possibilité est apparue avec la démocratisation des technologies autour de la donnée (notamment l’architecture Hadoop), qui a rendu le stockage et l’exploitation de la data beaucoup plus abordables.  IN VIEWTER
  • 30.
    28 Nous avons lancéune première POC qui a duré trois semaines. Nous avons récupéré les logs fournis par l’électronique embarquée de nos outils (statut sur 140 mesures - températures, pressions, chocs - relevées toutes les 5 à 10 secondes). Puis avec des outils Big Data, amenés par un partenaire, nous avons commencé à analyser ces données, après avoir retiré les informations relatives au client contenues dans les logs pour ne garder que les données techniques. Au bout de trois semaines à faire matcher cette data, les premiers résultats et les premières corrélations sont apparus, montrant clairement qu’au-delà d’une certaine température en sous-sol, le taux d’échec des outils grimpait en flèche. On a aussi constaté qu’il existait un niveau de choc particulièrement susceptible d’engendrer des défauts sur la carte électronique. C’était un enseignement intéressant, pour deux raisons : - ce n’était pas forcément l’angle attendu, et cela apportait une nouvelle compréhension de ce qui se passait en sous-sol - la compréhension de ce niveau de choc permettait de faire un feedback aux équipes opérationnelles pour ajuster la vitesse de sondage et optimiser la fiabilité. ” encyclopédie des big data
  • 31.
    29 La hausse exponentielledu nombre de systèmes et d’équipe- ments branchés sur le réseau internet constitue un véritable changement de paradigme. Ces objets connectés sont aujourd’hui partout : dans nos foyers (smartphones et tablettes, bien sûr, mais aussi box, jouets, détecteurs de mouvement, de fumée, et bientôt réfrigérateurs, miroirs intelligents, et autres inventions de la domo- tique), dans le secteur de l’énergie, des transports, de la médecine, de la maintenance industrielle… Ils dessinent un écosystème fait de sys- tèmes liés entre eux et qui, plus qu’une conséquence du Big Data, en est l’une des causes principales, puisqu’il va produire des quantités de plus en plus massives d’informations qui font changer d’échelle le monde de la donnée. Avec l’internet des Objets ce sont des opportu- nités business vertigineuses qui apparaissent pour les entrepreneurs. Mais aussi une multitude de défis pour réussir à tirer partie des flux qui s’échangent entre systèmes. C’est ce qu’explique Tania Aydenian (Orange Technocentre) : objets connectés  GRANDS CONCEPTS Orange Technocentre Tania Aydenian Directrice du Programme Datavenue Les modèles encadrant les données issues des objets connectés ne sont pas structurés. Les outils de modélisation de données seront clé pour pouvoir extraire de la valeur et appréhender les objets qui verront le jour dans le futur. L’objectif est de passer de l’objet au service. Dans notre plateforme nous adressons les objets connectés existant sur le marché, mais aussi les concepteurs de nouveaux objets. L’interopérabilité est un enjeu majeur pour répondre aux nouveaux usages. Etablir un standard, sera bien complexe. On assiste surtout à la bataille des alliances.  ” IN VIEWTER
  • 32.
    30 Lesobjetsconnectéssontentraindeprendre deplusenplusd’importancedanslechamp delamédecine.Sanofivientainsi des’allieravecGoogledanslalutte contrelediabète,commel’ontfait plusieursautresconcurrents. ”Sanofi Pierre-Yves Lastic “ Cen’estpasunsecret,lesobjetsconnectésdéferlent sur lemarché B2C et vont avoir une influence importante sur les individus. Mais l’impact sur l’entreprise est aussi majeur, quel que soit le secteur d’activité. On trouve déjà des apports indéniables sur deux secteurs transverses : • La supply chain : l’Internet des Objets permet des gains considérables sur la traçabilité et l’amélioration de la réactivité face aux incidents. • Les unités de production industrielle : le développement des smart factories basé sur les objets connectés, permet des gains de productivité – grâce à l’anticipation des pannes –, de flexibilité – grâce à la reconfiguration des machines ou la simulation – et des économies d’énergie. Mais les usages sont infinis. Le meilleur exemple concret est le véhicule connecté. Il peut être considéré comme un hyper- objet connecté qui interagit avec son environnement : c’est en même temps une station météo, une machine connectée sur laquelle on peut prédire voire réparer des pannes mécaniques et un objet multimédia. Il illustre parfaitement les nouveaux usages autour des données liées à l’Internet des Objets : revente des données à des tiers, analyse des comportements à des fins marketing ou commerciales, et interactions entre individus. ” Laurent Sergueenkoff Analytics Platform Sales Team Leader IBM France D’ex pert AVIS encyclopédie des big data
  • 33.
    31 GRANDS CONCEPTS Sous ce termese cachent à la fois un type de données et une philosophie, ou tout du moins une attitude vis-à-vis de la data. Sont considérées comme open data toutes les données numériques, d’origine publique ou privée, stockées sur une plateforme accessible gratuitement par tout le monde. La tendance générale, depuis quelques années, est à l’ouverture de la donnée, soit pour des raisons légales (lorsque les collectivités, par exemple, sont contraintes de mettre à disposition des citoyens certaines informations et statistiques les concernant), soit dans le cadre d’une démarche volontaire d’Open knowledge, c’est à dire de contribution globale à la connaissance. Conséquence : la quantité de données ouvertes disponibles est en augmentation constante. Les entreprises ont bien conscience de l’intérêt qu’elles pourraient avoir à puiser dans ces nouveaux bassins d’information. Reste à inventer des usages pertinents, souligne Christèle Baranco (LCL). Et à encadrer rigoureusement la façon dont ces données vont être mises à la disposition de la communauté, rappelle Pierre-Yves Lastic (Sanofi) : “Comme la plupart des banques nous disposons de données INSEE et de données de concurrence que nous n’utilisons certainement pas assez. Nous souhaiterions mettre plus en valeur ces données ouvertes, qui ont sûrement beaucoup de choses à nous apporter. Cela suppose de trouver des cas d’usage rentables pour nous, avant de stocker les données sur notre cluster Hadoop. ”LCL Christèle Baranco Responsable Analyse de la Donnée Client “ Il existe, dans les hôpitaux publics, des mines d’information permettant de mieux comprendre les maladies et de mieux les traiter. L’ouverture de telles données serait précieuse pour le monde de la santé, mais suppose évidemment une sécurité et une anonymisation totale. ”Sanofi Pierre-Yves Lastic Associate Vice President, Chief Privacy Officer entrerpar labonne porte dans ladonnée ouverte oPEN DATA  
  • 34.
    32 encyclopédie des bigdata sécurité des données “Surveillance des Etats, failles et abus de plus en plus fréquents dans la façon dont certaines entreprises traitent les data clients, et prise de conscience du public que leurs données personnelles ont de la valeur… Le climat est en train de se tendre sur la question des données. La sécurité des data devient dès lors une problématique avec laquelle il est hors de question de transiger. ”Numericable – SFR Morgane Castanier Directrice Data et CRM “ Une entreprise basée sur l’innovation et la recherche fonde sa valeur sur ses données, et donc sur sa capacité à les protéger. Nous traitons énormément de données éminemment sensibles (liées aux essais cliniques, à des questions génétiques), qui ne doivent en aucun cas tomber dans de mauvaises mains. La cybersécurité est donc un enjeu crucial pour nous, à la fois pour toutes les données relevant de la propriété intellectuelle, et pour celles relatives à la santé de nos patients. ”Sanofi Pierre-Yves Lastic Associate Vice President, Chief Privacy Officer Onne plaisante pasavec lasûreté desdonnées C omment contrôler l’intégrité de ses données, alors que celles-ci n’ont jamais été aussi nombreuses, et n’ont jamais circulé aussi librement ? Et quels outils mettre en place pour s’assurer de leur impénétrabilité, condition sine qua non pour tenir ses promesses en terme de data privacy  ? A l’ère du Big Data, la question de la sécurité des données, qu’elles soient personnelles ou industrielles, revêt un aspect déterminant. Et a fortiori pour des entreprises qui fondent leur valeur sur leur capacité à garantir l’inviolabilité de leur système d’information. Voilà ce que détaillent Morgane Castanier (Numericable-SFR) et Pierre-Yves Lastic (Sanofi) :
  • 35.
    33 GRANDS CONCEPTS Heureusement, les BigData ne constituent pas qu’une menace et une urgence pour les ques- tions relatives à la sécurité des données. Elles sont aussi un formidable outil de data safety, comme tient à le souligner Aroua Biri (Sogeti) : Sogeti Aroua Biri Architecte Cybersécurité & Big Data Le Big Data, en ce qu’il permet de traiter très rapidement des masses toujours plus énormes de données, est un enabler de sécurité. Dans tout ce qui est démarches SIEM (Security Information and Event Management) les Big Data vont servir de renfort. Avec des technologies de machine learning, et d’autres permettant d’exploiter des sources de données qui auparavant étaient beaucoup trop compliquées à analyser, on va être capables de déceler des corrélations, de détecter mathématiquement des incongruités, des anomalies, et donc de remonter des alertes qui seraient autrefois passées totalement inaperçues.  ” IN VIEWTER
  • 36.
    « Les volumes desdonnées traitées sont en perpétuelle augmentation et si on a pu se demander par le passé s’il y avait un intérêt à les conserver, la puissance des outils développés aujourd’hui apporte une réponse technique et opérationnelle incontestable. Le concept de “capital immatériel” ou le “patrimoine informationnel” que représentent les données d’une entreprise, est un capital pouvant être valorisé au titre d’actif incorporel. La majorité de la capitalisation boursière des entreprises cotées est constituée d’actifs incorporels ce que confirment les transactions ou introductions en bourse récentes. À côté d’éléments incorporels tels que la marque, les brevets ou les logiciels, les données participent pour une part grandissante dans la valorisation d’une société. La protection de cet actif devient dès lors crucial pour faite face aux cas d’intrusions délictuelles dans des systèmes d’information, pillages de données… générateurs de préjudice économique et d’image de marque. La protection des données peut être assurée : - Par des moyens de cryptologie, dont l’utilisation est libre en France, contrairement à leur fourniture, importation, ou exportation soumis, sauf exception, à déclaration ou à demande d’autorisation ; - Par l’utilisation de signatures électroniques - Et plus généralement par la voie contractuelle (obligations spécifiques mises à la charge d’un prestataire). Des textes spécifiques peuvent imposer par ailleurs des obligations en matière de sécurité des données, notamment pour les entreprises privées ou publiques concernées par la gestion d’information liée au secret de la défense nationale (ex. procédures d’habilitation et de contrôle des personnes pouvant avoir accès au secret, les conditions d’émission, de traitement, d’échange, de conservation ou de transfert des documents classifiés). Dans le cadre de projet Big Data, on veillera notamment à : - définir précisément les obligations contractuelles relatives à la sécurité des données (niveaux de services, obligation de moyen/de résultat, clauses limitatives de responsabilité en cas de perte de données ou d’intrusion et ce dans les différents contrats d’hébergement, de SaaS, de Cloud…) ; - s’assurer de la licéité et de l’efficacité des moyens mis en œuvre au regard des différentes législations nationales ayant vocation à s’appliquer (cryptologie, valeur de la preuve électronique et des conventions de preuve, transfert de données…).» juridiqueHocheAvocats encyclopédie des big data DE VUE point Hoche Avocats Régis Carral Avocat – Associé 34
  • 37.
    35 GRANDS CONCEPTS Pour que lamine d’or du Big Data dévoile ses ressources et livre ses promesses, encore va-t-il falloir être en mesure de l’exploiter efficacement. Ce qui est loin d’être simple. Quels sont les gisements de données les plus pertinents, ceux à même d’apporter une vraie valeur à l’entreprise ? Comment y puiser efficacement, sans se perdre dans la masse d’information qui les entourent ? Quelles stratégies adopter enfin pour valoriser les données une fois celles- ci collectées ? C’est pour répondre à ces questions qu’intervient le Smart Data, un concept qui met l’accent sur l’utilisation intelligente de la donnée. S’intéressant en priorité à la valeur effective des données pour le business, les tenants de ce modèle conseillent de substituer à l’analyse en 3V  , son évolution en 5S. C’est à dire : Stratégie (définir en amont les bénéfices attendus de l’usage de la data), Sourcing (bien circonscrire les bases de données qui seront utilisées pour ne pas s’éparpiller inutilement), Sélection (trier l’information pour ne pas s’y noyer), Signifier (donner du sens à la donnée brute en la traitant ou en la faisant traiter), Symboliser (exprimer la donnée de façon claire notamment en ayant recours à de la data visualization  ). Il s’agit là bien sûr, plus que d’une théorie formelle de la donnée, d’une vision destinée à en simplifier l’approche. Elle n’en demeure pas moins une bonne base pour appuyer des projets en restant dans le concret, ce que soulignent les expériences Smart Data de Morgane Castanier (Numericable- SFR) et Marie-Laure Cassé (Voyages-sncf.com) : SMART DATA 
  • 38.
    36 encyclopédie des bigdata “Si la notion de Big Data sert à qualifier les technologies autour du traitement de volumes de données de plus en plus massifs, la notion de Smart Data va, quant à elle, surtout désigner la capacité à adresser un use case précis en collectant les données les plus pertinentes et celles qui seront facilement actionnables. C’est un terme qui est plus tourné vers l’efficacité du ciblage que vers l’importance de la volumétrie. Chez Voyages-sncf, nous avons été amenés à mobiliser des logiques apparentées à du Smart Data à de nombreuses occasions. Par exemple, dans le cadre de notre algorithme de recommandation de destinations, l’un des enjeux consistait à capter les bonnes données afin d’identifier la gare de départ la plus pertinente pour notre internaute, ce qui devait permettre de lui adresser, par la suite, des recommandations associées de qualité. ”Voyages-sncf.com Marie-Laure Cassé Directrice Marketing Client & Data “ La recherche de pertinence est un enjeu fort quand on est confronté à une grosse masse de données, le risque étant, dans ces cas là, de se perdre dans la profusion de data. Mon souci constant est de garantir l’alignement systématique de nos approches scientifiques et technologiques avec les enjeux et la stratégie business. Le Smart Data, c’est d’abord s’efforcer de rester très pragmatique ! ”Numericable – SFR Morgane Castanier Directrice Data et CRM Insuffler del’intelligence danssesdonnées
  • 39.
    37 GRANDS CONCEPTS Attention cependant dene pas être dupes. Derrière le terme séduisant de Smart Data se cache souvent une façon de marketer des produits et des solutions qui au final n’ont rien de révolutionnaire. Voilà contre quoi met en garde Jean-François Marcotorchino (Thales Communications et Sécurité) : Thales Communications et Sécurité Jean-François Marcotorchino Vice Président et Directeur Scientifique de Thales GBU SIX Beaucoup d’acteurs du marché aujourd’hui dans ce domaine très « buzzy » des Big Data proposent des services et des outils d’analyse qui relèvent de ce qu’on appelait il n’y a pas si longtemps « le Business Intelligence » voire au mieux le « Data Mining » (avec comme applications vedettes dans le B2C : le CRM, la segmentation de clientèle, le Cross Selling, l’attrition etc.), ceci bien que toujours utile, n’est pas ce qu’on entend aujourd’hui par Big Data. D’ailleurs, parce qu’ils l’ont bien compris et qu’ils en sont bien conscients, ces spécialistes ou acteurs là vont utiliser le terme de « Smart Data » pour qualifier cette façon de faire du traitement statistique de données qui est en réalité la même… qu’il y a quinze ans (échantillonnage et population à analyser de taille raisonnable et non gigantesque), car beaucoup d’algorithmes utilisés dans ce contexte sont non linéaires et de fait ne sont donc pas « scalables ». ”   IN VIEWTER
  • 40.
    38 Le temps réelest l’une des principales caractéristiques du Big Data. Avec les datawarehouses, on voit la donnée de façon figée, à un instant T, ayant pour objectif de produire le reporting. Au contraire, avec le Big Data, on capte la donnée en temps réel (notamment avec les interactions ayant lieu sur les sites web). Cette caractéristique associée avec les deux nouvelles composantes que sont l’algorithmie (text mining, indexation) et les API (qui donnent de la valeur à la donnée dans sa restitution), vont conférer à la donnée une mobilisation de plus en plus rapide, tendant vers le temps réel.  ”Groupe Argus Benoît Chéroux Responsable Données & Modélisations L’une des grandes promesses du Big Data, c’est la possibili- té d’exploiter la data non plus de façon statique en interrogeant des pools d’information déjà consti- tués, mais en traitant plutôt, quasi instantanément, des flux. Avec le real time, la donnée échappe ainsi à une vision figée pour se faire dynamique, comme le souligne Benoît Chéroux (Groupe Argus) : temps réel encyclopédie des big data “
  • 41.
    39 Cette évolution versle temps réel a déjà rencontré de multiples usages, dont le Real Time Bidding est un bon exemple (entre la mise aux enchères d’une annonce et son achat sur un Ad-Network, il ne se déroulent que quelques millièmes de secondes). Soulignons toutefois que cette notion de temps réel ne signifie pas toujours l’instantanéité, et peut renvoyer à différentes temporalités en fonc- tion de la réalité du business. Si mettre un script à la disposition d’un téléconseiller au fil d’une conversation devra se faire dans le dixième de seconde, l’analyse en temps réel d’une base CRM sera jugée suffisante si elle est mise en oeuvre dans la minute. Dans le cadre d’une application d’assistance aux personnes âgées, comme celle dont nous parle Pierre-Yves Lastic (Sanofi), c’est la vraie ins- tantanéité que l’on recherche : Les nouvelles perspectives qu’offre le Real Time ont pu voir le jour grâce à l’évolution récente de certains outils. Ainsi le framework Hadoop , qui était initialement orienté batch, permettant des calculs distribués adaptés à des données massives, s’est équipé il y a deux ans d’une solution qui lui permet d’intervenir aussi sur le terrain du Real Time : YARN . GRANDS CONCEPTS Nous travaillons en collaboration avec divers acteurs de la santé, un domaine où le temps réel a une importance cruciale - on s’en doute puisque c’est la vie de personnes qui est en jeu ! Lorsque nous travaillons sur des applications d’assistance aux personnes âgées, par exemple, on ne peut se permettre de ne pas être en temps réel.  ”Sanofi Pierre-Yves Lastic Associate Vice President, Chief Privacy Officer “
  • 42.
    40 R ien ne sertde se lancer dans un projet de Big Data sans lui avoir assigné au préalable des objectifs précis qui se tradui- ront très concrètement par une génération de valeur pour l’en- treprise. Cette affirmation peut sembler une évidence, mais elle a été martelée par tous les acteurs que nous avons pu interroger sur le sujet. Le risque étant de se laisser piéger par les promesses d’un buzzword, sans avoir de vision claire sur la façon de l’incar- ner d’un point de vue business. Les cas d’usage sont certes innom- brables : améliorer sa connaissance clients, optimiser la sécurité de ses systèmes, booster ses performances marketing grâce au RTB , réduire ses coûts d’entretien en mettant en œuvre des lo- giques de maintenance prédictive , tirer parti de la puissance des objets connectés … Encore s’agit-il de trouver le bon. Pour reprendre les mots de Bill Schmarzo (CTO de EMC, et auteur de Big Data : Understanding how data powers Big Business) « Les entreprises n’ont pas besoin d’une stratégie pour exploiter les Big Data ; elles ont besoin d’un business plan qui intègre les données et les possi- bilités ouvertes par les Big Data dans un univers digital. » Une fois acquise la certitude de l’intérêt d’un projet mettant en son cœur l’exploitation de la donnée, reste à déterminer quelle data est susceptible de générer le plus de valeur dans cet usage précis. Max Vallejo (Air France-KLM), insiste par exemple sur l’importance des données de navigation et des données serveur dans le cadre d’un objectif d’amélioration de l’expérience client : “  La valeur que l’on attribue à telle ou telle donnée va permettre de prioriser nos projets de capture et de stockage. Ces derniers temps, par exemple, les données de navigation et les données serveur ont pris une place très importante chez nous : elles permettent en effet d’une part de faire du retargeting (très classiquement) mais elles vont aussi permettre d’améliorer l’expérience client, en la rejouant pour mieux comprendre les problèmes remontés.  ”Air France-KLM | Max Vallejo Head of eCRM, Digital Department valeur encyclopédie des big data
  • 43.
    41 GRANDS CONCEPTS Fichiers excel, basesde données clients, CRM, produits ou de gestion, d’une part. Fichiers textes, images, vidéos, ou logs de l’autre. Qu’elles soient structurées ou non structurées, les données que doivent aujourd’hui traiter au quotidien les entreprises se ca- ractérisent par une grande hétérogénéité de formats et de sources. Cette variété est d’ailleurs l’une des premières choses qui saute aux yeux de qui veut se faire une vision globale de ses data, comme a pu le constater Yoann Denée (Prisma Media) : À cette grande richesse de données déjà présentes dans le système d’information des entreprises, vient s’ajouter la diversité de celles qui peuvent être récupérées à l’extérieur, via des processus comme le Data Mining  . Voilà de quoi complexifier encore les choses, si l’on en croit Pascale Dulac (France Loisirs) : vaRIÉTÉ Prisma Media Yoann Denée Chief Data Officer Un des premiers objectifs pour permettre la valorisation des données chez Prisma a été de procéder à un inventaire de toutes les sources de data. Celles-ci sont très hétérogènes et viennent de natures et de business différents : base abonnés payante, base abonnés newsletters gratuites, applications et services gratuits et/ou payants, communautés, membres de sites web, et un grand nombre d’autres affluents plus petits.  ” IN VIEWTER
  • 44.
    42 encyclopédie des bigdata “  Travailler avec des données qui ne viennent plus de chez nous et de nos propres systèmes d’information, mais qui sont récupérées à l’extérieur (réseaux sociaux, chat collaboratif, réponses à des questions ouvertes adressées à nos clients), qui ne sont pas structurées de la même façon que les data internes, et qui ne rentrent donc pas forcément dans les cases que nous avions nous mêmes définies, cela implique un changement de fond dans la façon de travailler. ”France Loisirs Pascale Dulac Responsable Connaissance Clients IN VIEWTER Thales Communications et Sécurité Jean-François Marcotorchino Vice Président et Directeur Scientifique de Thales GBU SIX La question de la variété des données analysées reste un problème fondamental, et l’hétérogénéité des données, un vrai frein à leur exploitation tous azimuts. On sait pratiquer facilement la juxtaposition de données, le croisement de bases de données et de fichiers, et éventuellement la fusion à certains niveaux de cohérence mais l’exploitation simultanée et mélangée de données de types différents par des algorithmes unifiés a longtemps été un fossé à la méta-analyse. Aujourd’hui, il apparaît néanmoins malgré de gros progrès faits, qu’il y a de plus en plus une attente vis-à-vis de cette capacité à exploiter en même temps des données de nature différente. Mais cette exploitation ne se fera pas de façon similaire en fonction des différents types de données exploitables. ” Pour espérer tirer de la valeur de ces agrégations de data internes et externes, et exploiter efficacement la masse de plus en plus impor- tante de données non structurées (environ 80% des données dans le monde se rangent sous cette catégorie), les méthodes tradition- nelles ne suffisent plus. Ainsi, si l’on ne veut pas que la variété de la donnée devienne un obstacle, il va être nécessaire de mettre en place de nouvelles solutions empruntées au monde des Big Data :
  • 45.
    43 GRANDS CONCEPTS Au-delà de lamobilisation de nouveaux outils, la capacité à résoudre efficacement le problème de la variété va aussi dépendre de la capa- cité de l’entreprise à mettre en place une data gouvernance   adap- tée. C’est sur ce dernier point qu’insiste Pierre-Yves Lastic (Sanofi) : Sanofi Pierre-Yves Lastic Associate Vice President, Chief Privacy Officer De même qu’aujourd’hui les essais nucléaires ne sont plus réalisés sur le terrain, avec des vraies bombes, mais par ordinateur, le secteur de la biologie humaine tente de mettre en place des essais cliniques virtuels. Ces simulations nécessitent de mettre en commun des données variées, venant de la recherche fondamentale en les corrélant avec des données cliniques issues du monde du soin. Les caractéristiques de ces données ne sont pas les mêmes, et les faire communiquer nécessite donc de veiller au préalable au bon respect des règles qui les encadrent, et peuvent varier.  ” IN VIEWTER
  • 46.
    44 encyclopédie des bigdata Les 3 V (Volume, Variété, Vitesse) ne peuvent se déployer dans toute leur ampleur que si la donnée qu’ils mobilisent à la base est fiable. La véracité de la donnée, sa précision, sa pertinence, vont donc revêtir une importance cruciale, invitant les entreprises à une très grande rigueur aussi bien dans la façon dont elles orchestrent la collecte des données, que dans la manière dont elles vont les re- couper, les croiser, les enrichir. Cette attitude, dont va dépendre l’in- tégrité et la sécurité des data bases, est loin d’être nouvelle. Pascale Dulac (France Loisirs) souligne ainsi : Véracité  “  Quand on a l’habitude de manier de la donnée, la recherche de la véracité - de la fiabilité - est un impératif ancré depuis longtemps dans les pratiques, et dont l’importance n’a pas attendu l’ère des Big Data pour prouver son évidence.  ”France Loisirs Pascale Dulac Responsable Connaissance Clients
  • 47.
    45 GRANDS CONCEPTS Mais face àla digitalisation, face à la massification des données dis- ponibles, elle se transforme en urgence. Ne pas revoir à la baisse ses exigences en terme de véracité, voilà un des défis du Big Data que tient à souligner Max Vallejo (Air France-KLM) : IN VIEWTERAir France-KLM Max Vallejo Head of eCRM, Digital Department Jour après jour, les retours de données auxquels nous avons accès se font de plus en plus fins, et la frontière de plus en plus ténue entre les différentes interprétations que l’on peut en tirer. Dans de telles conditions, il est capital de continuer à interpréter correctement les données. C’est le cas par exemple avec les codes retour d’envoi. Quand on envoie une campagne il y a différents codes retour possibles : arriver à analyser et à interpréter efficacement ces informations, pour in fine, déterminer si l’on peut continuer à adresser tel ou tel client, c’est crucial. Quelle différence va-t-on faire entre un hard bounce, un soft bounce, un client qui souhaite se désabonner d’un programme en particulier…? La véracité, au-delà de l’exactitude, cela consiste à restituer fidèlement le sens d’une donnée bien précise, pour ensuite être en mesure d’agir le plus efficacement possible. ”
  • 48.
    46 encyclopédie des bigdata Vitesse / Vélocité  Dans le modèle d’analyse en  3 V , on parle aussi de Vélocité pour désigner ce paramètre caractéristique du Big Data. La hausse des volumes de données au cours des dernières années s’est en effet accompagnée d’une intensification radicale du débit (soit la volumétrie multipliée par le laps de temps dans lequel les données évoluent). Capturer et traiter de façon la plus diligente possible ces flux qui s’accélèrent, voilà un nouveau défi pour les entreprises qui ne veulent pas se contenter d’une analyse asynchrone de la don- née. Et ce a fortiori dans le cadre de processus chronosensibles (comme le traitement de fraude) où l’on ne peut se permettre de perdre la moindre minute. Pour répondre au rythme effréné auquel est aujourd’hui générée l’information, les capacités de traitement de l’architecture Big Data et de certaines de ses technologies (  YARN , notamment) vont offrir des vitesses d’exécution qui n’ont plus rien à voir avec les temps de traitement par lots (batch) caractéristiques de la Business Intelligence à l’ancienne.
  • 49.
    47 GRANDS CONCEPTS En filigrane, l’adoptionde ces accélérateurs du traitement de la don- née laisse apparaître la possibilité pour les entreprises de traiter leur masse de données au fil de l’eau, en temps réel  . C’est en tout cas ce qu’espèrent Yoann Denée (Prisma Media) et Benoît Chéroux (Groupe Argus) : “Jusqu’à l’année dernière, nous récupérions les annonces du marché du véhicule de l’occasion toutes les semaines. Aujourd’hui, on procède à cette collecte de données tous les jours. Nous avons le projet de tendre vers encore plus de réactivité, pour rendre compte des fluctuations du marché de l’auto en temps réel. En arriver là supposerait une explosion des données récupérées, et donc, nécessairement, la mobilisation des technologies Big Data. ”Groupe Argus Benoît Chéroux Responsable Données & Modélisations “ Lorsque nous avons acheté, il y a trois ans, P comme Performance (une entreprise opérant sur le secteur de la monétisation de base de données), cette régie digitale procédait en moyenne à 500 millions d’opérations par jour. Aujourd’hui, elle en réalise plus d’un milliard… sauf que le temps de requête a été dans le même temps divisé par 25 000! Cela montre bien l’évolution radicale des technologies, et l’entrée dans l’ère d’une rapidité qui confine au temps réel. ” Prisma Media Yoann Denée Chief Data Officer ENAVANT VERS LETEMPS RÉEL
  • 50.
    48 encyclopédie des bigdata volume  Dans Big Data, il y a « big ». Et en reprenant l’interprétation clas- sique en  3 V  , c’est tout naturellement la notion de Volume qui s’impose avec le plus d’évidence pour qualifier la déferlante de données qui inonde les systèmes d’information des entreprises et le web. Nous générons aujourd’hui en une journée plus de données qu’il n’en a été produit entre les débuts de l’humanité et l’an 2000. Chaque jour sur Facebook s’échangent 10 milliards de messages, et sont uploadées 350 millions de nouvelles photos. Et on ne compte plus ces monceaux de data en terabytes (10 puissance 12) mais en petabytes (10 puissance 15), voire en zettabytes (10 puissance 21). Une hausse exponentielle de la volumétrie dont toutes les entre- prises françaises font aussi le constat, comme le détaille Morgane Castanier (Numericable-SFR) : “  Pour chacun de nos clients, nous récoltons plusieurs milliers de données unitaires différentes. Si l’on multiplie ce chiffre par le nombre de clients et qu’on y ajoute leurs diverses interactions avec nos interfaces, on est très vite confrontés à une énorme masse de données avec une vraie profondeur… et qui n’a rien à envier à un Facebook ! ”Numericable-SFR Morgane Castanier Directrice Data et CRM
  • 51.
    49 GRANDS CONCEPTS Un tel bouleversementfait naître de nouveaux défis : Comment col- lecter ces monceaux de data ? Comment les stocker efficacement ? Et surtout, comment les traiter pour en tirer de la valeur ? Quels cas d’usage, quels nouveaux services inventer pour en tirer le meil- leur parti ? C’est bien souvent la prise de conscience du nouveau challenge incarné par le gigantisme de la donnée qui va pousser les entreprises, quel que soit le secteur, à se doter de solutions Big Data adéquates, comme le confirment Jean-François Marcotorchino (Thales Communications et Sécurité et Pierre-Yves Lastic (Sanofi) : “Nous travaillons sur des bases de données de très grande taille, et excessivement peu structurées au départ, dans des domaines variés allant de la cybersécurité, à l’analyse globale de systèmes et réseaux, en passant par l’analyse des comportements passagers dans les transports ferroviaires ou urbains de surface (bus) jusqu’à l’inventaire stellaire en astronomie, etc. A titre d’exemple de problématique Big Data : la cartographie des étoiles de notre Galaxie (1 milliard d’étoiles observées) avec 10 instruments sur un satellite, chaque étoile pouvant être vue 88 fois au cours de la mission (le nombre total de mesures à traiter est d’ environ 280 milliards, une mesure représentant 10Ko). Outre le stockage de telles bases, leur exploitation et analyse conduit à des approches analytiques nouvelles où l’effet de montée en charge (« scalabilité ») doit être maîtrisé, au travers du développement d’outils spécifiques. ”Thales Communications et Sécurité Jean-François Marcotorchino Vice Président et Directeur Scientifique de Thales GBU SIX “ Dès que l’on entre dans la donnée en temps réel, on est soumis à une problématique d’analyse de ces données qui implique la mise en place de nouvelles méthodes. Lorsque par exemple le « journal patient » destiné aux malades chroniques est passé du support papier au support électronique, le nombre de données mobilisées a crû de façon exponentielle. Et il a fallu nécessairement adapter nos méthodes d’analyse pour traiter des volumes de données beaucoup plus considérables. ”Sanofi Pierre-Yves Lastic Associate Vice President, Chief Privacy Officer FACEau défi des mégadonnées
  • 52.
    50 encyclopédie des bigdata Web3.0 /Web4.0 Àquoi ressemblera le web de demain ? Face à une telle question, il y a autant de réponses possibles que d’hypothèses élaborées par les futurologues. C’est pour tenter d’en tracer le périmètre que ces derniers ont imaginé le terme de Web 3.0, inspiré du Web 2.0 qui a servi à désigner, à partir du milieu des années 2000, la révo- lution du participatif et la simplification des usages numériques. Il s’agit là, plus que d’un concept unifié, d’un attrape-tout, dans lequel chacun déverse sa vision des enjeux futurs. Quelques grandes caractéristiques reviennent pourtant plus que d’autres pour en tenter une approche théorique : le triomphe de la mobilité qui rend le web indépendant des supports, l’universalité, qui le libère de la dépendance aux systèmes d’exploitation dans un monde de plus en plus open source, l’accessibilité, et le fait aussi que le web n’est plus constitué uniquement des sites, mais aussi de solutions web (applications, base de données, etc). Pour évo- quer plus spécifiquement le rapport nouveau à la donnée qui ne manquera pas de voir le jour, certains parlent aussi de Web séman- tique, sorte de modèle émergent dans lequel la data circule sans contraintes pour libérer les usages et permettre la création de nou- velles connaissances.
  • 53.
    51 GRANDS CONCEPTS Le Web 3.0n’a du reste pas encore pointé le bout de ses algorithmes que certains théorisent déjà la prochaine vague, celle du Web 4.0. Plus lointain, cet autre concept offre pourtant une perspective plus claire : celle d’un monde entièrement digitalisé, où tout n’est plus que données. The Economist Stéphane Père Chief Data Officer (Global) Le web 1.0 c’était le monde de la publication, en top down. Le 2.0, c’était l’interaction entre les lecteurs et le contenu (participatifs, forwards, commentaires). Le 3.0 implique lui des logiques plus transversales, la possibilité pour un contenu d’apparaître dans plusieurs publications, sur différentes applications, en suivant des logiques de syndication, de distribution nouvelles (webapp, flipboard, …). Quant au 4.0, c’est la phase où l’univers physique devient le web, la phase où le monde est digital.  ” IN VIEWTER
  • 54.
  • 55.
    53 Rattachée plus globalementau vaste mouvement de digitalisation, l’arrivée des Big Data est elle aussi un puissant agent de transformation pour les entreprises. D’abord parce qu’il s’agit pour elles de se doter des compétences les plus à même d’en tirer parti (Data Scientist, Chief Data Officer, …). Mais surtout parce que le traitement massif de la donnée induit de nouvelles manières de travailler. 2.TRANSFORMATION DE L’ENTREPRISE
  • 56.
    54 encyclopédie des bigdata “Il y a beaucoup d’ambiguïtés autour de la fonction de Chief Data Officer. Son rôle, selon moi, c’est de mettre en valeur l’importance de la donnée, en en faisant quelque chose de profitable à l’ensemble de l’entreprise. A ce titre, le CDO doit avoir un certain nombre de qualités : compliance et sens politique, pour faire face à un certain nombre de résistances qui ne manqueront pas d’apparaître au sein de l’entreprise; une connaissance aiguë de la data qui nécessite donc un profil proche de celui d’un data scientist ; et enfin un certain pragmatisme.  ”Publicis Worldwide Samir Amellal International Chief Data Officer “Le rôle du CDO selon moi c’est d’insuffler une culture Data Driven à tous les niveaux de l’entreprise. Il va s’agir de faire comprendre aux différents business l’importance de prendre des décisions non plus selon l’expérience individuelle de chacun, mais en les appuyant sur du factuel… donc de la data. Côté Analytics, le CDO doit orienter les Business Analysts et les Data Scientists sur les bonnes méthodologies d’ana- lyses, les bons algorithmes prédictifs sans perdre de vue la pertinence pour le business. Côté IT, le CDO va piloter la mise en place de la distribution Hadoop et des outils d’analyse. De manière plus traditionnelle, il va également veiller à ce que les best practices soient bien en place au niveau de l’utilisation des bases de données par le BI. Ceci nécessite un travail sur la roadmap IT BI, le Master Data Management, le BI as a Service…  ”AccorHotels group Fabrice Otaño SVP, Chief Data Officer La multiplication des sources de données, l’augmentation de leur volume, et surtout leur capacité à impacter de plus en plus fortement le business même, a fait émerger le besoin d’un nouveau poste au sein des en- treprises : le CDO (Chief Data Officer). Si l’intitulé du poste tombe sous le sens - c’est celui qui est responsable de tout problème relatif à la donnée - son périmètre d’action est lui beaucoup plus difficile à délimiter. Et pour cause. La donnée s’infiltrant dans toutes les strates de l’entreprise, il s’agit là d’une fonction par essence transverse qui s’accommode mal d’une vision parcellaire des choses. Plutôt que de tenter de donner une définition générale du terme, le mieux est peut être de laisser à des CDO eux mêmes le soin de décrire leur rôle. La parole donc à Fabrice Otaño (AccorHotels) et Samir Amellal (Publicis Worldwide) : dans mapeau DE CDO CHIEF DATA OFFICER
  • 57.
    55 TRANSFORMATION DEL’ENTREPRISE La fonction deCDO doit-elle devenir un poste pérenne au sein de l’entreprise ? La plupart des acteurs que nous avons interrogés sur la question, comme Stéphane Père (The Economist) et Mathieu Escarpit (Oney Banque Accord), pensent qu’elle doit au contraire s’effacer une fois sa mission accomplie. “La valeur potentielle autour de l’exploitation de la data est telle qu’il est aujourd’hui nécessaire d’avoir cette fonction au sein de l’entreprise. Un CDO prend plus de sens au sein de grosses structures que dans nos équipes plus petites, où le coeur business c’est la donnée - Nous sommes par défaut organisés autour de la donnée. Il me semble aussi que c’est un poste qui pourrait être créé sur une durée limitée, avec une mission précise (à la frontière entre technique, légal et commercial), et avec des objectifs bien déterminés. Une fois ceux-ci accomplis, le poste aura probablement moins de raisons d’être, et les fonctions attribuées au CDO pourraient se dissoudre dans l’entreprise. ”Oney Banque Accord Mathieu Escarpit Directeur Général Italie et Joias “ Chez nous, le rôle de Chief Data Officer est à la fois orienté organisationnel et business. Il s’agit de faire éclore la transformation digitale dans toute l’entreprise, dans la plus grande harmonie possible. Se pose tout naturellement la question de l’évolution d’un tel rôle. Selon moi, ce dernier a une durée de vie limitée, puisqu’un CDO, s’il remplit efficacement sa mission, travaille en réalité à sa propre obsolescence. ”The Economist Stéphane Père Chief Data Officer (Global) Faire de sa propre obsolescence sa mission
  • 58.
    56 “ Le Chief DataOfficer est l’incarnation humaine de la transformation digitale de l’entreprise. Son rôle est de construire une organisation et une culture qui rendent possible la réalisation de la stratégie à long terme de l’entreprise en question. La révolution data driven constitue en effet un défi organisationnel de taille pour les sociétés dites traditionnelles, et elle nécessite une Direction forte  ; le CDO en est le chef d’orchestre. Réorganisation, revue des façons de collaborer et désilotisation, montée en compétence des équipes, choix des solutions technologiques et des partenaires pour accompagner la transformation, recrutement de nouveaux profils… C’est une sorte de mouton à cinq pattes qui, pour insuffler une culture de la data et de l’analytics à toutes les couches, dans tous les départements de l’organisation, doit faire preuve en vrac de : sens politique pour emporter l’adhésiondetous,compétencestechniques,compréhension des enjeux métier, marketing et connaissance client, et gestion de projet pour mener à bien la transformation… c’est un véritable couteau suisse.  ” Pierre Harand Director, Consulting and Business Development 55 D’ex pert AVIS encyclopédie des big data
  • 59.
    57 TRANSFORMATION DEL’ENTREPRISE Au milieu desannées 1970, la mise au jour d’un projet gouvernemental visant à attribuer un numéro à chaque citoyen pour y associer ensuite l’ensemble de ses fichiers administratifs sus- cite un vif émoi en France. La Commission Nationale de l’Informa- tique et des Libertés est créée dans la foulée, pour tenter d’endiguer les dérives de ce nouveau monde de l’information qu’ouvrent les ordinateurs. Aujourd’hui, soit 40 ans plus tard, la CNIL est confrontée à des défis qui, bien que fondés sur des bases philosophiques sem- blables (comment protéger efficacement la vie privée de chacun à l’ère de l’information), ont pris une ampleur immense avec l’avène- ment des technologies Big Data. C’est en effet à cette autorité administrative indépendante qu’incombe la lourde tâche non seulement de définir les usages relatifs à la donnée personnelle (un domaine immense et on ne peut plus mouvant !), mais aussi de sanctionner les acteurs qui ne respectent pas les règles qu’elle met en place. De nouveaux usages autour de la donnée apparaissant tous les jours, la CNIL est donc en permanence dans une position où elle défriche ce qu’il est ou non possible de faire. Ce qui nécessite un travail en collaboration avec les grands acteurs de la data… à commencer par les entreprises qui s’en servent et innovent sur le sujet. CNIL
  • 60.
    58 encyclopédie des bigdata “Nous travaillons de manière étroite et fréquente avec la CNIL, qui se montre tout à fait ouverte au dialogue, et dont l’objectif n’est pas de freiner l’économie française, mais de protéger les citoyens. Bien sûr, certaines contraintes imposées par la loi informatique et libertés peuvent amener à modifier nos projets, mais c’est surtout la surcharge de travail de la CNIL qui entraîne un traitement long sur certains dossiers, avec pour conséquence un ralentissement des projets. Je considère la CNIL comme un partenaire avec lequel nous travaillons de manière ouverte. ”Sanofi Pierre-Yves Lastic Associate Vice President, Chief Privacy Officer “ La CNIL suit attentivement tous les acteurs référents de chaque secteur. En tant que numéro un de la presse, nous n’échappons pas à la règle. Il s’agit d’une collaboration intéressante, car elle nous encourage à réfléchir et progresser sur le traitement de la donnée liée aux individus, (…) Cela nous a notamment incités à mettre en place des mesures qui ont ensuite été reprises par l’ensemble du marché, comme la révision des templates dans les campagnes email pour mettre en avant l’expéditeur par marque, la mise en place d’un preference center, servant de système central de gestion des consentements, ou la mise en place d’un service correspondant informatique et libertés qui répond à toutes les sollicitations de nos lecteurs qui apprécient fortement d’être entendus et pris en charge. ”Prisma Media Yoann Denée Chief Data Officer Main dans lamain avec laCNIL Les acteurs que nous avons pu interroger sur la question consi- dèrent ainsi moins la CNIL comme un obstacle à leurs ambitions, que comme un partenaire avec lequel ils co-construisent des usages autour de la donnée… dont beaucoup restent à inventer !
  • 61.
    59 TRANSFORMATION DEL’ENTREPRISE Promouvoir une culturede la décision s’appuyant sur l’analyse des données, et non plus sur l’intuition humaine, voilà les ambitions d’une entreprise qui cherche à devenir data driven. Selon une telle vision, il s’agit de faire de la donnée un outil de pilotage de la stratégie à long terme autant qu’un arbitre des choix immédiats. L’aspiration des entreprises à mettre en œuvre un tel état d’esprit est évidente, surtout dans celles qui se montrent les plus matures en terme de digitalisation. “Dans une entreprise qui n’est pas data driven, beaucoup de choses se font au feeling : les marketeurs, par exemple, fonctionnent souvent à l’intuition, ou s’appuient sur des études externes dont l’intérêt peut être discutable. L’enjeu va être de transformer cette façon de penser, en faisant de plus en plus de la data la colonne vertébrale qui sous- tendra toutes les actions. ”Orange Geoffrey Zbinden Vice President Big Data Analytics & Customer Base Management “ Une Data Driven Company est une entreprise qui base ses orientations et ses stratégies sur l’analyse de sa data - chiffres de marché, base client, réseaux sociaux, A/B testing - et ce dans une logique de prise de décisions factuelles. Plus qu’un programme à mettre en place du jour au lendemain, une telle vision correspond bien sûr avant tout à un idéal. Dans une certaine mesure, celle-ci nous guide dans les changements à mettre en place chez Voyages-sncf.com. Nous avons ainsi connu, il y a un an, une grande réorganisation autour de la data, dont la volonté et l’ambition étaient de mettre en place des solutions concrètes prenant comme moteur la donnée. ”Voyages-sncf.com Marie-Laure Cassé Directrice Marketing Client & Data faire deladonnée un moteur DATA Driven Organisation
  • 62.
    60 encyclopédie des bigdata Laisser à la data le pouvoir d’orienter le business suppose toutefois une transformation en profondeur de l’entreprise. Celle-ci va passer notamment par un désilotage en règle, et un effort de clarification majeur sur la question de la data gouvernance. Il s’agit là de deux obstacles majeurs à l’émergence d’une Data Driven Organisation, comme le détaille Samir Amellal (Publicis Worldwide) : Publicis Worldwide Samir Amellal International Chief Data Officer Nous avons la conviction que la data, à partir du moment où elle n’est plus information brute, mais qu’elle a été transformée en information utile, doit permettre de piloter efficacement une organisation, et de prendre des décisions, que ce soit pour mieux adresser son marché, pour améliorer un service, etc… La data ne doit pas se trouver dans un silo en particulier, et le CDO ne doit pas être rattaché à un service particulier, mais aux services centraux. Une Data Driven Organisation se doit, avant toute chose, de casser les silos. Mais en plus de cela, en voulant instaurer cette Data Driven Organisation, on se heurte très vite à des conflits sur les périmètres, et à des résistances importantes au travers desquelles chacun essaie de s’accaparer la donnée. Il faut être capable de faire passer la data non comme un enjeu de pouvoir, mais plutôt comme un facteur clé de succès qui peut être profitable à l’ensemble des collaborateurs. ”” IN VIEWTER
  • 63.
    61 TRANSFORMATION DEL’ENTREPRISE Face à detels obstacles, l’émergence d’une entreprise réellement data driven ressemble surtout à un vœu pieu. C’est en tout cas l’avis de Tania Aydenian (Orange Technocentre) : Peu d’entreprises peuvent aujourd’hui prétendre qu’elles sont véritablement data driven (et tant pis si le mot est martelé à longueur d’articles !). Avant de parler de Data Driven Organisation, il va déjà falloir passer par un “mindset” data driven, ce qui est déjà un gros pas en avant. Qui dit donnée, dit partage et ouverture. Or cet état d’esprit va entrer en collision avec la façon dont la plupart des entreprises sont encore construites aujourd’hui, c’est à dire sur la base de silos. Data Driven Organisation, c’est un beau mot, une belle ambition… Mais sa mise en oeuvre, voilà quelque chose de beaucoup moins évident ! ”Orange Technocentre Tania Aydenian Directrice du Programme Datavenue
  • 64.
    62 encyclopédie des bigdata Dans la mesure où elle se propage désormais dans toutes les strates de l’entreprise, la donnée nécessite la mise en place d’une gestion globale et transverse. C’est là qu’intervient la data gouvernance, comme volonté de contrôler dans son ensemble la disponibilité, l’interprétabilité, l’intégrité, et la sécurité des don- nées… et ce afin de mettre celles-ci au service du business. C’est ain- si, comme l’explique Joël Aznar (Schneider Electric), de la prise de conscience de l’importance économique que constitue désormais la data pour une entreprise, que va naître le besoin d’en encadrer les usages par la mise en place de la gouvernance adéquate : IN VIEWTER Schneider Electric Joël Aznar Global Purchasing - Director, Master Data Governance La porte d’entrée du Master Data Management, c’est souvent l’analytics qui va rapidement prouver son efficacité dès que l’on souhaite une meilleure qualité, une meilleure fiabilité de reporting grâce à l’amélioration des données brutes (matching, tables de correspondance, tables de multiplication). A partir de cette première étape on se rend toutefois vite compte que si l’on veut aller plus loin, on ne peut se satisfaire d’opérations de nettoyage et de réconciliation des données a posteriori… très rapidement on éprouve la nécessité de prendre la main sur les données opérationnelles dans les systèmes sources. On entre alors dans une démarche plus volontariste de data gouvernance, pendant laquelle on cherche à établir et faire respecter les règles de base associées à la gestion de la donnée, le plus en amont possible et tout au long de son cycle de vie - le fameux CRUD : “Create, Read, Update, Delete”. ”” DATA GOUVERNANCE 
  • 65.
    63 TRANSFORMATION DEL’ENTREPRISE “ Toutlemondeestconvaincude l’intérêtdemettreenplaceune datagouvernancesolideetefficace… Maispersonnen’aletempspourlefaire. Ladifficultéc’estdeparveniràmontrer l’intérêtbusinessréeldecettenouvelle formed’organisation.  ”Groupe Argus Benoît Chéroux “ Silamiseenplacedeladata gouvernancen’estpasportée etsupportéeparletopmanagement, celan’aaucunechanced’aboutir.  ”Numericable– SFR Morgane Castanier Air France-KLM Max Vallejo Head of eCRM, Digital Department Les rôles associés à la gouvernance de la donnée sont de plus en plus explicites chez nous : data officer, qui a la responsabilité de définir les guidelines d’utilisation des données clients; data owners, qui, pour chaque famille de données, sont responsables de la collecte, du stockage, et de la véracité de la data; data analysts, qui s’occupent de la partie exécution. Il faut s’efforcer de trouver un équilibre le plus harmonieux possible dans l’articulation entre le rôle de data officer, et celui de data owner. ” Une fois donnée l’impulsion initiale, il va s’agir de préciser les péri- mètres dévolus à la data gouvernance, en stipulant notamment la répartition des rôles qui lui seront dédiés. Voilà le point sur lequel insiste Max Vallejo (Air France-KLM) :
  • 66.
    64 “ Certains parlent dunouvel or noir. La data est devenue un élément de valorisation important de l’entreprise, elle est au cœur de sa transformation. La quantité et la diversité des données, l’hétérogénéité des sources de données, l’utilisation transverse des informa- tions ou encore des impératifs légaux rendent indispen- sable l’implémentation de la gouvernance des données. Objectif : faire que tous les acteurs de l’entreprise parlent un vocabulaire commun et fondent leurs analyses et leurs décisions sur des données qualifiées. Ce service rendu en interne, de façon transverse, passe par la définition et la gestion d’un ensemble de règles, de procédures, d’indicateurs, de référentiels, qui permettent d’une part de décrire précisément les informations qui sont utilisées au quotidien dans l’entreprise, et d’autre part, d’assurer la cohérence, l’homogénéité, la fiabilité et la dis- ponibilité des données. L’un des challenges à relever est d’établir la confiance des consommateurs d’informations dans l’entreprise avec les applications IT ou métiers qu’ils utilisent. Cela se fait en leur garantissant des données propres, livrées à temps, et cor- respondant fonctionnellement à leurs attentes. Utiliser une solution technologique homogène et ouverte est un prérequis au succès de l’adoption de la gouvernance des données. L’ensemble des informations est ainsi conso- lidé via une plateforme unique et intégrée, assurant la qua- lité de l’information pour, au final, une plus grande efficaci- té de l’entreprise.  ” Dan Benouaisch Directeur Technique Analytics IBM France encyclopédie des big data D’ex pert AVIS
  • 67.
    65 Forgée par deuxingénieurs de Facebook et LinkedIn, cette appellationnerenvoiepasàunprofilprofessionnelauxfonctions strictement définies, mais plutôt à un ensemble de compétences au service de la création de valeur à partir de mégadonnées. Pour remplir au mieux cette mission, le data scientist doit se tenir à la zone de contact entre trois grands domaines : la science (connaissances enmathématiquesetenstatistiques),latechnique(maîtriseducode, des applications, et des technos Big Data) et le business (sensibilité à la réalité des métiers, et aux objectifs de l’entreprise). Autant dire que ce genre de profils, à la fois polyvalents et hyper spécialisés, ne courent pas les rues, comme le constatent Morgane Castanier (Numericable - SFR) et Samir Amellal (Publicis Worldwide) : “Pour profiter de l’opportunité qu’offrent les Big Data, il faut d’abord résoudre un fort enjeu de compétences. Il est en effet nécessaire de mobiliser des profils spécifiques, qui se trouvent à la frontière entre business, science pure, et technologie - ce dernier point n’étant pas une mince affaire étant donné le foisonnement des outils liés à la data. Ce profil idéal du parfait data scientist fait un peu figure de mouton à cinq pattes. ”Numericable-SFR Morgane Castanier Directrice Data et CRM “ La data science c’est une fonction, une qualité même, relativement atypique. On se rend compte qu’aujourd’hui sur le marché tout le monde se prétend data scientist. Mais le vrai profil nécessite d’être à la fois à l’aise avec l’informatique, les mathématiques, et avec le marketing (ou autre métier dans lequel il opérera). Une maîtrise du code, des technologies digitales et des technologies permettant de traiter de la donnée assez peu structurée, me semble être une nécessité. ”Publicis Worldwide Samir Amellal International Chief Data Officer Très chère chimère DATA Scientist TRANSFORMATION DEL’ENTREPRISE
  • 68.
    66 encyclopédie des bigdata La rareté de ces profils risque de s’amplifier prochainement, les for- mations à la data science étant loin de couvrir les besoins du mar- ché. Une récente étude réalisée par McKinsey estimait qu’il man- quait d’ores et déjà 200 000 data scientists aux Etats-Unis, un chiffre qui dépasserait le million à l’orée 2020. Pour la France, le constat est le même d’après Stéphan Clémençon (Télécom-ParisTech) : Télécom-ParisTech Stéphan Clémençon Professeur et Responsable du Mastère Spécialisé Big Data La possibilité de valoriser efficacement les données numériques dont disposent les entreprises passent par la mobilisation de compétences bien précises. Le besoin de formation autour de la data se fait donc tout naturellement plus criant à mesure que les entreprises veulent maîtriser de mieux en mieux leurs données. Nous nous en rendons compte, à ParisTech, avec le succès de notre master dédié à ce domaine. Les formations autour de la donnée en France sont loin de pouvoir être considérées comme un enseignement supérieur de masse. Nos promotions regroupent une soixantaine d’élèves. Le nouveau master de l’Ecole polytechique - «mathématiques pour la science des masses de données» - a des promos de 80 élèves. Avec de tels effectifs, nous sommes loin de subvenir aux besoins de toutes les entreprises, d’autant que ceux-ci vont sans doute continuer de croître. ”” IN VIEWTER “ Aujourd’huinousprivilégionsla complémentaritédespersonnesausein del’équipeplutôtquedetrouverabsolument lesperlesraresmulticompétentes.  ”AccorHotels group Fabrice Otaño Face à ce manque criant de data scientists, il ne reste aux entre- prises que deux options pour combler leurs besoins : procéder à des recrutements en y mettant le prix, ou bien faire preuve d’imagi- nation, en remplaçant ce type de profil par de nouvelles manières de travailler ensemble.
  • 69.
    67 TRANSFORMATION DEL’ENTREPRISE “Dans la mesureoù il est quasi impossible d’attirer des profils de data scientists réunissant en une même personne toutes les qualités requises, il faut trouver d’autres moyens pour faire efficacement de la data science. Chez Publicis, nous cherchons à recréer cette compétence dans le cadre de notre pôle Data Intelligence, qui fonctionne de manière totalement adhocratique - certes nous avons des chefs de projet, mais par exemple, le Directeur de la production pourra très bien devenir chargé d’études dans le cadre d’un projet en particulier dans lequel il aura les compétences requises. Dans le cadre d’un projet spécifique, les hiérarchies sautent, afin de globaliser les compétences. ”Publicis Worldwide Samir Amellal International Chief Data Officer “Nous avons staffé cette année une équipe advanced analytics, composée d’une dizaine de data scientists que nous avons été cherchés presqu’entièrement par recrutement externe. Trouver de tels profils, c’est un gros investissement, étant donnée leur rareté. Il s’agit encore d’une compétence de niche. ”Schlumberger Olivier Brousseau IT Business Intelligence Strategy Manager Cequine s’achètepas s’invente “Nous avons mis en place un système de recrutement différencié , qui permet de cibler d’un côté des candidats au profil plutôt mathématicien, et de l’autre des profils plus orientés business. Ainsi, nous avons un laboratoire de R&D dans lequel on retrouve des profils hautement compétents puisqu’il s’agit de normaliens, de polytechniciens et d’universitaires et élèves de grandes écoles spécialisés dans le développement d’algorithmes spécifiques. Et par ailleurs, nous recrutons des «data scientists business», issus du milieu du «consulting» autour de compétences issues du Big Data dans ses implications concrètes et liées au business. ”Thales Communications et Sécurité Jean-François Marcotorchino Vice Président et Directeur Scientifique de Thales GBU SIX
  • 70.
    68 encyclopédie des bigdata “ Le Big Data a vu l’émergence de nouveaux mé- tiers comme le Chief Data Officer, le Data Analyst. Le plus prisé d’entre eux est celui de Data Scientist. Ce pro- fil est recherché car rare sur le marché, même si de nom- breuses écoles et universités ont inclus la data science dans les cursus de formation. Qu’est-ce qu’un bon Data Scientist ? Un scientifique avec des compétences métiers ? Un expert métier avec des connaissances informatiques ? La réponse n’est pas tran- chée. Ce qui est sûr, c’est que ses connaissances sont so- lides en informatique et mathématiques et qu’il a une ap- pétence pour le domaine d’application. La data science nécessite une ouverture d’esprit et une curiosité parfois en opposition avec la rigueur mathéma- tique car contrairement au Data Analyst qui s’intéresse souvent à une seule source de données (CRM, Supply Chain…) et ses structures, le Data Scientist doit corréler tous types de données et se concentrer sur le contenu. Il ne doit se fermer aucune porte et explorer toutes les pistes même les plus improbables. Toutefois, l’entreprise n’étant pas un centre de recherche, le Data Scientist Ma- nager a un rôle essentiel : il fixe les limites en fonction des ROI et assure la pérennité des recherches. Grâce à l’excel- lence de ses mathématiciens, la France a un rôle majeur à jouer sur le développement de la data science.  ”Laurent Sergueenkoff Analytics Platform Sales Team Leader IBM France D’ex pert AVIS
  • 71.
    69 Idéalement, au seind’une entreprise, tous les départements s’efforcent d’œuvrer ensemble et dans une même direction. Pourtant, l’architecture verticale traditionnelle des sociétés peut pousser certains secteurs à être motivés par des intérêts divergents, voire à s’opposer. La façon dont vont se répartir les données dans le système d’information met en lumière ces divisions. Même si elle irrigue toute l’entreprise la data va ainsi se retrouver capturée dans des silos, où elle sera exploitée de façon isolée par les différents secteurs. Or pour profiter à plein des avantages et des nouvelles opportunités de croissance offertes par la donnée, il va justement falloir faire circuler de façon fluide cette dernière, et instaurer une data gouvernance transverse, à l’échelle de l’entreprise. DÉsilotage TRANSFORMATION DEL’ENTREPRISE “ Ladatanedoit passetrouver dansunsilo enparticulier etuneDataDriven Organisationsedoit avanttoutechose, decasserlessilos.  ”Publicis Worldwide Samir Amellal
  • 72.
    70 “Trouver la bonne gouvernance dela donnée, c’est loin d’être évident. Chez nous, la donnée a été, historiquement, toujours très silotée (marketing, digital, CRM, SI, service client, direction commerciale, DAF). La donnée est partout, mais traitée de façon isolée par des gens qui ne se parlent pas forcément, qui ne partagent pas ce qu’ils savent. Si l’on entend fluidifier la data, il est nécessaire d’organiser une gouvernance transverse de la donnée. ”Numericable-SFR Morgane Castanier Directrice Data et CRM “ Nous avons la conviction que la data, à partir du moment où elle n’est plus information brute, mais qu’elle a été transformée en information utile, doit permettre de piloter efficacement une organisation, et de prendre des décisions, que ce soit pour mieux adresser son marché, pour améliorer un service, etc… La data ne doit pas se trouver dans un silo en particulier, et le CDO ne doit pas être rattaché à un service particulier, mais aux services centraux. Une Data Driven Organisation se doit, avant toute chose, de casser les silos. ”Publicis Worldwide Samir Amellal International Chief Data Officer De telles mesures passent nécessairement par une réduction, voire une suppression pure et simple des silos traditionnels, comme l’expliquent Morgane Castanier (Numericable - SFR) et Samir Amellal (Publicis Worldwide) : HAROsur les silos encyclopédie des big data
  • 73.
    71 Cette ambition debriser les silos va toutefois se heurter à de nombreuses résistances. Voilà ce qu’explique Samir Amellal (Publicis Worldwide) : IN VIEWTERPublicis Worldwide Samir Amellal International Chief Data Officer Les silos peuvent s’avérer très résistants dans une entreprise et ce pour deux raisons principales : - la première est d’ordre politique, car dans l’engouement autour de la data, tout le monde a l’ambition de prendre le lead, et donc de garder la main sur le sujet. Conserver sa donnée qui n’est autre que de l’information, c’est aussi, pense-t-on, conserver le pouvoir. - la seconde est inhérente à l’organisation de l’entreprise. Lorsque celle-ci est mécanique, pyramidale, les silos se constituent naturellement. On voit apparaître aujourd’hui des entreprises digitales qui acceptent plus de porosités, utilisant la data comme un liant de toute l’entreprise.  ” TRANSFORMATION DEL’ENTREPRISE
  • 74.
    72 encyclopédie des bigdata Afin de réussir au mieux cette étape du désilotage il va donc falloir veilleràbienfairecomprendrel’intérêtetlesbienfaitsd’unetelleopé- ration à toute l’entreprise. Ce qui passe, nous expliquent Elisabeth Zehnder et Joël Aznar, par trois étapes clés : la prise de conscience, une communication efficace en interne, et un sponsorship ferme. “Briser les silos, c’est le plus grand challenge de la data gouvernance. Et dans ce cadre, la première difficulté va être la prise de conscience de ce défi, sans laquelle on continuera à prêcher dans le désert. Chez nous il a fallu par exemple apprendre d’abord à améliorer la collaboration entre les fonctions Achats et Finance, pour prendre conscience qu’on avait besoin de part et d’autre d’un partage commun sur la cible à mettre en avant si l’on souhaitait relever des défis comme le “Source-to-Pay” par exemple. On ne peut pas se contenter de faire chacun de son côté la moitié du chemin. Il faut partager, intégrer les contraintes des uns et des autres, et ne pas se contenter d’imposer sa vision. Le sponsorship suit tout naturellement une fois qu’une telle prise de conscience a eu lieu. ”Schneider Electric Joël Aznar Global Purchasing - Director, Master Data Governance Ouvrir Lesyeux, discuter, ettenir fermement labarre “ Le sponsorship va aussi être crucial pour désiloter efficacement. Chez nous, le sponsor du projet data et connaissance client, c’est le Directeur web et marketing. Mais le DSI est aussi porteur du projet. ”Kiabi Elisabeth Zehnder Data Scientist
  • 75.
    73 TRANSFORMATION DEL’ENTREPRISE Début 2001, desexperts du monde du logiciel se réunissent aux Etats-Unis pour débattre de la meilleure façon de développer des applications informatiques au sein d’organisations confrontées aux premiers bouleversements du numérique. De leurs conversa- tions naîtra le Manifeste agile (Agile manifesto), promouvant, face au modèle de développement en cascade, une méthode fondée sur quatre grandes valeurs : l’équipe (privilégier les interactions entre individus aux processus et aux outils), l’application (produire des logiciels opérationnels plutôt qu’une documentation exhaustive), la collaboration (collaborer avec les clients plutôt que négocier contractuellement) et l’acceptation du changement (s’adapter au changement plutôt que s’en tenir à un plan). Au delà du monde de l’informatique où il a vu le jour, un tel état d’es- prit trouve tout naturellement sa place dans des projets associés au Big Data. Il va non seulement promouvoir des façons de faire plus souples et rapides (test & learn, POC - proof of concept), mais aus- si résoudre des problèmes de compétences (la rareté notamment des profils de data scientists) en mixant les équipes et en les inci- tant à collaborer étroitement. C’est sur ce dernier point qu’insistent Christèle Baranco (LCL) et Morgane Castanier (Numericable-SFR) : MODE AGILE
  • 76.
    74 “Afin de fonctionner enmode agile, et de bien faire travailler métiers et IT ensemble, nous avons mis en place des plateaux agiles qui mélangent des équipes techniques, des équipes qui font de la gestion de projet, des data scientists, et des gens du métier. Il faut pouvoir itérer en permanence, passer par des phases de sprint, montrer des avancées rapidement, en tirer des enseignements, et des usages. Nous avons actuellement une POC sur des données qui doivent nous permettre de déterminer des comportements de consommation chez nos clients. Nous la menons en mode agile, ce qui est bien perçu par nos équipes. ”LCL Christèle Baranco Responsable Analyse de la Donnée Client Lecredo dela souplesse etde l’inventivité “ Utiliser et généraliser les méthodes agiles, avec des core teams intégrant des gens du métier, des data scientists, des data managers et des ingénieurs, c’est capital. Nous sommes en train de mettre en place une gouvernance pour essayer d’en faire de plus en plus, car à chaque fois que nous avons eu recours à de telles méthodes sur des projets Big Data, cela s’est avéré fructueux. ”Numericable-SFR Morgane Castanier Directrice Data et CRM encyclopédie des big data
  • 77.
    75 Le monde dudigital en général, et celui du Big Data en particulier, s’accom- mode mal des lourdeurs et de l’inertie de la gestion de projet à l’ancienne. Il va au contraire exiger de la rapidité et de l’agilité dans les actions, et une capacité, aussi, à aller chercher l’innovation sans être paralysé par la peur de se tromper. Le test & learn, à la fois méthode de travail et façon d’appré- hender le business très anglo-saxonne, s’accorde parfaitement à ces nouvelles exigences. Le principe : lancer un chantier à petite échelle, dont il va être possible de mesurer rapidement la pertinence et l’ef- ficacité. Puis, dans la foulée, multiplier les retours d’expérience pour déterminer ce qui a bien marché, ce qui a moins bien marché, et ce qui n’a pas marché du tout. A partir de là, procéder touche par touche à l’amélioration du processus. La phase de test s’achève une fois que tous les enseignements ont été tirés, avec alors la possibilité soit de faire aboutir le projet en le déployant à plus large échelle, en l’indus- trialisant, soit de l’abandonner au profit d’un nouveau. Plus qu’une façon de faire, le test & learn constitue une disposition d’esprit, des- tinée, selon Laurent Aliphat (Renault) et Tania Aydenian (Orange Technocentre) à irradier dans toute l’entreprise : “Commencer humblement, puis itérer, réajuster, enrichir au fur et à mesure - bref, fonctionner en test & learn - nous adoptons la démarche du MVP (Minimum Viable Product) permettant de répondre aux besoins des clients. Cette approche trouve naturellement sa place au sein du Technocentre Orange. L’ambition est de tester ces nouvelles méthodes de travail à l’heure du numérique, au travers de programmes larges, complexes, et multiprofils. Cette approche a vocation à être étendue au sein des différents départements d’Orange. ”Orange Technocentre Tania Aydenian Directrice du Programme Datavenue “ La généralisation de l’approche en test & learn chez Renault est liée à la création de la Digital Factory il y a quatre ans. Déjà à l’époque, il s’agissait d’un maître mot, qui incarnait la façon dont le management souhaitait que les équipes travaillent. Plus qu’un outil, c’est un état d’esprit, qui oppose, à des approches conservatrices, l’agilité, la mobilité, et l’envie de tester des approches innovantes. ”Renault Laurent Aliphat Head of Digital Performance and Lead Management inthe mood for test TEST &LEARN TRANSFORMATION DEL’ENTREPRISE
  • 78.
    76 Etape ultime dece nouveau mindset : la dédramatisation de l’échec, considéré non plus comme une menace dans la conduite d’un projet, mais plutôt comme une opportunité de rebondir, poursuit Laurent Aliphat (Renault) : Renault Laurent Aliphat Head of Digital Performance and Lead Management Quand une entreprise s’inscrit dans une démarche de transformation digitale, le test & learn est souvent le premier maillon d’une chaîne qui très vite évolue vers le fail fast. Alors que dans le test & learn il faut toujours faire la preuve, apporter du feedback positif, le fail fast va exprimer le bénéfice de l’échec, et les apprentissages qui en découlent. Les récents exemples de succès dans l’univers des startups ou même dans les grosses entreprises qui ont réussi leur adaptation à un monde digitalisé, se sont appuyés sur ces énergies nouvelles qui apparaissent lorsqu’on supprime la peur de l’échec. ”” IN VIEWTER encyclopédie des big data
  • 79.
    77 TRANSFORMATION DEL’ENTREPRISE “ Les tâches d’extractionde valeur d’un jeu de données sont très diverses et variées. Parfois de qualité insatisfaisante, parfois de volume trop important, le jeu de données ne présente pas, en son sein, de tâche d’analyse à appliquer. Il est souvent nécessaire d’expéri- menter plusieurs méthodes, de les confronter à la réalité du terrain, et retourner à l’expérimentation jusqu’à satisfac- tion du commanditaire final. Ainsi les méthodes d’analyse de données ont emprunté des méthodologies à d’autres domaines de compétences comme le développement in- formatique ou la création d’entreprise. Les méthodes test & learn font référence à un ensemble de pratiques abordées lors de la réalisation d’une tâche d’analyse pour un cas d’usage particulier. Ainsi, ce cas d’usage doit connaître une performance initiale qui doit être améliorée lors de la mise en production d’une nouvelle application utilisant une analyse de données. Un plan d’expérimentation doit pou- voir évaluer chaque maillon de la chaîne de traitement, et au fur et à mesure de l’amélioration des composants de la chaîne, une amélioration quantitative ou qualitative de la chaîne de traitement doit être apportée : jeu de données à hypothèse, à développement d’un test, à implémentation du test, à évaluation de l’amélioration de la performance, et ainsi de suite jusqu’à satisfaction.  ”Marc Damez-Fontaine Senior Manager PwC D’ex pert AVIS
  • 80.
  • 81.
    79 3. ASPECTS TECHNIQUES A/B Testing,Data warehouse, Real Time Bidding, API… Le monde du Big Data se définit d’abord par un fort degré de technicité, qui suppose de connaître et de manier un grand nombre de processus. Mais avant cela, encore faut-il pour les entreprises identifier ceux qui seront les plus à mêmes d’apporter des bénéfices concrets, et de déboucher sur des cas d’usage.
  • 82.
    80 Cette méthode detest randomisé s’appuie sur un principe on ne peut plus simple : comparer les résul- tats respectifs de deux variantes, la première, A, constituant la norme de l’expérience, la seconde, B, contenant un élément divergent sus- ceptible d’avoir un impact sur la cible étudiée. Il s’agit donc d’une hy- pothèse de test à deux échantillons, qui va permettre d’identifier qui de A ou de B se montre statistiquement le plus performant. Utilisée initialement dans le marketing, cette technique a d’abord consisté, tout simplement, à proposer deux variantes d’un même objet dif- férant en un point (le logo, la couleur d’une typo ou d’un paquet). S’étendant par la suite à une kyrielle d’autres situations, l’A/B testing est surtout devenu un incontournable de la communication en ligne et de la business intelligence, que l’on parle de campagnes d’emai- ling ou d’affichage de site web. Dans ce dernier cas, on va pouvoir tester sur deux groupes de visiteurs, deux versions différentes d’une même page en faisant varier un grand nombre de combinaisons (boutons, images, taille et emplacement des éléments, présence ou non de vidéos) jusqu’à élaborer la mouture la plus efficace. En faisant dépendre un choix marketing non plus d’une intuition, mais d’un raisonnement assisté par de la statistique et de la donnée, l’A/B testing constitue un bon exemple de décision data driven  . Même s’il ne s’agit pas à proprement parler de Big Data, sa généralisation au sein d’une entreprise est un bon indicateur de maturité digitale. Ce que soulignent Angélique Bidault-Verliac (Voyages-sncf.com) et Max Vallejo (Air France – KLM) : A/B testing encyclopédie des big data
  • 83.
    81 “Pour une compagniequi se veut data driven, l’A/B testing est une vraie révolution. Avec une telle méthode il ne s’agit plus de procéder à une refonte de site du jour au lendemain sur la base d’une intuition, mais de modifier à la marge plusieurs petites choses concrètes qui amélioreront les KPI, et transformeront au fur et à mesure le site. Chez Voyages-sncf.com, nous souhaitons généraliser l’usage de l’A/B testing pour s’assurer systématiquement que les solutions qui performent le mieux seront aussi celles qui se trouveront exposées en priorité aux clients. ”Voyages-sncf.com Angélique Bidault-Verliac Responsable du Pôle Data & Webmining “ Au moment de monter une campagne, nous allons procéder à un échantillonnage de 5% sur un en-tête A, et à un autre, de même valeur, sur un en-tête B. Celui qui scorera le mieux sera utilisé sur les 90% de la base restante. Cette logique d’A/B testing a des résultats incontestables, et c’est une méthode simple, facile à comprendre… pour peu que l’on définisse bien version A et version B, et que l’on maîtrise le concept de significativité. Pour qu’elle soit encore plus efficace, il faut être aussi capable de l’utiliser fréquemment et d’en faire baisser le coût opérationnel. ”Air France-KLM Max Vallejo Head of eCRM, Digital Department LE B-A-BA du test A/B TRANSFORMATION DEL’ENTREPRISE ASPECTS TECHNIQUES
  • 84.
    82 encyclopédie des bigdata “ Les tests A/B sont une technique qui consiste à expéri- menter deux variantes d’un même objet auprès d’une même audience. Il s’agit par exemple, pour faire passer un même message, d’utiliser des visuels différents ou d’opter pour différentes stratégies en alternance – fréquence ou véloci- té – avec toujours la même exécution créative. Cette technique peut également permettre de tester des créations de formats différents. Lorsque les tests A/B sont utilisés en début de campagne, ils aident l’annonceur en lui indiquant très vite la création à la- quelle l’audience répond le mieux. Cela permet d’optimiser en temps réel la campagne, avant qu’elle n’arrive à son terme, en choisissant la variante la plus fructueuse. ”Kamal Mouhcine Directeur Commercial en Europe du Sud Turn D’ex pert AVIS IN VIEWTER Solocal Group - PagesJaunes Bruno Guilbot Responsable Smart Data et Advanced Analytics L’A/B testing est une manière simple de démontrer l’intérêt du Big Data pour l’entreprise, via des exemples concrets, des gains rapides et directement mesurés. C’est une très bonne première étape dans la démarche Big Data. Nous l’utilisons pour notre part en continu pour optimiser les performances de nos sites tant sur des aspects ergonomiques que sur les systèmes backoffice (algorithmes du moteur PagesJaunes par exemple). Lors de la refonte du site pagesjaunes. fr en début d’année nous nous sommes appuyés sur de nombreux tests A/B : cela nous a permis de faire évoluer très positivement le taux de clics vers nos professionnels, en changeant le wording ou des aspects graphiques (par exemple via l’ajout d’aides à la lecture). ”
  • 85.
    83 OUTILS Cette plateforme techniquequi permet de traiter et d’optimiser en temps réel les ventes et les achats programmatiques entre annonceurs et éditeurs, l’Ad Exchange constitue le cœur du RTB  . Il vient ainsi apporter une réponse à deux aspects caractéristiques de la publicité display : la fragmentation et l’explosion de l’offre d’espaces d’une part. La volonté de faciliter et de mieux structurer le flux de données en tendant vers le temps réel  , de l’autre. Son fonctionnement peut se résumer ainsi : l’ API est chargée de pous- ser les impressions disponibles (et les audiences qui leur sont asso- ciées) vers les acheteurs potentiels. Après avoir pris en compte une multitude de critères de ciblages et de niveaux d’enchères définis au préalable, l’Ad Exchange fait matcher demande et offre. Cette automatisation des transactions fait que les enchères se déroulent non seulement en temps réel, mais sans qu’acheteur et éditeur n’entrent jamais en contact. Stéphane Père (The Economist) compare un tel système aux plate- formes de trading du monde de la finance, avec lesquelles il partage, outre les mécanismes de base, une certaine forme d’opacité : “   Les Ad Exchange offrent la capacité de connecter l’offre et la demande en terme d’inventaires publicitaires, dans une logique de place de marché qui s’apparente au monde de la finance. Il s’agit d’une plateforme d’intermédiation et donc de trading. Il y a encore beaucoup d’intermédiaires entre offre, demande, et Ad Exchange, ce qui nécessite de se demander : qui capte la valeur ? Qui doit prendre la main ? D’autant qu’il s’agit là d’un monde en pleine mutation, qui est en train de se doter de règles d’usage qui n’existaient pas auparavant. ” The Economist Stéphane Père Chief Data Officer (Global) Ad EXCHANGE ASPECTS TECHNIQUES
  • 86.
    84 Les Application Programming Interface(interface de pro- grammation) sont des solutions informatiques regroupant un en- semble de méthodes, de fonc- tionnalités, et de routines, qui vont s’intercaler entre un logiciel et d’autres logiciels, afin de permettre aux seconds (programmes consommateurs) d’utiliser les fonctionnalités du premier (pro- gramme fournisseur). Une API est ainsi, en quelque sorte, une porte qui, tout en masquant la complexité intrinsèque d’un système, ouvre l’accès à un certain nombre de ses fonctions standard. De même qu’un conducteur n’a pas besoin de connaître le fonction- nement du moteur de sa voiture pour se servir d’un volant, un dé- veloppeur n’aura ainsi pas à se soucier du fonctionnement réelle d’une application distante pour l’utiliser dans un programme. API encyclopédie des big data “ Pourrestituerladonnée collectéeouachetée surlemarché,ilfautdesAPI. Cesontellesquivontpermettre des’interfaceravecdesacteurs externesàl’entreprise.  ”Groupe Argus Benoît Chéroux
  • 87.
    85 “ Nous commençons à déployernos premières API, ouvertes dans un premier temps à nos clients, puis au marché. Ces API permettront d’abord de donner accès à deux types d’information : • le référentiel véhicule (l’ensemble des véhicules commercialisés en France depuis plus de 30 ans) : liste des marques, modèles, éléments techniques… qui pour l’instant n’était livré que sous forme de fichier • la cote Argus®, à laquelle on pourra désormais accéder via une API de valorisation contenant également nos indicateurs Valeur Argus Transactions® et Valeur Argus Annonces® (entre autres). ”Groupe Argus Benoît Chéroux Responsable Données & Modélisations Des API few de plus en plus nombreux ! Nombreuses sont les entreprises à être attirées par les promesses de simplification et de nouveaux usages offertes par les API, comme en témoignent Benoît Chéroux (Groupe Argus) et Aude Launay (Bouygues Telecom) : “Un exemple d’utilisation d’API : éviter aux banques de couper les cartes bancaires à mauvais escient lors d’un paiement à l’étranger, en recoupant la localisation du pays de retrait avec celui du mobile. Nous sommes en train de réfléchir à une offre de ce genre autour d’une API en temps réel utilisée quand les banques émettent un doute sur l’utilisation frauduleuse de la carte. Actuellement elles préfèrent couper les cartes, avec les inconvénients afférents lors d’une utilisation classique pour les touristes concernés. ”Bouygues Telecom Aude Launay Big Data Business Manager ASPECTS TECHNIQUES
  • 88.
    86 Cependant, comme lesouligne NicolasGaude(BouyguesTelecom), malgré ce fort intérêt pour les API, le marché a encore besoin de gagner en maturité pour pouvoir profiter à plein de leur efficacité : encyclopédie des big data “   Pour l’instant, les offres Big Data offertes aux entreprises sont plutôt packagées sous la forme de services professionnels que sous la forme de données pures à proprement parler. A terme cependant, lorsque le marché sera plus mûr, on se mettra à acheter de la donnée enrichie. C’est dans ce cadre que les API, au sens SaaS, pourront aider à fluidifier les échanges. Aujourd’hui, certes, l’appétence qu’a le marché pour les API est forte, mais dans les faits, lorsqu’elles sont mises à disposition, les entreprises ne savent plus quoi en faire et requièrent une prestation de conseil associée. ”Bouygues Telecom Nicolas Gaude Senior Data Scientist
  • 89.
    87 En dématérialisant l’usagequi est fait des données, les Cloud Data Services constituent pour l’architecture informatique des entreprises l’opportunité d’une évo- lution vers plus de flexibilité. Outre cet impact sur la structure même des systèmes d’information, ils vont aussi se révéler une formidable opportunité business pour celles et ceux qui sauront les utiliser à bon escient. L’intérêt croissant que suscite ce mind changer n’est du reste pas prêt de se démentir. D’autant qu’il constitue une façon idéale d’aborder, pour la première fois, le vaste territoire des Big Data. “  Les Cloud Data Services permettent de se familiariser avec des traitements nouveaux de la donnée, et de mettre un premier pied dans les Big Data. Au début, on va commencer par un sandbox, un POC. Puis, on va passer au cloud, sur lequel il ne sera pas nécessaire d’investir un budget trop important. Et enfin, on opérera une transition vers des solutions plus hybrides. En somme, les Cloud Data Services sont une bonne option pour les PME qui n’ont pas la possibilité d’avoir leurs propres infrastructures. Pour les sociétés du CAC 40, ça va être surtout un bon début, mais elles ne pourront, à terme, s’en contenter. ”Sogeti Aroua Biri Architecte Cybersécurité & Big Data CLOUDDATA SERVICES SNCF Maguelonne Chandesris Responsable de l’équipe Innovation & Recherche «Statistique, Econométrie et Datamining» On a l’impression que le cloud, c’est la dématérialisation de la donnée. Mais l’hébergement de la donnée dans des serveurs physiques, c’est quelque chose qui est très concret, et qui a, par exemple, un vrai impact écologique. On ne se pose pas aujourd’hui la question de l’économie globale autour de la donnée, car on est encore dans une phase d’abondance, et pas d’efficience. ”” IN VIEWTER ASPECTS TECHNIQUES
  • 90.
    88 encyclopédie des bigdata “ Lanotionde“cloudcomputing” recouvre des services différents selon les prestataires et les contrats pro- posés laissent parfois le client dans le brouillard… Une définition “officielle” a été publiée au Journal Officiel du 6 juin 2010 : “Le cloud computing est une forme parti- culière de gérance de l’informatique, dans laquelle l’emplacement et le fonctionne- ment du nuage ne sont pas portés à la connaissance du client”. En pratique, on constate cinq caractéris- tiques essentielles au Cloud Computing. - Le “self-service à la demande” (c’est le client qui détermine ses besoins en capacité de calcul, de stockage, etc., le service lui est rendu, sans intervention humaine, de ma- nière automatique, - Le “large accès au réseau” via une multiplicité d’appareils per- mettant de se connecter à l’internet (PC, Mac, tablettes, smartphones…), - La “mise en commun de ressources” qui permet de servir plusieurs clients à partir d’une installation unique. Les ressources physiques et virtuelles sont attribuées de manière dyna- mique en fonction de la demande. Le client ignore la localisation des res- sources mises à sa disposition, mais peut prévoir une localisation dans un pays ou un data center spécifique. - La “grande souplesse” permettant au client de demander, à tout moment, toute “quantité” en termes de puissance informatique, sans limitation, de sorte à l’adapter, à la hausse comme à la baisse à ses besoins, - La “mesure des services” qui permet une transparence en termes de “quantité” et de “qualité” de service. Il existe 3 modèles principaux de fourniture de service (“as a Service”) du Cloud Computing : - Infrastructure as a Service (IaaS), - Platform as a Service (PaaS), - et Software as a Service (SaaS). Le plus souvent les offres de services “cloud” sont proposées par le presta- taire sous forme de contrat d’adhésion (contrat en principe non négociable). L’explication réside dans le fait que le “Service” est modélisé pour le plus grand nombre et que tant la construc- tion technique qu’économique de l’offre est fondée sur ce principe. La capacité de négociation de tels contrats dépend donc le plus souvent de la taille du prestataire… Le client, s’il ne peut négocier, pourra toujours com- parer les conditions contractuelles pro- posées par les différents prestataires. En effet, les engagements d’un prestataire peuvent être plus ou moins adaptés à ses besoins. Le client veillera plus particulièrement aux clauses relatives aux niveaux de ser- vices (le plus souvent regroupés au sein d’une convention de services ou “SLA”), aux conditions de reversibilité, à la limi- tation de responsabilité du prestataire et aux modalités de détermination du prix. juridiqueHocheAvocats encyclopédie des big data DE VUE point
  • 91.
    89 Les enjeux d’uncontrat de SaaS Le SaaS ne fait pas l’objet d’une défini- tion légale et peut selon les prestataires revêtir différentes formes. On comprend dès lors l’intérêt d’une rédaction précise des droits et obligations de chaque par- tie dans le contrat qui va les lier. Le service sous mode SaaS consiste à fournir à un client la possibilité d’utiliser via l’internet, sur une infrastructure de type“cloud”,desapplicationsoulogiciels mis à sa disposition par le prestataire. Les applications sont accessibles sur les différents équipements du client soit par le biais d’une interface client, en usant d’un navigateur web (par exemple, pour le cas d’une messagerie électronique), soit par le biais de l’inter- face d’un programme. L’utilisateur ne gère pas ou ne contrôle pas l’infrastruc- ture cloud sous-jacente, incluant le réseau, les serveurs, les systèmes d’ex- ploitation, les systèmes de stockage et même les capacités de chacune des applications, sauf dans le cas où l’appli- cation fait l’objet d’une limitation quant au nombre d’utilisateurs, en raison de configurations spécifiques. L’offre SaaS peut impliquer l’interven- tion de plusieurs prestataires (le presta- taire principal qui conclut avec le client, l’éditeur qui fournit le logiciel ou l’ap- plication, un hébergeur, un prestataire assurant les sauvegardes, un fournis- seur d’accès à internet…) ce qui génère des enjeux juridiques différents pour le prestataire de solution SaaS et le client. Le client veillera à avoir pour seul inter- locuteur contractuel le prestataire de services SaaS (et selon les cas le fournis- seur d’accès à internet). C’est avec celui-ci qu’il va négocier les éléments principaux du contrat : - disponibilité du service (temps d’intervention et de résolution des anomalies, pénalités applicables), - performance du service (temps de réponse, pénalités applicables), - conditions d’évolution du service, - prix (modalités de détermination et de paiement), - hébergement des données (dans certains cas le client souhaitera que ses données soient hébergées en France ou dans l’Union Européenne) - sécurité des données (confidentialité, cryptage, intégrité, disponibilité), - garantie d’éviction quant à l’utilisa- tion des logiciels ou applicatifs, - responsabilité en cas de perte de données (limitation de responsabili- té, assurance), - réversibilité (procédure de réversibili- té et mise à jour, prix). Le prestataire de la solution SaaS veille- ra quant à lui à répercuter a minima sur ses différents prestataires ou sous-trai- tants les obligations qu’il aura lui-même souscrites envers son client. ” ASPECTS TECHNIQUES Hoche Avocats Régis Carral Avocat – Associé
  • 92.
    90 encyclopédie des bigdata Aussi appelé exploration ou fouille de données, le data mining consiste à ex- traire de la connaissance et des apprentissages dans les monceaux d’informations stockées par les systèmes informatiques. Grâce à un ensemble d’ algorithmes is- sus du monde de la statistique et de l’intelligence artificielle, cette phase d’exploration va permettre de tirer des enseignements de la donnée, et, in fine, de la valeur. Pour le monde des entreprises, il s’agit là d’une aubaine qui intéressera aussi bien le secteur de la connaissance client (optimisation des sites web et des parcours uti- lisateurs), que celui de la sécurité (renforcement des dispositifs de data safety  ) ou l’industrie (nouvelles opportunités offertes par la maintenance prédictive  ). Comme le fait remarquer Pascale Dulac (France Loisirs), le data mining n’est toutefois pas une discipline nouvelle, mais plutôt un champ qui va trouver une ampleur nouvelle à l’ère du Big Data : DATA MINing IN VIEWTER France Loisirs Pascale Dulac Responsable Connaissance Clients Nous avons une équipe de data mining quasiment depuis une éternité ! Les nouveaux usages vont tourner autour de l’enrichissement de l’information présente dans nos bases, rechercher, étape par étape, de nouvelles sources pour affiner ces dernières. L’arrivée du Big Data va se traduire par un changement progressif de ces équipes de data mining pour tenir compte des nouvelles exigences technologiques, et surtout de la nouvelle façon d’appréhender la donnée dans son ensemble. ”
  • 93.
    91 ASPECTS TECHNIQUES Le data miningregroupe plusieurs sous-disciplines d’extraction de données, comme la fouille de textes (  text mining  ), de sites internet (web data mining), d’images (image mining) ou de flot de données (data stream mining). Il va également constituer une étape cruciale dans certaines disciplines data driven, à com- mencer par le machine learning comme l’explique Nicolas Gaude (Bouygues Telecom). “  Le data mining est une étape capitale pour extraire les bonnes données, et éviter que les machines, via le machine learning, se retrouvent à apprendre du bruit. Il est pour l’instant nécessaire d’avoir une barrière à l’entrée, un être humain qui va sélectionner les données pour éviter que la machine ne se perde. ”Bouygues Telecom Nicolas Gaude Senior Data Scientist
  • 94.
    92 encyclopédie des bigdata Les entrepôts de données sont des bases dans les- quelles vont être stockées une partie des données fonctionnelles d’une entreprise en vue de leur utilisation pour des usages précis. L’information qui entre dans les data warehouses est issue de sources hétérogènes, ce qui va nécessiter de les homogé- néiser pour permettre de les qualifier et de les intégrer. Ce n’est ain- si qu’une fois que les données auront été structurées qu’elles pour- ront être mises en rayon. On y aura alors recours pour des analyses précises, et récurrentes, en suivant des routines clairement définies. Dans ce sens le data warehouse a une forte connotation silo – il va stocker un certain type de données qui seront structurées en fonc- tion d’un certain type d’usage – contrairement au data lake qui gardera la donnée dans son format natif, permettant de l’interroger par la suite dans le cadre d’analyses très variées. Ces deux fonctions ne s’opposent pas, et sont au contraires complémentaires. Le data warehouse se montrant notamment bien plus performant pour procéder à des analyses répétitives. IN VIEWTER Voyages-sncf.com Angélique Bidault-Verliac Responsable du Pôle Data & Webmining Chez nous, la notion de data warehouse est historiquement connectée à de la donnée « froide » collectée à j+1 (achats, éléments clients) même si on y injecte des données de navigation sous forme d’agrégats. Ces data warehouses traditionnels ont été chamboulés par l’arrivée d’Hadoop. Le nôtre, qui a une dizaine d’années, s’appuie sur une donnée nettoyée et structurée, sur laquelle nous produisons directement tous nos reportings utilisés pour le pilotage business. La coexistence de cet environnement ancien, fort d’une longue expérience, avec les nouveaux environnements plus orientés Big Data, est un défi parfois compliqué à tenir, et qui nous fait nous poser plusieurs questions, dont la principale n’est pas la plus simple à trancher : doit-on faire évoluer notre data warehouse actuel ou bien le remplacer purement et simplement par de nouvelles solutions technologiques permettant le passage au temps réel et susceptibles de bousculer nos méthodes de reporting ? ” DATA warehouse
  • 95.
    93 ASPECTS TECHNIQUES Comment dénicher, dansl’immense masse indéterminée des in- ternautes qui se connectent au site d’une entreprise, les profils de ceux qui s’avéreront les plus intéressants pour cette dernière ? C’est à cette question que sont censés répondre les modèles de look-alike. La méthode permet d’assimiler, grâce à son cookie de navigation, un individu dont on ne sait a priori rien, à un type de comportement déjà bien connu (parce que clairement identifié dans sa DMP  ) et qui a été étiqueté comme porteur de valeur. Cette recherche de jumeaux statistiques va ainsi accroître l’audience quali- fiée qui sera ensuite visée par des campagnes marketing. Look-alike Modeling “ Lelook-alikemodeling, celaressemblebeaucoup àduprédictifappuyésurdu scoring.C’estunproduitde l’A/Btestingauquelnousavons beaucouprecourspouranalyser descomportementspostachat.  ”GrandVision Pierre-Marie Desbazeille
  • 96.
    94 encyclopédie des bigdata “ Le look-alike modeling est un sujet qui a extrêmement bien marché chez nous. Sur nos parcours e-business sur site, nous cherchons à identifier via les informations indiquées par les répondants s’ils constituent des prospects à forte valeur ou non. Pour cela, nous allons par exemple, dans le secteur de l’automobile, utiliser des critères comme le type de véhicule, la durée de détention, l’ancienneté de permis, la sinistralité, le coefficient de réduction, etc. Grâce à ça, on est en mesure dans un premier temps d’établir des scores de valeur. Puis le look-alike modeling va permettre de modéliser, dans un bucket de profils inconnus, ceux qui sont les plus proches des profils connus détenteurs des plus hauts scores. On va pouvoir dès lors les cibler en média, et vérifier la pertinence du score. Par rapport à un taux de prospects à forte valeur naturelle, le taux des prospects ciblés après ce travail en look-alike modeling a vu sa valeur multipliée par deux. ”AXA France Jonathan Badoux Responsable Outils Digitaux La simplicité théorique de ce modèle de recherche de prospects à haut potentiel attire de nombreuses entreprises… qui com- mencent déjà à en récolter les fruits, comme le confirment Pascale Dulac (France Loisirs) et Jonathan Badoux (AXA France) : Chacun cherche sesjumeaux statistiques “Dans nos campagnes de recrutement sur internet, nous avons commencé à mettre en place, au printemps, des logiques de recherche de jumeaux. Il s’agissait par exemple de rechercher des profils de gros lecteurs, pour pouvoir cibler plus tard plus facilement en amont les gens susceptibles d’être intéressés par certaines de nos offres. Les résultats se sont avérés plutôt bons, mais pour qu’ils soient encore meilleurs, il va nous falloir affiner le processus. ”France Loisirs Pascale Dulac Responsable Connaissance Clients
  • 97.
    95 ASPECTS TECHNIQUES “ Le grand potentieldu look-alike modeling aujourd’hui repose sur l’émergence récente d’acteurs ouvrant des bassins d’audience gi- gantesques à la publicité, comme Facebook ou Amazon. Les dernières évolutions technologiques et statistiques ont révolutionné les façons d’ache- ter la publicité : plutôt que de cibler des segments descriptifs sur la base d’in- tuitions et de préconceptions (ex : mon produit A est conçu à destination des hommes de moins de 35 ans vivant en milieu urbain, je vais donc cibler ce segment), on peut désormais s’affranchir de la recherche de caractéristiques descriptives pour qualifier une cible. Adieu la ménagère de moins de 50 ans ! On peut désormais par exemple, à partir d’une liste d’individus connus dont le seul point commun identifié par l’humain sera d’avoir fait 3 achats dans les 6 derniers mois sur un site, trouver des individus inconnus, dont on prédit qu’ils en feront de même s’ils sont amenés sur le site. Les machines peuvent en effet prendre en compte des combinaisons de variables que l’esprit hu- main ne pourrait synthétiser en concepts, et les analyser en quantités bien supérieures. Les larges bassins d’audience qualifiés des grands ac- teurs publicitaires cités plus haut permettent alors de trouver des profils jumeaux de façon très fine. ” Lan Anh Vu Hong Marketing Lead 55 D’ex pert AVIS The Economist Stéphane Père Chief Data Officer (Global) Le look-alike modeling permet souvent de se rendre compte qu’il n’existe en réalité pas réellement d’attribut décisif pour définir un profil type. Mais plutôt une somme d’attributs. Alors qu’auparavant le media planing tradition- nel reposait sur des critères précis (âge, sexe, éducation, revenus, centres d’intérêts), nous avons tendance aujourd’hui à identifier nos prospects en partant de nos abonnés. Nous utilisons le look- alike pour les cibler et avons une stratégie qui va adapter les créas au centre d’intérêt ainsi qu’au contexte de diffusion. Les profils, vont être une somme de tous les critères accumulés par la DMP, si bien qu’au final, nous nous affranchissons de la logique catégorielle. Le ciblage des profils pertinents fonctionne un peu comme une black box, mais permet pourtant une vraie hausse du taux de transfo. ”” IN VIEWTER
  • 98.
    96 encyclopédie des bigdata La Gestion des Données de Référence (GDR, mais l’on utilise- ra plus communément l’acronyme anglais MDM pour Master Data Management) peut être définie comme un ensemble de pro- cessus délimitant le cadre dans lequel les données référentielles d’une entreprise devront être utilisées. Des « données maîtres » qui peuvent être schématiquement divisées en trois grands ensemble visés par cette gestion interne : données financières, données clients, et données produits. En réalité, leur nature peut varier d’une entreprise à l’autre en fonction du cœur de métier. IN VIEWTER Schneider Electric Joël Aznar Global Purchasing - Director, Master Data Governance Chez Schneider Electric, au sein du périmètre des achats, nous avons défini cinq domaines Master Data : • le référentiel fournisseur : pour tout ce qui concerne les achats externes (hors groupe) • le référentiel « materials/products » : relatif aux composants, biens et services que nous achetons et pour lesquels nous gérons certains attributs • les contrats : les conditions d’achats dont notamment les prix • les acteurs de la fonction achats : cela inclut la gestion des accès, des rôles et responsabilités, droits et autorisations dans un soucis de “Governance Risk Compliance” (GRC) • les données liées au domaine finance et mises en œuvre dans les processus : pour assurer un haut niveau de coordination cross-fonctionnelle entre ces deux métiers. ” master data management
  • 99.
    97 ASPECTS TECHNIQUES La MDM introduitune vision globale des données maîtres, qui va à l’encontre des logiques d’utilisation traditionnelle en silo. Une lo- gique centralisatrice mise en avant par les différents acteurs que nous avons pu interroger sur la question : “Pour le résumer brièvement, le Master Data Management recouvre la capacité, indépendamment des systèmes techniques sous-jacents, à gérer efficacement des données de références qui peuvent être de plusieurs types (clients, produits,…), de manières à ce que celles-ci soient complètes, cohérentes et exactes. Il a été nécessaire, dès la fin des années 90, d’avoir une approche globale de ces questions, en raison de l’introduction des normes Bâle II. Il a fallu rapatrier les informations sur les crédits et les avoirs des clients dans le monde entier, ce qui a supposé de centraliser l’information sur ces clients au niveau global. Nous avons construit au tournant des années 2000 un premier référentiel au niveau mondial, d’abord pour les gros avoirs (16 millions de clients sur 80 au total). Ce référentiel est actuellement complété pour couvrir la totalité des 80 millions de clients. ”Directeur MDM d’un grand groupe bancaire “Le Master Data ne s’accommode pas de modèles locaux. Il faut une approche globale, et très intégrée si l’on veut en profiter à plein. On ne peut pas partir du principe que l’on va faire communiquer toute la diversité de points de vue de chaque BU, de chaque ERP. À un moment donné, il faut mettre de l’ordre, et de la rigueur. ”Schneider Electric Joël Aznar Global Purchasing - Director, Master Data Governance “Notre MDM aujourd’hui, c’est un référentiel client unique qui sert de pivot à toute la connaissance client, et communique avec l’ensemble de nos applicatifs (gestion fidélité, gestion de campagne marketing, …) On peut ainsi gérer toute la data client en un seul endroit, sans être tributaire d’un autre système. ”Kiabi Elisabeth Zehnder Data Scientist Leseffets unificateurs duMDM
  • 100.
    98 encyclopédie des bigdata “ Dans les entreprises et les organisations, les données se sont accumulées en silos. Les sources se sont multipliées et souvent, elles sont restées indépendantes les unes des autres, donnant lieu à des incohérences, des duplications ou des temps de traitement longs. A l’heure du multicanal, il est primordial de disposer d’une vue 360° du client, c’est-à-dire une vue exhaustive, trans- verse et cohérente des informations. Le MDM en est la clé d’entrée. Le MDM est une initiative stratégique pour l’entreprise. C’est un pilier fondateur de l’entreprise, qu’il s’agisse de clients, de produits, d’équipements… De plus, dans le contexte des data lakes, le MDM devient l’étape préalable incontournable pour disposer d’un référentiel unique à toutes les informations structurées et non structurées qui sont déversées dans ces nouveaux réservoirs. Si l’état de l’art oriente les architectures vers des référentiels transactionnels, il est évident que toutes les organisations ne sont pas prêtes à cela, ni techniquement, ni psycholo- giquement. Les référentiels virtuels constituent alors une alternative. Ils permettent la mise en place très rapide de projets tactiques. Ils offrent un excellent moyen de démar- rer sa transformation en offrant une implémentation facile et légère sans aucun impact sur les systèmes sources. C’est un excellent moyen de créer immédiatement de la valeur ajoutée à partir des données perdues dans l’éclatement des silos. ” Dan Benouaisch Directeur Technique Analytics IBM France AVIS pert D’ex
  • 101.
    99 ASPECTS TECHNIQUES Modèles d’attribution En autorisant unelecture à la fois plus fine et plus globale des leviers marketing ayant contribué à une vente ou à une conver- sion, les nouveaux outils d’analyse de la donnée invitent le marketing à repenser ses modèles d’attribution. Quelle importance donner aux impressions par rapport au clic ? Combien de temps peut-on consi- dérer qu’une publicité vue, ou bien un clic, a encore un impact sur un prospect ? Comment évaluer la valeur de tel canal par rapport à tel autre ? Si le modèle d’attribution au last click reste aujourd’hui ultra-majoritaire (79% des entreprises n’utiliseraient que lui, selon une étude de l’IFOP), ses limites sont bien connues de la plupart des acteurs. En ne prenant en compte que le dernier clic avant la vente, il évacue tous les autres points de contact, dont certains peuvent avoir eu pourtant un rôle déterminant (par exemple, le premier clic qui ini- tie le rapport entre l’internaute et la marque). Certains modes d’achat comme le RTB dont le taux de conversion est bien plus faible que d’autres, vont se retrouver de facto marginalisés dans une approche ROIste pure. D’où l’apparition de nouveaux modèles qui tentent de rendre leur importance relative aux autres points de contact en amont du chemin de vente : attribution linéaire qui donne à chaque point une valeur identique, dépréciation temporelle, qui donne de plus en plus d’importance à tel point à mesure qu’il se rapproche de la conversion, ou modèle en U qui attribue plus d’importance aux premiers et derniers contacts, sans pour autant effacer entièrement l’importance des intermédiaires.
  • 102.
    100 encyclopédie des bigdata L’idée d’un schéma idéal valant pour toutes les entreprises est de toute façon à exclure. En matière d’attribution, les modèles doivent se construire au cas par cas, et être suffisamment souples pour évo- luer en permanence. Chez Renault, de nouveaux modèles d’attri- bution multitouch sont ainsi testés actuellement sur les marchés les plus avancés du groupe… avec des retours très positifs, explique Laurent Aliphat : IN VIEWTER Renault Laurent Aliphat Head of Digital Performance and Lead Management La question du modèle d’attribution est une problématique récurrente dans le monde du marketing. Le modèle d’attribution à la dernière touche (c’est à dire le fait d’attribuer la conversion au dernier élément de la chaîne qui va la susciter) est de loin le plus répandu : outre qu’il est simple à comprendre, il permet de structurer dans un premier temps sa pensée dans une approche ROIste des investissements à la performance. C’est un mode d’attribution qui montre toutefois très vite ses limites, les outils délivrant cette mesure se révélant souvent juge et partie, et ayant tendance à privilégier des solutions publicitaires connexes. Chez nous les marchés les plus avancés commencent donc à se diriger vers de l’attribution multitouch, qui permet de créditer chacun des points de contact en fonction de la contribution qu’ils ont aussi bien sur l’engagement que sur la conversion. Nous n’avons pas encore généralisé ce mode d’attribution, mais les résultats sont intéressants, et permettent de challenger les équipes en bout de chaîne chargées des investissements média. ”
  • 103.
    101 ASPECTS TECHNIQUES “ Dans le mondede la publicité digitale, l’attribution est une technique qui permet d’identifier la ou les publicités qui ont poussé un consommateur à effectuer l’action désirée, notamment l’acte d’achat. Au lieu d’im- puter la réussite exclusivement à la dernière publicité vue par une personne avant sa conversion – ce qui confère en général une grande importance aux activités situées à la base de l’entonnoir telles que le reciblage et les requêtes –, l’attribution multi-touch permet de créditer plusieurs publicités en fonction de leurs contri- butions correspondantes. L’attribution multi-touch est une problématique majeure pour la publicité digitale, puisqu’un grand nombre de canaux sont concer- nés – le search, display, réseaux sociaux, mobile et vidéo. En lan- çant des campagnes médias sur une seule plateforme, puis en superposant les résultats de ces campagnes avec les données pro- priétaires (« first party data ») relatives à la conversion des clients, les annonceurs sont davantage en mesure d’évaluer les résultats afin de comprendre le chevauchement entre appareils/canaux, la livraison par appareil, l’attribution et les performances globales de la campagne. ” Kamal Mouhcine Directeur Commercial en Europe du Sud Turn D’ex pert AVIS
  • 104.
    102 encyclopédie des bigdata La collecte des données personnelles (et notam- ment celle d’adresses élec- troniques) passe par l’obtention, en amont, du consentement de l’internaute. Cet opt-in peut revêtir plusieurs formes : opt-in passif par lequel l’internaute doit cocher volontairement une case pour permettre l’utilisation ultérieures de ses données ; l’opt-in passif, lorsque la case est pré-cochée ; l’opt-out actif, qui contraint l’inter- naute à cocher une case pour, cette fois, ne pas être ciblé ; et l’opt- out passif, où il est inscrit d’office, et devra par la suite procéder à des démarches pour obtenir sa désinscription. Dans ce domaine qui touche directement à la data privacy, et à la confiance des utilisa- teurs en une marque, les entreprises n’ont d’autre choix que de dé- finir une politique claire, et adaptée à leur cas particulier, ainsi qu’à leur implantation géographique – les contraintes légales encadrant l’opt-in variant grandement entre les pays. D’où des modèles d’opt- in variant d’une société à l’autre. En voici quelques exemples : Opt-in “Les commerciaux ont souvent plus une démarche qui va dans le sens de l’opt-out. Mais dans le domaine de la recherche, c’est l’opt-in qui domine, toutes les règles régissant la recherche biomédicale impliquent le consentement éclairé de toutes les personnes participant aux recherches. L’opt-in est le standard pour tout ce qui concerne la recherche médicale. On se tourne dans une minorité des cas vers l’opt-out par la suite, si l’on est confronté à des données massives sans possibilité d’avoir accès facilement aux personnes. ”Sanofi Pierre-Yves Lastic Associate Vice President, Chief Privacy Officer Chacun sonopt-in, …
  • 105.
    103 ASPECTS TECHNIQUES “En tant qu’organisme desanté, le flou juridique sur certaines questions autour de la donnée est un vrai problème pour nous. La collecte d’un opt-in clair auprès de nos clients en magasin revêt donc une dimension centrale. Dans l’un de nos magasins pilotes, nous avons développé un service de wireless charging en échange d’un consentement. A partir de ce moment là, on va pouvoir réconclier une Mac Adress, un dispositif mobile, avec un individu… Ce qui permettra à notre plan de tagging d’aller jusqu’au bout de sa démarche. Il faut donc obtenir un double opt-in : l’opt-in classique sur notre site, et celui récolté en magasin par lequel le client va se rendre compte du fait qu’il a été tracé. ”GrandVision Pierre-Marie Desbazeille Directeur CRM & Digital “Notre position est simple : le consommateur est propriétaire de sa donnée. Il doit donc donner explicitement son consentement pour que l’on puisse la partager. En sachant qu’il se montre en général plutôt ouvert à ce consentement s’il obtient en contrepartie un service digne de ce nom et une bonne connaissance de l’usage qui sera fait de sa data. Créer un tel cercle vertueux autour du consentement suppose donc à la fois un rapport gagnant gagnant, et une grande transparence. ”Orange Technocentre Tania Aydenian Directrice du Programme Datavenue …chacun sonchemin “Il n’y a pas un opt-in mais plusieurs opt-ins, en fonction du contexte du client. Il va ainsi y avoir une différence entre les communications commerciales où l’opt-in va être indispensable, avec possibilité de se rétracter et facilité de désabonnement, et les notifications opérationnelles liées au voyage : dans ce cas-là, évidemment, on n’attend pas le consentement du client pour lui envoyer le billet qu’il vient d’acheter, ou des notifications importantes sur son vol. On va également proposer aux clients de notre site un cycle de newsletters orchestrées qui s’arrêtera après le voyage, communication que l’on utilisera comme une opportunité de cross selling. ”Air France-KLM Max Vallejo Head of eCRM, Digital Department
  • 106.
    104 encyclopédie des bigdata On le voit au travers de ces exemples, il n’existe pas, en matière d’opt-in, de modèle idéal et univoque. C’est au contraire un sujet complexe, auquel il faut accorder le temps d’une vraie réflexion, comme le souligne Stéphane Père (The Economist) : “ De manière intuitive, il semble évident de demander un opt-in à n’importe quel consommateur visitant un site. Mais la distinction service versus marketing promotionnel n’est pas toujours évidente. Se pose aussi la question de savoir ce qu’est un vrai opt-in, entre opt-in explicite et implicite, ou un opt-in dont les conditions d’utilisation ne sont pas claires. Quand un opt-in devient par exemple une condition sine qua non d’accès au service, c’est un problème! Autre difficulté : la valeur de la donnée vient d’autres usages que celle pour laquelle on la collecte initialement. Par exemple, les usages inventés autour des données géolocalisées qui vont permettre de prédire le trafic, ce qui ne gêne personne. Il faut commencer à réfléchir plus loin, à penser déjà en terme d’équité de comportement responsable en tant que marketeur, plutôt que de se cacher derrière une case à cocher. ”The Economist Stéphane Père Chief Data Officer (Global)
  • 107.
    105 ASPECTS TECHNIQUES Apparu au coursde l’année 2010, ce nouveau mode d’achat a chamboulé le paysage du marketing. Alors que la publicité digitale tra- ditionnelle reposait sur un modèle de vente et d’achat d’espaces de gré à gré - l’annonceur, en fonction de ses besoins d’affichage, négociait avec les éditeurs la mise à disposition d’emplacement – le Real Time Bidding (ou enchères en temps réel) a automatisé ce processus, permettant de piloter les campagnes en direct, grâce à la data. Le principe est simple : à chaque fois qu’un visiteur arrive sur une page équipée de bannières publicitaires RTB, son profil est ins- tantanément mis en vente sur une plateforme d’enchères en ligne (les Ad Exchange ). Les annonceurs intéressés par ce profil placent alors leurs mises, et le plus offrant remporte le droit d’afficher sa publicité sur la bannière proposée. L’ensemble du processus se dé- roule en un dixième de seconde. Une telle évolution a des conséquences qui vont bien au-delà de la simple automatisation des achats médias. Avec le RTB, il ne s’agit plus de choisir un emplacement publicitaire (visible par toutes per- sonnes connectées sur le site), mais de cibler des audiences (qui se- ront les seules à voir la publicité s’afficher). Plus besoin par exemple pour le marketing de présupposer qu’une bannière pour une paire de talons hauts sera plus susceptible de faire mouche sur le site d’un magazine féminin que sur un forum de fans de football. Sans a priori, en analysant les profils des visiteurs (renseignés grâce à des cookies fournissant sur chaque internaute, informations socio- démographiques, affinités avec tels produits, ou tels champs d’inté- rêt), un algorithme se charge d’aller chercher lui même l’audience qualifiée… quel que soit l’endroit où celle-ci se trouve ! RTB* *RealTime Bidding
  • 108.
    106 encyclopédie des bigdata “ Dans le métier de l’hôtellerie (tout du moins dans la partie distribution) 60% des réservations se font via des canaux digitaux (web, mobile, call centers…). La bagarre de l’acquisition du client va donc avoir lieu sur le search et le display, face à des acteurs très puissants comme Booking.com, capables d’investir plus d’un milliard d’euros dans Google. Nous investissons donc nous mêmes beaucoup sur le search, mais aussi sur le RTB qui permet de suivre, via des bannières, nos futurs clients lorsque ceux-ci changent de site. Cet outil d’enchères en temps réel prend d’ailleurs une proportion de plus en plus grande dans notre marketing. ”AccorHotels group Fabrice Otaño SVP, Chief Data Officer “ Certains acteurs comme AXA France, fortement dépendants au search et à l’affiliation, ne trouveront pas forcément une rentabilité immédiate en utilisant le RTB et ce malgré l’impact du ciblage data et des algorithmes tels que le look-alike. Tout du moins en utilisant des indicateurs aussi court-terme que le post-click. L’analyse du cycle de vie client et des data pertinentes pour signifier l’intention d’achat sont très importantes pour appréhender l’utilisation de ce canal, et évaluer sa performance à l’aune d’indicateurs plus composites (click & view). ”AXA France Jonathan Badoux Responsable Outils Digitaux RTB, unengouement àdeux vitesses Ce mode d’achat trouve de plus en plus sa place au sein du plan média des entreprises, et représente aujourd’hui, en France, près de 24% des ventes totales d’inventaire en display (Observatoire de l’e-pub SRI 2015). Certains secteurs en sont particulièrement friands, alors que d’autres peinent à y voir pour l’instant de l’intérêt, comme le confirment Fabrice Otaño (AccorHotels) et Jonathan Badoux (AXA France) :
  • 109.
    107 ASPECTS TECHNIQUES Marketing programmatique “ Le marketingprogrammatique, c’est la possibilité d’automatiser des actions marketing via l’utilisation de logiciels et d’algorithmes, en programmant la ré- alisation de certaines actions à l’avance, mais sous réserve que des critères bien spéci- fiques soient réunis. La décision de réaliser l’action se fait en “temps réel”. La caractéris- tique principale du marketing programmatique par rapport au marketing traditionnel, c’est qu’il est moins engageant, dans la mesure où il est dynamique et s’adapte à une situation donnée, à l’instant de diffuser le message marketing pour maximiser l’effica- cité de ce dernier. Ainsi, plutôt que de présenter le même site web à tous les visiteurs, on peut personnaliser les contenus des pages en fonction de leurs actions sur le site. En publicité, plutôt que d’acheter une campagne d’affichage sur des abribus ou sur un site média six mois à l’avance en réservant les emplacements, on peut aujourd’hui, sur les supports digitaux et digitalisés, reporter la décision d’achat au moment même où l’impression se produit, et acheter chaque impression une par une. Tout cela n’est utile que parce qu’on a la capacité aujourd’hui de connaître assez de caractéristiques de l’individu exposé à l’impression publicitaire en amont, et ainsi, de décider s’il constitue une cible intéressante pour soi. C’est la promesse, encore bal- butiante, d’un marketing mieux adapté à l’individu en face, et au contexte. Hugo Loriot Director, Media Technologies | 55 AVIS pertD’ex En plus d’une hausse quantitative des usages, le RTB connaît depuis quelques temps une amélioration qualitative des inventaires qu’il pro- pose à la vente. Alors qu’à l’origine, il était surtout utilisé pour valoriser des espaces invendables autrement – d’où une forte connotation low cost de ce mode d’achat – il est de plus en plus compatible avec le premium. C’est ce que constatent en tout cas de plus en plus d’édi- teurs, à l’image de Mickaële Angeletti (Prisma Media Solutions) : Au début, nous pensions limiter le RTB à des inventaires display non qualifiés, par exemple à des invendus de bas de page. Mais aujourd’hui, on se rend de plus en plus compte que ce display doit être qualifié, avec un bon indice de visibilité, même s’il est vendu via des Ad Exchange. Le programmatique apparaît dès lors comme un outil compatible avec la vente d’inventaires plus premium, incluant des partenariats ad hoc (deal ID).  ” Prisma Media Solutions Mickaële Angeletti Directrice Recherche & Développement
  • 110.
    108 AVIS pert D’ex encyclopédie des bigdata Enchères en temps réel “ Lors de l’achat classique de supports digitaux, l’annonceur (ou son agence) achète des inventaires sur le site web d’un média spécifique et tombe d’accord quant au nombre d’impressions à un taux de CPM fixe avant le lancement d’une campagne. Les technologies programmatiques évaluent chaque impression par rapport au profil de l’internaute, rendu anonyme, qui voit la publicité. Elles prennent une décision en temps réel concernant le montant de l’enchère à envisager pour pouvoir présenter une publicité à cette personne. L’audience est devenue l’élément moteur, ce qui signifie que la qualité des données et des informations concernant ce public est essentielle. Tant dans le cas de la réponse directe (performance) que des métriques de marque, le succès réside dans la capacité à tou- cher l’audience ciblée et à l’engager à l’aide d’informations qualifiées, mais aussi dans celle d’exploiter ces dernières en temps réel. En évaluant chaque impression à l’aide d’une technologie program- matique,lesannonceursontlesmoyensderéduirelespertesinduites par des profils inadéquats en évitant de leur servir les publicités. Ils peuvent ainsi attribuer une valeur distincte à chaque segment d’au- dience, ou encore optimiser / ordonner dynamiquement leur mes- sage créatif en fonction de facteurs tels que la valeur d’un client ou son récent comportement en ligne. Kamal Mouhcine Directeur Commercial en Europe du Sud Turn
  • 111.
    109 ASPECTS TECHNIQUES Le web scrapingou web harvesting est un procédé par lequel l’on extrait, à l’aide d’un programme, les contenus d’une multitude de sites web, avant d’utiliser ceux-ci ultérieurement. Il s’agit d’une tech- nique qui n’a pas bonne réputation (elle s’appuie, après tout, sur une forme de pillage…), et si elle n’est pas à proprement parler illégale, l’entre-deux juridique dans laquelle elle évolue invite à la circonspec- tion, comme le confirme Benoît Chéroux (Groupe Argus) : SCRAPING “  Le scraping représente pour moi l’une des seules méthodes accessibles pour collecter de la donnée en gros volumes (hormis les GAFA ou NATU, peu d’autres entreprises génèrent de gros volumes de données). Il existe un vide juridique en France autour du scraping : à qui appartient réellement l’annonce pour une voiture d’occasion publiée sur un site internet ? À la plateforme ? À celui qui l’a créé ? À tout le monde ? Il y a peu de jurisprudence en France sur la question, et il nous paraît donc nécessaire de prendre son temps, d’attendre de voir comment les choses vont évoluer.  ”Groupe Argus Benoît Chéroux Responsable Données & Modélisations
  • 112.
    110 encyclopédie des bigdataencyclopédie des big data C’est l’une des applications les plus répandues du data mining . La fouille de texte (son appellation si l’on souhaite éviter l’anglicisme) re- groupe un ensemble de traitements informatiques dont l’objectif est d’extraire de la connaissance et des apprentissages potentiellement porteurs de valeur au sein de données textuelles produites par des humains et à destination d’autres humains : corpus d’articles, conte- nus de sites internet, discussions sous forme de chat récupérées sur les réseaux sociaux, scripts d’appels, etc… Toutes ces sources po- tentielles de données vont être traitées en deux temps. D’abord on va analyser le contenu à proprement parler des textes, en mettant en œuvre notamment des logiques de traitement automatique du langage naturel. Puis l’on procède à une interprétation des résultats obtenus, afin d’en tirer un enseignement. Le text mining peut revêtir un intérêt pour des business très variés, comme en témoignent Benoît Chéroux (Groupe Argus) et Christian Phan Trong (Swiss Life) : Text Mining
  • 113.
    111 ASPECTS TECHNIQUES “  Au sein du groupeArgus, nous exploitons en grande majorité des données alphanumériques dans le cadre de la production d’informations sur le marché automobile. Nous devons être capables d’identifier, de reconnaître à partir des informations textuelles que l’on capte autour d’un événement, soit le produit qui se cache derrière, soit l’individu. Cet enjeu va devenir d’autant plus fort que l’on travaille de plus en plus avec des sociétés éditant des applications et des logiciels sur des voitures connectées, de plus en plus en temps réel, ce qui exclut toute capacité humaine de traitement. Il faudra que des machines se chargent de reconnaître et de segmenter automatiquement l’information qui leur parviendra. ”Groupe Argus Benoît Chéroux Responsable Données & Modélisations “ L’exploitation des données structurées est assez naturelle dans le monde de l’assurance. Mais nous sommes aujourd’hui confrontés à des masses de données non structurées qui nécessitent de mettre en place d’autres logiques si l’on veut en tirer parti. Le text mining est l’une de ces logiques qui doivent permettre d’apporter une nouvelle valeur. Le résultat des analyses de text mining va permettre d’alimenter les algorithmes de data science avec de nouvelles dimensions d’analyse pour améliorer la connaissance client, le marketing mais aussi la détection des fraudes, l’optimisation du service au client… ”Swiss Life Christian Phan Trong Directeur de l’Architecture Lesbienfaits del’explication detexte
  • 114.
    112 encyclopédie des bigdataencyclopédie des big data Chez Orange, le text mining a notamment été utilisé dans le cadre d’un projet d’optimisation des campagnes digitales que détaille Geoffrey Zbinden : IN VIEWTER Orange Geoffrey Zbinden Vice President Big Data Analytics & Customer Base Management Avec les réseaux sociaux, et avec le recueil d’interactions clients, nous nous retrouvons en possession d’une quantité de verbatims de plus en plus importante… ceux-ci étant en général peu, voire pas du tout exploités. Pour tenter d’en tirer de la valeur, nous avons lancé récemment un pilote. Il s’agissait de récolter tous les tweets parlant de la 4G, puis de nettoyer ceux rédigés par des initiés (journalistes, spécialistes, …) afin de se focaliser uniquement sur ceux émanant du grand public et ce pour déceler s’il existait un langage naturel autour de la 4G au sein de nos bases clients. Nous avons ainsi identifié les mots qui étaient les plus parlants, qui qualifiaient le mieux la 4G dans l’esprit des clients - mots qui se sont avérés bien différents de ceux qu’utilisent des spécialistes ! Parler de roaming 4G au grand public, ça n’a par exemple aucun impact. Par la suite, nous avons remplacé dans nos communications online ces mots trop jargonnants par ce nouveau vocabulaire identifié comme le plus susceptible de plaire et d’être compris, et nous avons constaté une augmentation des taux de conversion et des taux de clics de plus de 30%. ”
  • 115.
    113 ASPECTS TECHNIQUES Dans le mondedu marketing et de la publicité digitale, le terme “third party data” désigne l’ensemble des don- nées fournies par des sociétés tierces. Vendues sous forme agrégée par des acteurs spécialisés (en général des régies publicitaires, ou lors de deals sur des data marketplaces), ces third party data vont permettre à un annonceur d’optimiser ses campagnes en conso- lidant sa connaissance client, et en optimisant sa segmentation : First Party Data Third Party Data / “ L’avantage de la third party data c’est qu’elle offre l’accès à un pool de données très large. Mais on peut se poser la question de la qualité réelle de ces données vendues par des tierces parties. On peut aussi faire appel à de la third party data pour pallier un manque de données internes, ou la croiser de façon efficace avec sa first party data, pour une segmentation plus fine.  ”The Economist Stéphane Père Chief Data Officer (Global)
  • 116.
    114 encyclopédie des bigdataencyclopédie des big data L’objectif principal attribué à ce type de données est de venir compléter d’éventuels « vides » au sein des bases de données internes d’une entreprise, comme l’explique Jonathan Badoux (AXA France) : La first party data désigne quant à elle l’ensemble des don- nées déjà présentes dans les systèmes d’information de l’en- treprise. Tout l’enjeu va consister à valoriser ces gisements, bien souvent en sommeil, en trouvant les bons cas d’usage qui permettront leur exploitation. IN VIEWTERAXA France Jonathan Badoux Responsable Outils Digitaux Le croisement des données first et third party data au sein d’une DMP présente plusieurs intérêts : • enrichissement des données first party exemple : un client automobile détecté au moment de changer de véhicule par de la data tierce • vérification de la pertinence des signaux (first ou third) exemple : un client MRH scoré comme sans risque de déménagement dans nos SI mais qui serait détecté comme en cours de déménagement par de la data tierce.  ”
  • 117.
    115 ASPECTS TECHNIQUES “ Historiquement, l’achat médias’appuye sur des données third party permettant de ci- bler en fonction de critères socio-démogra- phiques et d’intérêt. Ceux-ci reposent sur la compi- lation et l’analyse de données déclarées et observées à partir d’une multitude d’audiences. Aujourd’hui, la situation change, car les données first party, propres à l’audience spécifique d’un annonceur, souvent plus précises et fiables ne serait-ce que parce qu’il en connaît l’origine et maîtrise leur durabilité, sont plus riches et accessibles, grâce aux évolutions de l’adtech. Il y a un changement d’approche et une prise de conscience concer- nant leur potentiel pour améliorer la communication marque/ utilisateur. 55 accompagne les annonceurs dans ce change- ment des façons de faire et de penser : mise en place d’un tracking fiable, choix et implémentation de DMP quand cela fait sens… En tant qu’agence data & média, nous privilégions la donnée first party et sensibilisons les marques à la nécessité de constituer un capital data durable, mais nous avons une ap- proche pragmatique qui consiste à utiliser la meilleure donnée en fonction de l’usage et des contraintes. On assimile souvent reach à third party et qualité à first party mais c’est une vision très grossière. De nombreux acteurs, trading desks en premier, proposent de la donnée third party de qualité et accessible à un coût moindre que la donnée first party. Globalement il y a un mouvement d’assainissement de la don- née sur le marché. On n’est plus coincé entre agrégateurs de données opaques et données first party rares et difficiles à obtenir. D’ailleurs, des entre-deux apparaissent : échanges ex- clusifs entre partenaires via de la donnée “second party” (la donnée first party d’un partenaire), ou des formes de coopératives de données privées. ” Hugo Loriot Director, Media Technologies 55 D’ex pert AVIS
  • 118.
    116 encyclopédie des bigdata AVIS pertD’ex “ Données propriétaires (first party data) LesmarquesdisposentdedonnéesdeCRMtransactionnellesrelatives aux personnes qui ont fait des achats dans des commerces physiques ou sur votre site d’e-commerce – ces données proviennent des leads commer- ciaux et des personnes qui ont interagi avec votre centre d’appels. Vous pouvez égalementcollecterdesdonnéesconcernantvotresitewebetlesperformances de vos campagnes via les canaux suivants : mails, display, vidéo, mobile, publici- tédirecte,TV,print,etc.Cesdonnéesmaison–vosfirstpartydata–sontlepoint de départ pour obtenir des informations sur votre audience idéale. Il est indispensable de s’équiper d’une solution fiable de collecte de ces don- nées propriétaires obtenues à l’aide de pixels en temps réel (tag management) ainsi que de fichiers batch. Une fois ces données regroupées au sein d’une plate- forme DMP, le système permet à un marketeur de transformer les informations en segmentant les valeurs des transactions d’un panier d’achat puis en les ré- partissant dans un ensemble de compartiments définis par ses soins. L’action de transformer des données entrantes permet d’accélérer et de simplifier les phases ultérieures de segmentation et de ciblage de l’audience. En effet, le pro- cessus de standardisation des données brutes collectées permet d’en faire des informations davantage exploitables en amont de vos campagnes. Données émanant de tierces parties (third party data) La valeur des données propriétaires augmente considérablement une fois celles-ci mêlées aux données sur l’audience émanant de fournisseurs tiers. Une plateforme de gestion des données vous permet d’exploiter vos données « maison » dans le but d’identifier les clients présentant la plus grande valeur, puis de superposer les données anonymes fournies par des tiers afin d’obte- nir un panorama complet de leurs attributs, de leurs comportements et de leur consommation de contenus. Commencez par exemple avec les personnes qui naviguent sur les pages de vos sites web. Une DMP vous montrera ainsi, à partir des données de votre site, quels visiteurs ont fait des achats ou ont été convertis et comment, à partir des données de tiers, ces conversions ont été biaisées par des facteurs économiques, de hiérarchie familiale, d’étape de vie et de préfé- rences liées au style de vie. Vous pourrez alors découper les données enfonctiondel’étapedevotrevisiteurauseinducycledevieclient. ”Kamal Mouhcine Directeur Commercial en Europe du Sud Turn
  • 119.
    117 ASPECTS TECHNIQUES Parcoursdenavigationsurunsiteinternet,réactionauxbannières publicitaires ou àla réception d’un email, propension à l’achat sur une application mobile… Le tracking permet d’observer le com- portement des internautes pour en tirer des enseignements au ser- vice de l’entreprise, et en particulier de son marketing. Ses usages les plus fréquents gravitent autour de la question de l’amélioration de la connaissance client : enrichissement d’un fichier prospects à fort potentiel, alimentation du CRM, optimisation des campagnes de recrutement de trafic s’appuyant sur une meilleure compréhension de la cible, etc… Pas étonnant dès lors que le tracking ait pris son envol, en tant que sujet d’intérêt majeur, d’abord dans le domaine de la vente en ligne. Tracking Voyages-sncf.com Marie-Laure Cassé Directrice Marketing Client & Data La collecte des données de navigation est devenue un enjeu très fort pour tous les e-commerçants. Nous avons pris l’habitude de définir, en amont de chaque projet, une stratégie de collecte de la « bonne data », c’est à dire celle la plus susceptible de répondre aux besoins des métiers. Nous devons solliciter des experts de la data compétents, polyvalents et capables de s’adapter à des outils et des technologies qui évoluent en permanence sur de nombreux domaines : site centric, ad-centric ou customer centric, web et mobile… ”” IN VIEWTER
  • 120.
    118 encyclopédie des bigdata L’idée de poser des tags pour récolter de l’information au service de la connaissance client a trouvé de formidables opportunités dans l’avènement du Big Data, dont les technologies vont permettre de récolter, de stocker, et d’exploiter l’information de plus en plus facilement, et à des tarifs de plus en plus intéressants. Elle s’est étendue progressivement à bien d’autres domaines qu’à celui du e-commerce. Dans le secteur de la banque, par exemple, le tracking va offrir de nouvelles opportunités commerciales… A condition d’être très clair avec les utilisateurs sur la façon dont sont utilisés leurs cookies. “ Dans la banque, le tracking va permettre de bien connaître ce que font nos clients et de fluidifier les parcours de navigation, … Plus on a d’informations pour comprendre comment le client a converti, plus on va pouvoir être pertinents dans notre approche commerciale. Le tracking suppose toutefois de bien informer le client de ce qu’on va tracker, pour ne pas entraîner de défiance de sa part. Cela nécessite donc une bonne politique de cookie consent. ”LCL Christèle Baranco Responsable Analyse de la Donnée Client
  • 121.
    119 ASPECTS TECHNIQUES Traitement automatique du langage naturel Les fondementsthéoriques de l’ingénierie linguistique, c’est-à- dire de la mise en œuvre de techniques informatiques dans le champ du langage humain, n’ont pas attendu l’ère du Big Data pour faire leur apparition. Dès les années 1950, alors que l’ordinateur n’est encore qu’un concept balbutiant, le mathématicien Alan Turing imagine un test (le fameux test de Turing) destiné à évaluer l’in- telligence artificielle d’une machine au travers d’une confrontation verbale avec un être humain : si ce dernier ne s’avère pas capable de déterminer s’il est en train de discuter avec un programme ou un semblable, la machine aura fait la preuve de son intelligence. S’il n’est pas une invention récente, le traitement automatique du langage naturel (TALN) a toutefois trouvé dans les nouvelles tech- nologies de la donnée un formidable catalyseur. Process de plus en plus rapides, amélioration des outils de statistiques et d’intelligence artificielle permettant une reconnaissance automatique de plus en plus fine des éléments de langage…
  • 122.
    120 Discipline à michemin entre linguistique, informatique, et intelli- gence artificielle, le TALN n’est pas longtemps resté cantonné au do- maine de la recherche pure, et intéresse une multitude d’entreprises qui y puisent la réponse à une multitude de questions autour de la connaissance client. A la SNCF, il va permettre, par exemple, de mieux évaluer l’image de marque : SNCF Maguelonne Chandesris Responsable de l’équipe Innovation & Recherche «Statistique, Econométrie et Datamining» Les réseaux sociaux ont suscité un regain d’intérêt pour les problématiques liées au traitement automatique du langage. Très classiquement, beaucoup de choses se font sur l’analyse de l’image de marque via cette matière. Plus spécifiquement, nous nous intéressons aussi à la façon dont les gens parlent de leurs voyages, de leur mobilité en général. Notre enjeu est de voir si nous allons être capables d’analyser automatiquement ces corpus, de manière anonyme, pour en tirer quelque chose de concret. Pour cela, il est nécessaire de comprendre une sémantique complexe, ce qui nécessite de mobiliser des équipes de recherche et les compétences pointues dans le domaine. ”” IN VIEWTER encyclopédie des big data
  • 123.
    121 Dans le secteurde l’hôtellerie, on va aussi avoir recours au TALN pour essayer de réagir le plus rapidement possible à des alertes émanant de la clientèle, comme l’explique Fabrice Otaño (AccorHotels) : “ Chez AccorHotels, nous avons un système d’écoute et de satisfaction client très développé, dans lequel le natural langage processing va trouver tout naturellement sa place. Les avis et les commentaires qui nous sont remontés sont déversés dans notre datalake, pour que nous les analysions avec des algorithmes de NLP avant de déterminer le sentiment qui se cache dans la phrase. On parlait avant d’analyse sémantique (quelle est, par exemple, la différence entre « satisfait » et « pas satisfait » ?). Aujourd’hui, chaque mot est un vecteur qui porte plusieurs attributs, et qui une fois groupé avec d’autres mots et d’autres vecteurs va permettre des interprétations de plus en plus sensibles. Cela ouvre la possibilité de déclencher des actions lorsque l’on repère des alertes autour de la satisfaction client. ”AccorHotels group Fabrice Otaño SVP, Chief Data Officer ASPECTS TECHNIQUES
  • 124.
  • 125.
    123 La vague duBig Data n’a été rendue possible que par une démocratisation des outils rendant de plus en plus accessible le traitement massif de données. Dans cette jungle toujours plus touffue de solutions logicielles et de langages de programmation, il n’est pas toujours évident de s’y retrouver. Sont regroupés ici les plus populaires, de l’incontournable Hadoop au récent Spark. 4. OUTILS
  • 126.
    124 “ Nous utilisions déjà régulièrement lesarbres de décision dans des logiques de segmentation, ou pour certains travaux exploratoires. Mais avec le traitement massif des données, ceux-ci se complexifient considérablement… avec le risque parfois d’un trop plein d’information. ”France Loisirs Pascale Dulac Responsable Connaissance Clients encyclopédie des big data Promenons-nous dans les forêts aléatoires Cet outil d’aide à la décision s’ap- puie sur un modèle ramifié, dans lequel chaque « branche » représente un chemin possible, et chaque ex- trémité une des différentes décisions qui en résultent. Cette forme de représentation en arbre le rend calculable facilement et automa- tiquement par des algorithmes d’apprentissage, d’où sa popularité dans le champ de l’exploration de données. Déjà communément utilisé en statistiques et en informatique décisionnelle, les arbres de décisions entrent, avec les Big Data, dans une nouvelle dimension, comme le confirment Stéphan Clémençon (Télécom-ParisTech) et Pascale Dulac (France Loisirs) : Arbre de décision “Les approches reposant sur des arbres de décision - ou des agrégations d’arbres de décisions, comme les forêts aléatoires, les algorithmes de type boosting - ont l’avantage de bénéficier d’une bonne interprétatibilité. C’est ce qui explique leur succès dans certains types d’applications qui ne peuvent pas s’accommoder du côté boîte noire des réseaux de neurones. ”Télécom-ParisTech Stéphan Clémençon Professeur et Responsable du Mastère Spécialisé Big Data
  • 127.
    125 OUTILS Même si lefonctionnement des arbres de déci- sion est plus facilement interprétable que celui des réseaux de neurones , leur complexification nécessite de laisser aux machines le soin de leur trai- tement. D’où un sentiment de perte de contrôle qu’il faut savoir accepter, explique Christèle Baranco (LCL) : “   Avec le temps réel, et le besoin de calcul rapide, on accepte de moins comprendre les variables sur lesquelles les machines vont opérer leurs calculs. Avec des méthodes comme Random Forest (forêt d’arbres décisionnels), on obtient de bonnes performances même s’il est plus difficile de décrire ce qui se passe et quelles sont les variables explicatives. Nous testons ce type de méthodologies sur des scores que nous avions jusqu’aujourd’hui l’habitude de traiter en régression logistique, pour voir si elles s’avèrent plus performantes. ”LCL Christèle Baranco Responsable Analyse de la Donnée Client
  • 128.
    126 Emprunté au monde dela physique et de la chimie, où il ren- voie à un agrégat d’atomes, ce terme a commencé à être utilisé en informatique à la fin des années 1980, lorsque des ingénieurs ont commencé à développer des « multi-ordinateurs ». Le mot cluster (grappe de serveurs, ou ferme de calcul en français) a dès lors servi à désigner une technique de regroupement de plusieurs serveurs indépendants. Cette mutualisation des efforts va se traduire par une montée en puissance, et de plus grandes capacités de stoc- kage et de mémoire vive qui vont permettre le calcul distribué. Le framework Hadoop a contribué à populariser les clusters, puisqu’il s’appuie entièrement sur cette technologie, comme l’explique Maguelonne Chandesris (SNCF) : Cluster “ Aujourd’hui,letermecluster esttellemententrédanslelangage eninformatiquequ’ilestdifficilededélimiter sesusages.Ildésigneentoutcasune importanteressourcedecalculsfondée surunregroupementdecomposants.  ” Intel Marie-Christine Sawley encyclopédie des big data “   Si l’on part du principe que les Big Data sont une mine, on peut concevoir deux manières d’en extraire le précieux minerai. Soit on se fait fabriquer un énorme extracteur sur mesure. Soit on utilise plutôt une grande quantité de petits extracteurs standards. Pour filer la métaphore, Hadoop, fonctionne plutôt comme une agrégation de plusieurs petits extracteurs, en l’occurrence des clusters. ” SNCF Maguelonne Chandesris Responsable de l’équipe Innovation & Recherche « Statistique, Econométrie et Datamining »
  • 129.
    127 OUTILS “ L’avenir,cen’est plusledatamart, maisledatalake, quipermettra undésilotage enrègle.  ”Orange Geoffrey Zbinden Où déverserle flot de données qui inonde les systèmes d’information de l’entreprise ? Dans un immense réservoir prévu à cet effet ! Voilà à quoi doit servir le data lake, qui contrairement à un data warehouse stockant les don- nées en les classant en fichiers, va recevoir celles-ci tous azimuts et dans leur format natif. L’information n’étant ainsi plus structurée et divisée en silos, elle va pouvoir garder une neutralité totale en at- tendant que lui soit attribué un usage. Cet intérêt est d’autant plus fort qu’avec des technologies comme Hadoop  , on stocke des quantités de plus en plus importantes de données dont la struc- ture varie, et sans toujours savoir à l’avance comment on pourra les utiliser et les analyser. DATA LAKE
  • 130.
    128 encyclopédie des bigdata L’architecture plate des lacs de données convient ainsi parfaitement à des données qu’on souhaite mettre en attente pour des besoins ultérieurs qu’on devine sans pour autant être capable de les définir. La structure permettant l’analyse sera créée in situ, une fois le moment venu. Dans le cadre de don- nées structurées utilisées dans des analyses répéti- tives, le data lake sera en revanche contre productif car il devra recréer une structure pour chaque ana- lyse, consommant ainsi des ressources machines. Dans ces cas là, le data warehouse reste le mieux adapté, ce qui en fait une solution complémentaire au data lake, et pas nécessairement exclusive. IN VIEWTERBouygues Telecom Nicolas Gaude Senior Data Scientist Aujourd’hui, il existe une sorte d’antichambre au stockage de la donnée, avant le data warehouse classique, que les pro Big Data vont appeler le data lake et que les vendeurs de solutions propriétaires préfèrent désigner par le terme de «marécage de données». Dans tous les cas son but est le même : servir de déversoir pur et simple à des données non structurées. On va simplement s’attacher à avoir au moins une clé (texte, log, image, binaire) pour accéder au fragment. ”
  • 131.
    129 OUTILS IN VIEWTERSwiss Life Christian PhanThrong Directeur de l’Architecture Le data lake est un concept issu du décisionnel qui passe en version 2.0 avec l’avènement du Big Data. Auparavant, on déposait une multitude de données à l’intention du décisionnel dans des zones de dépôt, pour une mise à disposition, après chargement, retraitement, formatage consommateur en délai, dans les datamarts. Avec le data lake on va généraliser les zones de dépôt en les pérennisant. Cela va permettre d’accéder à l’ensemble des données brutes historisées de l’entreprise, de façon à ce que les data scientists puissent, en fonction de la question qui leur est posée, piocher dans le bon gisement de données. Au final, le data lake permet donc une agilisation du travail des data scientists. ” En centralisant dans un même réservoir l’ensemble des données de l’entreprise, le data lake va avoir un effet désilotant et nécessiter du même coup, une réflexion importante sur la data gouvernance si l’on veut garantir une bonne harmonie dans ses usages. Cela étant acquis, il pourra servir de base commune dans laquelle viendront picorer les data scientists pour leurs projets, comme l’explique Christian Phan Trong (Swiss Life) :
  • 132.
    130 “ Le data lakea pour vocation de stocker de manière quasi exhaustive les données métiers d’une organisation. Par rapport aux architectures ana- lytiques antérieures fondées sur un data warehouse et/ ou des datamarts, il ne repose pas sur une modélisa- tion préalable des données. De ce fait, le data lake pré- sente plusieurs avantages. D’une part, il peut stocker tous types de données, structurées et non structurées. D’autre part, il permet d’intégrer des données sans né- cessairement passer par un processus ETL. Il permet donc d’accueillir très rapidement des données dans leurs formats natifs et de les rendre immédiatement disponibles pour l’analyse. C’est ensuite, au moment de l’utilisation, que les données sont interprétées dans leur structure. Du fait de la grande variété de données hébergées, la gouvernance du data lake constitue un enjeu impor- tant. Il convient de s’assurer que les utilisateurs com- prennent les données qu’ils manipulent. Le data lake s’est démocratisé avec l’émergence des solutions tel que Hadoop qui permettent de stocker et d’analyser de grands volumes d’informations à des coûts maîtrisables. ” Jacques Milman Architecte Senior Analytics IBM encyclopédie des big data D’ex pert AVIS
  • 133.
    131 OUTILS La plateforme degestion d’audience (ou DMP, pour Data Management Plateforms) est une technologie qui permet d’unifier des données consommateurs en segmentant des cookies (aussi bien first que third party) et à des fins d’optimisation du marketing. Uti- lisées initialement comme des solutions dédiées à l’achat de publi- cité display, les DMP sont rapidement devenues, avec l’apparition de nouveaux modes d’achats (RTB notamment), des technologies indispensables pour enrichir sa connaissance client, et piloter les campagnes publicitaires tous leviers. Elles s’adressent du reste es- sentiellement à deux types d’acteurs : les agences (auxquelles elles vont permettre de centraliser les données clients issues de sources multiples, et de contrôler toute la chaîne des actions marketing) et les annonceurs, qui vont pouvoir, grâce à elles, mieux cibler leurs audiences en les segmentant efficacement. DMP* *DataManagement Plateform “   Cette idée de segmentation selon une multitude de critères - données tierces, externes, internes, socio-démographiques, comportementales, etc - se trouve au service d’une activation de la donnée à deux niveaux : - soit en mode campagne en visant un segment spécifique - soit en mode « on-going », en associant des règles d’activation marketing à chaque segment pour mener des actions en temps réel. ”The Economist Stéphane Père Chief Data Officer (Global)
  • 134.
    132 encyclopédie des bigdata “ La DMP, que nous utilisons principalement dans une logique d’acquisition, a révolutionné notre manière de faire de la pub. Avant, nous travaillions avec des agences, auxquelles nous fournissions un profil type, et en restant finalement dans les clous du media planning traditionnel. Aujourd’hui nous allons nous pencher de plus en plus sur qui est véritablement notre client…Et surtout sur la meilleure façon d’aller chercher des profils similaires à celui-ci. ”The Economist Stéphane Père Chief Data Officer (Global) La DMP est souvent l’un des premiers projets que vont implémenter les entreprises pour tenter de tirer parti du Big Data. En témoignent ces récentes expériences menés chez Renault et The Economist : Réinventer laconnaissance clients grâce auxDMP“Nous sommes en train de tester un outil DMP avec des résultats positifs très significatifs (gain sur les conversions, baisse des coûts sur les leads,…) Ces premiers tests nous ont notamment convaincu de l’intérêt de multiplier les sources de données pour affiner la segmentation. Ils ont aussi introduit une dimension de temps réel qui n’existait pas auparavant, et qui contribue à une augmentation de l’efficacité de notre marketing. ”Renault Laurent Aliphat Head of Digital Performance and Lead Management
  • 135.
    133 OUTILS IN VIEWTER IN VIEWTER Prisma Media Yoann Denée ChiefData Officer Nous sommes équipés d’un écosystème de DMP propriétaire qui sert de socle interne de données, dans une logique patrimoniale et de contrôle de la sécurité et des prestataires externes. Parallèlement, nous utilisons des DMP métier que nous contrôlons, mais dont la donnée anonymisée est hébergée à l’extérieur. ”AXA France Jonathan Badoux Responsable Outils Digitaux La DMP est un sujet complexe qui demande du temps pour être appréhendé avec efficacité. En effet, ce type de projet implique la participation de tous les services de l’entreprise et ce dès le début de l’élaboration des use cases. Use cases qui devront être approchés en mode test and learn afin de déceler les “pépites” qu’ils peuvent révéler et ainsi lancer l’industrialisation. Sans oublier l’intégration technique avec les systèmes d’information des différents annonceurs. ” Malgré la popularité grandissante de cette solution et la prise de conscience des intérêts qu’elle représente, s’équiper d’une DMP ne constitue pas une évolution mineure pour une entreprise. Pour être sûr de transformer l’essai, il faut savoir s’armer de patience, et trou- ver la solution correspondant le mieux à son cas particulier. C’est en tout cas ce que mettent en avant Jonathan Badoux (AXA France) et Yoann Denée (Prisma Media) :
  • 136.
    134 “ Ce qui sejoue actuellement avec l’équipe- ment des annonceurs en Data Management Platform, ce sont principalement trois choses : la digitalisation, la souveraineté sur son patrimoine client,etenfinl’agilité.Ladigitalisationparcequ’une DMP permet de réconcilier tout type de données : données issues du digital comme du monde phy- sique, du back-office comme de fournisseurs tiers. L’enjeu de souveraineté, c’est ce qu’on entend par avoir une approche “patrimoniale” de la donnée, considérée comme un actif de la marque. Il s’agit de rapatrier la connaissance client chez soi, plutôt que de l’héberger chez un ou plusieurs presta- taire(s) - agence ou fournisseur technologique. En- fin, contrairement à une base de données classique ou aux entrepôts de données (data warehouses), la DMP est une solution au service de l’agilité, dont le but premier est de faire communiquer différents systèmes simplement, en acheminant les bonnes données aux plateformes d’activation dans les dé- lais voulus (temps “réel”). Plus qu’une base, c’est une sorte de hub de données intelligent. ”Pierre Harand Director, Consulting and Business Development 55 encyclopédie des big data D’ex pert AVIS
  • 137.
    135 OUTILS Sogeti Aroua Biri Architecte Cybersécurité& Big Data De plus en plus, on va exploiter la possibilité de pouvoir traiter très rapidement de grandes quantités de données. Auparavant, avec les firewalls, le gros problème c’était d’empêcher le paquet de rester trop longtemps au niveau de l’équipement réseau. Du coup, on était obligé de s’arrêter à l’en-tête, parce qu’il fallait trouver un compromis entre le délai de traitement du paquet, et sa bonne circulation. Avec le Big Data, en utilisant Spark notamment, on va pouvoir traiter les paquets qui passent de manière très rapide, et donc inspecter plus profondément ces derniers, ne plus s’arrêter sur l’en-tête. Le Big Data permet ainsi de démocratiser le « Deep Packet Inspection »… reste à prendre en compte les aspects réglementaires relatifs à ce sujet ! ”” IN VIEWTER Cet acronyme renvoie au Deep Packet Inspection, une méthode informatique consistant à analyser dans le détail - c’est à dire en ne s’arrêtant plus à son en-tête - le contenu d’un paquet réseau. De cette façon, il va être possible non seulement de filtrer plus efficacement les paquets, de détecter (et de bloquer) ceux qui sont assimilables à du spam, ou peuvent constituer une menace d’intrusion, mais aussi d’en tirer des insights en les analysant, et en faisant tourner des outils de statistique. Cet affinage dans la compréhension des paquets est rendue possible par les technologies de traitement massif de la donnée, comme l’explique Aroua Biri (Sogeti). DPI* *DeepPacket Inspection
  • 138.
    136 encyclopédie des bigdata Aussi connu sous le nom de datapumping, l’ETL (acronyme pour Extract-Transform-Load) est un processus opéré au sein d’une database, et qui va permettre la migration et la synchronisation des données d’une base vers une autre. Comme son nom l’indique, l’opération consiste d’abord à extraire la data depuis des sources ho- mogènes ou hétérogènes, puis à la transformer dans un format qui permettra de l’analyser et de la soumettre à des requêtes, et enfin de la charger vers sa destination cible. Pour expliquer plus concrè- tement les objectifs de l’ETL, Maguelonne Chandesris (SNCF) convoque une métaphore… Culinaire ! ETL* “  Lorsque l’on fait du traitement massif de données, le départ, c’est la source, ou plutôt, la multitude de sources. La première étape va être de collecter ces données multi-sources (extract) pour les mettre ensemble (transform) avant des les charger (load) pour permettre ensuite les analyses. Pour prendre une image, l’ETL, c’est donc ce travail préparatoire, similaire à celui qui consiste à préparer tous les ingrédients qui permettront ensuite d’exécuter une recette de cuisine. C’est donc la pierre angulaire d’énormément de systèmes. ”SNCF Maguelonne Chandesris Responsable de l’équipe Innovation & Recherche «Statistique, Econométrie et Datamining» *Extract-Transform-Load
  • 139.
    137 OUTILS IN VIEWTER GrandVision Pierre-Marie Desbazeille Directeur CRM& Digital Nous allons pour notre part y avoir recours pour un cas pratique qui ne peut fonctionner qu’avec de la transformation rapide de flux : il s’agit, sur un dispositif mobile vendeur, de faire appel à deux bases complètement différentes (bases mutuelle connectées en EDI, et notre base de verres). Développons : nos vendeurs vont utiliser en magasins une application permettant de faire la meilleure offre verres au client qu’ils sont en train de servir, en tenant compte de nombreux paramètres (pathologie, usage, mutuelle, style de vie). Le résultat est obtenu en une seconde. Sans ETL, ce serait tout bonnement impossible, car il aura fallu, pour obtenir la recommandation, interroger la base mutuelle, la base verres, et émettre une proposition unique adaptée à la pathologie. Avant les ETL… on passait par le fax ! ” Un tel travail préparatoire existe de longue date. Sa démocratisation et sa généralisation, en revanche, sont récentes, et vont stimuler de plus en plus de cas concrets d’usage. Comme celui que présente Pierre-Marie Desbazeille (GrandVision).
  • 140.
    138 Àl’origine, c’était lepetit nom d’un éléphant en peluche, celui du fils de Doug Cutting, un ingénieur employé chez Yahoo. Depuis, c’est devenu l’appellation d’un framework Java développé par la fondation Apache, qui s’est choisi un pachyderme comme logo, et s’est surtout imposé, depuis sa première release en dé- cembre 2011, comme le poids lourd de la révolution Big Data. Auto- risant, grâce à son architecture distribuée en clusters (HDFS pour Hadoop Distributed File System) le stockage de très gros volumes, il permet à des applications de travailler sur des pétaoctets de don- nées. Initialement orienté batch, il s’est équipé depuis 2013, avec YARN  , d’une solution qui lui permet aussi, en plus du traitement massif de données, de faire du streaming et du temps réel. Ces atouts ont convaincu des géants comme Facebook, Yahoo ! ou Microsoft, qui se sont tous équipés de solutions Hadoop. Les en- treprises françaises, elles, même si elles peuvent parfois hésiter de- vant le caractère open source d’une telle solution, sont de plus en plus nombreuses à franchir le pas, comme le confirment Elisabeth Zehnder (Kiabi), Olivier Brousseau (Schlumberger) et Christèle Baranco (LCL) : Hadoop encyclopédie des big data
  • 141.
    139 “ C’est le premier motque l’on associe instinctivement à la notion de Big Data. Grâce à Hadoop, on va moins se poser la question, comme cela pouvait être le cas avant dans le cadre d’une architecture physique structurée autour de bases de données relationnelles, de réfléchir en amont au stockage de la donnée. Désormais, on va stocker ces data sans trop de contraintes. ”LCL Christèle Baranco Responsable Analyse de la Donnée Client “ Hadoop a rendu possible l’exploitation des machines data, en permettant d’exploiter des volumes d’informations conséquents à des prix d’exploitation raisonnables. C’est une technologie en flux permanent, qui se consolide au fur et à mesure. Le fait qu’Hadoop soit en permanence en mode lab, c’est loin d’être dérangeant pour nous, car c’est aussi notre façon d’aborder l’utilisation de la data pour ces cas d’utilisation. ”Schlumberger Olivier Brousseau IT Business Intelligence Strategy Manager OUTILS Un éléphant qui compte énormément “Le caractère volatile des technos utilisées dans le cadre d’Hadoop nous a d’abord fait hésiter. Il faut dire que nous ne voulions pas mettre en place un tel système pour de la R&D, mais pour des usages de production… d’où certaines hésitations légitimes. Au final, nous avons décidé de nous jeter à l’eau. Nous avons donc décidé de mettre en place du Hadoop il y a un an. C’est rapidement devenu le coeur du sujet technique côté IT : sans Hadoop rien n’aurait été possible. ” Kiabi Elisabeth Zehnder Data Scientist
  • 142.
    140 encyclopédie des bigdata Premier pas vers le Big Data, l’arrivée d’Hadoop au sein de l’entreprise est souvent vécu, ex- plique Yoann Denée (Prisma Media) comme un bouleversement : “  L’arrivée des technologies de traitement massif de la donnée au sein de notre entreprise, quand bien même elles ne sont pas pour l’heure utilisées pour des usages de Big Data stricto sensu, a été pour nous une vraie lame de fond. Les tests sur Hadoop réalisés depuis deux ans, et le recours à MongoDB, qui a l’avantage d’être compatible Hadoop et permet d’avoir des performances en phase à la fois avec les besoins métiers et la gestion des coûts, ont pris l’apparence d’une révolution. ” Prisma Media Yoann Denée Chief Data Officer
  • 143.
    141 OUTILS “ La plateforme opensource Hadoop est de- venue synonyme de Big Data. Hadoop peut être considérée comme une petite révolu- tion dans le monde des technologies, quel que soit le re- gard qu’on y porte : • Technologie : Elle donne des perspectives qu’on n’ima- ginait pas avant : des capacités de traitement qui s’ap- pliquent sur des volumes quasi-illimités, une prédic- tibilité dans les temps de réponse et des langages de manipulation et de traitement adaptés aux usages. • Coût : des logiciels basés sur du code open source ins- tallés sur du matériel de commodité. • Ecosystème hyperactif : les grandes entreprises IT d’une part, les projets Apache de l’autre, stimulent la commu- nauté des développeurs qui participent activement au développement du Big Data. Hadoop est un ensemble de composants adressant cha- cun un besoin spécifique. Cela devient complexe lorsque des choix technologiques sont à faire, c’est pourquoi des initiatives comme odpi.org garantissent aux entreprises la compatibilité entre ces composants. De ce foisonnement technologique résulte un vrai chan- gement dans les organisations et les modes de fonc- tionnement des DSI vis-à-vis des métiers car le monde Hadoop évolue vite : un composant peut devenir obso- lète en quelques mois (cf. MapReduce vs Spark). Cela im- pacte les processus de formation des ingénieurs et leur recrutement, les cycles de développement applicatif ou les modes de mise en production. C’est au prix de ces changements que les DSI continueront à être un support au développement des métiers. ”Laurent Sergueenkoff Analytics Platform Sales Team Leader IBM France D’ex pert AVIS
  • 144.
    142 encyclopédie des bigdata Ce logiciel libre de traitement des données et d’analyse statis- tiques est devenu, avec Python  , l’un des langages de pro- grammation de référence pour le Big Data. Développé au début des années 1990 par Ross Ihaka et Robert Gentleman (deux universitaires nord-américains), il s’est rapidement implanté dans les universités et le monde de la recherche en général. Mais le monde des entreprises s’y intéresse de plus en plus, et nombreux sont aujourd’hui les statis- ticiens à abandonner les anciens langages pour adopter R. LCL Christèle Baranco Responsable Analyse de la Donnée Client L’arme de séduction massive de R auprès des entreprises, c’est son caractère Open Source. Nombreux sont ainsi les acteurs à le mettre au banc d’essai dans une logique de maîtrise des coûts, comme l’explique Elisabeth Zehnder (Kiabi) : “   Les entreprises étaient initialement très orientées SAS. R, qui propose beaucoup de choses similaires à SAS, mais avec une nouvelle vision des choses, remporte un succès grandissant. ” LANGAGE r IN VIEWTER Kiabi Elisabeth Zehnder Data Scientist R nous permet de travailler nos algos avec un langage Open Source, et donc de réduire nos coûts. Quand je suis arrivée chez Kiabi, il n’y avait pas d’outils de stats à proprement parler. Nous avons vu plusieurs éditeurs, qui ne maîtrisaient pas toujours leurs coûts, ce qui peut faire peur. Tant que R répond à nos besoins, il nous semble judicieux et avantageux de l’utiliser. ”
  • 145.
    143 OUTILS “ De la mêmefaçon que les logiciels, les langages de développement in- formatique ont largement évolué ces dernières années. Les communautés scientifiques, les hackers et les métiers technologiques ont ainsi développé une nouvelle génération de langage, ap- pelé langage de 4e génération, qui permet de syn- thétiser les principales instructions d’un code d’un programme. Ces langages ne recherchent pas de performance computationnelle mais se focalisent davantage sur une souplesse de manipulation et une lecture facilement interprétable. Ce sont gé- néralement des langages exécutables dans des en- vironnements interactifs où chaque instruction de code produit un résultat (REPL). Ils sont souvent utili- sés pour proposer des interfaces de programmation riches (API) permettant d’encapsuler un programme codé dans un autre langage aux performances plus élevées. Ainsi les langages R et Python sont les lan- gages de programmation plébiscités par la commu- nauté des data scientists car ils offrent une grande rapidité de prise en main et encapsulent facilement des programmes codés dans d’autres langages. ”Marc Damez-Fontaine Senior Manager PwC D’ex pert AVIS
  • 146.
    144 Popularisé par Google,MapReduce est un modèle d’architecture et de développement informatique qui permet de procéder à des calculs parallèles sur des masses de données. En distribuant celles-ci dans un cluster de machines, il va permettre le traitement de grosses volumétries (supérieures à 1 téraoctet). MaPReduce Intel Marie-Christine Sawley Exascale Lab Director C’est un algorithme qui s’appuie sur une idée simple : traiter localement des données qui ont été au préalable séparées en petits morceaux, avant de les faire remonter pour avoir une vision d’ensemble sur une masse bien plus importante. Une telle vision a permis le démarrage du Big Data en général, en offrant des nouvelles solutions de traitement des données massives. ” encyclopédie des big data “ MapReduce, c’est une manière de faire des calculs adaptée au système Hadoop. Il permet la distribution des tâches au sein de cette architecture distribuée, et la répartition des calculs pour permettre de remonter progressivement les résultats. ”SNCF Maguelonne Chandesris Responsable de l’équipe Innovation & Recherche « Statistique, Econométrie et Datamining » LCL Christèle Baranco Responsable Analyse de la Donnée Client Le MapReduce, c’est la manière dont on va désormais coder pour effectuer des calculs parallèles permettant d’attaquer plus efficacement de gros volumes de données. Les données sont découpées en entrées et dans un premier temps il s’agit de les « maper » noeud par noeud. Puis ensuite de les agréger et ainsi de réduire ces données. Il est nécessaire de coder différemment pour utiliser toute la puissance du calcul distribué à laquelle donne notamment accès Hadoop. ” IN VIEWTER IN VIEWTER MapReduce a entraîné la naissance de nombreux frameworks, dont le plus connu est Hadoop  . Les deux termes sont encore au- jourd’hui intimement liés, comme le rappellent Christèle Baranco (LCL) et Maguelonne Chandesris (SNCF) :
  • 147.
    145 OUTILS Python Celangagedeprogrammationorienté objets’estimposécomme un outilessentiel du Big Data. Inventé à la fin des années 1989 par Guido van Rossum (un développeur néerlandais, fan des Monty Python à ses heures perdues), Python a d’abord été largement utilisé dans le domaine scientifique (on lui doit notamment le traitement des images spatiales récoltées par le téléscope Hubble et le mo- dèle expérimental ayant permis la découverte du Boson de Higgs). Flexible, puissant, facile à apprendre et à utiliser, et présentant l’im- mense avantage d’être en open source, il a investi ensuite le champ de la donnée, permettant sa manipulation et son analyse, et s’impo- sant comme un apprentissage indispensable dans le savoir-faire des data scientists  . Ces derniers sont aujourd’hui systématiquement formés à Python, explique Marie-Christine Sawley (Intel) : “  Je fais partie de la génération des informaticiens qui n’ont pas appris Python, et cela se voit ! C’est un langage qui a pris ses marques dans la formation ou il est devenu incontournable, car « multiforme », applicable du PC à la tablette et au téléphone. Les générations « Python » sont maintenant bien installées dans le monde du travail et trouvent chaque jour de nouvelles manières de l’utiliser, notamment comme langage de scripting. Python joue un rôle important, par sa richesse et sa versatilité, aussi bien dans l’enseignement qu’en production. ” Intel Marie-Christine Sawley Exascale Lab Director
  • 148.
    146 encyclopédie des bigdata IN VIEWTER SNCF Maguelonne Chandesris Responsable de l’équipe Innovation & Recherche «Statistique, Econométrie et Datamining» Historiquement, deux communautés scientifiques différentes se sont lancées à l’assaut du Big Data : d’un côté des gens faisant surtout de l’algorithmie, de l’autre ceux qui faisaient essentiellement de la statistique. Les premiers utilisent Python, les seconds, R. Aujourd’hui ces communautés sont amenées à se mélanger de plus en plus, ce qui a nécessité de faire évoluer ces langages initiaux. Cela reste deux langages différents, mais leurs fonctionnalités sont aujourd’hui en réalité assez semblables. ” Python est souvent opposé, ou mis en concurrence avec un autre langage de programmation, qui s’est imposé lui aussi dans le monde du Big Data au cours des dernières années : R  . Si ces deux solutions sont effectivement, à la base, utilisées par des com- munautés différentes, leur usage est en réalité assez similaire, et les possibilités qu’elles offrent, presque les mêmes. C’est en tout cas l’avis de Maguelonne Chandesris (SNCF) :
  • 149.
    147 OUTILS IN VIEWTER Réseau de neurones Ce modèlede mathématiques paramétriques s’inspire de la transmission synaptique (et donc de la biologie) en déployant un réseau constitué d’une multitude de nœuds et au sein duquel l’information va se propager jusqu’à atteindre la couche finale. Uti- lisés initialement pour résoudre des problèmes d’ordre statistique (la classification automatique des codes postaux par exemple), les réseaux de neurones ont aussi investi le champ de l’intelligence arti- ficielle, grâce à leur mécanisme perceptif indépendant des idées de celui qui l’implémente et qui va permettre un apprentissage auto- nome. Cette forme de liberté de fonctionnement rend toutefois leur compréhension ardue, ce qui peut décourager certaines entreprises qui ont besoin d’une grande lisibilité. Voilà ce qu’explique Stéphan Clémençon (Télécom-ParisTech) :  Télécom-ParisTech Stéphan Clémençon Professeur et Responsable du Mastère Spécialisé Big Data Dans les années 80-90, les réseaux de neurones ont eu du mal à s’imposer, en raison de la difficulté à les rendre interprétables. Aujourd’hui, ils reviennent à la mode, parce que dans les applications liées au domaine internet, l’interprétabilité a une moindre importance, et que le côté boîte noire des technologies faisant appel à des algorithmes n’est pas conçu comme un facteur limitant. Pour les entreprises plus traditionnelles, en revanche, la nécessité d’interpréter physiquement les modèles rend le recours aux réseaux de neurones moins évident. ”
  • 150.
    148 Publicis Worldwide Samir Amellal InternationalChief Data Officer Les approches en deep learning qu’ont menées Facebook et Google nous ont inspirés pour plusieurs projets. Nous avons ainsi déployé une approche deep learning pour un client : il s’agissait de décomposer leur problématique globale, complexe, en plusieurs sous-problématiques que nous avons confiées à des réseaux de neurones. Chaque résolution de sous-problème, allait alimenter une couche inférieure, permettant d’être de plus en plus performant sur la résolution de la problématique d’ensemble. L’intelligence artificielle (c’est à dire pour moi, le système intelligent, et non la conscience artificielle), commence à devenir une solution très intéressante, puisqu’elle va permettre de résoudre de plus en plus des problématiques auxquelles nous n’avions aucun accès précédemment. ” encyclopédie des big data IN VIEWTER Le recours efficace aux réseaux de neurones constitue donc, pour le moment, surtout un enjeu d’avenir pour les entreprises. Si certaines ont déjà lancé des projets concrets ayant recours à cette forme d’intelligence artificielle, la plupart sont en attente de cas concrets d’utilisation… Et les promesses sont nombreuses, reconnaissent notamment Nicolas Gaude (Bouygues Telecom) et Samir Amellal (Publicis Worldwide) : “ Unjour,peutêtre,d’icicinqàdixans, lesréseauxdeneurones(deeplearning) aurontlacapacitédefairedufeature engineering,d’allerconstruired’euxmêmes àpartirdesdonnéesbrutesdesfeatures importantesensepassantdu raisonnementhumain.  ” Bouygues Telecom Nicolas Gaude
  • 151.
    149 OUTILS Sogeti Aroua Biri Architecte Cybersécurité& Big Data Hormis le fait qu’il est un vrai enabler, Spark offre surtout la possibilité de créer très rapidement des applications innovantes. On remarque sur internet de plus en plus de flux de données. Auparavant, nous n’avions pas la capacité de traiter ces données circulant tous azimuts dans les data centers. Pour parvenir à exploiter cette puissance là, il va falloir mettre en œuvre des applications, des services efficaces. Spark, dans sa capacité à traiter très rapidement de gros volumes, de gros flux, est l’outil idéal pour mettre en œuvre ces applications. Reste à trouver les bons cas d’usage ! ”” IN VIEWTER Développé initialement au sein de l’AMP Lab de l’université de Berkeley (Californie), ce projet de framework open source a rejoint en 2013 l’incubateur Apache. Depuis la release de sa pre- mière version, en mai 2014, Spark n’en finit plus de grandir, avec un écosystème d’outils permettant à la fois le traitement de bat- ch, l’analyse en continu de flux de données, le machine learning, le calcul de graphes, et l’interrogation de données en SQL-like. Avec son modèle de programmation souvent jugé plus simple que celui d’ Hadoop  , et qui fait appel non pas au MapReduce sur disques, mais à de l’in-memory, il autorise des temps d’exécution beaucoup plus courts (jusqu’à 100 fois). De telles caractéristiques font de Spark un outil tout trouvé pour la mise en place d’applications novatrices, explique Aroua Biri (Sogeti) : SPARK
  • 152.
    150 encyclopédie des bigdata Autre avantage : Spark s’intègre facilement dans l’écosystème Hadoop, avec lequel il est entièrement compatible, et permet par exemple d’utiliser le gestionnaire de cluster YARN. Avec de tels arguments, le framework est en train de séduire de plus en plus d’entre- prises françaises, qui n’hésitent plus à le faire passer sur le banc d’essai. Voici quelques retours d’expérience, chez AccorHotels, Bouygues Telecom, ou encore Kiabi : “ Capablederépondreàtouslesbesoins delachaînedetransformationet d’exploitationdeladonnée,Sparkestun peulecouteausuissedudatalearning.  ”Solocal Group - PagesJaunes Bruno Guilbot “ Spark c’est l’outil qu’on utilise quand Python et R ne suffisent plus. Pour traiter efficacement les données, il faut être capable de les stocker dans la mémoire des indicateurs. Or au delà de 128 Gigaoctets, pour un ordinateur même performant, cela ne passe plus en mémoire. Spark va alors permettre de passer à l’échelle en distribuant les calculs auprès des données. Spark est à Python ou à R ce que Hadoop est au file system classique. ”Bouygues Telecom Nicolas Gaude Senior Data Scientist “Nous commençons tout juste à travailler avec Spark. Parmi tous les outils qui sont à disposition, et qui sont pour la plupart très volatiles, c’est celui qui semble émerger comme étant le plus stable, le plus évident… Celui en tout cas à côté duquel on ne pourra pas passer. Je suis convaincue de son intérêt, mais nous sommes en train de voir s’il correspond bien, très pragmatiquement à nos attentes, en y développant un cas d’usage. ”Kiabi Elisabeth Zehnder Data Scientist Quand Spark fait des étincelles
  • 153.
    151 OUTILS “ Spark constitue lecadre architectural idéal pour le traitement de données massives et les applications analytiques. Sur le plan des performances, son architecture de traitement en mémoire permet d’effectuer des calculs complexes à très grande vitesse sur des clusters de taille quasi-illimitée. Son architecture est parfaitement adaptée aux algorithmes itératifs tel que le machine learning. Avec Spark, ces algorithmes peuvent être jusqu’à100foisplusrapidesqu’avecsonprédécesseurMapReduce. Du fait de son support de langages de haut niveau et de sa grande richesse fonctionnelle, Spark simplifie significativement le déve- loppement d’applications Big Data, en particulier avec Hadoop. Spark supporte les langages Java, Scala et Python. Il intègre un moteur SQL et supporte les traitements en mode streaming. Il per- met, avec très peu de lignes de code, d’écrire des applications Big Data très sophistiquées. Il est devenu depuis peu l’outil de travail de prédilection du Data Scientist. Couplé à Hadoop, Spark constitue aujourd’hui une architecture Big Data de référence dont on anticipe qu’elle va s’imposer dans les mois et années à venir. ” Jacques Milman Architecte Senior Analytics IBM D’ex pert AVIS “Spark accélère le time to market de nos algorithmes, tout en optimisant leur fonctionnement. Auparavant les data scientists trouvaient un algorithme grâce à leurs outils (Python ou R), puis livraient ensuite une série de formules mathématiques que l’informatique se chargeait de coder en SQL. Cela prenait du temps et cela dégradait (souvent presque de moitié) la pertinence de l’algorithme. Aujourd’hui, au contraire on va coder directement les algorithmes dans Spark, sans passer par une couche de recodage. Les algorithmes sont donc mis en place beaucoup plus rapidement. Qui plus est, les data scientists vont pouvoir penser en amont à la mise en production tout en travaillant à leurs algorithmes. ”AccorHotels group Fabrice Otaño SVP, Chief Data Officer
  • 154.
    152 encyclopédie des bigdata Cet outil web de gestion des tags permet de contrôler aisément les différents systèmes d’analyse, de test et de marketing - en somme toute technologie s’appuyant sur du tagging. Les Tags Management Systems (TMS) vont agir comme une conciergerie du site web d’une entreprise : lorsqu’un utilisateur se connectera à certaines pages, ou opéreront certaines actions, ils déclencheront différents pixels de tracking, et passeront le message aux différents outils analytiques et canaux marketing (paid search, affiliation, display, email) que quelque chose de positif ou de négatif vient de se produire. Alors que des me- sures de campagne de ce type requièrent habituellement la gestion, par des développeurs, d’une multitude de fragments de javascript dispersés dans différents sites, les TMS vont centraliser ces scripts, et simplifier le tracking. Au-delà de ces aspects classiques orientés contrôle du site internet et du chemin de conversion, Pierre-Marie Desbazeille (GrandVision) voit aussi dans les TMS un outil au service du drive-to-store : Tag Management System IN VIEWTER GrandVision Pierre-Marie Desbazeille Directeur CRM & Digital Nous nous sommes équipés d’un Tag Management System il y a un peu plus d’un an maintenant. Nous avons construit une plateforme pour le monde de l’optique, avec une déclinaison par pays. Le déploiement s’est fait pour l’instant en France, en Chine, et est en cours au Bénélux et en Allemagne. L’enjeu à terme va être de faire de ce TMS un outil de commerce en drive-to-store. Le e-commerce ne sera pas, dans les années à venir, quelque chose de significatif en termes de volume dans le monde de l’opt-in. La notion de tag va donc être importante chez nous pour évaluer le drive-to-store. Il faut que cela soit un outil de tracking puissant, qui pourra être remergé avec le comportement client dans son ensemble, et pas simplement une vision du site internet, et du tunnel de conversion. ”La mise en place d’un TMS pose aussi la question du rapport qu’en- tretient l’entreprise avec la valorisation des tags : doit-elle confier leur gestion à un prestataire extérieur ? Et en interne, qui doit s’occuper de ce domaine ? Pour Laurent Aliphat (Renault), Bruno Guilbot (Solocal Group - PagesJaunes) et Jonathan Badoux (AXA France) deux maître mots : contrôle et autonomie.
  • 155.
    153 OUTILS “Cela fait quatreans que nous utilisons des outils de Tag Management System. Nous avons acquis très vite la conviction qu’il était nécessaire de reprendre une certaine forme d’autonomie par rapport à des intégrateurs, ou à une Direction informatique. Aujourd’hui, l’usage du TMS est généralisé chez Renault, et les métiers utilisateurs sont très familiers de l’outil. Vue la volumétrie des tags médias chez nous, il était capital de donner l’autonomie à chaque pays de faire ce qu’il veut, quand il veut, et sans dépendre d’un planing commun. ”Renault Laurent Aliphat Head of Digital Performance and Lead Management Nepas laisser sestags dans la nature “Le TMS est aujourd’hui un outil indispensable sur les sites et les applis. Il permet de gagner en agilité, en réactivité et en cohérence, et d’être très rapide sur la mise en production de modifications du plan de marquage. Plutôt que d’utiliser une des solutions de TMS disponible sur le marché, nous avons développé notre solution “maison”, que nous avons mis en place en 2012. Cela est satisfaisant pour un site comme PagesJaunes sur lequel on ne fait pas beaucoup de campagnes d’acquisition. ”Solocal Group - PagesJaunes Bruno Guilbot Responsable Smart Data et Advanced Analytics “Afin de mieux contrôler l’ensemble des flux de données issus de nos sites internet, nous avons décidé d’internaliser le tag management anciennement aux mains de nos agences média.Nous avons donc le contrôle sur l’ensemble des étapes clés du Tag Management pour chacun des tags : - Validation technique des tags - Définition des paramètres envoyés - Définition des règles de déclenchement - Contrôle des appels en cascade - Intégration dans le TMS - Maintenance Ce contrôle nous a permis d’optimiser les performances de chargement de pages de nos sites internet ainsi que la lecture des résultats de campagne média.  ”AXA France Jonathan Badoux Responsable Outils Digitaux
  • 156.
    154 Sous l’acronyme enforme de clin d’oeil (Yet-Another-Resource- Negotiator) se cache l’une des évolutions architecturales ma- jeures caractéristiques de la nouvelle génération d’Hadoop. Appa- rue en octobre 2013, et aussi baptisée MapReduce 2.0, YARN est une plateforme de gestion des ressources, qui va permettre à Hadoop d’offrir un plus large éventail d’applications et de processus qu’au- paravant. Grâce à lui, le framework d’Apache va ainsi être capable, par exemple, de faire tourner, en même temps que des travaux classiques de MapReduce sur des batchs, des requêtes interactives, et des flux de données. En séparant de la sorte la gestion à propre- ment parler des ressources des clusters et le traitement des don- nées, YARN rend, au final, possible le temps réel sur Hadoop. Ce que confirme Fabrice Otaño (AccorHotels) : YARN “  Au départ, les distributions Hadoop n’étaient pas capables de faire du real time, en raison de leur structure même, en clusters. C’est YARN qui, en accélérant radicalement le processus, en calculant des algorithmes à la volée, va permettre de plus en plus de se servir des systèmes d’information en temps réel. ”AccorHotels group Fabrice Otaño SVP, Chief Data Officer encyclopédie des big data
  • 157.
  • 158.
    156 encyclopédie des bigdata 156 Au terme de cette liste de mots, certains de nos lecteurs auront sûrement constaté quelques absences, quelques notions qui auraient assurément mérité, elles aussi, de figurer dans ce petit dictionnaire. La raison est simple : nous avons dû faire des choix. Le vocabulaire du Big Data est, à l’image du secteur qu’il met en mots, en pleine expansion. Alors que les termes les plus fréquents bénéficient d’un éclairage qui les rend de plus en plus compréhensibles y compris pour le grand public, la partie immergée de l’iceberg, elle, continue de grossir en inventant sa propre langue, son propre jargon, compris seulement des techniciens du sujet. Rendre intelligible par le plus grand nombre cette novlangue, qui dans les faits, rend ce secteur opaque pour les non-initiés, voilà un des nombreux défis auquel est confronté le secteur du Big Data sur le chemin de sa démocratisation. CON sionCLU
  • 159.
  • 160.
  • 161.
  • 162.
    160 AccorHotels group Fabrice Otaño SVP,Chief Data Officer Fabrice est responsable de la Data pour le groupe AccorHotels qui inclut l’ensemble des ressources BI & Data Science pour la finance, la distribution (Web, Sales, Customer Loyalty, Marketing) et le Revenue Management (Yield, Pricing, Channels) ainsi que les ressources IT du centre de compé- tences technologiques. Cette Direction anime un réseau de 2000 Business Analysts et Revenue Managers sur l’ensemble du groupe. Après une première expérience chez AT Kearney dans le conseil en stratégie, Il rejoint Softcomputing, startup spécialisée dans la Data science puis prend en charge les équipes de Business Technology Consulting France chez Capgemini. Fabrice est diplômé de l’ESCP (87) et de l’université d’Orsay Paris XI (BSc en Mathématiques). Air France-KLM Max Vallejo Head of eCRM, Digital Department Max est responsable eCRM au sein de la Direction Digitale Air France-KLM depuis 2011. Il est en charge de la personnalisation du parcours client en ligne, du dévelop- pement du compte client et de l’outil de gestion de campagnes. Après une première expérience au sein du cabinet Deloitte, il rejoint Air France en 2004, d’abord comme responsable de la synthèse économique du groupe Air France, puis comme Senior Manager en charge du développement du réseau Amérique, Caraïbes et Océan Indien. Il est diplômé de l’école Polytechnique (X99) et de l’Ecole Nationale de la Statistique et de l’Administration Economique. encyclopédie des big data
  • 163.
    161 Groupe Argus Benoît Chéroux ResponsableDonnées & Modélisations Benoît est Responsable Données & Modélisations au sein du groupe Argus, (re)connu notamment pour sa Cote Argus Personnalisée® et ses hors-séries trimestriels Véhicules d’Occasion. Durant une décennie, il a travaillé au sein du Groupe Business & Décision, sur la mise en place de système d’information décisionnel (Moulinex, Virbac, Les Mousquetaires) mais aussi sur la mise en place de systèmes d’élaboration budgétaire ou de consolidation de trésorerie (BNP Paribas, Technip, Lafarge). Il est ensuite entré au sein de la DSI du groupe Argus (en tant que chef de projet Décisionnel) avant d’évoluer sur le poste de responsable Données & Modélisations, avec pour vocation de capter le maximum de données pour produire les indicateurs & les études de marché proposées aux clients du groupe Argus. Benoît est diplômé de l’Ecole Internationale des Sciences du Traitement de l’Information (EISTI, 98). AXA France Jonathan Badoux Responsable Outils Digitaux Jonathan est responsable de l’intégration des outils digitaux d’AXA France. Après une première expé- rience chez Johnson & Johnson dans un poste de chef de projet digital transverse car mélangeant achat média, refonte de site web et programme CRM, il travaille depuis un an sur l’implémentation des outils tels que la Data Management Platform, l’adserver et l’ou- til de recommandation pour AXA France à destination des équipes achat média et webmarketing. Jonathan est diplômé du MBA E-Business de l’Ecole Supérieure de Gestion de Paris (2012). CONTRIBUTEURS
  • 164.
    162 Bouygues Telecom Aude Launay BigData Business Manager Aude est Responsable de l’activité Big Data au sein du département Marketing de Bouygues Telecom, avec pour objectif de définir les offres, le go-to-market et d’assu- rer la commercialisation d’Etudes agrégées et anonymisées à des clients majoritairement B2B. Diplômée de l´ESIEE Paris, elle a débuté sa carrière en 1997 chez Nortel avant de devenir ingénieur avant- vente. En 2002, elle a intégré la Direction Marketing de SPIE Com- munications, qui lui a confié le lancement des partenariats avec Sie- mens, puis Microsoft. Elle a ensuite rejoint Dimension Data où elle a dirigé l´équipe marketing et avant-vente sur les solutions de com- munications unifiées, tout en définissant les offres, les partenaires et la stratégie marketing associées. Aude a ensuite intégré Bouygues Telecom fin 2008, avec la charge successivement du marché PME puis de la stratégie Marketing Entreprises. Bouygues Telecom Nicolas Gaude Senior Data Scientist, Head of Big Data Lab Senior Data Scientist, Nicolas dirige le Big Data Lab au sein du département Innovation de Bouygues Telecom. A la croisée des chemins entre Big Data et Machine Lear- ning, le Big Data Lab construit des modèles prédictifs à usage de services internes, fraude, attrition, achat,… et développe à l’externe des offres B2B de données issues de l’activité du réseau télécom. Ingénieur Physicien diplômé de l’INPG, il a débuté sa carrière en 2000 dans les médias numériques chez Canal Plus puis Technicolor. En 2006 il a rejoint la Direction innovation de NDS-Cisco en qualité d’expert système embarqué. En 2011, Bouygues Telecom lui a confié les équipes logicielles en charge du développement de la BBox Sensation. En 2014 Nicolas a démarré l’activité de valorisation externe des Big Data Bouygues Telecom, mission étendue depuis aux services internes. encyclopédie des big data
  • 165.
    163 France Loisirs Pascale Dulac ResponsableConnaissance Clients Pascale est Responsable du département Connaissance Clients de France Loisirs qui inclut notamment les Etudes Datamining, Etudes Marketing et le Data management /gestion opérationnelle de la BDD. Après différentes expériences dans le domaine du conseil et des études, elle a rejoint la société France Loisirs pour prendre en charge le dépar- tement Connaissance Clients au sein de la Direction Marketing. Pascale est diplômée de l’Ecole des Mines/Paris XIII (D.E.A. Organi- sation Industrielle, Innovation et Stratégies Internationales). GrandVision Pierre-Marie Desbazeille Directeur CRM & Digital Directeur CRM & Digital, Pierre-Marie Desbazeille et son équipe sont en charge de la transformation digitale au sein de GrandVision France (GrandOptical et Générale d’optique), leader de l’optique mondial. Refonte des plateformes relationnelles, digitalisation des parcours client : lancement des sites e-commerce/déploiement de dispositifs « drive to store », et mobiles in store, DMP et scoring de réachat sont les principaux challenges relevés ces derniers mois. Entrepreneur dans l’âme, Pierre-Marie a créé sa première agence digitale en Espagne à 27 ans et après de nombreuses années passées en agences spécialisées dans le CRM & Digital, il apporte toute son expertise IT et marketing au sein du Groupe GrandVision NV pour développer une plateforme omnichannel internationale dans 43 pays. CONTRIBUTEURS
  • 166.
    164 Hoche Société d’Avocats RégisCarral Avocat – Associé Régis est avocat associé responsable du départe- ment Propriété Intellectuelle & Technologies de l’Information (IP/IT) au sein de Hoche Société d’Avocats. Régis a auparavant créé et animé pendant plus de 15 ans le département IP/ IT du Cabinet PwC Avocats (anciennement Landwell & Associés). Il a développé des compétences spécifiques en matière d’assistance juridique des problématiques NTIC, e-commerce, télécom dans le cadre de projets informatiques et internet (contrats d’intégration d’ERP, licence de progiciels, création de plateformes e-commerce, maintenance, externalisation, dématérialisation, projets Big Data et Cloud Computing, problématiques « privacy » et CNIL, jeux et paris en ligne, etc.). Il anime et participe à de nombreux séminaires et conférences en France et à l’étranger (Les Echos, Legiteam, Cerist à Alger, …) et est chargé de cours à l’Ecole Nationale Supérieure des Mines de Paris, Master Spécialisé en Management des Systèmes d’In- formation et des Technologies. Intel Corporation France Marie-Christine Sawley Exascale Lab Director Marie-Christine Sawley dirige depuis 2010 l’Intel Exascale Lab de Paris. Diplomée de l’EPFL en physique et titulaire d’une thèse en Physique des Plasmas, son expérience du HPC et de l’analyse de données massives s’est constituée au fil de la direction de projets : notamment en tant que Directrice du Centre de Calcul National en Suisse de 2003 à 2008 mais aussi comme l’une des fondatrices en 2002 du centre Vital-IT à Lausanne dédié à la bioinformatique et biosimulation, comme partenaire de EGEE de 2005 à 2007, et en tant que senior scientist sur l’expérience CMS au CERN de 2008 à 2010. encyclopédie des big data
  • 167.
    165 CONTRIBUTEURS Kiabi Elisabeth Zehnder Data scientist Elisabethest en charge du projet Big Data - Connaissance Client pour les utilisateurs métier Kiabi. Après un parcours d’analyse de données, conception de systèmes de décision et outils statistiques dans le risque de crédit et le marketing, essentiellement dans le milieu bancaire, Elisabeth a intégré Kiabi pour mettre en place le référentiel Client Unique avant d’enchainer avec la mise en place du projet Connaissance Client coté métier. LCL Christèle Baranco Responsable Analyse de la Donnée Client Christèle est responsable du pôle Analyse de la Donnée Client au sein de la Direction du Management de la Donnée et de la Relation Client de LCL. Elle a en charge une équipe d’une quinzaine de personnes regroupant le centre de service de la donnée, le datamining, le géomarketing et le Big Data. Depuis 13 ans au sein du groupe Crédit Agricole, elle a commencé sa carrière comme ingénieur d’études statistiques à la fois dans le domaine marketing et risque, avant de participer au projet de lancement de BforBank, banque en ligne du groupe avec notamment la mise en place de l’équipe Connaissance Client. Christèle est diplômée de l’Ecole Nationale de la Statistique et de l’Analyse de l’Information (ENSAI – promotion 2002).
  • 168.
    166 encyclopédie des bigdata Groupe Numericable-SFR Morgane Castanier Directrice Data et CRM Morgane Castanier est diplômée de l’Ecole Supérieure de Commerce de Grenoble et a débuté sa carrière aux Editions Play Bac en 1997. Elle a ensuite rejoint le groupe Hebdomag France en 1999 pour prendre la responsabili- té du Minitel et de l’Internet, et a été nommée Responsable Marketing online et e-business en novembre 2002. Début 2005, Morgane a rejoint le Groupe Manutan, en qualité de Directrice Marketing et Commerciale. Fin 2006, elle a créé, en association avec le PDG de Netbooster, une agence de conseil en e-marketing, spécialisée dans l’accompagnement et la transformation digitale des entreprises. Début 2008, après une longue mission d’accom- pagnement en régie au sein du Groupe Sud Ouest, on lui confie la Direction des Nouveaux Media de la filiale S3G. Fin 2010, Morgane a rejoint SFR pour prendre la Direction du Marketing Internet. Début 2015, elle a pris la Direction de la Data et du CRM du nouvel ensemble Numericable-SFR-Virgin avec pour objectif de mettre le digital et les nouveaux outils de traitement et d’activation de la données au cœur des dispositifs et de la stratégie omnicanale. Oney Banque Accord Mathieu Escarpit Directeur Général Italie et Joias Mathieu est Directeur Général de deux « Data Company » : Oney située à Milan et Joias située à Lisbonne. Ces 2 entreprises sont spécialisées dans le Data Analytics (Big Data, CRM, etc.) pour le retail. Après avoir débuté dans le monde digital des startups, il rentre chez Oney Banque Accord (Groupe Auchan) en 2004 comme Responsable du digital où il y créera notamment l’activité e-commerce. Il rejoint ensuite Nectar (création du plus grand programme de fidélité) en Italie comme Directeur Marketing puis devient Directeur Général de Oney Banque Accord en Italie où il lance la nouvelle activité de Data Analytics. Depuis 2014 il est aussi Directeur Général de Joias. Mathieu est titulaire d’un DESS de Marketing Direct de l’IAE de Lille.
  • 169.
    167 Orange Geoffrey Zbinden Vice PresidentBig Data Analytics & Customer Base Management Geoffrey Zbinden est Vice President Big Data Analytics & Customer Base Management au sein du groupe Orange. Son département est en charge de la stratégie et du déploiement des outils de business intelligence pour les filiales Orange en Europe, Afrique et Moyen-Orient. Geoffrey est en charge de l’utilisation du Big Data pour augmenter la fidélité des clients, l’adoption des nouveaux usages digitaux et la croissance des revenus à travers une centaine de « use cases ». Précédemment, Geoffrey a été Directeur Financier du marché Entreprises d’Orange France, puis Directeur du programme « Machine-to-Machine » d’Orange. Il a également travaillé aux Etats-Unis. En 2010, il a publié un livre intitulé  « L’internet des objets, une réponse au réchauffe- ment climatique » aux éditions du Cygne. Orange Technocentre Tania Aydenian Directrice du programme Datavenue Tania pilote le programme Datavenue, une solution du groupe Orange à la croisée de l’Internet des Objets et de la Data. Datavenue vise à répondre aux enjeux de transformation digitale des entreprises en fournissant un ensemble de solutions et services autour de la donnée et des objets connectés. Après une première expérience en avant-ventes, Tania a poursuivi sa carrière dans la division des achats du groupe où elle a mené des opérations d’outsourcing dans les différentes filiales Orange. Elle a ensuite basculé dans le digital en tant que responsable de partenariats stratégiques dans l’univers de l’Internet et du mobile où elle a établi des accords-cadres avec des acteurs du web et des équipementiers. Tania a une formation d’Ingénieur Telecom au Liban, suivie d’un Mastère en Conception et Architecture de Réseaux à Telecom ParisTech. CONTRIBUTEURS
  • 170.
    168 Prisma Media Solutions MickaëleAngeletti Directrice Recherche & Développement Mickaële Angeletti a intégré Prisma Media en 2000, d’abord comme Directrice de publicité de VSD, poste qu’elle a occupé pendant près de 4 ans, puis comme Directrice Service Clients jusqu’en 2005. Elle a ensuite évolué vers le poste de Directrice Etudes Publicitaires et Service Clients puis Directrice Media Solutions avant de devenir Directrice Recherche et Développement. Elle se charge notamment de la veille interna- tionale, de l’analyse de marchés avec identification de potentiel de chiffre d’affaires publicitaire (Presse et Digital) et du développe- ment d’offres stratégiques. En parallèle, elle coordonne le projet Media du Futur. Groupe Prisma Media Yoann Denée Chief Data Officer Yoann Denée a exercé des fonctions de Direction Générale entre 2007 et 2012 au sein de groupes technologiques tels que Directinet-Netcollections, NP6. Il a rejoint Prisma Media en 2012 pour prendre la Direction de la filliale performance «p-comme-performance» dont il restructure l’offre, son positionnement et procède à son intégration. En parallèle, depuis 2013, il prend en charge le projet d’entreprise PrismaData. Depuis 2015, Yoann Denée est Chief Data Officer de Prisma Media et assure également la fonction de Correspondant Informatique et Libertés. encyclopédie des big data
  • 171.
    169 Publicis Worldwide Samir Amellal International Chief Data Officer Aprèsdes débuts à La Redoute, puis plusieurs années chez Buongiorno, filiale de l’opérateur télécom japonais NTT Docomo sur des projets R&D, Samir Amellal a rejoint l’agence Publicis ETO en tant que Directeur de compte Data avant de prendre la Direction de son pôle Data Science. Depuis peu Samir est le Chief Data Officer de Publicis WW et a pour mission de rendre la donnée plus accessible et mieux exploitée dans l’ensemble du réseau Publicis WW. Groupe Renault Laurent Aliphat Head of Digital Performance and Lead Management Laurent est manager de l’activité Performance au sein de la Digital Factory au siège international de Renault. La finalité principale est d’aider les équipes à valoriser la contribution aux ventes et de les animer dans une logique de tests et de progrès permanent. L’utilisation de la data est au cœur des leviers d’opti- misation paid, owned et earned media. Il a rejoint le groupe il y a quatre ans, après une précédente expérience de responsable de la publicité, des médias et du digital pour les marques Fiat, Lancia et Alfa Romeo. Laurent est diplômé de NEOMA – Sup de Co Reims (51). CONTRIBUTEURS
  • 172.
    170 Sanofi Pierre-Yves Lastic Associate VicePresident, Chief Privacy Officer Pierre-Yves est le responsable mondial de la protection des données personnelles de Sanofi. Il a étudié la biologie, les langues et l’informatique en France et en Allemagne, et est titulaire d’un doctorat ès sciences de l’uni- versité de Bayreuth. Après un premier poste universitaire, il a fait l’essentiel de sa carrière au sein de la R&D pharmaceutique, où il a occupé depuis 25 ans différentes fonctions de management, en particulier en gestion de données, biostatistique, gestion des études cliniques, gestion de l’information et protection des don- nées. Il exerce également plusieurs mandats au sein de différents consortiums : Chairman of the Board of Directors of the Clinical Data Interchange Standards Consortium (CDISC), member of the Board of Directors of the International Pharmaceutical Privacy Consortium (IPPC) et member of the Executive Advisory Board of Safe BioPharma. Enfin, il participe en tant qu’expert à l’EudraVigilance Expert Working Group et au TelematicsImplementationGroup de l’Agence Européenne du Médicament (EMA) et enseigne le Data Management à l’European CentreofPharmaceuticalMedicine(ECPM) à Bâle. Schlumberger Olivier Brousseau IT Business Intelligence Strategy Manager Olivier est responsable de la stratégie Business Intelligence pour Schlumberger. Après une première expérience en R&D télécom et intégration de système, il a rejoint Schlumberger pour piloter la cellule d’Enterprise Architecture, puis a pris la responsabilité opérationnelle de la plateforme BI globale à l’entreprise. Olivier est diplômé de l’ICAM (96) et Supélec (97). encyclopédie des big data
  • 173.
    171 Schneider Electric Joël Aznar GlobalPurchasing - Director, Master Data Governance Joël Aznar est Directeur de la Gouvernance des Master Data pour la fonction Achats du groupe Schneider Electric. Cette organisation globale est en charge de la gestion des réfé- rentiels Achats dans le but de faciliter la mise à disposition de ces données, de garantir leur cohérence, leur validité et leur précision, afin d’améliorer la prise de décision ainsi que l’efficacité globale de la fonction. Depuis plus de 19 ans chez Schneider Electric, Joël a débuté sa carrière en tant que manager Achats au sein de la filiale Schneider Electric Espagne, puis responsable des systèmes d’information Achats France, Europe et EMEAS avant de rejoindre la Direction Achats groupe. Joël Aznar est également professeur partenaire de Grenoble Ecole de Management (GEM - ESC) depuis 2006 dans le cadre du Master en Management des Achats. Il enseigne par ailleurs à l’ESIAC/ESCA (Maroc), à MDI (Algérie) et en France à l’EHESP (Ecole des Hautes Etudes de la Santé Publique). Enfin il intervient comme membre du comité de pilotage de l’Institut de Recherche et d’Innovation en Management des Achats «IRIMA» en tant qu’expert en SRM, e-procurement et P2P. En charge des enjeux Master Data depuis bientôt 3 ans, son approche est essentiellement pragmatique et centrée sur les résultats et l’efficacité du métier. SNCF Maguelonne Chandesris Responsable de l’équipe Innovation & Recherche «Statistique, Econométrie et Datamining» Maguelonne Chandesris est responsable de la thématique Innovation & Recherche «Data, Mobilité et Territoires» pour la SNCF. Elle est également en charge de l’équipe «Statistique, Econométrie et Datamining» qui développe des solutions de traitements statistiques avancées et de visualisation d’importants volumes de données au service de différentes activités du groupe SNCF. Diplômée de l’Ecole Nationale de la Statistique et de l’Analyse de l’Information (ENSAI), elle est également titulaire d’un doctorat de Paris VI en mathématiques. CONTRIBUTEURS
  • 174.
    172 Sogeti Aroua Biri Architecte Cybersécurité& Big Data Aroua Biri est architecte en cybersécurité et Big Data chez Sogeti. Elle travaille depuis 2006 pour le compte de grands consortiums européens et nationaux ainsi que pour le compte de grands groupes du CAC 40 (Société Générale, Engie, ERDF, Total etc.). Elle fait également partie des 150 expertes du numérique recensées en France par GirlInWeb. Ce projet d’an- nuaire est soutenu par Google for Entrepreneurs, NUMA et le Wo- men’s Forum. Par ailleurs, elle travaille actuellement sur les impacts de la transformation digitale sur les business models ainsi que sur la sécurisation des architectures Big Data et la supervision métier des objets connectés. Aroua est ingénieur informatique diplômée d’un doctorat en cybersécurité de Télécom SudParis et de l’UPMC ainsi que d’un Master en Réseaux Informatiques de l’UPMC. SolocalGroup-PagesJaunes BrunoGuilbot ResponsableSmartDataetAdvancedAnalytics Bruno est responsable des analyses et de l’exploi- tation des données digitales de Solocal Group, qui comprend notamment les marques PagesJaunes, Mappy, Ooreka et A Vendre à Louer. Il travaille sur les problématiques Big Data, sur l’exploitation et la valorisation des données via la data science et la data visualization. Après une première expérience de Dataminer en agence marketing (Draft Paris), il s’est orienté vers le digital en travaillant d’abord sur l’email marketing (chez Directinet) puis en agence CRM et Digital (Ogilvy One) sur du conseil data-marketing. Il a rejoint le groupe Solocal en 2011 pour travailler sur la connais- sance et la fidélité des utilisateurs des services PagesJaunes et exploite aujourd’hui l’ensemble des données digitales pour opti- miser les services et démontrer le ROI des produits publicitaires du groupe. Bruno est diplômé de l’Ecole Nationale de la Statistique et de l’Analyse de I’Information (ENSAI 2003). encyclopédie des big data
  • 175.
    173 Swiss Life France ChristianPhan Trong Directeur de l’Architecture Christian est Directeur de l’Architecture au sein de la DSI de Swiss Life. Il est en charge de définir les orientations d’évolution du SI et d’accompagner les projets dans leur concrétisation, ce qui implique un rôle de conseil et d’anticipa- tion par rapport aux évolutions liées au digital, dont les usages Big Data. Christian est diplômé de l’Ecole Centrale de Lyon et a exercé pendant 13 ans en société de services informatique, notamment chez Lyon Consultants et IBM Global Services avant de rejoindre Sanofi Aventis, puis en 2007 AXA France où il a œuvré comme Architecte d’Entreprise sur le périmètre Distribution, Internet et Marketing. Il a intégré Swiss Life France en 2012. Télécom-ParisTech, Institut Mines-Télécom Stéphan Clémençon Professeur et Responsable du Mastère Spécialisé Big Data Stéphan Clémençon est Professeur à Télécom-ParisTech, Institut Mines-Télécom, au sein du Département TSI et anime le groupe de recherche STA. Il effectue ses travaux de recherche en mathéma- tiques appliquées au LTCI UMR Télécom ParisTech/CNRS No. 5141. Ses thématiques de recherche se situent principalement dans les domaines du machine-learning, des probabilités et des statis- tiques. Il est responsable du Mastère Spécialisé Big Data à Télécom Paris-Tech et titulaire de la chaire industrielle « Machine-Learning for Big Data ». CONTRIBUTEURS
  • 176.
    174 Thales Communications et Sécurité Jean-FrançoisMarcotorchino Vice Président et Directeur Scientifique de Thales GBU SIX Jean-François Marcotorchino est actuellement et depuis 10 ans Vice Président, Directeur Scientifique de Thales GBU SIX, et « Thales Technical Fellow ». Parallèlement à son activité Thales, Jean-François Marcotorchino est titulaire du titre de Professeur des Universités (Directeur de Recherche au Labo de Statistique Théorique et Appliquée LSTA de Paris VI). Il a auparavant été pendant 30 ans membre d’IBM France et d’IBM EMEA, et en particulier pendant 10 ans, Directeur du Centre Scientifique IBM de Paris et de l’ « Euro- pean Centre for Applied Mathematics (ECAM )» d’IBM EMEA. The Economist Stéphane Père Chief Data Officer (Global) Stéphane Père est  Chief Data Officer (Global) chez The Economist. Sa mission est  de promouvoir les données au rang  d’actif stratégique de l’entreprise, de les protéger en tant que tel ;  mais aussi d’utiliser le traitement des données pour soutenir la croissance des revenus de la diffusion et  de la publicité,  ainsi qu’explorer les nouvelles perspectives offertes par les Big Data. Il a rejoint The Economist dans ses bureaux à Paris en 2007 dans le but de gérer les ventes de publicité en ligne pour l’Europe Continentale, le Moyen-Orient et l’Afrique. En 2010, il s’installe à New York pour lancer Ideas People Channel (un réseau publicitaire). A partir de 2012, il était aussi le Directeur Commercial de The Economist pour les Agences et la publicité digitale de la région Amériques. Avant de rejoindre The Economist, Stéphane Père a eu une carrière variée  dans le secteur de la publicité : en ligne chez Yahoo!, télévision pour Bloomberg et aussi animation commerciale d’un réseau d’agents  pour Canal+. encyclopédie des big data
  • 177.
    175 Voyages-sncf.com Angélique Bidault-Verliac Responsable duPôle Data & Webmining Angélique a débuté sa carrière en tant que Consultant Data dans une web-agency sur des problématiques CRM & web analytiques. Chez Voyages-sncf.com, elle est responsable du Pôle Data & Webmining dont l’un des enjeux est de développer la connaissance client, en s’appuyant notamment sur les nouvelles opportunités du Big Data. Angélique est diplômée d’un DEA de Mathématiques à l’Université Pierre et Marie-Curie et elle a obtenu un Mastère Spécialisé en Marketing Management à l’ESSEC. Voyages-sncf.com Marie-Laure Cassé Directrice Marketing Client & Data Chez Voyages-sncf.com depuis 2010, Marie-Laure Cassé a occupé la fonction de Directrice Marketing Digital avant de prendre la responsabilité depuis un an du « Big Data client » dont les missions consistent, grâce à l’exploitation de la data à développer la connaissance clients, à implémenter des solutions pour mieux personnaliser l’expérience utilisateur, à booster la performance du marketing digital etc. Auparavant, elle a exercé plusieurs fonctions au sein du marketing de La Fnac. Marie-Laure Cassé est diplômée de l’ESCP Europe. CONTRIBUTEURS
  • 178.
  • 179.
  • 180.
    178 encyclopédie des bigdata fifty-five accompagne les entreprises dans l’exploitation de leurs données au service d’un marketing et un achat-média plus performants. Partenaire des annonceurs de la collecte à l’activation des données, l’agence aide les organisations à devenir de véritables entités omnicanales, maîtrisant l’efficacité de leur écosystème digital et ses synergies avec le monde physique. Reconnue «J eune Entreprise Innovante » et membre du réseau Bpifrance Excellence, fifty-five propose des prestations associant conseil, services et technologie et compte aujourd’hui 3 bureaux à Paris, Londres et Hong Kong. Son offre s’articule autour de quatre piliers stratégiques : Collecte de données Connaissance-client et engagement Stratégie data & digitale Efficacité média
  • 181.
    179 fifty-five • La première agence à l’ADN 100 % data • Plus de 20 partenariats avec les leaders technologiques mondiaux : Google, Facebook, Adobe, Oracle, Tableau Software, Baidu… •Plus de 80 clients actifs, dont 40 % du CAC 40 labels ou prix • 10 d’excellence et d’innovation • L’équivalent de 15 % des effectifs investis en R&D • 3 bureaux : Paris, Londres, Hong Kong • Une approche holistique de l’activité digitale • Des clients dans tous les secteurs, du Travel au Luxe, du FMCG à l’Entertainment
  • 182.
    180180 A vec le développement d’Internetet des usages mobiles et cross-canaux, la quantité de données disponibles explose, et le marketing devient de plus en plus technologique. Ces données représentent une énorme opportunité pour les Directions Marketing pour mieux connaître leurs cibles, segmenter leurs audiences et avoir une communication plus efficace. Mais c’est aussi un défi considérable d’un point de vue technologique, organisationnel et méthodologique, de collecter, analyser et exploiter ces données. Née de ce constat, fifty-five a pour vocation de mettre la donnée au service du marketing et de l’expérience- client, grâce à l’alliance native de ces différentes expertises. Proposant une approche holistique du marketing, fifty- five intervient sur la globalité de la chaîne de valeur de la data, de la collecte à l’activation, en passant par toutes les étapes du travail de la donnée qui lui confère sa valeur : réconciliation, fiabilisation, organisation, mining, scoring, etc. Pionnière dans le secteur, fifty-five est une nouvelle forme d’agence, à la confluence de l’achat-média, du conseil, de l’analytics et de l’ingénierie. Partenaire des solutions les plus innovantes et les plus robustes du marché, dont Google, Facebook, Adobe, Oracle, Acxiom, ou encore Baidu, fifty-five est agnostique sur le plan technologique. Cela lui permet de mettre sa connaissance fine des différents écosystèmes digitaux et technologiques (“stacks”) au service de ses clients, pour les accompagner dans le choix et l’implémentation des solutions les mieux adaptées à leurs besoins. Ce positionnement original, alliant expertise technique, vision stratégique et excellence opérationnelle, fait de fifty-five un pure player disruptif sur le marché de l’achat média et du conseil, catalyseur d’innovation pour les marques. fifty-five 4, place de l’Opéra 75002 Paris [email protected] +33 1 76 21 91 37 encyclopédie des big data
  • 183.
    181 Nicolas Beauchesne, Co-fondateur,DG Plus de dix ans d’expérience dans le web ont rompu Nicolas aux nouveaux formats publicitaires et aux problématiques e-commerce. Diplômé d’ESCP Europe, il fait ses premières armes au sein du groupe Vivendi Universal, avant de rejoindre Photoways.com en tant que DG-adjoint. Chez Google, il travaille d’abord au déploiement de l’offre Adwords dans le secteur Media & Entertainment, jusqu’au lancement de l’offre YouTube et Google Display dont il devient Directeur. Chez fifty-five, il est en charge du développement commercial et du staffing. Alan Boydell, Co-fondateur, Directeur Data Insight & Analytics De nombreuses années chez Google comme responsable Google Analytics pour l’Europe du Sud ont fait d’Alan un expert européen en webanalyse et en testing. Auteur du blog «The Analytics Factor», cet universitaire écossais détenteur de deux Masters of Arts a également co-écrit le premier manuel d’utilisation francophone sur Google Analytics, paru chez Pearson en 2010. Il quitte Google pour l’agence Keyade, avant de co-fonder fifty-five. Mats Carduner, CEO et co-fondateur Mats Carduner débute sa carrière au marketing chez L’Oréal en 1992 avant d’entrer rapidement dans le secteur d’Internet, en 1995. Il entre chez le fournisseur d’accès Infonie, puis atterrit chez Havas où il est chargé de trouver des débouchés numériques aux contenus, jusqu’en 1998. Il devient ensuite Directeur Général de Monster, qu’il développe en France pendant cinq ans, avant de tout quitter pour créer, avec deux amis, son réseau social professionnel. En 2004, il prend les rênes de Google France, puis Europe du Sud. Six ans plus tard, il crée la data agency fifty-five. Arnaud Massonnie, Co-fondateur, DG Diplômé de l’EDHEC, Arnaud est un entrepreneur dans l’âme, avec à son actif un brevet et trois startups Internet, dont un réseau social cédé au Figaro. Après avoir débuté chez Havas Interactive, il rejoint Monster.com comme Directeur Marketing France. Il monte ensuite la division e-learning de Atlas. Il entre enfin chez Google en 2005, où il prend la Direction des opérations pour l’Europe du Sud, puis co-fonde fifty-five. Jean Neltner, Co-fondateur, DG Diplômé de l’EM Lyon, Jean Neltner est spécialiste du business développement sur Internet. Son expertise porte sur tous les secteurs : finance, technologie, CPG, B2B. Il participe à la croissance rapide du secteur de l’Internet d’abord en tant que Directeur Commercial chez Infonie, puis comme Directeur du Business Development chez Lycos et EGG. Avant de co-fonder fifty-five en 2010, Jean Neltner passe par Google pour gérer les partenariats stratégiques. fifty-five
  • 184.
    182 IBM considère ladata comme une matière première très précieuse, au cœur de la transformation des entreprises. Sur un marché concurrentiel accru par l’arrivée de nouveaux acteurs, les entreprises ont plus que jamais besoin de transformer des données brutes en informations pertinentes pour aider à la prise de décision. encyclopédie des big data Aider les entreprises à être plus réactives et à prendre les meilleures décisions possibles Dans ce contexte, IBM aide les entreprises à valoriser les données – internes et externes, structurées et non structurées – pour prendre les meilleures décisions possibles sur des sujets tels que : - Améliorer le pilotage de la performance - Disposer d’une vision 360° d’un client ou d’un produit - Développer l’intimité client - Optimiser les stocks et le réassort des produits - Choisir l’implantation des points de vente - Analyser les interactions des marques avec les clients via les réseaux sociaux - Créer des expériences clients personnalisées, etc. IBM, Partenaire de la transformation numérique des entreprises IBM est un acteur international majeur dans le domaine des services et solutions analytiques et Big Data. Nous accompagnons les entreprises de toutes tailles et de tous secteurs depuis la phase de cadrage jusqu’à la mise en œuvre de leurs projets autour de la donnée et les aidons à créer de nouveaux modèles économiques. Nous nous appuyons sur une expertise IT et métier reconnue, des technologies innovantes et ouvertes et une approche agile. De plus, afin de permettre aux entreprises de corréler leurs données internes avec des informations issues de l’extérieur pour en tirer plus de valeur, IBM a noué des partenariats stratégiques, avec Twitter par exemple, et a acquis des actifs de The Weather Company, spécialiste américain de la météorologie. Enfin, IBM investit de manière importante dans l’Internet des Objets et l’informatique cognitive avec Watson. Big Data & Analytics
  • 185.
    183 • BigInsights forApache Hadoop : Traiter et analyser tous types de données sur des clusters de serveurs • Stream computing (Streams) : Analyser en temps réel, sur des flux de tous types, des volumes massifs de données • Solutions de Data Warehousing : en mode appliance (PureData for Analytics), Software (DB2 BLU) ou en mode Cloud (dashDB) Effectuer des analyses poussées « in database » • Data visualization (Watson Explorer, Watson Analytics et Cognos Analytics) : Chercher, découvrir et visualiser des données quels que soient leur source ou format • Intégration et gouvernance des données (InfoSphere) : Comprendre, créer, gérer, transformer et distribuer des données de qualité • Business Intelligence (Cognos) : Accéder et analyser les informations nécessaires à la prise de décisions • Analyse prédictive (SPSS) : Découvrir des tendances non visibles et anticiper avec précision les résultats • Cloud Data Services (Cloudant, dashDB) : Collecter, traiter et analyser la donnée dans le Cloud IBM Un large portefeuille d’offres pour collecter, stocker, traiter et valoriser la donnée Les offres d’IBM sont disponibles « on premise » et/ou en mode SaaS. En complément de ses solutions propriétaires, IBM se positionne sur les technologies open source avec son offre BigInsights for Apache Hadoop et est un acteur majeur de la communauté Apache Spark. Signe de son engagement fort dans l’open source, IBM est membre fondateur du consortium Open Data Platform (ODPi.org). Pour en savoir plus, consultez notre site Internet : www.ibm.com/software/fr/data/bigdata/ IBM
  • 186.
    184 encyclopédie des bigdata Experts IBM cités dans cet ouvrage : Laurent Sergueenkoff Analytics Platform Sales Team Leader IBM France Laurent Sergueenkoff est en charge de la vente des offres IBM Analytics Platform (gestion de la donnée) auprès des grands clients français. Après un DEA d’informatique à l’université de Paris VII Denis Diderot, il travaille pendant 10 ans sur des projets autour des bases données. Il rejoint ensuite les entités commerciales Sun puis Oracle. Depuis 2011 chez IBM, il développe les activités logicielles autour du Datawarehouse et du Big Data. A ce titre, et fort de nombreux retours d’expérience clients, il participe régulièrement à des communications et événements liés au Big Data en France et aux Etats-Unis. IBM 17 avenue de l’Europe, 92275 Bois Colombes France +33 (0)1 58 75 00 00 www.ibm.com/fr Contact Aline Michel Portfolio Marketing Manager – Big Data & Analytics IBM France +33 (0)6 08 88 37 06 [email protected]
  • 187.
    185 Jacques Milman Architecte SeniorAnalytics IBM France Jacques Milman est consultant architecte senior avec une très grande expérience des solutions Big Data & Analytics. Il a mené de grands projets de Datawarehouse et de Big Data dans le monde entier et se consacre quasi exclusivement depuis quatre ans aux projets Big Data. Jacques Milman a débuté comme consultant dans le monde du conseil et des sociétés de service pour ensuite évoluer vers le monde des éditeurs. Il occupe actuellement le rôle d’architecte leader sur les solutions Big Data & Analytics pour IBM France. Auparavant, il a travaillé deux ans en Asie et avait la responsabilité de l’animation et du coaching de la communauté des architectes IBM dans le domaine Big Data. Dan Benouaisch Directeur Technique Analytics IBM France Après un double diplôme franco-britanique en management, Dan Benouaisch réalise sa première expérience professionnelle aux Etats-Unis dans un groupe industriel et consolide son parcours en effectuant une évolution de carrière progressive chez IBM ; il débute comme consultant dans les systèmes d’information. Depuis 2011, Dan Benouaisch est Directeur Technique dans l’entité Analytics d’IBM France. Son rôle est de conseiller et de proposer des solutions en matière d’intégration de données, de Master Data Management et de Content Management pour répondre aux besoins de gouvernance des entreprises. IBM
  • 188.
    186 PwC développe enFrance et dans les pays francophones d’Afrique des missions d’audit, d’expertise comptable et de conseil créatrices de valeur pour ses clients, privilégiant des approches sectorielles. La raison d’être de PwC est de renforcer la confiance au sein de la société et d’apporter des solutions aux enjeux stratégiques de ses clients. Plus de 208 000 personnes dans 157 pays à travers le réseau PwC partagent idées, expertises et perspectives innovantes au bénéfice de la qualité de service pour leurs clients et partenaires. Les entités françaises et des pays francophones d’Afrique membres de PwC rassemblent 5 000 personnes couvrant 23 pays. PwC accompagne les entreprises françaises et internationales à travers ses trois activités de conseil : • Conseil en stratégie • Conseil en en management & organisation • Conseil en transactions PwC France & Afrique francophone toutes activités confondues a enregistré 810 millions d’€ de chiffre d’affaires L’activité Consulting réalise +15%de chiffre d’affaires sur l’année 2014-2015 encyclopédie des big data
  • 189.
    187 pwc Aujourd’hui, pour gagnerdes parts de marché, il ne suffit pas d’avoir des stratégies bien pensées. Il faut aussi qu’elles soient bien exécutées. C’est pourquoi nous accompagnons nos clients sur l’ensemble de la chaîne de valeur, de la vision à l’action. L’activité Consulting de PwC France réalise ainsi + 15 %, soit un taux de croissance nettement au-dessus du marché. Cette performance s’explique par notre stratégie de croissance externe et de développement de nouvelles compétences, de nouvelles offres et de nouveaux outils. Le conseil en stratégie reste pour PwC un axe majeur d’investissement. Nous avons finalisé l’intégration des équipes de Strategy& au sein de PwC avec un pôle significatif de 130 consultants en stratégie. Nous avons ainsi la volonté de proposer un continuum de services entre la stratégie et sa mise en œuvre opérationnelle, en abordant les projets de transformation le plus en amont possible, tout en ayant ensuite la capacité de mettre en place les outils les plus adaptés. Nous avons ainsi développé de fortes expertises dans le domaine des nouvelles technologies, qui nous permettent d’accompagner nos clients jusqu’à la mise en œuvre effective de leur transformation. Tous les grands groupes se posent aujourd’hui des questions sur la transition numérique et ses impacts sur leur stratégie. Alors que l’expertise de Strategy& est reconnue dans le domaine de la transformation digitale, nous avons décidé de pousser notre logique de continuum de services très loin dans l’exécution. Nous venons ainsi d’acquérir Nealite, une agence digitale de 40 personnes, leader français du « design de services » et de l’expérience utilisateur, qui propose une méthodologie innovante alliant conseil et réalisation et permet d’imaginer et de concevoir des services multicanaux et digitaux toujours plus innovants.
  • 190.
    188 encyclopédie des bigdata L’avalanche de données constitue également un moteur profond de transformation pour les entreprises. Nous investissons donc sur la donnée pour accompagner les entreprises vers des organisations « data driven » et avons créé un laboratoire « Data Analytics » dès 2013. Si le marché du conseil est stimulé par la transformation digitale de nos clients, nous nous transformons aussi. Chez PwC, nous développons, en mode laboratoire, des approches expérimentales qui préfigurent le conseil de demain. Nous nous imprégnons de l’esprit startup pour changer nos méthodes de travail. A titre d’exemple, nous investissons dans l’open innovation en nous appuyant sur de jeunes consultants, qui apportent des idées de nouveaux services ou imaginent de nouveaux modes de fonctionnement. Les consultants doivent être agiles, proposer à leurs clients de travailler en cycles courts, cibler rapidement et de façon objective les enjeux clés et délivrer des résultats dès les premières étapes. PwC 63 Rue de Villiers 92208 Neuilly-sur-Seine France +33 (0)1 56 57 58 59 www.pwc.fr
  • 191.
    189 pwc Marc Damez-Fontaine Senior Manager PwC MarcDamez-Fontaine est Docteur en informatique avec une spécialité en intelligence artificielle et en machine learning de l’Université Pierre et Marie Curie. Après plusieurs années de recherche dans un laboratoire du CNRS pendant lequel il expérimente de nombreux algorithmes d’analyses données sur de nombreux cas pratiques, il s’oriente vers le conseil comme Responsable scientifique d’une solution logiciel. Passionné par la data science et l’innovation dans les entreprises il rejoint l’équipe New Business de PwC en 2015 afin d’élargir l’offre de conseil en technologie. Loïc Mesnage Partner PwC Loïc Mesnage, est diplômé d’un MBA de la Booth School of Business (University of Chicago) et de l’Institut Supérieur du Commerce. Il débute sa carrière comme contrôleur de gestion chez Carbone Lorraine (Groupe Pechiney), avant de rejoindre Concept, éditeur de logiciel financier, à différents postes. En 2001, il intègre PwC au sein de l’activité Développement, avant de rejoindre en 2008 les équipes Consulting. Spécialisé dans les secteurs Energy & Utilities et Consumer Goods, Loïc Mesnage est spécialisé en stratégie des systèmes d’information, transformation par les systèmes d’information, conception et mise en œuvre de systèmes d’information financiers, et Big Data.
  • 192.
    190 encyclopédie des bigdata TURN fournit des informations en temps réel qui révolutionnent le processus de prise de décision en matière de marketing des agences média et des entreprises leader. Notre plateforme digitale dédiée aux professionnels du marketing (DSP + DMP)  permet de centraliser les données, de lancer des campagnes sur différents terminaux et de réaliser des analyses poussées, le tout en ayant accès en un clic à plus de 150 partenaires technologiques et de données intégrées. Turn, dont le siège se situe dans la Silicon Valley, compte des clients utilisateurs de ses produits et services dans le monde entier. Pour plus de détails, rendez-vous sur www.turn.com ou suivez-nous sur @turnplatform. Digital Hub de Turn pour les spécialistes du marketing Des renseignements au passage à l’action. Une plate-forme intégrée et unique de marketing. Bienvenue dans l’ère du marketing vivant et évolutif Digital Hub de Turn pour spécialistes du marketing est une plateforme intégrée dès l’origine, qui vous met en contact avec vos audiences et leurs besoins en constante évolution, si bien que chaque interaction est motivée par des données adaptées et spécifiques à une audience précise. Que l’objectif soit le développement de votre marque ou le lancement d’une campagne de réponse directe, notre accent sur l’intégralité du parcours d’achat vous apporte les données en temps réel et la profondeur de renseignements nécessaire à l’atteinte de vos objectifs. encyclopédie des big data
  • 193.
    191 Le marketing guidépar les données n’a aucune raison d’être compliqué Digital Hub simplifie et rationalise le marketing en supprimant les obstacles entre sources de données et actions de marketing. Notre plateforme unique allie une puissante plateforme de gestion des données (DMP) et une plateforme côté demande (DSP) étendue, le tout supporté par une analyse robuste des données et un vaste écosystème de partenaires. Ceci vous permet de comprendre les données d’audience et de campagne, puis de les utiliser à des fins de planification et d’activation sur tous les canaux. Vous réagissez ainsi aux actions de votre audience tout en offrant à chacun de vos clients une expérience de marque cohérente. La puissance d’une plateforme intégrée Grâce à Digital Hub, votre gestion des données, vos segments d’audience, vos achats numériques et vos analyses avancées fonctionnent toutes sur les mêmes profils de consommateurs. Ainsi, vos données d’audience sont constamment mises à jour et vos achats programmatiques sont toujours basés sur les données d’audience et de campagne les plus récentes et les plus appropriées. En outre, l’intégration supplémentaire des analyses granulaires de marché et le reporting en temps réel vous donnent un accès direct à des données et à des renseignements de grande valeur, que ce soit en termes d’optimisation immédiate ou de planification de campagnes à venir. Aucune perte de données : touchez 100% de votre audience Lorsqu’une plateforme DMP autonome se connecte à une DSP également autonome, elle subit une perte de données allant de 20 à 40%. À quoi correspond cette déperdition ? À votre capacité à atteindre les segments d’audience prévus dans votre DMP. Ceci est dû au fait que ces systèmes distincts utilisent des ID d’utilisateur différents, ce qui rend impossible une correspondance parfaite. Et si vous ne parvenez pas à faire correspondre les utilisateurs de votre DMP à ceux de la DSP, vous ne pouvez jamais les atteindre. En revanche, la plateforme de Turn est intégrée dès l’origine, ce qui élimine les pertes de données entre les systèmes et vous permet d’atteindre toutes les audiences qui représentent un intérêt pour vous. TURN
  • 194.
    192 encyclopédie des bigdata Aucune déperdition : accédez à l’intégralité de vos données, quel que soit le moment où vous en avez besoin Les DMP autonomes ne permettent pas un accès immédiat aux données de média vitales générées dans la DSP, données qui sont pourtant cruciales pour une bonne compréhension de la manière d’optimiser les campagnes et d’interagir au mieux avec votre audience. De plus, les plus grands réseaux publicitaires, tels que Google Display Network, appliquent des règles qui empêchent les plateformes de gestion des données (DMP) autonomes de recueillir des données de campagne. Seule la plateforme intégrée de Turn est capable de fournir un accès instantané aux renseignements dont vous avez besoin : performance de votre campagne, sur quels médias et auprès de quelles audiences. Il vous suffit alors de les relier à vos profils d’audience personnels pour avoir une vision claire de vos données publicitaires. Aucune latence : ne manquez aucune occasion d’interaction En matière de programmatique, chaque milliseconde compte. L’action en temps réel est ce qui sépare l’interaction aux moments cruciaux de la perte d’occasions qui auraient pu influencer la décision des clients ou améliorer leur expérience de marque. Les DMP autonomes mettent du temps à se synchroniser avec les DSP − jusqu’à 24 heures dans la plupart des cas, ce qui équivaut à environ 485 occasions ratées. Grâce à la plateforme intégrée de Turn, vos données sont mises à jour en quelques millisecondes − ce qui vous permet de tirer profit d’une segmentation et d’une classification en temps réel pour identifier, convertir et interagir avec les bonnes audiences. Contact : Kamal Mouhcine Directeur Commercial de Turn en Europe du Sud [email protected] | +33 6 42 10 97 69 18 rue Pasquier - 75008 Paris | +33 1 70 61 05 06 | www.turn.com Avec plus de 10 ans d’expérience dans l’industrie des médias, Kamal Mouhcine a pour principales missions de développer le chiffre d’affaires de la société pour l’Europe du Sud. Avec un début de carrière chez Microsoft Advertising dans le cadre du programme Mach réservé aux « hauts potentiels », où il était en charge du développement des offres commerciales de la régie pour les plus grandes agences stratégiques comme AEGIS et Publicis, Kamal a par la suite acquis une solide expérience internationale de Management d’équipe chez Yahoo Europe (Barcelone). Il a dans un premier temps développé le Midmarket pour les marchés Français et Espagnol avant de revenir chez Yahoo France (Paris) pour prendre le management des équipes Annonceurs en charge des verticaux stratégiques Telco, Finance et Gambling.
  • 195.
    193 0,36 0,36 seconde Lenavigateur affiche la page web en intégrant l'annonce gagnante et informe le DSP gagnant que 0 0,04 seconde turn.com © 2013 Turn Inc., Tous droits 0,125 seconde 0,31 seconde Le serveur publicitaire de l'annonceur envoie 0,23 seconde 0,19 seconde 0,18 seconde 0,14 seconde 0,13 seconde 0,12 seconde 0,10 seconde ACHAT D'UNE PUBLICITÉ EN TEMPS RÉEL ÉLABORATION D'UNE CAMPAGNE PUBLICITAIRE EN LIGNE Si l'élaboration de la stratégie de campagne publicitaire parfaite peut prendre des semaines au marketing, il suffit d'une fraction de seconde pour livrer et afficher la publicité. Le serveur publicitaire de l'éditeur indique au navigateur L’Ad Exchange envoie le tarif et l'annonce de l'offre gagnante au serveur publicitaire de l'éditeur. L’Ad Exchange effectue alors une seconde enchère et sélectionne l'offre gagnante en fonction des réponses des DSP. Chaque DSP soumet une offre à la requête de l'Ad Exchange. Chaque algorithme de DSP évalue et calcule l'enchère optimale à soumettre à l'annonceur. Chaque DSP intègre les règles de ciblage et de budgétisation de l'annonceur et applique les données de third-party. L’Ad Exchange envoie à chaque DSP le profil anonyme de l'utilisateur X, la catégorie du site Internet, et les informations de sécurité de la page. 0,08 seconde L’Ad Exchange diffuse la requête d'annonce publicitaire à plusieurs plates-formes de gestion de la demande (DSP), la technologie d'achat média. L'éditeur demande à son serveur publicitaire s'il y a une annonce disponible à afficher. S’il n’y en a pas, il fait appel à un Ad Exchange. Dès que l'« utilisateur X » clique sur une URL, le contenu de l'éditeur commence à se télécharger dans le navigateur. 8. RENSEIGNEZ vos futurs projets en sauvegardant les données de votre campagne actuelle dans la plate-forme de gestion 7. OPTIMISEZ la performance de votre campagne et analysez les résultats. 6. DIFFUSEZ LA PUBLICITÉ à partir d’une Demand Side Platform (DSP – plate-forme axée sur la demande), la technologie d'achat média. 5. CONCEVEZ une annonce adaptée à plusieurs supports (vidéo, display, mobile ou réseaux sociaux) et appareils. 4. CONVENEZ D'UN BUDGET pour la campagne publicitaire en ligne et développez un plan média. 3. ÉLABOREZ une campagne publicitaire qui cible votre audience. 2. DÉFINISSEZ les segments d'audience dans la plate-forme de gestion des données (DMP) en fonction des besoins de 1. CONNECTEZ les données first party provenant du CRM, de la campagne et du site web de l'annonceur avec les données provenant des analyses, comportementales, contextuelles et démographiques (third party) au sein d’une plate-forme de gestion des données (DMP). LA VIE D'UNE PUBLICITÉ SECONDE SECONDE TURN
  • 196.
    194 encyclopédie des bigdata Avec 600 sociétés adhérentes, dont l’intégralité du CAC 40 et du SBF 120 et plus de 110 000 professionnels, l’EBG constitue le principal think-tank français sur l’économie digitale. L’EBG a pour vocation d’animer un réseau de décideurs, en suscitant des échanges permettant aux cadres dirigeants de se rencontrer et de partager bonnes pratiques et retours d’expérience. Plus de 150 événements et 5 à 6 ouvrages sont réalisés chaque année, permettant de fédérer des décideurs d’entreprises issus de tous les métiers : Directeurs Marketing, Directeurs Digital, Directeurs Achats, DSI, DRH, DG etc. Le Conseil d’Administration de l’EBG se compose des personnalités suivantes : Stéphane Richard, CEO d’Orange – actuel Président de l’EBG Jean-Bernard Levy, PDG d’EDF Steve Ballmer, ex-CEO de Microsoft François-Henri Pinault, Président de Kering Pierre Louette, Directeur Général Adjoint d’Orange Patrick Le Lay, Ancien PDG de TF1 Grégoire Olivier, Directeur zone Asie de PSA Peugeot-Citroën Didier Quillot, Administrateur du fonds 21 Centrale Partners Sir Martin Sorrell, Président de WPP Jean-Daniel Tordjman, Ambassadeur, Inspecteur Général des Finances Wu Janmin, Président de l’Institut de la Diplomatie de Beijing, Président du Bureau International des Expositions Philippe Rodriguez, Trésorier Pierre Reboul, Secrétaire Général
  • 197.
    195 • Les Référentiels: - étude de grande ampleur sur l’évolution d’un métier, d’un secteur, ou une grande mutation des organisations - 100 interviews de Directeurs de grands groupes, - 200 pages d’analyses, cas concrets et citations. Titres parus : Référentiels des Directeurs Achats, Référentiels des Directeurs Marketing, Référentiels des DSI, Référentiel de la Transformation Digitale… • Les Livres Blancs - étude sur un sujet innovant (Data Visualization, Cloud etc.) - 30 interviews de Décideurs qui portent un projet lié à la thématique - entre 100 et 150 pages d’analyses, cas concrets et citations Titres parus : Cloud et nouveaux usages de l’IT, Data Visualization, Big Data, Marketing comportemental, Internet des Objets, Encyclopédie des Big Data … • Les Baromètres - étude quantitative menée auprès de toute la communauté EBG pertinente - entre 500 et 1000 répondants par étude - 20 à 30 pages d’analyses, de tableaux et graphiques Titres parus : Performance du Marketing Digital, État des lieux du Programmatique en France, L’impact du digital dans la performance marketing et commerciale • Internet Marketing - 70 décryptages de campagnes marketing - 10 000 exemplaires diffusés - 500 pages de techniques et méthodes ebg LE PÔLE ÉTUDES DE L’EBG L’EBG édite quatre collections d’ouvrages uniques en leur genre, permettant de recueillir les témoignages les plus pointus et les visions de nos adhérents sur des sujets d’actualité. Source :IBMCenterforApplied Insights -www.ibmcai.com RéféRentieltRansf oRmationDigital e2015 Conversations aveC le CaC40 100 interviews de décideurs tRans- foRmation Digitale 2015 Ventes de PC (millions) Ventes tablettes et smartphones (millions) Ventes comparée s PC / Smartpho nes et tablettes de 1996 à 2014 1 200 000 000 600 000 000 L’impact du digital dans la performance marketing et commerciale Résultats du Baromètre 2015
  • 198.
    196 encyclopédie des bigdata Pour plus d’informations sur les événements ou le pôle études de l’ebg Arthur Haimovici Responsable du Pôle Études / Pôle BtoB 01 48 01 65 61 [email protected] Ligia Rodrigues Chargée de Projets du Pôle Études 01 48 00 00 38 [email protected]
  • 199.
    197 L’AUTEUR Clément Imbert Diplômé duCFJ, et ancien collaborateur de l’association des journalistes économiques et financiers, Clément Imbert est journaliste freelance et collabore régulièrement aux titres du groupe Prisma Media. ebg
  • 200.
    Imprimé en France parAubin Imprimeur, 86 240 Ligugé Conception graphique/maquette : Thierry Badin : www.hite.fr Copyright © 2016 EBG-Elenbi – 55 – IBM – PwC – Turn Tous droits réservés. Cet ouvrage ne peut en aucune manière être reproduit en tout ou partie, sous quelque forme que ce soit ou encore par des moyens mécaniques ou électroniques, y compris le stockage de données et leur retransmission par voie informatique sans autorisation des éditeurs, EBG-Elenbi, 55, IBM, PwC, Turn. La citation des marques est faite sans aucun but publicitaire. Les erreurs ou les omissions involontaires qui auraient pu subsister dans cet ouvrage malgré les soins et les contrôles de l’EBG-Elenbi, 55, IBM, PwC et Turn ne sauraient engager leur responsabilité. EBG-Elenbi – 55 – IBM – PwC – Turn
  • 202.