Le Big Data, c’est simple, c’est un gros problème !

DIDIER Jean-PierrePr Jean-Pierre DIDIER

professeur des universités
praticien hospitalier honoraire

jean-pierre@hopital-territoires.eu

 

Big Data, la nouvelle Pythie

Les nouvelles technologies de l’information et de la communication sont les agents d’une révolution, dont nous mesurons mal l’importance.

Pendant longtemps l’accumulation systématique de données, quel que soit le domaine qu’elles concernaient, était impossible faute de pouvoir les stocker toutes. Aussi était-il nécessaire de procéder à une sélection de celles qui paraissaient les plus utiles, avec l’abandon de toutes les autres, dans une démarche de formulation d’hypothèses, permettant de comprendre le pourquoi des choses. La logique cartésienne du siècle des lumières a été un superbe exemple de cette culture.

Viktor MAYER-SCHONBERGER

Viktor MAYER-SCHONBERGER

L’arrivée de l’informatique et de ses machines performantes a bouleversé ce mode de fonctionnement. Le livre Big Data écrit par Viktor MAYER-SCHONBERGER et Kenneth CUKIER, publié en 2013, en témoigne.

D’une part, le verrou technologique empêchant l’accumulation et le stockage des données a pu être levé. La collection d’un volume gigantesque de données numérisées et d’une extrême variété compte tenu des champs explorés est devenue possible en créant ce qui a été logiquement baptisé au début des années 2000 des big data. La quantité de données du monde digital à la fin de 2011 a été estimée à 1.8 zettaoctet soit un nombre à 22 chiffres, de quoi donner le vertige, et encore le monde digital d’ci 2020 devrait, dit-on, doubler tous les 2 ans…

Kenneth CUKIER

Kenneth CUKIER

D’autre part, la multiplication et les performances des algorithmes appliqués à ces collections de données ont conduit à donner du sens et de la valeur à certaines d’entre elles, à travers des corrélations ou des prédictions statistiques, découvertes par des machines de plus en plus rapides et puissantes.

C’est ainsi qu’une profonde révolution de la manière de penser s’est exprimée. Un nouveau paradigme a minimisé la recherche du pourquoi des choses, au bénéfice de la mise en évidence, par la machine, d’une possible valeur de ces choses, sans attacher d’importance à la nature des mécanismes qui peuvent les relier. C’est donc souvent dans une approche prédictive que cette démarche anticartésienne a trouvé du sens, faisant d’un nouveau concept, le Big Data, une Pythie des temps modernes.

Des oracles décisifs pour le business

Dans les domaines du commerce, de l’économie et des finances, le Big Data, a illustré une nouvelle tendance culturelle de notre société, occupée « à tirer parti de la corrélation et à renoncer à sa préférence traditionnelle pour la causalité ». Le Big Data peut donc se définir comme « une nouvelle génération de technologies et d’architectures conçues pour extraire de la valeur à une grande variété de données en permettant leur capture à haute vitesse, leur découverte et/ou leur analyse ».

Deux anecdotes expriment bien cette évolution.

Constance L. HAYS a rapporté en son temps dans le New York Times une histoire savoureuse de pâtisseries aux fraises. L’analyse des très nombreuses données collectées aux caisses des grandes surfaces lors du paiement des achats des clients des magasins de la chaîne Wal-Mart a démontré qu’à l’annonce de l’ouragan CHARLEY, début aout 2004, les ventes de biscuits Pop-Tarts à la fraise avaient été stimulées. Tenant compte de cette tendance, la chaîne, à l’annonce de l’ouragan FRANCES fin aout 2004, a développé une stratégie commerciale prédictive… et bingo ! les ventes de Pop-Tarts à la fraise ont été multipliées par 7 !

Viktor MAYER-SCHONBERGER et Kenneth CUKIER dans leur livre rappellent l’histoire d’Oren ETZIONI, qui au début des années 2000 a créé la startup FARECAST. A partir d’une base de données de réservations, portant sur tous les sièges de tous les vols sur la plupart des itinéraires de l’aviation commerciale américaine en un an, soit un nombre d’environ 200 milliards de données, il réussit à construire un modèle prédictif permettant aux futurs voyageurs de réserver, au bon moment, un billet d’avion avec des économies substantielles. En 2008, le système ayant atteint un taux de 75 % de prévisions correctes avec une économie moyenne de 50 dollars par billet, Microsoft a racheté Farecast pour la bagatelle de 110 millions de dollars ; belle affaire n’est-elle pas ?

Ces anecdotes expriment bien l’intérêt du Big Data dans le domaine du business. Pourtant de nombreux autres domaines sont concernés… nous dit-on pour le bien de l’humanité ? Allez savoir !

Le Big Data, un « grand pas pour l’Humanité » ?

Les Etats-Unis, propriétaires de la majorité des plus puissantes machines au monde, ne se sont pas privés de les faire tourner, pas seulement pour la vente de tartes aux fraises !

Edward SNOWDENPassons vite sur les révélations d’Edward SNOWDEN sur le programme PRISM mis en place par la NSA pour espionner les Etats à partir des communications numériques échangées à travers l’ensemble des réseaux sociaux. En effet Montesquieu, n’avait-il pas déjà renoncé à toute naïveté dans De l’Esprit des lois, en notant que « L’espionnage serait peut-être tolérable s’il pouvait être exercé par d’honnêtes gens » ?

Monique ATLANPlus « humanistes » sont a priori les usages du Big Data appliqués au domaine de la santé, dès lors qu’ils supportent l’idée qu’il devient possible de faire reculer l’âge de la mort tout en préservant le plus longtemps possible un indispensable bien être. Monique ATLAN et Roger-Pol DROIT dans Humain, livre sorti en 2012 ont souligné l’importance du Big Data, dénominateur commun de l’ensemble des révolutions liées aux Nanotechnologies, Biotechnologies, Informatique et sciences Cognitives (NBIC), tout en gardant un prudent esprit critique.

Roger-Pol DROITLe Big Data a permis de plonger au plus profond de l’ADN, le séquençage du génome humain est ainsi devenu possible, en permettant d’atteindre « l’inaccessible Graal Biologique ». Une voie nouvelle a pu alors donner accès à des thérapeutiques ciblées parfaitement adaptées à un individu, à un moment donné de l’évolution de sa maladie et à la nature de l’agent pathogène. En revanche, se profilent avec le Big Data des moyens capables de générer un monde meilleur, sinon le « Meilleur des Mondes », à travers le transhumanisme et l’eugénisme.

Laurent ALEXANDRELe séquençage intégral de l’ADN du fœtus ouvre la voie à la multiplication des interruptions volontaires de grossesse en l’absence de tout débat éthique, au seul motif de probabilité d’un enfant imparfait. « Nous dévalons le toboggan eugéniste sans débat philosophique » a ainsi pu écrire le futurologue Laurent ALEXANDRE.

Le Big Data a aussi permis le développement de l’épidémiologie, non seulement en reconnaissant les facteurs de risque vis-à-vis des principales maladies responsables de décès précoce, mais aussi en prévoyant les épidémies de maladies infectieuses, elles aussi encore mortelles, malgré les progrès thérapeutiques réalisés.

En utilisant une somme considérable de données, issues des réseaux sociaux, de blogs, de sites gouvernementaux et d’organisations de santé internationales, GOOGLE a développé en 2008, le Google Flu Trends (GFT) permettant de visionner pratiquement en temps réel l’extension d’une épidémie grippale. Selon un même principe la société HealthMap aurait détecté très rapidement l’épidémie d’Ebola avant que l’OMS n’en fasse l’annonce officielle.

Martin LESSARDToutefois ce qui peut alors apparaître comme un grand pas pour l’humanité ne se révèle-t-il pas un peu plus petit que prévu, car comme l’a écrit en mars 2014 Martin LESSARD pour Radio Canada, « Quand Google Flu Trends éternue, le Big data s’enrhume » ?

On a toujours besoin d’un plus petit que soi

Ce journaliste rapporte une étude, publiée dans la revue Science, qui démontre que systématiquement l’outil GFT a surestimé les cas de grippe depuis 2011 pendant les trois dernières années. En se basant sur les données du Centre américain de contrôle et de prévention des maladies (CDC), qui collige les motifs des visites chez les médecins, « l’estimation de Google dépassait de 50 % celui du CDC durant cette période ». Une telle erreur de prédiction peut avoir des conséquences lourdes au plan économique. Bénéfique pour le marché des vaccins, délétère pour le budget de la santé, Big Data a-t-il eu une responsabilité dans l’achat démesuré des 94 millions de doses de vaccins, pour 1 milliard d’euros, acquises par la France en 2009 ? C’est vraisemblable.

Moins impertinentes, mais tout aussi critiques, sont les conclusions que tirent les chercheurs de l’étude publiée dans Science.

D’une part, ils soulignent qu’il « ne faut pas s’enorgueillir du Big Data » d’autant que ses conclusions trompeuses se substitueraient, plutôt qu’elles ne complèteraient l’analyse traditionnelle. En effet le seul fonctionnement des machines à partir d’algorithmes circonstanciels, constamment modifiés par les ingénieurs à la suite des interventions et des questionnements des consommateurs, conduit à ce que leur crainte ou leur inquiétude multiplie les interventions sur les réseaux sociaux, travestissant ainsi la réalité médicale des faits.

C’est pourquoi ils préconisent la confrontation des « grandes données » avec les « petites données » traditionnelles, dont la valeur est loin d’être négligeable, puisqu’acquises sur le terrain par des professionnels avertis. Aussi, plutôt que de se focaliser sur la révolution des big data, capables d’une mise en évidence rapide de faits erronés, le temps est peut être venu de s’intéresser à ce qu’ils appellent « une révolution de toutes les données », basée sur une démarche analytique associant les données acquises à travers le Big Data et les données traditionnelles. En appliquant ce principe, ils ont en effet pu constater que les prédictions erronées faites par le Google Flue Trends pouvaient être redressées.

Alors, à quoi peuvent donc servir isolément de tels outils prétendument révolutionnaires ? A pas grand-chose, sinon à explorer notre intimité en exploitant nos données personnelles.

Big Data viole votre intimité, pas de panique c’est bon pour vous…

A qui appartient la somme colossale de données alimentant le Big Data ? Est-il possible de les utiliser sans se soucier davantage du droit à l’accès de l’intimité des citoyens ? Mediapart avait en 2012 tiré la sonnette d’alarme : « Toutes les sécurités Internet peuvent être contournées. Les systèmes les mieux «verrouillés» sont pénétrés tous les jours: de grandes administrations (Pentagone, Bercy) ou entreprises (EADS, Sony) en ont été les récentes victimes ».

L’énorme intérêt commercial représenté notamment par les données de santé est évalué à plus de 300 milliards de dollars par l’agence McKinsey pour les pays développés ; de quoi attiser l’appétit des « big datistes ».

BIG DATALa France a été précurseur dans la mise en œuvre d’une protection de nos données personnelles à travers la CNIL (Commission nationale de l’informatique et des libertés). Par ailleurs l’Inspection générale des affaires sociales (IGAS) a produit en 2013 un Rapport sur la gouvernance et l’utilisation des données de santé, qui souligne l’intérêt de la réunion des bases de données du Système d’information inter-régimes de l’assurance-maladie (SNRIIRAM) et du PMSI sous la dénomination SI (Système d’information). Ce rapport reconnaît ce grand ensemble comme un bien public, dont il préconise d’en simplifier l’accès pour les chercheurs ; mais il affirme que ce SI ne peut être approprié par aucun des acteurs du système et qu’il doit être protégé par de solides garde fous.

Toutefois il doit être souligné que la loi française ne peut pas s’appliquer à des serveurs informatiques utilisant le Web, puisqu’ils peuvent être situés hors de France : « La protection par la loi est dérisoire face à un système Internet mondialisé, des hébergeurs pouvant stocker leurs données dans le monde entier ».

Dans ces conditions, la défiance du public vis-à-vis d’une violation de leurs données personnelles a probablement constitué un facteur essentiel de limitation du développement du Dossier médical personnel. Ce dossier, institué en France par la loi n° 2004-810 du 13 août 2004, est pourtant a priori d’un grand intérêt pour le suivi des soins et la rationalisation des dépenses de santé. Mais voilà, comme l’a confirmé la Cour des comptes, un demi-milliard d’euros est parti en fumée pour presque rien, sinon quelques expériences pilotes.

La même défiance a été exprimée par d’autres pays d’Europe notamment la Grande Bretagne et les Pays Bas. Et si tout ce petit monde avait raison ?

Raison de se méfier des big data qui, au prétexte qu’ils appartiendraient à l’Humanité toute entière, ne voudraient que son bien. Raison de se méfier des big data qui se parfument au Big Brother.

François BOURDONCLERaison de prendre bonne note de ce que dit François BOURDONCLE, fondateur de la société EXALEAD, intégrée depuis 2014 à DASSAULT Systèmes : « Les barbares sont aux frontières et nous jouons à la bergère ».

De quels barbares s’agit-il ?

Il s’agit évidemment de l’ensemble des sociétés capables de saisir, de stocker et d’analyser toutes les données disponibles à travers l’ensemble des systèmes de numérisation. Dans ce tableau, GOOGLE paraît se distinguer en développant une stratégie qui, sans que nous y prenions toujours garde, étend son empire à l’ensemble des domaines conditionnant la vie des hommes.

Laurent ALEXANDRE dans une interview de Juliette DEMEY pour le Journal du Dimanche n’y va pas par quatre chemins : « GOOGLE est une société magnifique. Pourtant, si elle devient leader en matière de lutte contre la mort, d’intelligence artificielle, de robotique, de domotique, de voitures intelligentes, il faudra vraiment réfléchir à la démanteler ! Elle pourrait devenir plus puissante que les États ». Une telle éventualité dominatrice, évocatrice d’un néototalitarisme, ne peut être balayée d’un revers de main.

Elle impose des consultations publiques. Il nous revient en effet de définir et de maîtriser notre avenir en prenant conscience que si les big data peuvent apporter des avancées intéressantes dans le domaine de la santé, « nous ne devrions jamais nous laisser aveugler par leur éclatante séduction ni oublier leurs imperfections ».

D’une part les big data ne constituent qu’un outil, qui a besoin de l’intelligence de l’homme et ne peut se substituer à son raisonnement, d’autre part, ils impliquent l’utilisation de données ultra-sensibles, qui « même si elles sont utilisées de manière anonyme, doivent être manipulées avec précaution ».

Le débat est d’une actualité brûlante. Nous ne devrions pas attendre la « descente en enfer des données volumineuses », annoncée par Martin LESSARD sur la foi dans le modèle du cycle de HYPE. Encore faut-il que les citoyens et notamment les français s’y intéressent ; c’est là vraisemblablement le plus gros problème…

Pour en savoir plus

1 – K CUKIER – V MAYER-SCHOENBERGER
BIG DATA La révolution des données est en marche
Ed Robert Laffont Paris 2014

2 – M GOLDBERG – M ZINS Santé et big data, beaucoup de questions encore peu de solutions
www.sfds.asso.fr/385-Les_enjeux_ethiques_du_Big_Data_opportunites_ et_risques

3 – M ATLAN  et R-P DROIT  Humain : une enquête philosophique sur ces révolutions qui changent nos vies
Ed Flammarion, Paris, 2012

4 – Informatica
Comment répondre aux enjeux du Big Data
http://www.it-expertise.com/wpcontent/uploads/2012/07/1942_maximize-return-on-big-data_wp_FR.pdf

5 – L ALEXANDRE La futurologie médicale est une urgence éthique
LE MONDE SCIENCE ET TECHNO | 24.03.2014
www.lemonde.fr/…/la-futurologie-medicale-est-une-urgence-ethique_43.

6 – J LEFIILLIATRE Interview de François BOURDONCLE
Big Data : Les barbares sont aux frontières et nous jouons à la bergère
www.challenges.fr › Entreprise 20 janv. 2014

***

Laisser un commentaire