menu fermer

Du big au pertinent: transformer la data en information

Dossier
Du big au pertinent: transformer la data en information

La multiplication des données ouvre la voie à d’importantes innovations en termes de produits et services, mais soulève également des problématiques scientifiques et techniques.

 

La promotion du big data n’est plus à faire. Entreprises comme pouvoirs publics ont bien compris les ressources qu’ils pouvaient tirer de cette multitude de données. Qu’il s’agisse d’affiner la stratégie marketing, de proposer des services personnalisés, ou encore d’adapter les politiques en fonction des territoires, les données offrent d’incroyables ressources potentielles.

Un potentiel qu’il faut encore apprendre à exploiter avec rigueur et efficacité. Extraire le pertinent de la masse, et transformer la data en information n’est pas chose aisée. Le big data remet en cause certains procédés scientifiques et implique que les chercheurs s’adaptent à ce nouveau contexte.
Pour autant, la France semble bien placée pour relever ces challenges, grâce notamment à une expertise en mathématiques reconnue au niveau international.

 

Des liens étroits entre chercheurs et industriels

 

Pour preuve, le géant des semi-conducteurs Intel, a ouvert, au mois de juin, un centre de R&D dédié au big data sur le campus technologique Teratec, dans l’Essonne. De son côté, Facebook a choisi Paris comme antenne européenne de son centre sur l’intelligence artificielle: le Facebook artificial intelligence research, dit Fair. Le célèbre réseau social a notamment noué un partenariat avec l’Inria.

Le champ du big data se présente en effet comme un domaine naturel de collaboration entre entreprises et universitaires. Près de 250 académiques et professionnels se sont ainsi réunis lors de la conférence Meet the data II, organisée par la chaire Havas Dauphine « Economie et gestion des nouvelles données », afin d’échanger sur l’utilisation des données.

L’occasion de rencontrer trois spécialistes de la data: Jean-Michel Lasry, membre du conseil scientifique de la chaire « Economie des nouvelles données », Michael Jordan, professeur en sciences informatiques à Berkeley, et Henri Verdier administrateur général des données et directeur d’Etalab, qui partagent leur vision d’une utilisation « efficiente » des données.

 

En matière de digital, il n’existe pas de réponse unique

Mathématicien français, Jean-Michel Lasry, est professeur associé émérite à l’Université Paris-Dauphine, est membre du conseil scientifique de la chaire Havas-Dauphine «Economie des nouvelles données». Il est à l’origine avec Emmanuel Bacry de la conférence «Meet the Data II » qui vise à rapprocher universitaires et professionnels.

 

En quoi l’arrivée du big data bouleverse-t-elle l’économie ?

 

Le big data change tout et partout. L’avalanche de données, couplée à la baisse foudroyante des coûts de communication et de stockage permettent d’inventer et de proposer de nouveaux services. Des choses infiniment difficiles et couteuses sont ainsi devenues démocratiques.
Il y a quelques années, nous avons par exemple répondu, dans le cadre de MFG Labs [start up fondée avec Pierre-Louis Lions, Henri Verdier et Olivier Guéant] à une demande d’Atout-France, l’Agence française de développement touristique. Celle-ci désirait mieux connaitre les régions et les sites visités par les touristes chinois en France. Nous avons alors examiné les nombreuses photos que les touristes chinois proposent en accès public sur le net. En utilisant les informations de géolocalisation et l’horodatage, et grâce aux capacités du cloud computing, nous avons pu fournir une réponse qualitative et quantitative. Un tel travail était encore impossible il y a cinq ans.

 

Certaines entreprises ont su tirer profit de ce nouveau contexte…

 

Effectivement. Les géants du web ont émergés: Google, Apple, Amazon, Facebook, mais aussi de nouveaux acteurs qui modifient les métiers traditionnels à partir du numérique. C’est l’illustration d’Uber ou de Booking, parmi des dizaines d’autres exemples. Une plateforme électronique donne les moyens à l’économie non digitale de fonctionner autrement. Les rapports de force entre les acteurs sont modifiés, et chaque métier doit être repensé. Les transitions sont parfois abruptes : la destruction créatrice peut être douloureuse.

 

Face aux géants américains, quel rôle peut jouer la France?

 

Si nous ne voulons pas être balayés par la Silicon Valley, nous devons utiliser nos atouts à bon escient. Nous possédons une importante tradition en mathématiques, algorithmique, et dans les nouvelles technologies, ainsi qu’un bon tissu entrepreneurial, et un appétit des jeunes pour l’innovation. Il faut s’appuyer sur ces points forts pour favoriser l’émergence des projets innovants. Il ne s’agit pas nécessairement de se concentrer sur une activité en particulier. En matière de digital, il n’existe pas réponse unique : les opportunités sont multiples et personne ne sait, y compris dans la Silicon Valley, comment le marché se dessinera dans 7 ans !
C’est pourquoi il est nécessaire de financer beaucoup d’idées afin de les tester et de voir quels sont les succès. Le capital-risque de la Silicon Valley fonctionne ainsi : il soutient 1000 projets, en escomptant une centaine de réussites, dans une culture où l’échec n’est pas stigmatisé.

 

La recherche doit pouvoir faciliter l’émergence de ces projets…

 

Un des enjeux est de connecter les chercheurs avec les entrepreneurs et les industriels. C’est l’un des buts des conférences Meet the data : accélérer les processus de transfert entre la recherche et le monde de l’entreprise, dans les deux sens. Les chercheurs sont par nature collaboratifs et internationaux. Ils suivent les travaux de leurs confrères à l’étranger qui sont un indicateur avancé du marché de l’innovation, et peuvent apporter ce regard aux industriels. De leur côté, les entrepreneurs sont à l’origine de l’innovation. Pour réaliser leur idée applicative, ils ont souvent besoin de savoirs que la recherche peut leur apporter.

 

Nous devons construire l’ingénierie du big data

Michael Jordan, professeur en sciences informatiques à Berkeley (Université de Californie), revient sur les défis scientifiques générés par la multiplication des données.

 

Entreprises comme acteurs publics semblent particulièrement enthousiastes quant aux opportunités offertes par le big data. Vous tenez toutefois un discours plus prudent et mettez en garde contre des erreurs d’interprétation…

L’augmentation des données représente une ressource et une opportunité. Théoriquement, cet accroissement devrait nous permettre de réduire les erreurs d’interprétation. Mais ce n’est pas le cas aujourd’hui. La hausse des données génère une augmentation des biais.

 

Comment l’expliquez-vous ?

Tout d’abord, même si de nombreuses données sont accessibles, la part des données pertinentes au sein de cette masse est souvent réduite. Il existe donc de fortes incertitudes qu’il convient de signaler. Il y a toujours une marge d’erreur en statistique. Or, face à une grande masse de données, nous ne savons pas estimer cette marge d’erreur ce qui peut conduire à de mauvaises décisions.
Ensuite, la multiplication des données incite les utilisateurs à tester un grand nombre d’hypothèses. Et plus on teste d’hypothèses, plus la probabilité de valider l’une d’entre-elles est forte. Mais certaines conclusions seront uniquement dues au hasard et ne colleront pas forcément aux données futures.

 

Quels sont les autres risques liés à la grande dimension ?

Les outils d’analyse de données existent depuis longtemps mais ils ne sont pas forcément adaptés à une recherche sur un grand nombre de données. Il faut, en effet, tenir compte des contraintes de temps et d’espace des ressources informatiques. Si l’algorithme n’est pas approprié, les requêtes seront trop longues.
De même, dans un contexte classique, il existe des procédures mathématiques qui peuvent identifier un lien de cause à effet. Mais à grande échelle l’exercice est plus complexe, et l’erreur aisée.

 

Comment limiter de telles erreurs ?

Il est nécessaire de combiner les approches informatique et statistique. L’informaticien ne tient pas compte du risque d’incertitude, tandis que le statisticien néglige les ressources informatiques. Il faut parvenir à intégrer ces deux domaines qui ont eu des succès séparément.

 

L’exploitation du big data aujourd’hui vous paraît-elle appropriée ou manque-t-elle encore de maturité ?

J’aime prendre la métaphore des ponts. Nous en construisons depuis des siècles, mais au début, beaucoup de ponts se sont écroulés car nous ne disposions pas de théorie quant à leur construction. Au fil des ans, nous avons appris à les bâtir, une ingénierie s’est développée. Aujourd’hui, dans le domaine du big data, il nous manque ces principes d’ingénierie. Ce sera l’enjeu des prochaines années : développer cette théorie afin de pouvoir utiliser les données tout en offrant des garanties. D’ici là, nous connaitrons des succès, mais aussi des échecs liés à une mauvaise interprétation des données.

 

Au final, êtes-vous plutôt confiant ou méfiant quant à l’utilisation du big data ?

Je suis confiant. Les données sont réelles et peuvent permettre de personnaliser de nombreux services, que ce soit dans le domaine de la santé, de l’éducation ou encore du commerce. Il faut juste bien les traiter.

 

Les données permettent d'autres formes d’exercice du pouvoir

Henri Verdier est administrateur général des données et directeur d’Etalab. Placé sous l’autorité du Premier ministre, il coordonne l’ouverture et le partage des données publiques. Il explique comment les données peuvent contribuer à réformer l’Etat.

 

Quels bénéfices l’Etat peut-il tirer des données ?

 

Il existe une multitude d’usages possibles des données numériques, produites ou détenues par l’Etat, données qui sont elles-mêmes de plus en plus nombreuses. Par exemple, les données peuvent permettre de faire plus avec moins, en ciblant les actions là où elles sont le plus efficaces. Il peut s’agir de concentrer des contrôles fiscaux sur les cas de fraude les plus fréquents, ou encore de renforcer la prévention incendie dans les lieux les plus risqués. Il s’agit alors d’améliorer l’allocation des ressources.
D’autre part, les méthodes de l’analyse prédictive peuvent permettre de repenser en profondeur le design ou la conduite de certaines politiques publiques.
A bien y regarder, les données ouvrent également la voie à de nouvelles formes d’exercice du pouvoir puisqu’elles permettent de motiver les décisions, d’organiser des concertations éclairées, ou encore de distribuer différemment le pouvoir au sein des organisations.

 

Etalab travaille avec une équipe de quatre data-scientists. Avez-vous déjà des exemples de projets créés grâce à l’exploitation des données publiques ?

 

Le but de l’équipe est d’appuyer les administrations dans leur appropriation des méthodes des datasciences. Une partie de son travail porte sur la gouvernance de la donnée ou sur l’appui aux autres projets. Mais nous avons également commencé à trouver des résultats très probants pour améliorer notre analyse de la consommation électrique des bâtiments publics, pour prédire les entreprises en instance de recrutement ou encore pour mieux prédire (statistiquement) certains comportements délinquants.

 

Est-ce à dire que la politique de demain sera dictée par les données ?

 

Il y a une controverse actuellement sur la gouvernance des algorithmes. Certains, comme Evgeny Morozov, dénoncent le fait que le pouvoir, déjà centralisé dans les mains de technocrates, va désormais être exercé par les technocrates et les ingénieurs. Ils craignent que les citoyens soient encore plus éloignés des décisions politiques. D’autres, au contraire, nous promettent des services publics archi personnalisés et adaptés à chacun. Pour ma part, je pense qu’effectivement nous allons assister à une percolation des usages innovants des données dans de nombreux secteurs de l’activité publique. Et je pense qu’il est tout à fait possible de construire les transparences, les sécurités, voire les contre-pouvoirs dont nous avons besoin. On pourrait par exemple définir quelques obligations de transparence sur les visées des algorithmes.

 

Comment se positionne la France en termes d’ouverture des données publiques ? Sommes-nous en avance ou en retard sur ce sujet ?

 

La France est très bien positionnée. La dernière édition du Global Open Data Index, qui évalue l’ouverture des données publiques, classe la France au 3ème rang mondial, derrière le Royaume-Uni et le Danemark. Une culture de data mining (exploitation de données) existe depuis longtemps dans certaines administrations, et elle s’étend progressivement.
Toutefois, la manière dont nous avons construit l’open data ne suffira pas. Pour l’heure, nous incitons les administrations à partager leurs informations. Mais à terme, il sera certainement nécessaire de théoriser un service de la donnée, en élargissant les données disponibles afin qu’elles répondent aux besoins des acteurs.

 

Justement, chaque entité formate ses données de façon différente ce qui complexifie leur utilisation et analyse. Ne faudrait-il pas harmoniser les données entre les administrations ?

 

Il est vrai que des problèmes d’opérabilité existent mais les analystes savent gérer ces questions. Si nous démarrons trop tôt la standardisation des données, nous risquons d’arrêter la machine et, in fine, de se priver d’information. Il me semble plus pertinent d’encourager une large ouverture des données, puis de voir quels standards vont émerger avec les demandes exprimées.