Big Data : pourquoi nos métadonnées sont-elles plus personnelles que nos empreintes digitales ?

A l’occasion du colloque "la politique des données personnelles : Big Data ou contrôle individuel " organisé par l’Institut des systèmes complexes et l’Ecole normale supérieure de Lyon qui se tenait le 21 novembre dernier, Yves-Alexandre de Montjoye (@yvesalexandre) était venu présenter ses travaux, et à travers lui, ceux du MediaLab sur ce sujet (Cf. "D'autres outils et règles pour mieux contrôler les données" ). Yves-Alexandre de Montjoye est doctorant au MIT. Il travaille au laboratoire de dynamique humaine du Media Lab, aux côtés de Sandy Pentland, dont nous avons plusieurs fois fait part des travaux.

Nos données de déplacements sont encore plus personnelles que nos empreintes digitales

Faire correspondre des empreintes digitales n’est pas si simple, rappelle Yves-Alexandre de Montjoye. Dans Les preuves de l’identité, Edmond Locard, le fondateur de la police scientifique, explique qu’il suffit d’utiliser 12 points de références pour être sur et certain d’identifier les empreintes digitales d'un individu.

Nos traces numériques laissent bien plus d’empreintes que 12 petits points… Nos téléphones laissent derrière eux, dans les données des opérateurs, de nombreuses informations : qui on appelle, quand, pendant combien de temps, de quel endroit… Nos données de mobilités listent tous les endroits où nous sommes allés. Or, nos façons de nous déplacer sont très régulières, répétitives, uniques, pareilles à des empreintes digitales. Quand on regarde une base de données d’opérateur téléphonique, on est confronté à des millions d’enregistrements. On semble n’y voir personne et pourtant, chacun d’entre nous est là. Comment retrouver quelqu’un dans de telles bases ? Quel serait le nombre de points nécessaires pour identifier à coup sûr une personne dans de telles bases ?

uniquesquare01.jpg
Image : illustration de l'unicité de nos parcours repérés via des antennes mobiles. Image tirée de l'étude "Unique dans la foule".

Et Yves-Alexandre de nous inviter à retrouver un de ses collègues du Media Lab. Sur son compte Flickr, on voit qu’il a posé une photo prise dans le centre de Boston entre 10h et 11h. Sur Foursquare, Twitter ou Facebook, il indique être allé voir Lisa, une collègue à Cambridge à 11h30. En partant des traces laissées sur le web peut-on retrouver son collègue dans la base de données de son opérateur téléphonique ? Combien de points faut-il pour retrouver Charlie ? C’est un peu le travail qu’a réalisé Yves-Alexandre avec ses collègues dans "Unique dans la foule" (Cf. "Peut-on fouiller les données des téléphones mobiles en respectant la vie privée ?"). Dans une base de données d’un opérateur national comprenant quelques 1,5 millions d’abonnés, il suffit de 4 points pour identifier 95% des gens. "Nos données de déplacements sont encore plus personnelles que nos empreintes digitales."

Peut-on rendre la ré-identification moins précise ? Peut-on diminuer la résolution de cette ré-identification ? Et Yves-Alexandre de Montjoye de montrer un trombinoscope et d’y appliquer une diminution de la résolution pour montrer qu’à partir d’un certain degré, nous ne sommes plus capables de reconnaître les personnes sur les photos, de distinguer chacun… Peut-on faire pareil avec les données de mobilité ? A partir de quel moment la résolution ne permet plus d’identifier les gens ?

Les chercheurs du MIT ont pris les données de mobilité et ont réduit la résolution spatiale et la résolution temporelle. Plutôt que d’avoir une information sur telle ou telle antenne de téléphonie mobile, les chercheurs les ont remplacés par des données plus générales, par grandes zones géographiques et par indications temporelles larges plutôt que précises. Certes, réduire la résolution spatiale et temporelle rend la réidentification plus difficile, mais il suffit alors de quelques points supplémentaires pour rétablir l’identification. En fait, nos routines journalières sont tellement uniques qu’il est extrêmement difficile de se cacher dans la foule. La réduction de la résolution n’est pas un système d’anonymisation suffisant. Nous avons tous l’impression d’être semblables quand nous nous entassons chaque matin dans le même métro, alors que nous sommes tous parfaitement uniques.

Les traces de nos déplacements disent bien plus que nos déplacements

Or nos données de déplacements sont devenues très disponibles, comme l’ont souligné les écoutes de Verizon et de la NSA. Elles le sont aussi via les applications qu’on installe sur nos smartphones : 30 % d’entre elles enregistrent nos localisations. Nos données transactionnelles, celles issues de nos cartes bleues ou de nos cartes de transports, comportent aussi des données de localisation. Nos données contribuées, celles que l’on renseigne en utilisant des services sur le web, en appréciant des films ou des chansons, ou en appréciant des pages sur Facebook, permettent également d’en déduire beaucoup sur nos comportements et donc sur qui nous sommes.

Le BFI (Big Five Inventory), cet inventaire des cinq grands facteurs de personnalité est un test psychologique mis au point par les psychologues John, Donahue et Kentle en 1991 (voir Wikipédia), qui depuis une centaine de questions permet de décrire 5 grands types de caractères auxquels sont corrélés des caractéristiques comme la performance au travail ou la capacité à prendre des décisions d'achats. Pour chacun de ceux qui passe le test, le modèle distingue 5 grandes caractéristiques psychologiques comme l’ouverture à l’expérience (c’est-à-dire l’appréciation de l'art, de l'émotion, de l'aventure, des idées peu communes, la curiosité et l’imagination), la conscienciosité (c’est-à-dire l’autodiscipline, le respect des obligations, l’organisation plutôt que la spontanéité), l’extraversion (l’énergie, la tendance à chercher la stimulation et la compagnie des autres), l’agréabilité (une tendance à être compatissant et coopératif plutôt que soupçonneux et antagonique envers les autres) et enfin le névrosisme ou neuroticisme (c’est-à-dire le contraire de la stabilité émotionnelle, à savoir la tendance à éprouver facilement des émotions désagréables comme la colère, l'inquiétude, la dépression ou la vulnérabilité). Pour les psychologues qui utilisent ces tests depuis longtemps, nos réponses permettent d’évaluer notre profil psychologique selon ces critères qui permettent à leur tour d’induire un grand nombre de caractéristiques comme la performance au travail ou la capacité à prendre des décisions d’achats…

BFItestparMIT.png
Image : les 5 caractéristiques psychologies du test BFI et leur niveau de corrélation avec des données de mobilité, via le poster de l'étude "Qu'est-ce que votre téléphone dit de vous ?".

Le MIT a demandé à des étudiants de remplir ce test pour déterminer leur profil et a ensuite regardé leurs données de téléphones mobiles pour y trouver des corrélations, c’est-à-dire pour trouver depuis les données de mobilité des indicateurs permettant de déduire les 5 types de personnalités. Cette étude a permis de mettre à jour 36 indicateurs (localisation, usage du téléphone, régularité, diversité des contacts, activité des utilisateurs, par exemple le temps mis à répondre à un texto…) capables de prédire le résultat du test BFI de n’importe quel abonné. Le modèle est relativement fiable, par exemple, il est capable à partir des données de mobilité de prédire votre score d’extraversion d'une manière assez fidèle… Cela signifie qu’à partir d’un profil d’usage de votre téléphone, pris comme une simple ligne de chiffres dans une énorme base de données où chacun paraît protégé par la masse, on peut en déduire vos caractéristiques psychologiques… c’est-à-dire des choses qui n’ont rien à voir avec l’usage de votre mobile a priori. Et pourtant… Votre personnalité se dévoile dans le moindre de vos comportements et à l’heure où tous nos comportements sont enregistrés, nos personnalités sont dans toutes les traces de nos activités. Toutes nos données sont devenues personnelles, disions-nous déjà en 2009. C’est chaque jour plus vrai.

Cet exemple montre combien il est difficile d’anonymiser les données transactionnelles. Qu’enlever les numéros de téléphone ou les noms des abonnés ne suffit pas à rendre ce type de base anonyme. Et que de telles bases disent bien plus que les déplacements qui sont les nôtres ou les réseaux relationnels desquels on appartient. Bienvenue dans l’ère des corrélations ! Aussi imparfaits que soient les modèles ont peut désormais déduire des appréciations sur vous depuis le moindre de vos comportements enregistrés. Et il suffit de bien peu de données finalement pour le faire…

La technologie peut-elle réparer ce qu’elle a cassé ?

Alors faut-il arrêter d’utiliser Facebook ? Faut-il remiser son téléphone mobile ? Faut-il arrêter d’utiliser l’internet ?… Impossible répond l’ingénieur du MIT. Parce que ces données ont une valeur pour la science et pour chacun de nous. D’un point de vue social, elles vont permettre d’étudier le comportement humain et de répondre à des questions de société cruciales. D’un point de vue individuel, chacun d’entre nous veut connaître le meilleur chemin pour éviter les bouchons, écouter la musique qu’il va préférer… Ces services nous sont utiles et nous n’avons pas envie de nous en passer. Cela signifie qu’il est urgent de trouver un nouvel équilibre, un juste milieu technique et légal pour encadrer la collecte, comme le soulignait l’appel lancé il y a quelques semaines par Yves-Alexandre de Montjoye, Cesar Hidalgo et Sandy Pentland sur le Christian Science Monitor et Le Monde.

C’est ce à quoi travaille désormais le MIT : rétablir l’équilibre. Construire un New Deal autour des données. Ce New Deal nécessite que l’utilisateur ait accès à ses données ou au moins à une copie lui permettant de comprendre leur utilisation et imaginer de nouveaux services, estime le chercheur. C’est l’enjeu d’OpenPDS (que nous avions déjà évoqué). OpenPDS se veut un magasin de données personnelles, qui permet à l’utilisateur de conserver ses données transactionnelles et de gérer lui-même les accès aux services qui le veulent. Un coffre-fort de données personnelles.

openPDS.png
Image : OpenPDS aide à protéger sa vie privée.

Mais c'est en même temps un peu plus que cela. A partir d'une implémentation d'OpenPDS, du côté de l'opérateur de données, le MIT imagine un service de requête permettant de protéger l'anonymat des données, tout en permettant de les utiliser. Safe Answers est un service à destination des services ou des chercheurs que pourraient implémenter les grands fournisseurs de données. En fait, les chercheurs et les services n’ont pas besoin d’accéder aux données brutes des banques ou des opérateurs téléphoniques par exemple. Les services de musique en ligne n’ont pas besoin d’accéder à toutes les chansons que vous écoutez depuis des années pour vous faire des recommandations pertinentes, une dizaine de chansons seraient largement suffisantes. L’idée de Safe Answers est de permettre de poser des questions sous forme de code à des bases de données tout en respectant la vie privée des utilisateurs. L’idée est de réduire la dimensionnalité des données à une simple réponse… L’idée aussi est, pour ces opérateurs de données, de créer un service supplémentaire d’accès à leurs données tout en préservant totalement leurs abonnés. Plutôt que de faire circuler des bases de données imparfaitement anonymisées, Safe Answers, propose de faire circuler les requêtes des gens du marketing ou des chercheurs, afin de fournir une réponse anonymisée.

Pour le jeune chercheur du MIT, il n’y a pas lieu de céder à la panique : l’anonymat n’est pas mort. Il faut ouvrir le débat. Trouver un juste milieu, trouver les bons outils… Car forcément, pour l’ingénieur, la réponse doit être technologique et le sera. C’est peut-être oublier un peu vite que les coffres-forts de données électroniques existent depuis longtemps sans rencontrer le moindre succès ou en restant souvent difficile à mettre en oeuvre pour l’usager, compliqués. La bonne volonté des services sera-t-elle suffisante ? Difficile d’y croire quand on constate que les révélations d’Edward Snowden n’ont pas vraiment fait bouger les grands barons des données… qui ont collaboré avec la NSA. Le risque n’est-il pas que se perpétue la situation actuelle de non-choix : entre la commodité de l’accès et le non-accès aux commodités, les utilisateurs ont vite choisi. Ils privilégient toujours l’accès, le service, à la confidentialité de leurs données…

Yves-Alexandre de Montjoye veut rester confiant. Pour lui OpenPDS promet d'être différent des coffres-forts de données existants. D'abord parce qu'il arrive au bon moment, ensuite parce qu'OpenPDS ne travaille sur n'importe quels types de données, mais cherche surtout à travailler sur les données transactionnelles et les données de mobilité, plus que les données contribuées. C'est un espace où l'on peut encore faire quelque chose, estime le chercheur, d'ailleurs, Apple et Google modifient sans cesse les modalités d'accès à ces données. Beaucoup de coffres-forts de données cherchaient à tout faire, à prendre en compte toutes les données sans faire une proposition de valeur suffisamment claire pour l'utilisateur, nous confie-t-il, même s’il reconnaît que rendre le contrôle à l’utilisateur est compliqué, non pas tant parce qu’il s’agit de transférer un pouvoir, mais plutôt en terme d’ergonomie, de simplicité d’accès à des solutions de contrôle de ses données.

Reste que le fait que l’utilisateur ait accès aux données ne signifie pas que le collecteur de données originel ou le fournisseur de service n’y ait plus d’accès ou diminue la collecte… La réponse technologique qu’avance l’ingénieur du MIT semble d’un coup effacer toutes les autres. Pas sûr qu’elle se suffise à elle-même. Il nous faut aussi des réponses sociales, pratiques, légales… »On n'arrivera pas à créer un écosystème différent pour l'utilisateur sans régulation », reconnaît le chercheur. Donner le contrôle à l'utilisateur est une manière de rendre le problème plus ouvert, plus compréhensible, "comme l'open data permet au citoyen de mieux comprendre le système politique". "Donner accès aux données personnelles est une solution simple, techniquement accessible et qui va permettre de faire évoluer les choses."

Reste que, même avec leurs données, les utilisateurs ne seront pas pour autant sur un pied d'égalité avec les services qui les utilisent, car ceux-ci savent les traiter... ce que l'utilisateur lambda ne sait pas nécessairement faire. Avoir accès à vos données de mobilité par exemple, ne permet pas à l’utilisateur lambda d’en déduire son profil BFI, alors que son opérateur téléphonique, lui, le peut… Si nous pouvions avoir accès à nos données de mobilités, nous ne saurions pas nécessairement qu'elles caractérisent aussi nos comportements d'achats, comme l'a montré Yves-Alexandre de Montjoye dans son exposé.

Effectivement, concède le chercheur... "Mais on peut avoir l'espoir que les chercheurs développeront des algorithmes équivalents à ce qui se fait commercialement, comme la communauté open source développe des logiciels équivalents voir supérieurs à ce qui se fait commercialement..."

Pour le dire autrement, demain, nous aurons certainement les outils nous permettant de traiter les données, des outils qui ne sont accessibles aujourd’hui qu’aux experts. Tout un chacun sera donc capable de faire « parler » des données. D’inférer d’un simple tweet par exemple, des informations celui qui l'a émis, selon des critères personnels. Certains seront à la recherche de votre taux de créativité, d’autres de votre capacité d’achat, d’autres de votre corrélation avec leurs propres idéaux… Cela dessine peut-être un monde où les capacités d'en tirer du sens seront plus réparties. Pas sûr que cela dessine pourtant un monde plus rassurant.

Hubert Guillaud
Source