Tout le monde ment… (et vous aussi !)

Achetez Tout le monde ment .. (et vous aussi!)

Le Big Data : une mine d’or numérique largement inexploitée ou comment estimer le taux de chômage grâce aux recherches vers des sites pornographiques.Ne vous fiez jamais aux sondages. Pour obtenir des opinions désinhibées, utilisez votre moteur de recherche.Des fraudeurs aux femmes enceintes, le Big Data met à jour des données infaillibles sur des segments de population précis.Comment les tests A/B ont fait décoller la campagne électorale d’Obama et de quelle manière Google les utilise pour augmenter ses recettes publicitaires. Des cours de la Bourse au recrutement : mythes et réalités du Big Data

Le Big Data : une mine d’or numérique largement inexploitée ou comment estimer le taux de chômage grâce aux recherches vers des sites pornographiques.

Le premier pouvoir du Big Data consiste à nous fournir des données inédites susceptibles d’être profitables dans des domaines où peu d’études ont été réalisées. Dès lors, son intérêt réside non dans le volume de données qu’il propose, mais dans sa capacité à présenter des informations qui n’avaient jamais été recueillies auparavant.

Achetez Tout le monde ment .. (et vous aussi!)

« Avant Google, des informations sur certaines activités de loisir – les ventes de billets de cinéma, par exemple – pouvaient donner une idée de l’importance du temps libre dont les gens disposaient. Mais savoir combien ils en consacrent à la pornographie ou au jeu de solitaire est une possibilité nouvelle – et puissante. »

Considérons par exemple le taux de chômage mensuel aux États-Unis. Cette donnée cruciale a un impact à tel point significatif sur la Bourse que les institutions financières sont prêtes à payer le prix fort pour ‘le connaître, l’analyser et l’exploiter’ le plus rapidement possible. Or, ce taux résulte d’un sondage téléphonique effectué par le Bureau of Labor Statistics (BLS) et les données datent déjà de plus de trois semaines au moment de leur publication. Autant dire une éternité pour le monde de la finance, dont le rythme des transactions boursières se mesure aujourd’hui en millisecondes. Existe-t-il un moyen d’obtenir plus rapidement les statistiques du chômage ? Jeremy Ginsberg, un ancien ingénieur de chez Google, avait remarqué que, comme pour l’emploi, les données relatives à la santé publique étaient publiées avec une semaine de retard. Il partit de l’hypothèse que les individus grippés étaient susceptibles d’interroger Google sur les symptômes qu’ils présentaient – avec des termes de recherche comme ‘symptômes de la grippe’ ou ‘douleurs musculaires’ – et qu’en collectant ces informations, il serait possible de mesurer en temps réel les foyers actifs de la grippe.

Au même moment, Google lança le service Google Correlate, un outil permettant d’établir des corrélations entre des séries de données. Avec ce nouvel outil, serait-il possible de calculer le taux de chômage en corrélant les recherches effectuées sur Google par les habitants d’un pays donné ? En saisissant le taux de chômage aux États-Unis dans Google Correlate, vous obtenez effectivement les recherches les plus corrélées avec ce thème. Pourtant, contre toute attente, le terme le plus recherché n’est pas ‘services de l’emploi’ ou ‘nouveaux emplois’ mais le nom d’un site pornographique ! Le fait que les chômeurs disposent de beaucoup de temps libre n’est pas étranger à cette découverte. Aussi inhabituel que cela paraisse, exploiter ces données et les intégrer dans un modèle prédictif permet donc de rendre compte du taux de chômage.

Ne vous fiez jamais aux sondages. Pour obtenir des opinions désinhibées, utilisez votre moteur de recherche. 

La plupart d’entre nous mentent, non pas par perversion mais plutôt parce que nous sommes victimes du ‘biais de désirabilité sociale’, un mécanisme psychologique qui nous pousse à vouloir nous présenter sous un jour favorable à nos interlocuteurs. Si tout le monde ment, le deuxième pouvoir du Big Data en revanche, consiste à nous fournir ‘des données sincères’. En effet, contrairement aux sondages en face à face ou au téléphone où les données peuvent être biaisées en raison de l’effet de désirabilité sociale, le Big Data agit comme ‘un sérum de vérité numérique’ et incite les individus, grâce à son contexte impersonnel, à fournir des réponses honnêtes. De plus, l’anonymat relatif qu’offre Google vous incite à vous épancher et donne des informations plus exactes sur votre personnalité que ne le ferait un sondage. Si vous pensez souffrir de dépression, vous n’êtes pas obligé de le dire au cours d’un sondage. En revanche, il y a de fortes chances que vous ayez effectué des recherches sur Google quant aux symptômes de la dépression.

Achetez Tout le monde ment .. (et vous aussi!)

Google peut même découvrir la vérité si vous vous mentez à vous-même ! Avant une élection dans votre région, vous et vos voisins pouviez envisager de vous rendre au bureau de vote le jour dit. Mais si ni vous ni vos voisins n’avez effectué de recherches sur la manière de voter ou pour simplement trouver l’adresse du bureau de vote, les spécialistes en données numériques en déduiront que la participation sera faible dans votre région.

« L a révolution du Big Data n’est pas tant dans la collecte de données toujours plus nombreuses que dans la collecte des bonnes données. »

En termes d’orientation sexuelle, l’analyse des données Google montre qu’environ 5 % des hommes aux États-Unis sont homosexuels. Parmi ceux-ci, certains seraient bisexuels, d’autres ne seraient pas encore sûrs de leur identité sexuelle – et beaucoup ne se dévoileraient pas. L’État de Rhode Island, État le plus favorable au mariage gay, compterait officiellement beaucoup plus d’homosexuels que l’État du Mississippi, beaucoup moins favorable. Rien n’est moins vrai. L’analyse des recherches Google montre que sur l’ensemble des recherches de sites pornographiques effectuées par des hommes, 4,8 % de ces recherches concernent des contenus gays dans le Mississippi, pour 5 % de moyenne nationale. Ainsi, l’orientation sexuelle dans le Mississipi semble être quasi identique à celle de l’État le plus libéral en la matière, à la seule différence que dans le Mississipi, les homosexuels ne peuvent afficher leurs préférences ouvertement.

Les recherches Google permettent également de débusquer ‘des preuves de préjugé implicite’ contre des segments spécifiques de la population, notamment des biais discriminant les petites filles. En effet, lorsque des parents de jeunes enfants cherchent à savoir si leur progéniture est dotée d’un quotient intellectuel supérieur, ils sont deux fois et demie plus nombreux à commencer leur recherche Google par ‘Mon fils est-il doué ?’, que par ‘Ma fille est-elle douée ?’. De même, en ce qui concerne l’apparence, les recherches des parents sont deux fois plus nombreuses sur les moyens de faire perdre du poids à leur fille qu’à leur fils. Fait plus étonnant encore, les recherches Google ‘peuvent décrire un monde différent de ce qu’on en voit d’ordinaire’. Ainsi, contrairement à ce que l’on pourrait penser, on évalue aux États-Unis à seulement 50 le nombre de recherches mensuelles portant sur le regret de ne pas avoir d’enfants, contre 1 730 pour celles exprimant le regret d’avoir des enfants.

Des fraudeurs aux femmes enceintes, le Big Data met à jour des données infaillibles sur des segments de population précis

Le troisième pouvoir du Big Data nous ‘permet de zoomer sur de petits sous-ensembles de personnes’. Si nous disposons de suffisamment de données, nous pouvons observer avec précision le comportement des individus, détailler leurs moindres faits et gestes, et en tirer les enseignements idoines.

« Pour obtenir des réponses honnêtes, les sondages par Internet sont préférables aux sondages par téléphone, qui sont préférables aux sondages en face à face. Les gens en admettront plus s’ils sont seuls que s’il y a quelqu’un d’autre dans la pièce. »

Prenons l’exemple des personnes qui trichent dans leurs déclarations fiscales. Aux États-Unis, les travailleurs indépendants avec un enfant à charge et un revenu imposable annuel de 9 000 dollars exactement ont droit à l’Earned Income Tax Credit, une allocation de 1 377 dollars versée par l’État. S’ils déclarent davantage, leurs taxes augmentent et s’ils déclarent moins, le montant de l’allocation diminue proportionnellement. Curieusement, une grande partie des travailleurs indépendants déclarent exactement 9 000 dollars de revenu imposable, alors que des contrôles ont révélé que ce montant était souvent erroné et que les contribuables déclaraient la somme qui leur permettrait de toucher l’intégralité de l’allocation.

Achetez Tout le monde ment .. (et vous aussi!)

Selon une étude effectuée par Raj Chetty, professeur à Harvard, sur la masse de données détenues par les services fiscaux, ce genre de fraude varie d’un État à l’autre. Par exemple, 30 % des personnes au sein de cette catégorie déclarant un revenu de 9 000 dollars à Miami, contre seulement 2 % à Philadelphie. Pourquoi cette différence ? L’équipe de Raj Chetty a corrélé le taux de fraude avec d’autres critères démographiques et a découvert deux ‘puissants facteurs prédictifs’ : une grande concentration d’individus ayant droit à l’allocation et une importante concentration de conseillers fiscaux dans la région ! L’étude a également révélé que si les Américains déménageaient d’une région où cette fraude fiscale était peu courante pour s’installer dans une région où elle était plus répandue, ils finissaient par découvrir l’astuce et l’adopter.

« Nous sommes sans cesse inondés d’images de familles heureuses, de familles merveilleuses. La plupart des gens n’imagineraient jamais pouvoir regretter d’avoir des enfants. Pourtant, certains le regrettent. Ils ne peuvent l’avouer à personne – sauf à Google. »

Les recherches Google sur le déroulement de la grossesse dans différents pays du monde dévoilent des résultats surprenants. Si la fréquence des recherches sur les symptômes ou envies associés au mot ‘enceinte’ sont quasi-similaires dans la plupart des pays, d’autres pensées peuvent être radicalement différentes. Les questions sur ce qu’une femme enceinte peut faire sans se mettre en danger, par exemple, varient d’un pays à l’autre. Aux États-Unis, les principales préoccupations sont de savoir si une femme enceinte peut ‘manger des crevettes’ ou ‘boire du vin’. Des préoccupations qui ne figurent pas en tête de liste en Australie, où l’on se préoccupe davantage de la consommation de produits laitiers, ou encore au Nigéria, où la première question est de savoir si une femme enceinte peut boire de l’eau froide.

Comment les tests A/B ont fait décoller la campagne électorale d’Obama et de quelle manière Google les utilise pour augmenter ses recettes publicitaires

Le quatrième pouvoir du Big Data ‘est qu’il permet de réaliser de nombreuses recherches de causalité’ en facilitant les expériences aléatoires susceptibles d’identifier les véritables causalités, contrairement aux expériences randomisées hors ligne qui exigent des moyens financiers (et autres) beaucoup plus importants. Grâce au Big Data, le monde entier peut devenir un véritable laboratoire.

« Sans aucun doute, il y a beaucoup à apprendre en zoomant sur les aspects de la santé et de la culture dans différents coins du monde. Mais d’après ma première analyse, le Big Data nous dira que les humains sont encore plus désarmés qu’on ne le croit devant leur biologie. »

Chez Google, les expériences randomisées contrôlées ont été renommées ‘tests A/B’. Pour savoir comment inciter davantage d’internautes à cliquer sur les annonces publiées via son site, Google peut présenter deux gradations de bleu : une pour le groupe A et l’autre pour le groupe B. Il ne lui reste plus qu’à comparer les pourcentages de clics sur l’une ou l’autre couleur, d’où le nom de tests A/B. Cette méthode a été utilisée lors de la première campagne présidentielle de Barack Obama pour tester les différents designs du site Internet de la campagne, les demandes envoyées par e-mail et les formulaires pour les dons. Pour accueillir les visiteurs sur le site, par exemple, plusieurs images d’Obama ont été testées en combinaison avec différentes touches indiquant ‘Rejoignez-nous’ ou ‘En savoir plus’. La combinaison gagnante (la photo de la famille Obama et la touche ‘Pour en savoir plus’) a permis d’obtenir ‘40 % d’adhésions en plus’, soit 60 millions de dollars de financements additionnels.

« Dans le monde digital, les expériences randomisées peuvent être rapides et peu coûteuses. Inutile de recruter et de rémunérer des participants. Il suffit d’écrire une ligne de code pour les ranger dans un groupe. »

Les tests A/B sont importants pour nous aider à combler ‘les lacunes de nos connaissances sur la nature humaine’. Des changements parfois mineurs peuvent être apportés grâce aux tests A/B et avoir un impact décisif. Fin 2012, Google a introduit une modification dans ses annonces publicitaires en y ajoutant une flèche inscrite dans un carré et pointant vers la droite. De nombreux clients ont critiqué ce nouveau format, mais Google a révélé que ces flèches avaient emporté les tests A/B et qu’elles incitaient davantage d’internautes à cliquer vers le lien correspondant. Sans pour autant connaître les montants additionnels générés par ce changement, on comprend que l’ajout de cette flèche (une modification mineure) fait certainement gagner davantage d’argent à Google et à ses annonceurs. S’il vous arrive parfois de constater des changements mineurs momentanés dans la disposition des annonces puis un retour à la normale, il se pourrait que vous ayez, à votre insu, fait partie d’expériences randomisées contrôlées !

Des cours de la Bourse au recrutement : mythes et réalités du Big Data

Ceux qui prétendent pouvoir prédire l’évolution des marchés boursiers à partir du Big Data sont victimes du ‘fléau de la dimension’. Ce phénomène rend impossible toute prédiction incontestable du fait de l’augmentation exponentielle du ‘nombre de variables des nouveaux jeux de données’ par rapport au nombre des données traditionnelles. Il s’applique aussi à la recherche génétique. Des généticiens se sont intéressés au Big Data dans l’espoir d’identifier les gènes provoquant certaines maladies, comme la schizophrénie, ou ceux à l’origine d’un quotient intellectuel élevé. En 1998, Robert Plomin, un généticien comportemental, a affirmé avoir isolé le gène de l’intelligence (l’IGF2r) après avoir analysé un échantillon de données sur l’ADN et le QI de centaines d’étudiants. Pourtant, quelques années plus tard, après avoir analysé de nouvelles données sur un autre échantillon de personnes, le scientifique a annoncé que sa conclusion initiale était erronée. La multiplicité du génome humain ne permet tout simplement pas d’établir ce type de corrélation.

« Quelquefois, la puissance du Big Data est si impressionnante qu’elle en devient effrayante. »

Si le Big Data a ses limites, il soulève également certaines interrogations d’ordre éthique. Une étude menée par trois économistes de l’université du Delaware a évalué la probabilité de remboursement d’un emprunt en analysant le langage utilisé par les emprunteurs potentiels dans leur demande de crédit. Les chercheurs en ont conclu que le langage employé par les demandeurs de crédit est ‘fortement prédictif de la probabilité d’un remboursement’. Sur les dix expressions analysées, cinq sont corrélées de manière positive avec le remboursement, tandis que cinq autres sont corrélées négativement. Fait intéressant, les emprunteurs utilisant les mots ‘Dieu’, ‘paierai’, ‘hôpital’ et ‘merci’ seraient les moins susceptibles de rembourser leur prêt ! Aussi, tout emprunteur potentiel pourrait devoir, à l’avenir, prêter attention non seulement à ses antécédents financiers, mais également aux mots qu’il utiliserait en ligne.

« Si vous voulez frauder le fisc (ce que je ne vous conseille pas), il vaut mieux avoir pour voisins des fiscalistes ou des fraudeurs capables de vous montrer la voie. »

Attention également aux ‘marqueurs de faible intelligence’ qui pourraient vous coûter le job de vos rêves. En analysant les ‘j’aime’ de Facebook, des chercheurs de Microsoft ont trouvé une corrélation étroite entre ceux-ci et ‘le QI, l’extraversion et le souci du travail bien fait’. Les internautes qui, sur Facebook, manifestent leur intérêt pour ‘Mozart, les orages et les frites torsadées’ ont tendance à avoir des QI élevés ,alors que ceux qui aiment les Harley-Davidson, la musique country ou la page Facebook ‘I Love Being a Mom’ ont tendance à avoir des QI plus bas. Des informations a priori innocentes, mais qui pourraient se révéler fort précieuses pour les recruteurs potentiels…

À propos de l’auteur

Docteur en économie diplômé de Harvard et ancien salarié de Google, Seth Stephens-Davidowitz est le premier à avoir analysé nos recherches Google pour mesurer des phénomènes comme le racisme, la maltraitance des enfants ou les préférences sexuelles.

https://amzn.to/33hNYu5

Votre commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Commencez votre blog avec WordPress.com.

Retour en haut ↑

%d blogueurs aiment cette page :