Temps de lecture : 12 minutes environ
Genre : Société, éducation et numérique
Après la Théorie du Big Bang il existe désormais la Théorie du Big Data ou comment grâce à toutes les pistes numériques, nous pouvons observer les gens qui parcourent le web.
Dans mes différentes interventions j’ai souvent du mal à expliquer ce qu’est le Big Data et j’espère à travers cet article pouvoir apporter un éclaircissement.
Les êtres humains génèrent en moyenne 2,5 milliards de milliards d’octets de données.
Toutes les lettres du clavier frappées en passant par le clic sont autant d’informations et de traces que nous laissons. On assiste aujourd’hui à une explosion quantitative et qualitative de tous types d’informations disponibles.
Cet article aborde la question du Big Data et du lien de causalité que créé chaque individu.
Car il faut le savoir : nous en sommes les principaux émetteurs.
Chacune de nos activités sur le net, alors que nos vies sont de plus en plus connectées, alimentent ces données ; chaque information personnelle que nous émettons devient un enjeu industriel considérable.
De la moindre phrase tapée sur internet allant de la recherche d’une recette de cuisine aux élections présidentielles, toutes les données montrent que nous vivons dans une société différente de celle qu’un chercheur universitaire ou qu’un journaliste imagine sur la seule hypothèse des sondages.
J’ai tenté une petite expérience sur une méthode de référencement par mot clé car je suis intimement convaincu que les recherches sur les différents moteurs constituent une masse importante de données sur le comportement humain.
Mais le plus intéressant, chers lecteur et lectrice, c’est qu’une grande partie de ces données contient des informations que personne n’avouerait jamais à quiconque. Vos préférences en matière de sexualité, vos penchants pornographiques, vos opinions politiques, vos peurs et même vos désirs profonds. (Selon mes données algorithmiques, vous avez arrêtés de lire ici, c’est-à-dire 15 secondes après le début) !)
Les hommes, en matière de santé par exemple, posent à Google plus de questions sur leurs organes génitaux que sur toute autre partie de leurs corps : plus que sur leurs poumons, leur pied, leur nez, leur gorge…
« 90% des données mondiales ont été créées au cours des deux dernières années. »
Un petit télescope vers l’au-delà et l’infini
Google Trends est un outil créé en 2009 qui indique avec quelle fréquence un mot ou une phrase ont fait l’objet d’une recherche en différents endroits et à différents moments.
C’est une démarche similaire à celle de Seth Stevens-Davidowitz dont je me suis beaucoup inspiré pour écrire ce papier.
Je me suis plus ou moins amusé grâce aux recherches sur Google à créer une cartographie de chaque région en fonction des mots ou des phrases que vous frappez. Les pros du digital appellent cela « Les mots clé de la longue traîne ».
Ce sont ces mots clés que les internautes utilisent dans Google lorsqu’ils ont une idée très précise de ce qu’ils recherchent sur internet. Il faut savoir que Google détient aujourd’hui des masses d’informations souvent ignorées des sondages qui seraient pourtant susceptibles d’aider.
Mais laissez-moi vous démontrer par l’exemple afin de comprendre le phénomène.
J’ouvre mon application Google Trends et je tape le mot « chocolatine ». Nous observons sur l’image ci-dessous comment le logiciel algorithmique localise le nombre de fois où le mot apparaît. Google Trends vous permet de comparer le volume de recherche de plusieurs expressions, mais aussi leur évolution dans le temps.
Mot clé sur Google Trends : « Chocolatine » Juin 2017- Juin 2018
J’ai commencé par un sujet plutôt marrant quoique hautement diplomatique, mais vous découvrirez tout au long de mon article l’analyse de certains mots ou phrases sur des sujets plus sérieux autour du moustique tigre, du porno ou du racisme ordinaire. Pour certains, chercher des informations dans le Big Data, c’est comme chercher une aiguille dans une botte de paille, oui paille car nous n’avons pas beaucoup de foin dans le sud… C’est sans doute vrai en partie mais il peut y avoir au grès des recherches de sacrées pépites.
Santé publique et Big Data
Voici un autre exemple.
A gauche un schéma lorsque le moustique tigre est apparu en masse et à droite les recherches des internautes sur Google en 2016 ; notons qu’en 2016, dix nouveaux départements ont été officiellement considérés comme colonisés par le moustique tigre (sur la base des informations de 2015).
Les gens ont donc fait des recherches sur « le moustique tigre » mais auraient pu effectuer des recherches en rapport avec des symptômes de la dengue, le chikungunya ou du zika et nous pourrions avoir ici un indicateur de la vitesse à laquelle une épidémie se répand.
L’intérêt ne réside pas tant dans le volume collecté, mais dans la vision que peut offrir de nouvelles sortes d’informations à étudier et même pourquoi pas dans les sciences de l’éducation.
Mot clé sur Google Trends : « Moustique tigre » juin 2015-2016
Racisme ordinaire et Big Data
Y a t-il un moyen d’utiliser les recherches autour de termes racistes pour avoir une véritable lecture du racisme ordinaire en France ?
Exemple : je tape « marre des arabes » et je demande à Google Trends de me donner un résultat par région sur les 12 derniers mois. (Voir schéma ci-dessous).
Mot clé sur Google Trends : « Marre des arabes » Juin 2017-2018
Je vous laisse évidemment faire votre analyse vous-même.
Ce qu’il faut retenir ici c’est que dans le milieu dans lequel je travaille, à savoir le travail social et l’éducation populaire, nous abordons souvent les problématiques du « vivre ensemble », de la laïcité et autres joyeusetés « bisounouresques » en direction de nos citoyens. Mais les gens restent souvent politiquement corrects.
Il s’agit d’un travail important mais quand on observe le genre de questions que les individus posent sur Google on voit bien qu’ils sont pétris de stéréotypes qu’ils ne voudraient pas afficher sur la place publique. On peut observer que beaucoup de personnes ont tendance à garder leurs opinions pour elles.
Comment pouvons-nous évaluer un véritable travail fait autour de la lutte contre le racisme, les inégalités sociales ou le droit des femmes ?
Les recherches sur Google peuvent décrire un monde différent de celui que l’on voit d’ordinaire.
La fenêtre de recherche fonctionne ici comme une cabine de confessionnal.
Voici encore une pépite au tour du mot « ratonnade ».
Par définition, je le rappelle, une ratonnade n’est pas un jeu festif similaire à la piñata mais
« Une violence physique exercée à l’encontre de personnes d’origine nord-africaine. Par extension, le terme s’appliquer aux violences exercées contre une minorité ethnique ou un groupe social[1] ».Il est évident que le mot « Ratonnade » est plus marqué dans le sud de la France par son histoire[2].
Illustration 4: Mot clé sur Google Trends « ratonnade » Juin 2017-juin 2018
Je pourrais facilement vous faire une démonstration autour de l’antisémitisme caché, l’homophobie hypocrite et autres élans fraternels mais j’ai préféré choisir un sujet qui me concerne directement étant moi même d’origine Algérienne.
D’ailleurs à propos de violence, ce type d’outil permettrait d’identifier des enfants en souffrance (cyber-harcèlement, violences sexuelles…) car les victimes seraient plus enclins à dire sur Internet qu’ils ont un souci ou bien à laisser plus ou moins consciemment des traces comme autant de signaux d’alarme ; mais bien évidemment, encore faut-il savoir interpréter les données.
La fesse caché du Porno
Dans le travail mené en 2013 sur la mise en évidence des relations jeunes/contenus/supports en lien avec « les sexualités » des jeunes, j’avais dû répertorier un certain nombre de sites pornographiques et j’ai pu observer que les penchants sexuels se rangent eux aussi dans des catégories biens précises.
Par ailleurs, dans son ouvrage Seth Stephens-Davidowitz[1] démontre que ces données révèlent des comportements et des désirs plus ou moins différents selon les pays, les régions et voire même les villes.
Par exemple, savez-vous qu’en Inde la plus fréquente des recherches commençant par « Mon mari veut… » se termine par : « (Mon mari veut) que je le nourrisse au sein ». Cette phrase est bien plus courante en Inde qu’ailleurs.
Pour pouvoir utiliser de façon efficace ces données, il faut bien sûr observer les endroits pertinents.
Je vous vois venir en me disant : « Oui, mais tu vas stigmatiser des régions et même peut être nuire à des habitants.»
En premier lieu, je fais ce qu’il me plaît.
En second lieu, nous ne devons pas être intimidés par ces outils souvent réservés à une élite technocrate du domaine du marketing digital qui est déjà énormément en avance sur ces techniques de référencement.
Nous y allons à tâtons, et surtout chaque analyse est à prendre avec des pincettes. Mais allons-y malgré tout !
Voyez ci-dessous comment la cartographie de Google Trends avec le terme « sado maso » dans l’onglet communauté. Je vous laisse libre court à vos propres commentaires.
Mot clé sur Google Trends : « Sado maso » Juin 2017-Juin 2018
« Facebook, Insta, Snap montrent les gens tels qu’ils veulent être, Google tels qu’ils sont… »[2]
Pour en revenir au porno et plus particulièrement à PornHub, site le plus visité, le chercheur S.S.-Davidowitz a fait une découverte plutôt intéressante : parmi les visiteurs des principaux sites pornographiques, un nombre étonnant d’utilisateurs veulent voir des scènes d’inceste…
Bien entendu, les données de PornHub ne disent pas sur qui portent les fantasmes de ceux qui regardent ce genre de vidéo.
Mais voici un exemple avec Google Trends sur les préférences sexuelles bien Made in France.
Je tape sur Google Trends « candaulisme » (pour information, le candaulisme est une pratique sexuelle dans laquelle on ressent une excitation en exposant son compagnon ou sa compagne à des hommes ou à des femmes, ou en partageant cette exhibition avec eux).
Mot clé « Candaulisme » Juin 2017-Juin 2018
J’ai affiné la recherche par département sur la période allant de juin 2017 à juin 2018.
Vous l’observez sur le schéma ci-dessus : 3 départements (l’Orne, l’Ardèche et la Haute-Saône) sont plus marqués que d’autres. Je n’apporterai pas de commentaire ici non plus, je vous laisse juste comprendre le pouvoir de Google et de sa capacité à détecter les choses.
Voici une autre démonstration.
Je me suis essayé, au grès des mots, à une recherche peu commune entre le terme « Hentai » et « Overwatch ».
Je précise pour les non-initiés, que le terme « Hentai » désigne des dessins animés japonais pornographiques importés en Occident (même si le terme n’est pas historiquement celui là).
Vous ajoutez à cela « Overwatch » un jeu vidéo de Blizzard Entertainment.
Ce que je voudrais ici n’est pas pointer du doigt les individus et leurs préférences sexuelles mais soulever pourquoi le Big Data est si puissant. Pourquoi il va révolutionner notre manière de nous voir nous-mêmes.
Ce qui est fascinant c’est que les données du porno et autres recherches sur Google sont honnêtes, car quand les gens sont seuls devant l’écran, ils n’ont rien à cacher. Nous disons des choses très personnelles aux moteurs de recherche.
Semblable à un sérum de vérité numérique, le Big Data permet de révéler par exemple qu’une partie sans doute des fans du jeu de Blizzard Entertainment fantasme sur les personnages.
D’ailleurs sur les recherches apparaît « Sombra » suivi « Hentai », qui est un personnage féminin du jeu.
« Hentaï » « Overwatch » Juin 2017-juin 2018
Dans le cadre de nos études menées autour de la jeunesse et du numérique, très souvent les jeunes interrogés sont amenés à mentir parce qu’ils sont dans le cadre d’un cours, d’une séance en présence d’un adulte et certains voudraient se donner le beau rôle. On appelle ce type de comportement «Le biais de désirabilité sociale».
Je vous épargnerai dans cet article les recherches les plus saugrenues en matière de fantasmes et autres désirs jamais confessés ou alors elles feront l’objet d’un autre article mais sans aucun jugement de ma part, car comme le souligne André Breton « La pornographie, c’est l’érotisme des autres ».
« Le Big Data nous permet enfin de voir ce que les gens désirent et font vraiment au lieu de ce qu’ils disent désirer faire »
En résumé
Le Big Data et nos différentes recherches Google sont révélatrices d’un monde caché très différent de celui que l’on croit voir.
Nous le savons aujourd’hui, les médias et les réseaux sociaux sont similaires à des sondages : rien ne nous oblige à dire la vérité.
En règle générale les gens sur les réseaux sociaux se montrent sous un bon jour.
«Voyez comme je suis heureux en couple» et dans la minute qui suit la même personne tape sur
Google « ma compagne ne veut plus faire l’amour », sur Instagram « Voyez comme je voyage beaucoup » et cette même personne ira voir sur Google comment faire une main courante pour virer les gens du voyage qui se sont installés en bas de chez elle et cette même personne encore affichera sur Twitter « Voyez comme je suis un militant engagé sur des causes nobles ».
Je vous vois venir en pensant : « Oh là, quel cynique provocateur !… ». Bien évidemment, j’aborde la question un ton d’humour grinçant, mais les données ne mentent pas.
Vous souvenez-vous de ce fameux sondage : « Quelle est la chaîne de télévision préférée des français ? ».
Sur le papier France 5 était très bien noté, mais quand on observe le baromètre d’audience c’était Cyril Hanouna sur C8 qui offrait les programmes de flux les plus fédérateurs.
Nos recherches sur Google sont précieuses non pas parce qu’elles sont nombreuses mais parce qu’il y a une sorte de franchise entre les ordinateurs et les individus. Poser des questions d’ordre privé ou intime via internet garantit un anonymat qui permet aux utilisateurs d’être plus authentiques, plus vrai.
Les gens mentent à leur entourage, à leur médecin, à leur conjoint, mais ils peuvent confier à Google des informations sincères et intimes au sujet de leur sexualité, de leurs angoisses et même de leur animosité envers les étrangers.
La question que l’ont doit se poser est : La vérité est-elle supportable ?
Avec les quelques exemples apportés ici, on peut voir que dans le sud de la France on mange des chocolatines et non des « Pains aux chocolat », qu’en terme de préférence sexuelle dans le Sud-Est et le Sud-Ouest on se renseigne autour des pratiques sado-masochistes, que dans « la région Sud » (ancien PACA ) on est infesté de « moustique tigre » et qu’on y fait ou qu’on désire faire plus de ratonnades qu’ailleurs
De là à inverser « moustique » par « arabe », il n’y a qu’un pas !
Qui aurait pu croire qu’une partie des joueurs d’Overwatch fantasment sur Sombra ?
Ces données ne sont pas seulement bonnes qu’aux G.A.F.A.M , N.A.TU[1] pour attirer clics et clients.
Dans le champ du social, il est bon de savoir et surtout rassurant que vous n’êtes pas seul à douter de vous-même et à avoir honte de vos actes. Il est nécessaire de savoir qu’il y a des tas de personnes qui n’aiment pas leur corps contrairement aux défilés de viande souple et ferme que vous voyez sur Instagram.
En terme de prévention, comment développer une campagne d’information sur un sujet comme « odeur vaginale » qui est le terme en sexualité-santé le plus tapé par les filles ?
Comment communiquer autour de cette question de santé et surtout réduire les angoisses et éviter les complexes ?
Je ne suis pas un professionnel du Google Analytics, Adwords et autres outils statistiques du Marketing digital.
J’ai voulu aborder des exemples simples, mais je l’espère, explicites.
Mes données ne font que confirmer en partie des évidences mais elles sont surtout pédagogiques et pointent du doigt des nouvelles méthodes dans le champ du social.
L’analyse de ces données comme un « sérum de vérité », nous ouvre une fenêtre sans précédent sur les sujets les plus sombres du psychisme humain.
Mais mon article voulait surtout aborder l’ampleur de la chose. Suivre les avancées en matière « d’analyses des données », être attentif aux conséquences du Big Data et se donner les moyens d’agir en conséquence.
C’est probablement la première fois dans l’Histoire de l’humanité que la technologie rend possible une surveillance de masse réelle mise en place par des acteurs publics et privés.
Et cette surveillance est aujourd’hui acceptée par l’individu qui se dit au fond de lui même « je n’ai rien à cacher ».
Mais la question que doit se poser l’ensemble des acteurs est : Est-ce vraiment l’environnement digital que nous voulons ?
Je préfère utiliser ces données à des fins de progrès social car la pire des choses est de croire qu’il n’y a rien à faire et que nous avons déjà perdu la bataille.
Pierre Khattou
Educateur du numérique
Merci à Sophia Idayassine et Christel Monnerie pour leur contribution
[i] Illustration
[1] GAFAM regroupe les initiales de Google, Apple, Facebook, Amazon, Microsoft et NATU ceux de Netflix, Air BNB, Telsa et Uber. En gros les dix plus grandes sociétés américaines de l’économie numérique.
[2] http://www.slate.fr/story/145275/arreter-complexer-facebook-cure-recherche-google
[i] https://www.pinterest.fr/eduennes/orange-m%C3%A9canique/?lp=true
[1] Ouvrage : « Everybody lies : Big data, new data, and what the internet can tell us…. »
[1] https://fr.wikipedia.org/wiki/Ratonnade
[2] (source Wikipédia) Les ratonnades de 1973 sont une vague de violences racistes envers les Algériens perpétrées en France, principalement à Grasse et Marseille, pendant l’été et l’automne 1973. Selon l’ambassade d’Algérie en France, ces violences ont fait 50 morts algériens et 300 blessés. Les organisations de travailleurs nord-africains font quant à elles état d’une douzaine de morts en sus des quatre victimes de l’attentat du 14 décembre contre le consulat d’Algérie à Marseille.
Fan arts