@laurentwauquiez, de candidat à président [Making-of]

Idée de départ

Twitter, ou le champ de bataille des idées 2.0 ! Journalistes, politiques et citoyens lambda s’y échangent des pics, philosophent, cultivent leurs réseaux.

Chaque baron des Républicains possède son compte pour y dérouler sa communication. Certains en ont un usage plus figé, d’autres se lâchent complètement. C’est pourquoi nous avons décidé d’y chercher la réponse à la question suivante : « Comment le réseau du petit oiseau bleu est-il révélateur des tensions internes à la droite française ? » L’élection alors imminente du prochain chef du parti LR rendait l’étude d’autant plus brûlante.

À l’heure de choisir notre sujet, nous étions persuadés d’y trouver une véritable mine d’or pour analyser les grandes tendances du parti. Dans notre viseur, six cadres LR : Alain Juppé, Eric Ciotti, Valérie Pécresse, Christian Estrosi, Laurent Wauquiez et Nadine Morano.

Réorientation

Nous avons rapidement déchanté. Dans le cadre de l’exercice, la charge de travail que représentait l’analyse de ces six comptes nous est vite apparue comme peu réaliste. C’est pourquoi nous avons choisi de resserrer notre champs d’étude, et notre angle : Comment l’élection de Laurent Wauquiez a-t-elle transformé son usage du réseau social ?

En ce qui concerne la période, il nous est paru logique d’étudier deux laps de temps égaux de part et d’autre de l’élection, le 10 décembre 2017. Notre étude s’étale donc du 1er août 2017 au 29 mai 2018.

Jeu de données

Une recherche Google ne suffit pas à accéder à l’ensemble des tweets d’un compte depuis son ouverture. Deux options s’ouvraient à nous pour récupérer les tweets. Les copier-coller à la main, long et fastidieux, autant dire impossible. Ou bien envoyer une demande à Twitter afin d’obtenir l’intégralité des tweets du nouveau président des Républicains. Un service que le réseau social fournit … dans une limite de 200 tweets. Twitter vend en fait ce service à des entreprises, il fallait donc trouver autre chose.

Avec Cédric Lombion, data analyst de l’École des données, nous avons finalement découvert un outil de scraping en ligne de commande, Twitterscraper. Avec cet outil, plus de limites : il suffit simplement de renseigner le nom du compte, les dates de la période étudiée, et d’envoyer la requête. Quinze secondes plus tard, 772 tweets sont téléchargés au format .json, exploitable dans le logiciel de traitement de données OpenRefine. Le nettoyage peut commencer.

Fastidieux exercice que celui du nettoyage. Des formules dans Google Spreadsheet, des manipulations dans OpenRefine : 2 journées ont été nécessaires pour obtenir un jeu de données réellement exploitables. Résultat : les tweets triés par grands thèmes (sécurité, immigration, fiscalité, …), les mots triés par occurrence, les hashtags isolés et triés par types, et les comptes mentionnés dans les tweets de Laurent Wauquiez.

Analyse

Comment donner du sens à ces lignes de données ? Notre groupe a fonctionné par hypothèses. « Wauquiez n’utilise plus les mêmes mots depuis qu’il est président » ; « il ne mentionne plus les élus depuis qu’il n’est plus en campagne » ;  » ses interventions médiatiques ont changé de cible » ; etc.

À chaque fois, le groupe s’est divisé pour que chacun puisse se concentrer sur son hypothèse, pour analyser et affiner le jeu de données, et pour en sortir des tendances notables.

Armés de ces tendances, nous avons pu les confronter avec les avis d’experts en communication politique et en sémiologie, afin de confirmer (ou d’infirmer) nos hypothèses. Dans l’ensemble les retours ont été bons, et ces expertises nous ont permis d’épaissir nos analyses.

Difficultés

Adrien Gaboulaud, journaliste spécialisé en sémiologie, nous a mis face à un biais sérieux de notre étude : une analyse d’occurrence de mots n’est valable que lorsque les deux corpus étudiés sont de taille égale, avec une marge de 10%. La nôtre avoisinait les 25% … Nous avons donc été forcés de modifier la période étudiée. Exit le mois de juillet 2017, bienvenue au mois de mai 2018. Les deux périodes étaient désormais toutes deux longues de 5 mois et demi, et le corpus de texte long de 10.300 et 10.200 mots.

Nous avons ensuite réactualisé l’ensemble de nos sous-jeux de données, ajouter les éléments propres aux tweets du mois de mai 2018, retirer ceux du mois de juillet 2017, et relancer tous nos calculs. Dans l’ensemble, nos hypothèses ne s’en sont pas trouvées infirmées.
Un autre biais nous est apparu dans la première partie : nous avions choisi certains mots (“Républicains”, “droite”, “famille” au sens politique…) dont nous avions relevé la fréquence. Il en ressortait que Laurent Wauquiez faisait bien moins référence à son parti une fois élu. Nous en avions déduit que le nouveau chef des Républicains considérait son élection comme suffisante au rassemblement de la droite. Élément intéressant, mais biaisé : en effet, comment déterminer de manière exhaustive tous les mots dont il se sert pour citer sa famille politique ? Le corpus de mots que nous avions sélectionné était purement subjectif. Ce biais constaté, nous avons réduit la place de cette partie, en supprimant le graphique qui l’explicite au profit d’une analyse textuelle plus courte.

Visualisation

Du fait de notre sujet, nous ne pouvions pas compter sur une unique visualisation, lourde et centrale. Nos trois parties, elles-mêmes divisées en sous-parties, nous imposaient de réaliser des visualisations propres à chaque tendance repérées lors de nos analyses.

À trop vouloir bien faire, nous avons fini par surcharger visuellement notre enquête, entrecoupée de trop nombreuses infographies. Infographies qui sont autant d’exercices de gymnastique intellectuelle imposés à nos futurs lecteurs. Bref, l’ensemble était indigeste. Nous avons donc décidé d’en supprimer quelques-unes et de les remplacer par des analyses texte, ce qui nous a permis d’équilibrer l’ensemble.

Lien vers le jeu de données, en libre accès

https://docs.google.com/spreadsheets/d/1gqhxd7KX1hLKt2HQdVCfL-FcWnUKfRS563gCaIDuhjo/edit?usp=sharing

 

L’équipe :

Théo Mercadier, Bastien Munch, Corentin Nicolas, Emeline Paillasseur, Théotime Roux, Mélanie Volland