Comparatif Macron Wauquiez Mélenchon Le Pen avec TwitteR

Dans cet article nous verrons comment récupérer des tweets avec le logiciel R et la bibliothèque TwitteR. Nous verrons aussi comment extraire des données textuelles de ces tweets et essayer de les rendre intelligibles.

Pour cet exercice nous avons choisi de traiter des tweets concernant des personnalités politiques. à savoir, ici : Emmanuel Macron, Laurent Wauquiez, Jean-Luc Mélechon et Marine Le Pen. Ceci afin d’essayer de percevoir ce qu’en disent les Twittos.
Vous pouvez bien sûr tester ce programme pour des marques plutôt que des personnalités.

Logiciel R

Comme d’habitude, afin de pouvoir tester le code source de cette démonstration nous vous invitons à télécharger Le Logiciel R sur ce site https://cran.r-project.org/, ainsi que l’environnement de développement RStudio ici : https://www.rstudio.com/products/rstudio/download/.

Créer une application dans Twitter

Afin de pouvoir importer les tweets dans le Logiciel R, il vous sera nécessaire de créer une « application » dans Twitter pour les développeurs. Cet import se fera à partir de l’API (Application Programming Interface) de Twitter. Suivez cette procédure :

  1. Si vous n’avez pas de compte Twitter, créez en un !
  2. Allez sur la page de gestion d’applications : https://apps.twitter.com/ en vous connectant avec vos login et Mot de passe de votre compte Twitter.
  3. Cliquez sur « Create New Apps »
  4. Remplissez le formulaire à votre convenance et validez. Attention le champ Callback URL doit contenir l’URL « http://localhost:1410 ».
  5. Sur la page suivante cliquez sur l’onglet « Keys and Access Tokens »
  6. Sur la page des clés et jetons cliquez en bas sur « Create my access token »
  7. Au final vous devriez avoir l’écran suivant qui comporte vos clés d’API et vos jetons dont vous aurez besoin dans le programme.

Code Source

Vous pouvez copier/coller les morceaux de codes source dans un script R pour les tester.

Environnement

Environnement nécessaire à l’application à charger dans votre programme

Connexion à L’API

Indiquez les clés que vous avez créées dans Twitter

Récupération de Tweets

On a choisi de récupérer 1000 tweets max depuis hier. (Si vous demandez trop de tweets à l’API de Twitter elle peut temporiser.)

Vérification des dates des plus vieux Tweets

Par curiosité regardons le nombre de tweets et les dates des plus vieux tweets pour chacune des personnes pour voir si cela remonte beaucoup dans le temps.

> length(macron.tweets)
[1] 1000
> length(wauquiez.tweets)
[1] 1000
> length(melenchon.tweets)
[1] 1000
> length(lepen.tweets)
[1] 1000
>
> #Date/heure du tweet le plus ancien
> macron.tweets[[length(macron.tweets)]][[« created »]]
[1] « 2018-01-18 08:41:53 UTC »
> wauquiez.tweets[[length(wauquiez.tweets)]][[« created »]]
[1] « 2018-01-17 09:46:20 UTC »
> melenchon.tweets[[length(melenchon.tweets)]][[« created »]]
[1] « 2018-01-16 17:59:08 UTC »
> lepen.tweets[[length(lepen.tweets)]][[« created »]]
[1] « 2018-01-16 17:33:25 UTC »
>

Pour Macron les 1000 tweets sont atteint en moins de 3 heures et pour les autres il faut attendre parfois plus de 24 heures.
Quoiqu’il en soit les tweets collent assez fortement à l’actualité pour tous.

Récupération des textes et nettoyage

Ici on va nettoyer les tweets pour enlever les informations non pertinentes.

Retraitement des données pour le « Text Mining »

Ici on va retraiter les données pour les mettre dans des formats intéressants pour la « fouille de données »

Graphiques en barre

Graphiques en barre pour les 20 premiers termes de chaque personnalité

Il n’aura échappé à personne que Notre Dame des Landes était le Thème d’hier et la visite de Theresa May celui d’aujourdhui 🙂 !

On s’intéresse plus à Jean-Jacques Bourdin qu’à ce que dit Wauquiez ?

Mélenchon répond quand même un peu à Macron sur NDDL :

Marine Le Pen toujours empêtrée dans la Présidentielle ??

Nuages de Mots clés

Nuage Mots clés pour chacune des personnalités

Macron :

Wauquiez :

Mélenchon :

Le Pen :

Nuage de Mots Clés communs

Dans ce nuage de mots clés on affiche les mots les plus communs aux différentes personnalités

Nuage de Mots Clés disjoints

Dans ce nuage de mots clés on affiche les mots qui différencient les différentes personnalités.

Couleurs : Macron : jaune-orangé, Wauquiez : bleu-violet, Mélenchon : rouge, Le Pen : Noir

Dendrogrammes

Un dendrogramme est un diagramme que l’on utilise pour présenter une classification hiérarchique. Dans notre cas nous allons classifier les mots pour voir ceux qui sont proches les uns des autres.

Dendrogramme Macron :

Dendrogramme Wauquiez :

Dendrogramme Mélenchon :

Dendrogramme Le Pen :

Merci pour votre attention, n’hésitez pas à faire vos remarques et suggestions en commentaires.

A Bientôt,

Pierre

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *