Nettoyage du Spam dans Google Analytics avec R – Partie I

Lissage par an méthode Loess

Dans un article précédent nous avions vu comment nettoyer le spam dans les données de Google Analytics « à la main » avec les segments.

Il serait judicieux de pouvoir importer les données via l’API de Google Analytics et de les nettoyer au moyen d’un programme, ici en R, puis ensuite de pouvoir traiter ces données avec des analyses plus poussées que celle fournies par Google Analytics.

Cet article pouvant être long nous l’avons divisé en deux parties.

De quoi aurons nous besoin ?

Logiciel R

Comme précédemment, afin de pouvoir tester le code source de cette démonstration nous vous invitons à télécharger Le Logiciel R sur ce site https://cran.r-project.org/, ainsi que l’environnement de développement RStudio ici : https://www.rstudio.com/products/rstudio/download/.

Bibliothèque googleanalyticsR

Cette bibliothèque, dont nous avons déjà parlé dans cet article vous permettra d’accéder facilement à vos données dans Google Analytics

Création d’un projet sur la console Google Developpers

Dans le même article précédent nous avions décrit comment créer un Projet sur la Console Google et comment récupérer ses identifiants. Merci de vous y référer.

Jeu de données

Comme pour l’article « Comment nettoyer le spam dans Google Analytics avec les segments » et l’article « Importer les données de Google Analytics API avec Python Anaconda » nous reprendrons le jeu de données de Networking Morbihan.

Code Source

Vous pouvez copier/coller les codes sources suivants pour les tester dans votre propre fichier de script R.

Connexion à l’API Google Analytics via googleanalyticsR

Dans cette première partie nous reprenons ce que nous avions fait précédemment afin de récupérer l’ID de view de Google Analytics qui nous intéresse.

Quelques packages et données utiles

Récupération des données pour filtrages

Afin de pouvoir filtrer le spam il sera nécessaire de récupérer des dimensions : hostname, browser, fullReferrer, sourceMedium, language, landingPagePath, pagePath dans Google Analytics.

Comme vous pouvez le voir le système a trouvé 82559 observations (comme dans notre article sur le nettoyage de Google Analytics via les segments).

Préparation des données pour les graphiques

Dans cette partie nous allons préparer les données pour pouvoir construire les graphiques illustratifs. Cliquez sur les graphiques pour les agrandir.

Pages vues par jour

On va utiliser la bibliothèque ggplot.

Page vues brutes depuis 2011
Page vues brutes depuis 2011

Pages vues en moyennes mobiles sur 30 jours

Pages Vues en Moyenne Mobile sur 30 jours
Pages Vues en Moyenne Mobile sur 30 jours

Lissage Loess par an

La méthode Loess ou Régression Locale est expliquée ici par exemple.

Lissage par an méthode Loess
Lissage par an méthode Loess

Lissage Linéaire par an

Lissage linéaire par an
Lissage linéaire par an

Lissage linéaire sur toute la période

Lissage Loess sur toute la période
Lissage Loess sur toute la période

Nous démarrons le nettoyage des données à proprement parlé dans la partie II de cet article.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.