Nettoyage du Spam dans Google Analytics avec R – Partie II

Pages vues par an en moyenne mobile sur 30 jours

Cet article est la suite de l’article Nettoyage du Spam dans Google Analytics avec R – Partie I

Le nettoyage à proprement parlé commence ici !

Code Source R :

Vous pouvez copier/coller les codes sources suivants pour les tester dans votre propre fichier de script R

Nettoyage des langues suspectes.

Nous allons vérifier que les langues sont bien sous la forme « langue-pays » : xxx-xxx, par exemple : fr-FR, fr-BE, es … pour cela on utilise une expression régulière ici : « ^[a-zA-Z]{2,3}([-/][a-zA-Z]{2,3})?$ ».

Nous préparons aussi les données pour affichage.

Il reste 76733 observations, on en a supprimées environ 6000 !

Visualisation après nettoyAGE des Langues Suspectes

Pages Vues suite au nettoyage des langues suspectes.
Pages Vues suite au nettoyage des langues suspectes.

Nettoyage des Ghostames

Il s’agit de sites qui ont placé notre code de suivi Google Analytics sur leur propres pages … On va faire en sorte de ne garder que les sites légitimes. Par ailleurs s’il existe des sous domaines que l’on ne souhaite pas garder il faudra aussi les traiter.

Il reste maintenant 76159 observations après cette action. Environ 570 suppressions.

Visualisation après nettoyage des GHOSTNAMES

Pages vues suite au nettoyage des Hostnames
Pages vues suite au nettoyage des Hostnames

Nettoyage des browsers suspects

Avant de créer et de personnaliser la pattern de nettoyage des browsers, il est nécessaire de vérifier le contenu de la variable « browser ».

il reste 76126 observations. Ici uniquement une trentaine de repérés.

Visualisation dES pages vues suite au nettoyage des browsers suspects

Pages vues suite au nettoyage des browsers suspects.
Pages vues suite au nettoyage des browsers suspects.

Nettoyage des Crawlers Spammers et autres sources de trafic non désirées dans source.

Pour effectuer cette opération vous aurez besoin du fichier « blacklist-source-sites.csv » qui regroupe de nombreux spammeurs. vous pouvez le récupérer sur notre Github à l’adresse
https://github.com/Anakeyn/blacksites/archive/master.zip

Le fichier zip comprend aussi un fichier en.xlsx mais celui-ci sert pour le nettoyage « à la main » via les segments. Dézipper et recopier le fichier « blacklist-source-sites.csv » dans le répertoire courant de votre fichier R

Pour des raisons de mémoire on ne peut pas construire une pattern qui comprend tous les sites à exclure. C’est pourquoi on fait une boucle pour faire une recherche par paquets de 500. Ajustez le paramètre « step » selon vos besoins.

Nous avons maintenant 74275 observations. Environ 1850 ont été écartées.

ViSUALISATION SUITE au nettoyage des crawlers spammers

Pages vues suite au nettoyage de la source
Pages vues suite au nettoyage de la source

Nettoyage des fausses pages référentes dans fullReferrer

Il s’agit ici de fausses pages référentes mais sur des sites légitimes. Nous avons créé un liste dans un fichier « blacklist-fullRefferer-Page.csv » que vous pouvez aussi récupérer dans le fichier .zip précédent.

Nous avons maintenant 73829 observations. Environ 450 ont été trouvées avec cette méthode.

VisUAlisation DES PAGES VUES SUITE AU NETTOYAGE DES PAGES REFERENTES SUSPECTES

Pages vues après nettoyage des pages référentes suspectes.
Pages vues après nettoyage des pages référentes suspectes.

Nettoyage des pages d’administration

Il s’agit ici des pages d’administration du site qui n’ont pas vocation à être comptés. Attention ces pages dépendent de votre CMS (Content Management System). Pour nous il s’agit de WordPress.

Il reste 73301 observations. Cette partie en a repéré environ 530 lignes.

Visualisation suite à la suppression des pages d’administration.

Pages vues suite à la suppression des pages d'administration.
Pages vues suite à la suppression des pages d’administration.

Nettoyage des pages dont l’entrée sur le site s’est faite via l’administration, variable landingPagePath

Comme précédemment, la liste des pages dépend de votre CMS. pour nous il s’agit de WordPress.

Il reste 72822 observations. Environ 500 lignes ont été trouvées durant cette dernière étape.

Visualisation des pages vues nettoyées.

Pages vues Nettoyées
Pages vues Nettoyées

Au départ nous avions 82559 observation et après nettoyage 72821, ce qui fait près de 10000 et environ 15% du total ce qui n’est pas négligeable !!!

Comparatifs des années sur le jeu de données nettoyée

Pour finir nous allons comparer les différents trafics selon les années sur le même graphique. Nous en profiterons aussi pour sauvegarder nos données dans un fichier dfPageViews.csv que nous pourrons réutiliser par la suite pour d’autres investigations.

Pages vues par an en moyenne mobile sur 30 jours
Pages vues par an en moyenne mobile sur 30 jours

Merci pour votre attention. Nous prévoyons de reprendre cet article en Python. Par ailleurs les données nettoyées du site serons utilisées dans des articles futurs pour quelques exemples d’investigations.

Vous pouvez retrouver le code source en entier ainsi que les fichiers nécessaires sur notre Github à l’adresse https://github.com/Anakeyn/CleanSpamGAwR

N’hésitez pas à laisser vos avis, conseils etc en commentaires,

A Bientôt,

Pierre

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.