Analyse en Composantes Principales sur les canaux de trafic Web avec R

Diagramme des variables : pages direct marketing

Cet article est le dernier d’une série sur l’analyse des données Google Analytics de l’association Networking Morbihan avec R.

Dans cet article, nous allons réaliser une Analyse en Composantes Principales sur la variable canal de trafic.

A quoi sert une Analyse en Composantes Principales ?

Une Analyse en Composantes Principale – ACP – ou en Anglais PCA (Principal Component Analysis) est une méthode d’analyse de données qui permet d’explorer les liaisons entre les variables (pour nous ici les canaux : direct, referral, search, social, webmail) et les ressemblances entre individus (pour nous les pages Web : nous en avons 1262 différentes) .

L’ACP nous donne les informations suivantes que l’on va pouvoir visualiser :

  • Visualisation des individus : notion de distances entre individus, identification de groupes.
  • Visualisation des variables : en fonction de leurs corrélations. (ici notre cas)

Exemple de visualisation de variables
Exemple de visualisation de variables

Mathématiquement cela consiste à transformer des variables liées entre elles (dites « corrélées ») en nouvelles variables décorrélées les unes des autres.

Ces nouvelles variables sont nommées « composantes principales », ou axes principaux.

Cela permet notamment de réduire le nombre de variables et de rendre l’information plus lisible si l’on a un jeu de données important avec de nombreuses variables.

l’ACP peut servir aussi à la vérification d’un jeu de données en identifiant les valeurs aberrantes (voir graphique ci-dessous) ou d’étape préalable à d’autres traitements statistiques que nous n’aborderons pas ici.

ACP détection de valeurs aberrantes
ACP détection de valeurs aberrantes

Procédure à suivre :

Logiciel R :

Téléchargez le Logiciel R sur le site du CRAN https://cran.r-project.org/, ainsi que l’environnement de développement RStudio ici : https://www.rstudio.com/products/rstudio/download/.

Jeu de données

Comme dans les précédents articles, nous utiliserons le jeu de données de Networking Morbihan pour illustrer notre propos. Vous aurez besoin de 3 fichiers à dézipper dans le même répertoire que le code R :

Vous pouvez aussi construire votre jeu de données à partir de vos propres données Google Analytics. Auquel cas, suivez les procédures que nous avions décrites dans des articles précédents :

Code Source :

Vous pouvez récupérer les différents morceaux de code ci-dessous ou récupérer tout le code sur notre Github à l’adresse : https://github.com/Anakeyn/PCATrafficChannelsR

Chargement des bibliothèques utiles

Récupération des fichiers dfPageViews.csv, myArticles.csv et mySourcesChannel.csv

Données Globales :

Préparation des données et calcul de l’ACP.

Screeplot pour toutes les pages.

Il s’agit du graphique permettant de visualiser le pourcentage de variance expliquée en fonction des dimensions.

Pourcentage de variance expliquée selon les dimensions : toutes les pages
Pourcentage de variance expliquée selon les dimensions : toutes les pages

Diagramme des variables pour toutes les pages :

Pourcentage de variable expliquée selon les dimensions : pages de base
Pourcentage de variable expliquée selon les dimensions : pages de base

Mis à part Webmail qui diffère légèrement, tous les autres canaux sont pratiquement tous sur l’axe de la composante 1. Cela montre qu’ils sont fortement et positivement corrélés.

Le fait que Webmail diffère pourrait indiquer que certaines pages bénéficient de plus de trafic via email que d’autres. Ce qui est la réalité.

Le cos² indique la qualité de représentation des variables sur le graphique de l’ACP. Il est calculé comme étant les coordonnées au carré: var.cos2 = var.coord * var.coord. Ici toutes les variables sont très bien représentées : > 0,99.

Trafic de base

Création du jeu de données pour le Trafic de BAse et calcul de l’ACP

Graphique de pourcentage de variance expliquee pour le trafic de base

Pourcentage de variable expliquée selon les dimensions : pages de base
Pourcentage de variable expliquée selon les dimensions : pages de base

Diagramme des variables pour les pages de base

Diagramme des variables, pages de base.
Diagramme des variables, pages de base.

Toutes les sources de trafic sont fortement liées pour les pages de base.

Pages Direct Marketing

Preparation des donnees pour les pages direct marketing et calcul de l’aCP

Graphique de pourcentage de variance expliquee pour le trafic DIRECT MARKETING

Pourcentage de variance expliquée : pages direct marketing
Pourcentage de variance expliquée : pages direct marketing

Diagramme des variables pour les pages DIRECT MARKETING

Diagramme des variables :  pages direct marketing
Diagramme des variables : pages direct marketing

Le fait que search se détache pourrait indiquer que certaines pages on un trafic search différencié par rapport aux autres.

Et vous, qu’obtenez-vous avec les données de votre site ?

A bientôt,

Pierre

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.