Analyse en Composantes Principales sur les canaux de trafic Web avec Python

Diagramme des individus et des variables page direct marketing.

Cet article reprend plus ou moins le même thème que notre article précédent : Analyse en Composantes Principales sur les canaux de trafic Web avec R, cette fois avec Python.

N’hésitez pas à vous reporter à cet article précédent, pour plus de détail concernant le concept d’Analyse en Composantes Principales.

Dans notre cas, nous allons surtout utiliser cette analyse pour vérifier la corrélation entre les canaux de trafic sur notre site. Par exemple sur un graphique de ce type :

Exemple de visualisation de variables
Exemple de visualisation de variables

Rappelons les canaux que nous avons identifiés :

  • Search – moteurs de recherche : Google, Bing, Qwant..
  • Social – réseaux sociaux : FaceBook, Twitter, Instagram…
  • Referral – liens sur d’autres sites
  • Webmail – liens cliqués dans un email sur un webmail
  • Direct – toutes les autres sources (non spécifiées par Google Analytics)

Comme nous l’avions indiqué aussi pour R, cet article est le dernier d’une série sur l’analyse de données provenant de Google Analytics concernant le site de l’association Networking Morbihan.

Comment allons nous procéder ?

Python Anaconda

Téléchargez la version de Python Anaconda qui vous convient selon votre ordinateur. Python Anaconda est une version de Python 3.xx adaptée aux Sciences de données.

Jeu de données

Vous pouvez; soit récupérer les jeux de données provenant de l’association Networking Morbihan sur notre Github :

Remarque : Dézippez les archives dans le même répertoire que votre code source

Soit créer un jeu de données à partir de vos données Google Analytics, en suivant la procédure décrite dans nos articles précédents :

Code Source :

Vous pouvez récupérer les différents morceaux de code ci-dessous ou récupérer tout le code sur notre Github à l’adresse : https://github.com/Anakeyn/PCATrafficChannelsPython.

Récupération des bibliothèques utiles :

Pour les données Globales

Récupération des données et preparation pour l’ACP

Calcul de l’ACP pour les données Globales

Screeplot : pourcentage de variance expliquée pour les données globales

Screeplot ACP pour toutes les pages.
Screeplot ACP pour toutes les pages.

Quasiment toute l’information est contenue dans la composante 1

Diagramme DES INDIVIDUS ET des variables pour toutes les pages :

Cette fois, nous faisons aussi apparaître les individus même si cela n’est pas vraiment l’information que l’on recherche.

Diagramme des individus et des variables ACP toutes les pages.
Diagramme des individus et des variables ACP toutes les pages.

Toutes les variables sont dans l’axe de la composante 1. Compte tenu du fait que celle-ci comporte pratiquement toute l’information le fait que webmail se détache n’est pas si significatif que cela, la composante 2 ne comportant que 2% de l’information. Il y a ici un effet grossissant pour la composante 2.

Pages de base :

Rappel : les pages de bases sont surtout les pages « statiques » du site : page d’accueil, les adhérents, s’inscrire etc.

Récupération des données DES PAGES DE BASE et preparation pour l’ACP

Calcul de l’ACP pour les données « de BASE »

Screeplot : pourcentage de variance expliquée pour les données de base

Screeplot : pages de base
Screeplot : pages de base

Pratiquement toute l’information : 99,36 % est contenue dans la composante 1.

Diagramme DES INDIVIDUS ET des variables pour les pages de base :

Diagramme des individus et des variables pages de base.
Diagramme des individus et des variables pages de base.

Pages « Direct Marketing » :

Rappel : il s’agit d’articles « marketing » dont la page d’entrée est aussi une page « marketing »

Récupération des données DES PAGES Direct Marketing et preparation pour l’ACP

Calcul de l’ACP pour les PAGES DIRECT MARKETING

Screeplot : pourcentage de variance expliquée pour les PAGES DIRECT MARKETING

Screeplot : pages direct marketing.
Screeplot : pages direct marketing.

Diagramme DES INDIVIDUS ET des variables pour les pages DIRECT MARKETING :

Diagramme des individus et des variables page direct marketing.
Diagramme des individus et des variables page direct marketing.

Search se détache légèrement sur l’axe 2 mais comme celui-ci ne comporte que 10% de l’information, ce n’est pas non plus trop significatif.

Au final on a montré que dans tous les cas, tous les canaux sont corrélés entre eux.

Ce que l’on attendait intuitivement, mais c’est mieux en le démontrant :-).

Et vous qu’avez-vous constaté avec vos données ?

A bientôt,

Pierre

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.