Web Marketeurs ! et si nous passions à R et Python ?

Curieusement, alors que le Web Marketing se nourrit de nombreuses données en provenance de nombreuses sources : Google Analytics, FaceBook, Twitter, Trends, Adwords… Très peu d’entre nous utilisent des outils d’analyses statistiques, d’analyse prédictive ou tout simplement des outils de visualisations de données dédiés.

Le plus souvent nous nous contentons des outils disponibles auprès des fournisseurs de sources de données. Ou encore de quelques graphiques travaillés avec Excel.

Il semblerait que le Web Marketing n’ait pas encore rencontré le Big Data et l’Intelligence Artificielle !!!

Univers du Big Data et de l’IA

Pour planter le décor voici un tableau qui répertorie les outils les plus connus du Big Data et de l’Intelligence Artificielle. (Source Matt Turck Big Data 2017).

Je vous laisse quelques instants pour compulser ce tableau. 🙂

Oups ! Mais par quoi commencer ?

Si vous êtes un indépendant ou travaillez dans une petite entreprise comme nombre de Web Marketeurs, je ne saurais trop vous conseiller de vous intéresser aux outils Open Source. Remarque : Encadré vert sur le tableau de Matt Turck.

En général les licences sont gratuites et il existe des communautés d’utilisateurs qui pourront vous aider.

Parmi les outils statistiques, 2 sont généralement plébiscités par la profession pour démarrer dans les sciences de données : Le Logiciel R et maintenant le langage Python.

R et Python vs autres

(Source Etude KDNuggets auprès de professionnels des sciences de données – 2900 en 2017.

Qu’est-ce que R ?

Logo Logiciel R

R est un langage dédié aux statistiques et aux sciences de données. R est un logiciel libre que vous pouvez télécharger sur ce site https://cran.r-project.org/

R est un langage interprété et est accessible via une « interface en ligne de commande ». Ceci n’est pas très facile d’accès pour les débutants.

C’est pourquoi nous vous conseillons de télécharger et d’installer aussi le logiciel RStudio ici : https://www.rstudio.com/products/rstudio/download/. RStudio est un environnement de développement qui vous facilitera la tâche dans la création et la gestion de vos applications.

R a été développé avec le concours de nombreux mathématiciens, statisticiens et scientifiques et dispose de ce fait de nombreuses bibliothèques. On dénombre à ce jour 11818 packages sur le site du « CRAN » (Comprehensive R Archive Network). Ces bibliothèques comportent de nombreux outils statistiques, de manipulations et de visualisations. Celles-ci vous aideront dans l’analyse de vos données sans que vous soyez mathématicien vous-même.

Qu’est-ce que Python ?

Logo Python

Python est un langage de programmation orienté objet interprété généraliste. Comme R, Python est aussi un logiciel libre. Python est aujourd’hui un langage très populaire auprès des programmeurs car il est réputé bien construit avec une syntaxe claire, ce qui facilite son apprentissage. Par ailleurs, comme R, Python est un langage qui permet l’utilisation de bibliothèques ce qui fait qu’il est utilisé dans de nombreux contextes.

Dans le domaine des sciences de données, de nombreux packages ont été développés.  Les plus connus sont NumPy, SciPy, MatplotLib, scikit-learn. Ils facilitent la manipulation de vecteurs, de matrices, la mise en œuvre de techniques de statistiques inférentielles, la visualisation de données ou encore le machine learning.

Comme pour R nous vous conseillons d’utiliser un environnement de développement. Vous trouverez ici un comparatif d’environnements de développement Python pour les Sciences de Données réalisé par DataCamp (en anglais).

IDE Python

Pour notre part, nous avons choisi Rodeo . C’est celui qui nous semblait le plus proche de RStudio en terme d’interface, ce qui nous facilitait la prise en main. Mais nous n’avons pas d’avis tranché à ce sujet.

Les avantages de R et Python

Quels sont les avantages de R et Python ? Notamment par rapport à des logiciels propriétaires de traitements statistiques comme SAS ou SPSS ou encore par rapport à Excel :

  • Comme nous l’avons vu précédemment, R et Python sont libres ce qui vous protège des décisions arbitraires des éditeurs de solutions propriétaires. Par exemple l’abandon de modules ou le changement de tarifs…
  • R et Python sont gratuits ! Quand on sait que pour certains logiciels propriétaires concurrents, il faut compter plusieurs milliers d’Euros par poste…
  • R et Python sont modulaires : vous pouvez ajouter vos propres bibliothèques sans toucher au coeur du système.
  • Les popularités de R et Python sont importantes. Des milliers de packages sont disponibles ce qui facilite grandement votre tâche pour vos études. Vous n’avez pas à tout réinventer. Par ailleurs, il existe de nombreux tutoriels sur le Web, vous permettant de vous former facilement.
  • Une étude avec R ou Python est robuste. Si à priori l’approche à partir d’un script semble difficile, cette méthode permet d’éviter de nombreuses erreurs. Vous pouvez notamment tester pas à pas votre étude dans votre environnement de développement. Qui n’a jamais perdu des heures dans un tableau Excel à la recherche d’une formule effacée malencontreusement ?
  • Par ailleurs, la vision à partir d’un script permet de construire proprement votre étude en étapes bien claires. Acquisition des données, nettoyage et préparation des données, exploration, analyse et modélisation et enfin visualisation et présentation des données. Dans Excel, la vision centré sur le tableau ne permet pas clairement d’identifier les différentes étapes.
  • L’approche par script permet aussi de réutiliser facilement vos analyses précédentes et in fine de gagner du temps.
  • Vous pouvez mélanger plusieurs sources de données facilement.
  • R et Python proposent tous les deux un package Markdown. Markdown est un langage de balisage qui permet facilement de créer des documents exportables en HTML, PDF, Word… Ceci permet de distribuer facilement vos études
  • Avec R et Python vous pouvez créer des tableaux de bords et applications disponibles sur le Web.
  • Grâce aux API, R et Python peuvent accéder facilement à des milliers de sources de données disponibles sur le Web. Remarque : API = application programming interface. Par exemple : API Google Analytics V4, APIs de Twitter

Et maintenant ?

Dans les prochains articles nous vous proposerons des exemples concrets d’utilisation de R et Python au service du Web Marketing.

Notre objectif est de vous faire partager nos trucs et astuces, nos découvertes, nos difficultés et de façon générale nos tribulations de Web Marketeurs dans l’univers de la Data Science. :-).

Une nouvelle aventure pour Anakeyn !

A Bientôt,

Pierre.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *