Analyse environnementale des outils d’Analytics : utilisation, impact et choix responsable 

Reading Time: 12 minutes

Contexte

L’évolution constante des réglementations, telles que le RGPD (Règlement général sur la protection des données) et la loi REEN (Réduction de l’empreinte environnementale numérique), met en évidence un changement de paradigme dans le monde numérique. Les entreprises et les organisations sont de plus en plus conscientes de l’importance de la conformité réglementaire et de la nécessité de réduire leur impact environnemental. Cela a des implications profondes sur les outils et technologies utilisés, notamment en ce qui concerne les solutions d’analyse web.

D’autant qu’aujourd’hui, ces outils sont massivement utilisés pour scruter nos comportements et leurs impacts sont souvent sous-évalués au regard d’autres sujets comme la publicité par exemple. Ce sont des enjeux forts car le tracking est omniprésent dans les parcours et pages des services numériques. De plus, analyser les zones fréquentées par l’utilisateur via l’analytics permet de cibler les points par lesquels l’utilisateur passe souvent et donc ses impacts principaux. Ce tracking favorise également la détermination de l’utilité des fonctionnalités, favorisant la désactivation des éléments fonctionnels non utilisés. Ainsi, une utilisation judicieuse de l’analytique peut présenter des avantages environnementaux en évitant des impacts généralisés. L’optimisation et la modération dans son utilisation sont cruciales pour minimiser les impacts systémiques.

Bien choisir ses outils et adopter une bonne stratégie de tracking semble donc être un axe clé dans une démarche Numérique Responsable de son service numérique. 

Dans cet article, nous allons explorer leurs impacts environnementaux de différentes solutions destinés au tracking dans les pages web (web tracking) afin d’avoir quelques repères sur l’impact généré par ce tracking mais aussi pouvoir faire un choix de manière avisée sur les solutions à implémenter en regard de leur niveau de sobriété. 

Pourquoi utiliser des Analytics ? 

Le web tracking, également connu sous le nom de suivi web, est l’activité de collecte de données sur les interactions des utilisateurs sur Internet, notamment leurs visites de sites web, leurs clics, leurs comportements de navigation et bien plus encore. Il permet aux entreprises et aux organisations d’analyser et de comprendre le comportement des utilisateurs en ligne, de mesurer l’efficacité de leurs campagnes marketing et de personnaliser les expériences utilisateur. 

L’analyse web se concentre sur la mesure et l’interprétation des données d’utilisation des sites web, offrant ainsi aux exploitants une vision détaillée de l’activité en ligne de leurs visiteurs. Cette pratique englobe un large éventail d’informations, telles que : 

  • Le nombre de visiteurs au fil du temps, distinguant les visiteurs réguliers des nouveaux arrivants, ainsi que la durée de leur visite et les pages consultées 
  • Les sources de trafic : qu’il soit direct (lorsqu’un utilisateur saisit directement l’adresse du site), provenant d’autres sites web, de publicités ou via des moteurs de recherche 
  • La localisation géographique des visiteurs 
  • Les détails techniques, tels que le système d’exploitation, la résolution d’écran et la version du navigateur web des visiteurs 
  • Et encore bien d’autres informations, en fonction de l’outil retenu 

L’idée initiale de l’analyse web est de collecter et analyser ces informations pour un certain nombre de motivations :

  • Personnalisation de l’expérience utilisateur : en rassemblant des données collectées dans des profils d’utilisateurs, ceux-ci sont ensuite utilisés pour personnaliser les publicités. Au lieu de montrer des publicités aléatoires aux utilisateurs, les informations de leur profil, par exemple leur âge, leur sexe et les sites qu’ils ont visités dans le passé, sont utilisées pour choisir un contenu correspondant à leurs intérêts. Les annonceurs peuvent ainsi concentrer leur budget sur les consommateurs susceptibles d’être influencés. 
  • Sécurité : les forces de l’ordre et les services de renseignement peuvent utiliser les technologies de suivi du web pour espionner des individus. L’identification unique des individus sur Internet est importante dans la lutte contre l’usurpation d’identité et pour la prévention de la fraude à la carte de crédit par exemple. Ce sujet reste étroitement lié à la notion de vie privée, en raison des dérives possibles. 
  • Tests de convivialité des applications web ou compréhension du comportement utilisateur : en observant les étapes suivies par un individu lorsqu’il essaie de résoudre une certaine tâche sur une page web, les problèmes d’utilisation peuvent être découverts et corrigés. 
  • Mesure de la performance et des objectifs : l’objectif est de maximiser les revenus, par exemple en évaluant les pages qui génèrent le plus de revenus, les bannières publicitaires qui génèrent le plus de trafic ou les étapes du processus de commande au cours desquelles les clients sont perdus. 

Ces motivations aident à la prise de décision basée sur les données. En effet, les données collectées grâce au web tracking aident les entreprises ou autres entités à prendre des décisions fondées sur des statistiques prouvées. Les informations sur le comportement des utilisateurs aident à identifier les problèmes potentiels, à repérer les opportunités d’amélioration et à orienter les décisions relatives aux investissements en marketing, à l’expérience utilisateur et à d’autres aspects de l’activité en ligne. C’est notamment ainsi que l’impact du SEO (Search Engine Optimization) ou du SEA (Search Engine Advertising) peuvent être évalués. 

Cependant, récupérer une telle masse d’informations engendre à la fois du trafic de données et leur stockage pour une analyse quotidienne ou sur la durée mais implique également des traitements du côté de l’utilisateur, que ce dernier utilise ou non le service numérique en question. Cela se fait aussi au risque de bloquer temporairement le chargement d’un site web ou de ne pas respecter le consentement de l’utilisateur.  

Il est donc nécessaire en tant propriétaire exploitant de sites, de réfléchir à l’impact économique, social et environnemental de ces solutions de tracking. 

S’il est important de collecter des données d’utilisation du service numérique, il faut se contenter de l’essentiel (ce qui va dans le sens du RGPD : Règlement général sur la protection des données). 

D’autant que les services externes ont tendance à alourdir les sites, notamment via des scripts non-désirés collectant par exemple des données utilisateurs. On citera par exemple Google Analytics, Google Recaptcha (détection de bots), Google Maps et FontAwesome.

Quels critères pour faire son choix ?

Alors quels critères prendre en compte lors d’un choix d’outil d’analytics? Quelles sont les solutions qui permettent de faire cette collecte éclairée ? 

Nous ne reviendrons pas sur l’ensemble des critères de besoins d’utilisation en termes d’ergonomie, de support technique, de fonctionnalités, etc. Bien sûr, cela reste un point primordial dans ce choix mais qui diffèrent selon les organisations. 

Il est important de prioriser les outils qui respectent rigoureusement les réglementations en matière de protection des données, telles que le RGPD. Les données sensibles des utilisateurs doivent être sécurisées et traitées de manière confidentielle. 

Lors de la sélection d’outils d’analytics, il est crucial de maintenir une expérience d’utilisation fluide et accessible pour tous les utilisateurs. 

Il est également important de tenir compte de l’empreinte écologique de l’outil. Les données collectées correspondent-elles au besoin énoncé ? L’outil doit également pouvoir évoluer avec les avancées technologiques et les changements dans le paysage de l’analytique. Les serveurs et centres de données ont-ils des sources d’énergie renouvelables et sont-ils gérés durablement ?  

Nous avons d’ailleurs publié un article au sujet des engagements environnementaux des offres d’hébergement web. 

Il peut être difficile d’avoir accès à toutes ces informations mais cela peut aider à affiner la recherche de solutions plus respectueuses. Si l’outil est transparent quant à la manière dont il collecte, traite et utilise les données, cela traduit un engagement des valeurs de l’entreprise. Les utilisateurs doivent avoir une compréhension claire de comment sont utilisées leurs données.

Sélection des solutions et définition du périmètre de mesure

Nous avons pris le soin de sélectionner 3 outils analytics qui sont accessibles gratuitement. Voici notre sélection : 

  • Google Analytics 
  • Matomo
  • Plausible

Méthodologie

Choix des solutions étudiées

Le choix des solutions à analyser a été effectué en prenant en compte plusieurs critères clés, tels que la popularité sur le marché ainsi que son coût. L’objectif était de sélectionner des solutions représentatives du paysage actuel de l’analyse web, afin d’obtenir des résultats pertinents et significatifs. 

Il convient de noter que cette étude expérimentale ne vise pas à promouvoir une solution spécifique, mais plutôt à fournir une évaluation objective basée sur des données concrètes. Les résultats de cette étude pourront servir de référence et d’outil d’aide à la décision pour les acteurs du numérique cherchant à optimiser leurs analyses web tout en tenant compte des enjeux environnementaux et de vie privée. 

Selon les statistiques d’utilisation fournies par HTTP Archive et l’outil d’identification de service tiers de Patrick Hulce, les solutions d’analyse web Google Analytics, Matomo et Plausible sont les plus populaires.

 Google Analytics  Matomo Plausible 
Occurrences d’utilisation 9 887 783 11 610 17 628 

Préparation de l’étude

Dans le cadre de cette étude comparative des solutions d’analyse web, une étape nécessaire consiste à mesurer les performances d’une page de référence qui n’a aucune solution d’analyse web implémentée et de mesurer cette même page avec les pages implémentant les solutions de web tracking. Cette approche nous permet d’évaluer l’impact spécifique de chaque solution en termes de performance et de consommation (énergie, data, …) de la page. Il est important de noter que nous avons délibérément exclu les utilisations plus avancées telles que l’utilisation de Tag Manager ou la configuration avancée des données collectées. De plus, nous avons pris en compte au possible la réalité de l’impact du traitement et du stockage des données collectées côté serveurs, celui-ci étant projeté par notre modèle détaillé dans cet article. Exclue également la partie administrative de ces outils et l’analyse des dashboards. 

Il est à noter que Matomo propose également une solution qui tourne uniquement côté serveur, ce qui permet d’éviter les soucis vis-à-vis du RGPD (Règlement général sur la protection des données) en plus de réduire l’impact environnemental sur la partie cliente.  Nous n’avons pas évalué cette solution. 

Nous avons déployé une page web simple de référence ainsi que 3 pages identiques sur lesquelles nous avons implémenté les 3 solutions respectives. La page de référence est un écran noir avec un texte de police standard et dépourvue de script.

Définition du parcours utilisateur

Pour mesurer l’activité des outils d’Analytics, nous avons établi le parcours suivant :

  • Etape 1 : lancement de l’application du navigateur 
  • Etape 2 : lancement de l’url de la page à mesurer 
  • Etape 3 : pause (30 sec) 
  • Etape 4 : scroll de la page 

Le parcours consiste à lancer l’application du navigateur (ici Chrome) et saisir l’url de la page à mesurer (référence ou avec solution implémentée). Ensuite le parcours déroule en faisant une pause de 30 secondes pour mesurer ce qui se passe en cas d’inactivité de l’utilisateur. Enfin, un scroll est effectué pour détecter l’envoi de requêtes supplémentaires décrivant le comportement de l’utilisateur.

Contexte de mesure

  • Samsung S7, Android 10  
  • Réseau : 3G : ici utilisé pour étendre les performances de tests et permettre davantage de points de mesures 
  • Luminosité : 50% 
  • Tests réalisés sur au moins 5 itérations pour fiabiliser les résultats 

Hypothèses retenues pour les projections environnementales

  • Localisation utilisateurs : 2% France, 98% Monde 
  • Localisation serveurs : 100% monde (à défaut d’avoir les informations pour chacune des applications) 
  • Appareils utilisés : 60% smartphone, 38% PC, 2% tablette
 Google Analytics  Matomo Plausible 
Localisation utilisateurs 98% Monde 2% France 
Localisation serveurs 100% Monde 
Appareils utilisés  60% smartphone, 38% PC, 2% tablette 

L’empreinte environnementale dépend de la localisation des serveurs de l’application, de leur type, de la localisation des utilisateurs et du type d’appareils qu’ils utilisent. Nous avons pris le parti d’étudier tous les utilisateurs ce qui correspond à une répartition de 2% en France et 98% pour le reste du monde. Ce ratio est tiré du rapport Digital report de We are Social. Le rapport mondial précise que 5,16 milliards de personnes sont utilisatrices d’internet et l’édition française indique que 53,96 millions de français sont des utilisateurs d’internet. 

Pour la répartition globale des appareils utilisés, le rapport de l’année précédente énonce une répartition d’environ 60% pour les smartphones, 38% pour les PC et 2% pour les tablettes.

Quel impact environnemental ?

En réalisant nos mesures réelles d’impact environnemental pour chacune des solutions d’analyse web, on peut directement faire le calcul avec les statistiques d’utilisation et l’impact unitaire de l’outil seul sur une visite (chargement, pause et scroll) auquel nous avons soustrait l’impact de la page de référence. L’impact unitaire présenté ci-dessous est le delta entre la page présentée noir avec analytics et la page noire de référence sans analytics implémenté.

Solution Impact unitaire par parcours (g CO2e) Impact pour 10 visites/jour de chaque instance sur une année 
Google Analytics 0,069 2 490 T CO2e 
Matomo 0,012 508 kg CO2e 
Plausible 0,039 2,5 T CO2e 

Pour chacune des solutions d’analytics, nous avons pris l’hypothèse que chacun des sites disposant des solutions a une fréquence de visite de 10 par jour. 

Pour Google Analytics, qui produit 0,069 g CO2e par parcours, génère presque 2 500 tonnes de CO2e à l’échelle de ses 9 887 783 occurrences sur une année. 

Plausible, elle a un impact unitaire au chargement de 0,039 g CO2e donc 2,5 T CO2e sur une année pour 17 628 occurrences. 

Enfin, Matomo qui compte 11 610 occurrences avec un impact de 0,012 g CO2e par parcours produit 508 kg CO2e par an. 

On peut spécifier que l’écart est très faible car les pages sont très sobres mais on ne constate que peu d’écart entre une solution très tournée vers le business comme Google Analytics, et Plausible, censée offrir une solution plus légère en termes d’impact environnemental. La plus grosse part de l’impact se fait au niveau du volume d’utilisation des solutions d’analytics. 

Si la différence au niveau des impacts unitaires est très faible, à même taux d’utilisation, certaines solutions sont bien plus sobres écologiquement.  

L’intérêt est donc de limiter l’usage de ceux-ci et de privilégier les solutions à plus faible impact. 

Par exemple, si les services web utilisant Google Analytics transféraient leur usage d’analytics sur Matomo, l’impact environnemental en serait fortement diminué : si les visites des presque 10 millions d’occurrences de Google Analytics ont un impact de 2 490 T CO2e, en utilisant l’alternative Matomo, cet impact serait de 433 T CO2e. C’est 6 fois inférieur à l’impact de Google Analytics ! 

D’autant que Matomo propose une solution server-side. En dehors des bénéfices coté vie privée en n’ayant aucun intermédiaire niveau collecte des données et performance améliorée pour les visiteurs du site web, les émissions de gaz à effet de serre sont elles aussi diminuées.

Pour comparer

Gerry McGovern, expert dans le domaine de l’expérience utilisateur et auteur de plusieurs livres sur la conception digitale et notamment World Wide Waste, fait le calcul du coût environnemental de l’utilisation de Google Analytics

Il estime que : 

  • 21,6 ko de données sont transférés à Google par visite 
  • 50 M de sites utilisent Google Analytics d’après Marketing Land en 2015 (ce qui ne correspond pas à nos estimations) 

Pour un total estimé de 10 visites par jour par site web utilisant Google Analytics, cela représente 500M de pages vues et donc près de 10 800Go transférés par jour ou 4M Go/an. 

D’après ses recherches, 1Go = 4,2 g CO2eq. Ainsi la pollution de la solution Google Analytics s’élève à 16556kg/an. 

On note donc que pour un usage au plus simple de l’outil sur une page très sobre, les estimations de Gerry McGovern sont très faibles en comparaison de l’impact que nous avons mesuré

Cependant, cette estimation est réalisée en prenant en compte seulement le poids des données pour faire une projection d’impact carbone, ce qui diffère de notre méthodologie. 

Pour aller plus loin… 

Au-delà des considérations générales d’impact environnemental, une analyse technique approfondie des requêtes générées par les outils d’analytics peut fournir des informations sur la manière dont ces solutions opèrent et interagissent avec les sites web (poids des requêtes, chargement différé, services tiers, etc). 

Voici les valeurs des mesures pour du parcours (chargement, pause, scroll) des 3 pages web auquel nous avons soustrait les valeurs de référence : 

 Performance (s) Vitesse de décharge de batterie (µAh/s) Données mobiles (Ko) 
Google Analytics 2,3 21 955 145,9 
Plausible 1,6 3 604 29,1 
Matomo 0,4 15 272 9,2 

Sans grande surprise, c’est Google Analytics le plus consommateur et le moins performant qui est suivi de Plausible puis de Matomo. En effet, sur 150Ko de données échangées sur le parcours, le fichier Javascript chargé d’envoyer la requête vers le serveur de Google pèse plus de 90 ko. C’est 66 fois plus élevé que Plausible. Matomo compte lui, plus de 40ko pour cette requête.

Page avec GA implémenté – Inspecteur Firefox, onglet network
Page avec GA implémenté – Inspecteur Firefox, onglet network 

D’autre part cela laisse penser que plus le fichier JS est volumineux, plus il récupère d’informations sur l’utilisateur même si cela ne constitue pas nécessairement une corrélation directe. D’autres facteurs, tels que les traitements côté client ou l’optimisation du code, peuvent également influencer la performance et la collecte de données.

Ici, un gros volume de données est transmis à la plateforme Google Tag Manager qui n’est pourtant pas implémenté dans le code. L’écart est flagrant avec Matomo qui transfère un faible volume de données par rapport à son concurrent. 

De plus, Google Analytics et Matomo transfèrent tous deux des cookies.

A la base, les cookies ont été conçus pour un simple besoin : conserver les informations de connexion d’un utilisateur sur un site donné, ils ne sont donc pas problématiques en soit, mais ils servent en fait à bien des besoins publicitaires, marketing et autres pour permettre un contenu plus ciblé en fonction du comportement de l’utilisateur.

Ainsi, il est important de regarder la taille et la date d’expiration de ces cookies. Pour Google, les cookies se démarquent facilement avec leur préfixe _ga tandis que les cookies de Matomo se repèrent grâce au préfixe _pk. Les cookies de Google ont une taille totale de 80 octets et expirent seulement 13 mois plus tard ce qui correspond à la date d’expiration des cookies publicitaires. Ceux de Matomo comptent pour 56 octets et un des 2 cookies chargés expire le jour même. Dans les 2 cas on peut questionner la pertinence de ces cookies sur des pages aussi sobres. 

On l’a vu, Google Analytics est la solution la moins performante et la plus impactante écologiquement, d’autant que la requête vers Google Analytics est chargée en asynchrone. Bien que le chargement asynchrone soit une bonne pratique de performance courante pour ne pas retarder l’affichage de la page, cela peut en effet masquer l’impact environnemental réel de cette solution. 

Dans notre processus de mesure, nous avons cherché à obtenir une vue complète du chargement de Google Analytics. Il est important de souligner que Google a mis en place diverses stratégies pour minimiser son impact sur la performance des sites web. Cependant, malgré ces efforts, nos données de mesure révèlent que les impacts en termes d’énergie et de transfert de données restent plus élevés pour GA par rapport à ses concurrents.

Les limites de notre étude 

Les résultats de notre étude présentent des limites. Les pages mesurées sont premièrement très simples en termes de fonctionnalités et de visuels ce qui implique un scénario simple également ce qui n’est pas forcément représentatif des sites web disposant d’outils d’analytics. De plus, de par leur sobriété, ces pages sont très légères et les mesures effectuées peuvent donc entrer dans la marge d’erreur de notre outil de mesure. Enfin, nous n’avons que peu d’informations sur les facteurs variants de l’impact environnemental (localisation des serveurs par exemple). 

Pour conclure 

En conclusion, notre étude sur les différents outils d’analyse web met en évidence des nuances intéressantes quant à leur impact environnemental. Il est important de noter que nos analyses ont été effectuées sur une page sobre et un cas d’utilisation très basique, ce qui limite considérablement les écarts d’impact. Cependant, même dans ce contexte, nous constatons des volumes de données élevés avec des techniques d’efficience différant certains chargements. Ceci pour toujours plus d’analyse du comportement utilisateur avec un fort impact environnemental en prime.