Bloquer le referrer spam dans Google Analytics

Dans la course effrenée au trafic Internet, certains ont jugé que tous les moyens étaient bons, éthique et loi étant des concepts sacrifiés à la course aux profits. Si le spam est synonyme pour beaucoup d’emails non sollicités et idiots, il existe d’autres actions de spammeurs pour vous matraquer avec ce qu’ils ont à promouvoir. Deuxième article d’une série d’analyses par Genious Interactive pour comprendre ces nuisances, et tenter de s’en protéger.

Comme nous l’avons vu dans notre article comprendre le referrer spam dans Google Analytics, le referrer spam est en fait composé du ghost referrer spam et du crawl referrer spam, 2 types de pollution distinctes que l’on ne peut pas bloquer de la même façon. Voici comment arrêter directement ces nuisibles à la porte de votre serveur d’hébergement.

Bloquer le crawl referrer spam

Le crawl referrer spam étant constitué de robots qui crawlent votre site, ils peuvent êtres bloqués via le .htaccess.

Le code sur votre .htaccess prendra cette forme :

## STOP SPAMCRAWLERSITE.com REFERRER SPAM
RewriteCond %{HTTP_REFERER} SPAMCRAWLERSITE\.com [NC,OR]
RewriteRule .* - [F]

Une liste des spammeur à bloquer régulièrement mise à jour est présente ici.

N’oubliez pas la prudence avec laquelle il convient de manipuler le .htaccess. Celui-ci régissant les accès à votre serveur, une fausse manipulation pourra bloquer l’ensemble de votre site.

Une fois l’accès à votre site bloqué pour les crawler spam, il faut filtrer les données déjà polluées dans votre tableau de bord. Pour ça, il faudra utiliser des Filtres Google Analytics. 

Rendez vous dans votre compte Google Analytics, onglet Admin, puis Filtres > Nouveau filtre > Filtre custom. Dans Champs de filtrage, choisir Source de la campagne, et y inclure chaque source de spam.

Si vous utilisez wordpress, un plugin existe même pour bloquer automatiquement le crawl referrer spam.

Bloquer le ghost referrer spam via un filtre

Le ghost referrer spam touchant directement votre compte analytics sans toucher à votre site, impossible de le bloquer via le .htaccess.

Vous pouvez cependant le filtrer directement en établissant une liste blanche de domaines référents.

Nom d^hotes valides
En rouge le ghost referrer spam, en orange le crawl referrer spam et en vert les référents valides visant un nom d’hôte réel.

Comme indiqué dans l’article précédent, on peut voir que le crawl referrer spam utilise des nom d’hôtes valides contrairement au ghost referrer spam, et devra donc être bloqué via le htaccess.

Il va falloir établir une liste blanche des noms d’hôtes valides. Il est important de garder une liste exhaustive et d’ajouter les deux derniers présent sur la liste ci-dessous. Il faut éventuellement y ajouter les réseaux sociaux où vous avez des comptes, les services de paiement en lignes dont vous faites usages sur votre site etc…

--Nom d'hôtes valides--
www.genious-interactive.com
webcache.googleusercontent.com
translate.googleusercontent.com

Il faut ensuite créer une expression régulière faisant correspondre les noms d’hôtes valides listés :

genious-interactive\.com|translate\.googleusercontent\.com|webcache\.googleusercontent\.com

à laquelle vous ajouterez les noms de domaines légitimes.

Vous devez ensuite créer un filtre, incluant en champs de filtrage le nom d’hôte, où vous aurez placé votre expression régulière couvrant vos domaines. Il est important que vous gardiez cette liste à jour à chaque fois que vous utilisez un nouveau service d’ou vous pourrez analyser le trafic.

filtre1

 

Bloquer le ghost referer spam en changeant l’ID de tracking

Le ghost referrer spam génère au hasard des ID de suivi, mais l’ID généré se termine le plus souvent par -1 (UA-XXXXXXXX-1) en changeant ce dernier chiffre, vous serez épargné d’une bonne partie de ces spams. Cet astuce est particulièrement utile pour les sites « jeunes » n’ayant pas besoin de garder un historique important.

Dans « Admin » de votre compte GA, créez une nouvelle propriété (votre site-2). Associez-y l’URL de votre site, et vous obtiendrez un nouvel ID dont le chiffre final sera différent de 1. Il suffira ensuite de l’intégrer à la place de l’ancien.

Vous pouvez également associer les deux ID dans un même script de tracking, afin de pouvoir continuer à bénéficier à la fois d’un suivi avec l’historique (et le spam) et d’un autre sans historique mais aussi sans spam.

exemple de tracking à double ID:

(function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){
(i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),
m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)
})(window,document,'script','//www.google-analytics.com/analytics.js','ga');

// Nouveau compte GA
ga('create', 'UA-NOUVELID-2', 'monsite.com');
// Premier compte GA
ga('create', 'UA-ANCIENID-1', {'name':'trackingmonsiteV1'});
// First call
ga('send', 'pageview');
// Second call
ga('trackingmonsiteV1.send', 'pageview');

Vous trouverez plus de détail sur la façon de construire le script ici. Enfin soyons réalistes, on peut entièrement bloquer tous les spammeurs, aussi lorsque les parasites sont là, il faut trouver une autre façon qu’ils ne polluent pas les statistiques de visites: le but sera de masquer le referrer spam, sujet de notre prochain article.

Nous proposons sinon une prestation Google Analytics pour vous guider dans la configuration et l’exploitation de votre Google Analytics, y compris dans le blocage de ces spams.

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Nom *