Introduction Echantillons de Rapports Télécharger Contact Acheter EDM A propos de ...

Détection de Fraudes aux Clics

Service d'évaluation gratuit pour estimer maintenant l'impact de la fraude
au clic sur votre site. Pour en savoir plus cliquez ici



Le pay per click génère des sommes colossales pour Google, mais aussi pour beaucoup d'autres sites web. Les compagnies qui font affaire avec un site Web doivent donc se montrer prudentes concernant les montants qui leur sont facturés afin d'éviter les fraudes au clic. Les fraudes impliquant les clics abusifs sont nombreuses et prennent diverses formes.

Dans certains cas des sites Web peuvent payer des Internautes du Botswana ou de tout autre pays lointain pour effectuer des clics frauduleux (click fraud) sur une annonce et ainsi facturer d'avantage leurs clients. Depuis l'année 2006 on a découvert l'existence de clickbots, des robots semblables  à des virus qui ont pour mission de se répandre sur divers ordinateurs et de générer des clics frauduleux qui profitent à un affilié qui en retire une commission.

Google n'est évidemment pas impliqué dans de telles opérations même s'il arrive fréquemment que des utilisateurs du PPC se posent des questions sur la nature des montants facturés. Par exemple un utilisateur peut vouloir éviter de payer le surplus si un visiteur (un concurrent) clique plusieurs fois sur la même annonce à partir de la même adresse IP. Google gère normalement de tels cas, mais cette compagnie est à la fois juge et partie prenante; si Google ne peut se payer le luxe de perdre la confiance de ses annonceurs pour les cas flagrants, cette compagnie ne peut non plus souhaiter un écroulement de ses revenus. Un moyen de validation supplémentaire n'est donc pas inutile si quelqu'un veut vérifier comment Google facture le pay per click.

Détection de fraude au clic par logiciel

Un analyseur de log comme Expert Data Miner comporte plusieurs fonctionnalités largement supérieures à celle de ses concurrents. Ce logiciel de statistiques Web permet de détecter les fraudes associées au pay per click mais aussi de comprendre en détail les résultats fournis par un site quelconque. On peut apprendre son fonctionnement en quelques heures et il n'y a qu'un coût fixe minimal lors de l'achat du logiciel. Pour une compagnie qui dépense entre quelques milliers et quelques dizaines de milliers d'euros pour le PPC, faire appel à une firme de consultants risque d'entrainner un coût qui excède l'économie qui est faite puisqu'il faut constamment valider les résultats au fil des ans.

Avant de faire pression sur un site annonceur comme Google ou de filtrer certains sites du réseau AdSense, voir même de prendre des moyens plus radicaux, il faut détecter et prouver les cas de fraude. Un bon outil devra donc vous donner la possibilité de suivre à la trace et individuellement les visiteurs, classer ceux-ci selon leurs adresses IP ou leurs cookies, vérifier la périodicité de leurs requêtes, leurs zones d'origine, détecter s'il s'agit de bots ou de visiteurs humains, détecter les pics soudains (alors que le taux de conversion diminue) et dans certains cas identifier s'il s'agit d'un concurrent. Une comparaison avec les résultats de Google Analytics permet de savoir à quel point votre site peut être facturé en excès.

Prenons, premièrement, le rapport Google Syndication (affiliés ou encore Réseau de Contenu) ou encore Google AdWords: Dans ce rapport, EDM vous donne la liste de tous les sites rabatteurs ainsi que le nombre de visiteurs envoyés. En cliquant droit sur l'un d'entre eux, on obtient la liste des visiteurs et des identifiants uniques (IP) de ceux-ci. Dans l'écran ci bas un popup (Click Path) apparaît lorsque l'une des lignes du rapport a été choisie.

 Google AdWords et le Pay Per Click

Lorsqu'on clique sur l'une des lignes de ce popup on a le détail pour ce visiteur.

Les pages demandées par un visiteur

Ici le visiteur a commencé par demander la page download.asp puis a cliqué sur un lien de celle-ci pour aboutir au répertoire racine à 00:11:03 (le "/" ). Si vous stockez les cookies de vos visiteurs dans les fichiers log le logiciel permet aussi d'aller chercher le comportement de ce même visiteur dans une session ultérieure (le bouton 'Visite Suivante' en bas de la fenêtre à droite du bouton Fermer). Comme ce visiteur n'est pas revenu le bouton est en gris (désactivé). Ainsi il est assez facile de détecter les comportements suspects associés à une fraude sur les clics. En extrayant le DNS on peut parfois voir apparaître le nom du serveur d'un concurrent. On peut également trier les visiteurs par IP en cliquant sur l'entête d'une des colonnes du popup.

On peut également obtenir les mêmes informations pour des sites externes qui vous font payer pour de la publicité (sans passer par Google Ad Words) dans un autre rapport.  En fait ce genre d'information est disponible par mots clé, pages d'entrée (landing pages), référents, etc...

Pour détecter un clickbot, la tâche peut être un peu plus compliquée. Si un malware de ce type s'est propagé il y aura plusieurs clics provenant d'adresses IP diverses et certaines de ces applications adoptent un profil bas et ne font que quelques clics par jour pour ne pas éveiller les soupçons. Cependant un robot de ce type a certaines caractéristiques qui le distingue des visiteurs humains; la périodicité en est une. La probabilité pour qu'un être humain clique sur votre annonce à toutes les 900 secondes 4 fois de suite est mince. Mais les bots ont aussi une autre caractéristiques, ils ne supportent pas le javascript, donc les cookies. Ce ne sont pas de vrais navigateurs. Si vous configurez votre serveur pour stocker les valeurs des cookies de vos visiteurs à la fin de chaque ligne de vos fichiers log (une chose aisée pour les cookies de Google Analytics) il est possible de détecter indirectement un comportement anormal pour un ensemble de visiteurs.

En effet Expert Data Miner permet de filtrer au besoin selon un segment du nom de la page destination ou encore du nom du référent (le rabatteur). On peut donc isoler les visiteurs qui trouvent votre site par le biais du PPC de ceux qui le trouve par le bias d'une recherche organique sans que cela ne vous coûte un sous. C'est la présence d'une fraction anormalement élevée de visiteurs dont le navigateur refuse les cookies qui éveillera l'attention. Dans le rapport AdWords on peut même demander au logiciel d'aller chercher les cas les plus probables de clics abusifs avec la touche F6.

Dans plusieurs rapports d'EDM on peut incorporer une colonne qui donne le pourcentage des visiteurs qui ont accepté de se faire assigner un cookie. Cette colonne est disponible come un pourcentage mais en cliquant droit on a aussi l'historique pour une page quelconque:

détecter les clickbots

La courbe en bleu donne le pourcentage des visiteurs qui demandent la page "/" (le répertoire racine) et dont le navigateur accepte les cookies. Ce pourcentage varie entre 0 et 26.67% dans ce exemple. En réalité le pourcentage pour les visiteurs humains devrait être supérieur à 80%.

Les renseignements les plus importants concernant la fraude au clic sont obtenus avec la touche F6 à partir du rapport Réseau de Contenu (le Display Network) mais on peut aussi obtenir un rapport similaire pour les recherches payantes par mots clé sur Google ou encore pour des sites rabatteurs dans le cadre d'un autre programme PPC (Yahoo,Bing, Facebook).
Dans ce cas une analyse est faite sur les adressses IP et les cookies afin de détecter les doublons. Lorsque le nombre de clics dépasse 3 le visiteur est marqué. La détection de click bots se fait également par divers moyens. L'un d'entre eux considè le fait que la plupart des bots ou spiders ne chargent pas les images associées à une page, aussi ces visiteurs, leur IP, leur cookie et le temps de la requète sont stockés pour fins d'affichage lorsque moins de 50% des images ou des fichiers ressource associés à une page ne sont pas téléchargés. Une vérification est aussi faite à partir d'une liste d'adresses IP utilisées par des proxies anonymes. Un autre rapport va également comparer la proportion de navigateurs dún certain type avec des clics payant et la proportion trouvée pour des visiteurs non rabattus par le PPC. Si le champ navigateur du fichier log contient l'identifiant:
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; GTB5; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506; InfoPath.2
pour 3.86% des visiteurs PPC et 0.42% des visiteurs qui trouvent votre site autrement, il y a une anomalie statistique qui suggère la présence d'un visiteur récurrent qui se fait allouer une nouvelle adresse IP à chaque fois ou d'un clickbot. Une vérification ultérieure sur les cookies, ou un taux anormal de rejet de ceux-ci, une origine géographique commune ou l'utilisation d'adresses IP provenant de proxies peut confirmer ce diagnostic.

le temps passé sur un site web par les visiteurs

Histogramme obtenu en cliquant sur une rangée de la colonne
"temps moyen par visiteur" pour un site du Réseau de Contenu

Mais certaines anomalies sont détectées par une intervention humaine, sans l'aide de la touche F6. En effet si cette touche vous donne plusieurs indices important le jugement peut souvent aider à détecter des cas résiduels. L'une des options les plus utiles donne un histograme du temps passé sur le site ou vos pages par des visiteurs rabattus par un site web du Réseau de Contenu ou par phrase tapées sur un moteur de recherche. L'image plus haut en donne un exemple. Il est évident ici que ce site du réseau de contenu envoi des visiteurs qui ont peu de chances d'acheter quoi que ce soit. Il ne s'agit pas d'une fraude mais de l'état psychologique des habitués de ce site. Si vous implantez le javascript fourni avec ce programme afin d'obtenir la colonne sur le temps moyen passé par les visiteurs provenant d'un site, ou ayant tapé une certaine phrase, vous pourrez constater un écart monstrueux entre les sites du réseau de contenu. Même si le nombre moyen de pages demandé par visiteur est pratiquement le même (comme 1,3 versus 1,56) on peut parfaitement avoir un histogramme centré autour d'un temps moyen de 40 secondes par visite dans le premier cas et 8 minutes dans le deuxième cas. La différence c'est que les visiteurs lisent vraiment les pages dans ce dernier cas.

Obtenir le ROI lors d'une campagne de Pay Per Click

Mais quelqu'un peut aussi vouloir rentabiliser son investissement en éliminant les mots clé qui ne sont pas profitable et savoir le pourcentage de visiteurs qui achètent un item. En Web Analytics c'est ce qu'on appelle le taux de conversion. Contrairement à beaucoup d'analyseurs de fichiers log, EDM ne se limite pas à mesurer le taux de conversion pour la session courante, il peut aussi vérifier si un visiteur rabattu via un mot clé est revenu pour acheter quelques jours plus tard. Prenons le rapport 'pages d'un moteur de recherche', qui est presque l'équivalent de landing pages en anglais.

Pages obtenues d'un moteur de recherche

En cliquant sur le bouton avec un marteau et un tournevis, on peut obtenir l'écran de configuration du rapport courant.

Définir une colonne pour éviter les fraudes

En cliquant sur le bouton Definir Action on obtient la page suivante:

Le taux de conversion avec pay per click

Les champs ont été remplis pour indiquer que

1) Le fait de demander la page /buy.asp ( ''/" étant le répertoire racine de votre site) est considéré comme un achat effectué. Dans les faits une page de remerciement qui est chargée après l'achat serait plus appropriée...

2) Le résultat sera affiché comme un pourcentage.

En clair, ont demande au logiciel de faire une nouvelle colonne qui affichera le pourcentage des utilisateurs qui ont demandé la page /buy.asp au cours de leur session et ce pour chacune des pages pour lesquelles le visiteur a trouvé votre site via un moteur de recherche. Dans d'autres rapports une telle colonne serait également disponible en fonction les phrases tapées lors d'une recherche sur un moteur,  ou pour chacun ses sites qui rabattent les visiteurs.

Cependant vous ne voulez pas uniquement savoir si un visiteur a acheté vos produits lors de sa première visite mais aussi lors d'une visite ultérieure. Comme vous stockez les cookies de ceux-ci dans vos fichiers log il suffit d'aller dans la boite combo 'Propriétés' ci haut, choisir 'Sessions Multiples' plutôt que 'Session Courante' et cliquer sur le bouton 'Champ d'Application':

taux de conversion utilisant les cookies

Admettons que l'on veuille obtenir les visiteurs qui ont trouvé votre site via un moteur de recherche entre le 11 et le 16 novembre 2007 et qui ont acheté l'un de vos produits tout au plus 6 jours après leur première visite. Comme vous utilisez le PPC et non la recherche organique votre facture est calculée soit au nombre de clics (même un visiteur redemande souvent votre page) soit au nombre de visiteurs qui cliquent au moins une fois. Vous pouvez, à partir de la deuxième boite combo, déterminer le montant par clic ou par visiteur de deux façons; si l'URL est demandé de cette façon: http://www.mondomaine.com/mapage.asp?p=9222&source=Google vous assignez un montant de 1.76$ ou euro en demandant au logiciel d'utiliser la variable 'cost' à chaque fois. Vous pouvez aussi assigner un montant fixe différent pour chaque site rabatteur (les référents). Les revenus sont calculés de la même façon; vous pouvez assigner un montant fixe à chaque fois que la la page buy.asp est appelée, disons la moyenne de vos ventes, ou encore faire en sorte que l'URL qui appelle la page /buy.asp contienne une variable du genre 'price=43.44' comme pour /buy.asp?price=43.44. Cette variable sera ignorée par votre application mais elle sera stockée dans vos fichiers log.

On peut fabriquer plusieurs de ces colonnes pour un rapport quelconque et jouer sur les paramètres tels que la date de découverte de votre site, le temps nécessaire à la conversion, le site rabatteur, etc....

Après avoir ré-analysé vos fichiers log vous obtenez les résultats suivants:

taux de conversion sur plusieurs jours

9.32% de ceux qui ont trouvé la page /download.asp votre site entre le 11 et le 16 novembre via un moteur de recherche ont également demandé la page buy.asp à l'intérieur des 6 jours suivants. Ceux qui ont trouvé votre site en entrant directement sur la page /buy.asp ont évidement tous demandé cette page. En cas de doute, vous pouvez toujours cliquer droit sur une ligne et obtenir la liste de tous les utilisateurs, leurs IPs, etc... Se référer à l'arborescence des pages demandées au début de ce document pour un exemple.

En appuyant sur la touche F9, ce n'est plus le pourcentage qu'on affiche mais le revenu net:

Rentabilité du pay per click

Notons que ces résultats seraient également obtenus pour les référents externes (les sites rabatteurs), les phrases tapées sur un moteur de recherche, ou encore pour le rapport sur Google AdWords. En appuyant de nouveau sur F9 on obtient le ROI, puis le coût avant d'être ramenés au pourcentage.

Comment éviter le click fraud?

Aucun logiciel ne vous permettra d'éviter le click fraud mais la bonne volonté de la compagnie qui vous facture peut permettre de réduire l'impact des clics abusifs si vous pouvez prouver votre cas. Par exemple il est possible de supprimer l'impression de vos publicités chez certains affiliés du réseau Google si les choses ne bougent pas assez vite. Certains pourraient vous suggérer de configurer votre serveur pour filtrer certaines adresses IP mais il faut tenir compte du fait que la plupart des FAI réassignent ces adresses à chaque connexion. Si les clicks frauduleux proviennent surtout d'une ville ou d'un seul pays et que celui-ci n'est aucunement visé par vous il est possible de filtrer sélectivement en limitant la diffusion de votre annonce. Dans d'autres cas (pour ceux qui utilisent une adresse IP statique) on peut filtrer celle-ci. Il existe néanmoins des alternatives à Google AdWords qui peuvent etre utilisées dans le pire des cas. Mais une évaluation du nombre de clics abusifs et de la rentabilité réelle de votre campagne est un premier pas. En fait, le plus important pour vous est de pouvoir prouver ce que vous avancez afin d'obtenir un remboursement et de mettre hors circuit certains fraudeurs. Les compagnies qui sont attentives et qui réclament n'obtiennent peut-être pas toujours gain de cause, mais elles tendent à avoir un remboursement jusqu'à 60% supérieur à celles qui attendent que Google fasse tout pour eux.

 

Table des Matières du Tutorial

Retourner à la page d'accueuil