Passer au contenu
Français
  • Il n'y a aucune suggestion car le champ de recherche est vide.

Comportement de la CMP face aux robots (bots)

Robots : qu'est-ce c'est ?

👉 Les robots sont des applications qui exĂ©cutent des tâches automatisĂ©es sur Internet. Ils sont utilisĂ©s pour indexer le contenu ou pour recueillir automatiquement des informations sur les sites web. 

Certains robots fonctionnent à des fins légitimes, tandis que d'autres collectent des données à des fins malveillantes, par exemple :

  • Revente de contenu
  • GĂ©nĂ©ration de clics
  • Prix cassĂ©s
  • Etc.

Comme toute solution web basée sur les clients, Didomi est impacté par le trafic de robots qui génèrent de fausses données. Par conséquent, Didomi peut générer des analyses CMP inexactes.

Impact sur les indicateurs de la CMP

La mesure la plus touchée est le nombre total de notices (avec une augmentation du volume), qui augmente directement les indicateurs de performance comme le taux de rebond des notices et le taux d'adressabilité.

Offrir des données analytiques sans robots

👉 Les robots impactent les données Web: ils génèrent de fausses données sur les utilisateurs. Ils détériorent le taux d'adressabilité, ainsi que le taux de consentement des pages vues, tout en augmentant le volume des rebonds de notice et le nombre de pages vues sans consentement donné.

Afin de ne pas dĂ©tĂ©riorer la conformitĂ© de vos rapport, nous vous dĂ©conseillons d'exclure tous les UA (user agents). Ces UA peuvent ĂŞtre des hiding bots, mais aussi des utilisateurs ayant donnĂ© leur consentement. 
Dans ce cas, exclure les UA représente à la fois un risque de conformité et légal.

Deux types de robots se distinguent :

Les robots déclarés : ils peuvent être détectés grâce à leur agent utilisateur (ou UA). Ils sont exclus avec la méthode de filtrage par agent utilisateur. Quelques exemples de robots :

    • Robot dits "scaper" : ils sont programmĂ©s pour capturer le contenu hors ligne, les noms, les prix et les dĂ©tails des produits sur les sites de commerce en ligne.
    • Les robots d'exploration : ils sont utilisĂ©s par les grandes entreprises, telles que Google, Yahoo, etc., pour indexer du contenu.
    • Les robots de performance/audit : ils sont utilisĂ©s par les outils de performance des sites web pour effectuer des audits de rĂ©fĂ©rencement ou pour calculer les performances du temps de chargement des pages. Didomi utilise Ă©galement un robot pour Ă©valuer la conformitĂ© des sites web.

Les robots cachés : ils utilisent des agents utilisateurs standards et ne peuvent donc pas être identifiés avec la méthode de filtrage des agents utilisateurs.
Une solution/technologie spécialisée est requise pour les détecter puis pour les exclure des données analytiques.

Exemples d'agents utilisateurs

Robots déclarés

  • Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) TagInspector/500.1 Chrome/90.0.4430.72 Safari/537.36 Edg/90.0.818.42
  • Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/85.0.4183.102 Safari/537.36
  • Mozilla/5.0 (iplabel; Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36

Eléments qui ne font pas partie d'un agent utilisateur standard.

Robots cachés

  • Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36
  • Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.64

Même si les agents utilisateurs ci-dessus sont utilisés par les robots, ils sont également utilisés par des visiteurs normaux : dans ce cas, les agents utilisateurs ne peuvent pas être exclus.

Attention Ă  vos propres bots

Si vous utilisez des outils pour Ă©valuer les performances de votre site web : comme le temps de chargement des pages, audit SEO, etc. 

Ils utilisent probablement des bots pour le faire. En conséquence, ils produisent des données s'ils ne sont pas identifiés par notre solution. Vous le pouvez :

  1. VĂ©rifiez les bots que nous dĂ©tectons (voir la liste ci-dessous). 
  2. Vérifiez avec vos solutions si les bots ont un modèle de UA.
  3. Ajoutez les modèles dans la fonction personnalisée de gestion de votre robot.

⚙️ Par dĂ©faut, (quand la case « Bots » n’est pas cochĂ©e sur la console), les robots vont “contourner” la notice de consentementEt on considère que le consentement est dĂ©jĂ  donnĂ© pour les robots et tous les scripts seront donc dĂ©clenchĂ©s, ainsi que les Ă©vĂ©nements de consentement. La bannière ne s’affiche donc pas et ne collecte pas le consentement.

➡️ Si vous souhaitez collecter le consentement pour les bots dans votre Consent Notice, vous pouvez suivre notre article Bypass consent collection for bots.

Vous pouvez ajouter le code JSON Ă  votre Consent Notice dans 2.Customization; Advanced settings ; Custom Json.

La bannière sera alors affichée aux robots, mais ils ne pourront probablement pas faire de choix de consentement : il y aura alors la notice avec la consent string par défaut et aucun consentement, le bot ne pourra probablement pas naviguer sur le site.

Gestion personnalisĂ©e des robots et contourner la collecte du consentement 

👉 Vous pouvez personnaliser directement la gestion des robots avec des fichiers json personnalisĂ©s lors de votre implĂ©mentation du SDK. 

Les fonctionnalités offrent les possibilités suivantes :

  • DĂ©finir les catĂ©gories de robots Ă  bloquer
  • Ajouter de modèles d'agents utilisateurs (termes) Ă  des fins d'exclusion

Retrouvez ici toutes les informations dans notre documentation technique.

Liste des robots de Didomi

👉 Plus de 90 robots sont automatiquement dĂ©tectĂ©s par la CMP et lors du traitement de nettoyage des donnĂ©es. Vous trouverez ci-dessous la liste des modèles de robots (termes) utilisĂ©s pour identifier le trafic. Tous les visiteurs dont l'agent utilisateur contient les termes suivants sont identifiĂ©s comme des robots.

Robots d'exploration

Googlebot, adsbot, feedfetcher, mediapartners, bingbot, bingpreview, slurp, linkedin, msnbot, teoma, alexabot, exabot, facebot,  facebook, twitter, yandex, baidu, duckduckbot, qwant, archive, applebot, addthis, slackbot, reddit, whatsapp, pinterest, moatbot, google-xrawler, NETVIGIE, PetalBot, PhantomJS, NativeAIBot, Cocolyzebot, SMTBot, EchoboxBot, Quora-Bot, BLP_bbot, MAZBot, ScooperBot, BublupBot, Cincraw, HeadlessChrome, diffbot, Google Web Preview, Doximity-Diffbot, Rely Bot, pingbot, cXensebot, PingdomTMS, AhrefsBot, semrush, seenaptic, netvibes, taboolabot, SimplePie, APIs-Google, Google-Read-Aloud, googleweblight, DuplexWeb-Google, Google Favicon, Storebot-Google, TagInspector, Rigor, Bazaarvoice, KlarnaBot, pageburst, naver, iplabel, des termes plus communs comme “robot”, “scraper”, “crawler”, “spider”, “crawling” et “oncrawl”.

Robots de performance

Chrome-Lighthouse, gtmetrix, speedcurve, DareBoost, PTST, StatusCake_Pagespeed_Indev.

Schéma de gestion des robots

schema

(1)  Le SDK est chargĂ©

(2) Déclenchement de la vérification des règles :

  • Le SDK analyse l'agent utilisateur pour identifier s'il s'agit d'un robot ou non.
  • Si un robot est dĂ©tectĂ©, le comportement de la notice est dĂ©fini par la configuration (dĂ©clencher ou non la notification).
  • Si le visiteur n'est pas identifiĂ© comme un robot, la notice est dĂ©clenchĂ©e.

(3) Les Ă©vĂ©nements de la CMP (affichage de la notice) sont dĂ©clenchĂ©s

(4) Traitement des données (transformer les événements en analyses)

👉 Tous les événements (les données) collectés à partir de robots (identifiés) sont exclus de l'analyse, même si la notice a été affichée volontairement.

(5) Les données d'analyses sont affichées.

Outils de protection contre les robots

schema_1

Certaines solutions sont spĂ©cialisĂ©es dans la dĂ©tection et la protection des robots. Elles protègent votre site web contre leur trafic. 

Ces solutions détectent les robots avant qu'ils n'atteignent le site web (voir schéma), elles peuvent empêcher le robot de charger une page et donc d'avoir un impact sur les données analytiques offertes par la CMP.

Pour plus d'informations, consultez des informations sur des solutions comme Datadome, Human, Cloudflare, Netacea, etc.

Cookies