Google indique discrètement que NotebookLM ignore le fichier robots.txt

Google a discrètement mis à jour sa liste de fetchers déclenchés par les utilisateurs avec une nouvelle documentation pour Google NotebookLM. La signification de ce changement apparemment mineur est que Google NotebookLM ne respectera pas le fichier robots.txt.

Google NotebookLM

NotebookLM est un outil de recherche et d’écriture basé sur l’IA qui permet aux utilisateurs d’ajouter l’URL d’une page web, de traiter le contenu et ensuite de poser diverses questions et générer des résumés basés sur ce contenu.

Cet outil de Google peut automatiquement créer une carte mentale interactive qui organise les sujets d’un site web et en extrait les éléments clés.

Les fetchers déclenchés par les utilisateurs ignorent robots.txt

Les fetchers déclenchés par les utilisateurs de Google sont des agents web activés par les utilisateurs et, par défaut, ignorent le protocole robots.txt.

Selon la documentation de Google :

« Parce que la requête a été faite par un utilisateur, ces fetchers ignorent généralement les règles du fichier robots.txt. »

Google-NotebookLM ignore robots.txt

Le but du fichier robots.txt est de donner aux éditeurs un contrôle sur les bots qui indexent les pages web. Cependant, les agents comme le fetcher Google-NotebookLM ne sont pas là pour indexer le contenu web, mais pour agir au nom des utilisateurs qui interagissent avec le contenu via Google NotebookLM.

Comment bloquer NotebookLM

Google utilise l’agent utilisateur Google-NotebookLM lors de l’extraction du contenu des sites web. Ainsi, les éditeurs qui souhaitent empêcher les utilisateurs d’accéder à leur contenu pourraient créer des règles pour bloquer automatiquement cet agent utilisateur. Par exemple, une solution simple pour les éditeurs WordPress est d’utiliser Wordfence pour créer une règle personnalisée qui bloque tous les visiteurs du site utilisant l’agent utilisateur Google-NotebookLM.

Une autre méthode consiste à utiliser .htaccess avec la règle suivante :


            <IfModule mod_rewrite.c>
            RewriteEngine On
            RewriteCond %{HTTP_USER_AGENT} Google-NotebookLM [NC]
            RewriteRule .* - [F,L]
            </IfModule>
        

Consultez également : Google élargit les flux de voyages dans les annonces de recherche

À découvrir également : Google met à jour son document sur les politiques de spam

Panier
Retour en haut