Nouvelle Étude : Fréquence des Hallucinations de Liens par les Assistants IA
Les assistants IA tels que ChatGPT et Claude peuvent générer des liens fictifs et rediriger les utilisateurs vers des pages inexistantes de votre site. Mais à quelle fréquence cela se produit-il réellement ?
Pour répondre à cette question, nous avons analysé le statut HTTP de 16 millions d’URLs uniques citées par ChatGPT, Perplexity, Copilot, Gemini, Claude et Mistral.

Nos recherches ont révélé que les assistants IA redirigent les visiteurs vers des pages 404 2,87 fois plus fréquemment que Google Search.
ChatGPT est le principal coupable avec 1,01 % des URLs cliquées et 2,38 % de toutes les URLs citées retournant un statut 404 (par rapport aux taux de base de 0,15 % et 0,84 % respectivement).
Test 1 : Analyse des URLs cliquées via Web Analytics
Pour le premier test, nous avons utilisé des données anonymisées de notre outil d’analyse gratuit, Web Analytics. Cela nous a permis d’observer les visites réelles vers les URLs recommandées par l’IA sur des sites web réels.
Méthodologie :
- Utilisation des données de Web Analytics pour identifier toutes les URLs ayant un assistant IA comme source de référence.
- Marquage des URLs comme potentiellement 404 si le titre de la page contenait « 404 » ou « not found ».
- Comparaison du nombre de pages potentiellement 404 au total des URLs référencées pour chaque assistant IA afin de calculer leur taux de 404.
ChatGPT présente le taux le plus élevé de pages 404 avec 1,01 % des URLs citées contenant « 404 » ou « not found » dans leur titre de page.
Claude suit avec 0,58 %, suivi par Copilot (0,34 %), Perplexity (0,31 %) et Gemini (0,21 %). Mistral a le taux de 404 le plus bas (0,12 %), mais génère également le moins de trafic référent, ce qui en fait l’échantillon le plus restreint de ce test.
| Referrer | Pages probablement 404 | Total des URLs uniques | Taux de 404 |
|---|---|---|---|
| ChatGPT | 84,465 | 8,332,436 | 1,01% |
| Perplexity | 3,529 | 1,133,084 | 0,31% |
| Copilot | 1,466 | 431,319 | 0,34% |
| Gemini | 734 | 351,242 | 0,21% |
| Claude | 550 | 95,293 | 0,58% |
| Mistral | 8 | 6,760 | 0,12% |
Taux de base des 404 de Google
Ce test n’est pas parfait. Certaines pages 404 peuvent ne pas inclure « 404 » ou « not found » dans le titre. De plus, tous les liens générés par les assistants IA ne seront pas cliqués et donc n’apparaîtront pas dans les données de Web Analytics. Il est donc probable que nous sous-estimions le nombre total d’URLs hallucinées.
Une partie de ces pages 404 peut aussi être de véritables pages 404, et non des URLs hallucinées. Pour donner un contexte supplémentaire à ces données, nous avons comparé avec un « taux de base » de pages 404. Pour ce faire, nous avons examiné le taux de 404 pour toutes les URLs uniques ayant Google comme source de référence (629M URLs uniques), qui s’élevait à 0,15%.
Avec ce contexte supplémentaire, il est évident que les taux de 404 des assistants IA sont significativement plus élevés que le taux de base de Google. Il semble probable que ChatGPT, Claude, Copilot, Perplexity et Gemini génèrent tous des URLs hallucinées.
Le taux moyen de 404 pour tous les assistants IA était de 0,43%. Comparé au taux de 404 des URLs référencées par Google, les assistants IA redirigent les visiteurs vers des pages 404 à un taux 2,87 fois supérieur à celui de Google Search.
Test 2 : Analyse des URLs citées via Brand Radar
Nous avons également effectué un test similaire en utilisant Brand Radar, notre vaste base de données interrogeable contenant des millions de requêtes et de réponses d’assistants IA. Grâce à ces données, nous pouvons voir toutes les URLs citées par les assistants IA, et pas seulement celles qui ont été cliquées.
- Recensement de toutes les URLs citées par ChatGPT, Perplexity, Copilot et Gemini dans notre base de données Brand Radar.
- Pour ces URLs également présentes dans notre base de données crawler (65 % des URLs totales), nous avons récupéré le statut HTTP le plus récent.
- Pour chaque assistant IA, nous avons calculé le taux de 404 pour les URLs citées présentes dans notre base de données crawler.
Le taux de 404 des URLs citées (et non seulement citées et cliquées) est bien plus élevé que dans notre test précédent.
Encore une fois, ChatGPT affiche le taux le plus élevé de pages 404 (2,38 %), suivi de Perplexity (0,87 %) et Gemini (0,86 %). Copilot a le taux de 404 le plus bas, à 0,54 %.
Ce test présente également des limitations. Comme auparavant, certaines de ces pages 404 renvoient un statut 404 pour des raisons autres que l’hallucination. Nous sous-estimons également le nombre total d’URLs 404, car nous ne pouvons voir le statut HTTP que pour les URLs présentes dans notre base de données crawler (et je m’attends à ce qu’une proportion décente d’URLs hallucinées soit absente de notre base de données crawler, car elles n’ont jamais existé).
Comme précédemment, nous avons voulu comparer ces chiffres à un « taux de base » de 404. Pour ce faire, nous avons extrait toutes les URLs uniques des 20 premières positions de 400 000 SERP.
67 % de ces URLs étaient également présentes dans notre base de données crawler, nous permettant de déterminer un taux de 404 de 0,84 % (ou, pour simplifier, 0,84 % des URLs dans le top 20 de Google retournent un statut 404).
Les taux de 404 pour Perplexity (0,87 %) et Gemini (0,86 %) sont extrêmement proches du taux de 404 des SERP de Google (0,84 %).
Cela peut s’expliquer par le fait que Gemini et Perplexity utilisent l’index de recherche de Google pour récupérer des URLs : leurs taux de 404 reflètent le taux de 404 des URLs dans la source sous-jacente, Google. Si c’est le cas, il semble probable qu’ils aient un taux d’hallucination plus bas que ChatGPT.
Copilot utilise l’index de recherche de Bing, il est donc possible que le taux de 404 de Copilot reflète le taux de 404 de Bing.
| Assistant IA | URLs citées uniques | URLs dans la base de données crawler | Taux de 404 |
|---|---|---|---|
| ChatGPT | 2,452,776 | 1,524,277 | 2,38% |
| Perplexity | 3,471,754 | 2,450,016 | 0,87% |
| Copilot | 1,485,355 | 1,120,780 | 0,54% |
| Gemini | 1,354,171 | 641,603 | 0,86% |
Pourquoi les assistants IA hallucinent-ils des liens ?
Il semble y avoir deux principales causes aux liens hallucinés.
Une partie des URLs citées étaient valides, mais renvoient désormais un statut 404. Les assistants IA utilisent une combinaison de recherche web et de leur propre connaissance interne. Il est possible que certaines des URLs qu’ils citent aient existé à un moment donné, mais ont depuis été supprimées ou déplacées (sans redirection de la page originale) — surtout lorsqu’ils s’appuient uniquement sur leur connaissance interne.
Cela explique également pourquoi un grand nombre de ces pages 404 existent dans notre base de données crawler.
Une autre partie des URLs citées sont de véritables hallucinations, dans le sens où elles suivent le schéma attendu des URLs pour un site donné, mais n’existent pas vraiment.
Pour le blog Ahrefs, les URLs hallucinées les plus visitées sont des pages comme /blog/internal-links/, et /blog/newsletter/. Étant donné que nous écrivons sur des sujets SEO sur notre blog, et que nous avons une newsletter, ces URLs suivent le schéma des pages typiques du blog Ahrefs — mais elles n’existent pas réellement.
Certains de ces liens hallucinés peuvent également être présents dans notre base de données crawler. Si du contenu généré par l’IA publié contient une URL hallucinée, notre crawler tentera de la récupérer. Avec 74 % des nouvelles pages web contenant une certaine quantité de contenu généré par l’IA, cela semble très possible.
Comment trouver les URLs hallucinées de votre site web
Si vous souhaitez mesurer l’impact des URLs hallucinées, la meilleure source de données à votre disposition est votre propre analyse de site web. Voici comment tester cela par vous-même :
1. Filtrer votre analyse de site pour afficher le trafic IA
Commencez par filtrer votre analyse de site pour afficher les visites reçues par les assistants IA. Si vous utilisez GA4, vous devrez appliquer une expression régulière à la dimension source de session dans un rapport Exploration.
Thierry Ngutegure de SALT.agency recommande la regex suivante. Vous devrez mettre à jour l’expression lorsque de nouveaux assistants IA apparaissent, ou qu’ils modifient leurs informations de référence :
.*gpt.*|.*chatgpt.*|.*openai.*|.*writesonic.*|.*nimble.*|.*perplexity.*|.*claude.*|.*gemini.*google.*|.*copilot.*microsoft*|.*outrider.*|.*google.*bard.*|.*bard.*google.*|.*bard.*|.*deepseek.*|.*mistral.*|.*edgeservices.*|.*neeva.*
Si vous utilisez les Web Analytics d’Ahrefs, utilisez simplement le filtre de canal « Recherche IA » intégré :
Choisissez la période de temps qui vous intéresse et exportez vos données vers Google Sheets.
2. Générer un script d’application pour retourner le statut HTTP
Ensuite, demandez à ChatGPT (ou à l’assistant IA de votre choix) de générer un script d’application pour retourner le statut HTTP pour les URLs dans une feuille Google. Puis, dans votre feuille de calcul Google, naviguez vers Extensions > Apps Script, collez et enregistrez votre script.
Créez une nouvelle colonne dans votre feuille Google, appelez votre script, ciblez la cellule contenant votre URL (par exemple =GetHttpStatus(A2)), et appliquez à toute la colonne.
(Cela peut prendre un certain temps si vous avez des milliers d’URLs — pour les grands sites web, il serait préférable d’utiliser un crawler à la place.)
3. Filtrer pour le statut 404 et >10 visiteurs
Ensuite, filtrez votre feuille pour n’afficher que les URLs retournant un code de statut 404 et recevant des visiteurs.
J’ai fixé le seuil aux URLs recevant plus de 10 visiteurs par mois, mais vous pouvez utiliser le seuil qui a du sens pour votre site.
Vous pouvez inspecter manuellement certaines de ces URLs pour confirmer qu’elles sont hallucinées (et non des pages web réelles indisponibles pour d’autres raisons).
4. Rediriger en 301 (si cela fait sens)
Si vous avez des pages hallucinées recevant un nombre important de visites, il peut être intéressant de rediriger en 301 l’URL hallucinée vers une page pertinente de votre site (si vous en avez une).
Vous devrez deviner de quoi la page hallucinée pouvait parler, mais souvent, l’URL seule suffira pour faire une supposition éclairée (les visiteurs de l’URL hallucinée /blog/keywords/ bénéficieront probablement de notre véritable guide de recherche de mots-clés).
Ou, si vous ne voulez pas créer un enchevêtrement de redirections 301, vous pouvez mettre à jour votre page 404 pour inclure une liste de ressources utiles que les visiteurs déçus des LLM pourraient trouver utiles (comme votre contenu le plus populaire, ou votre page d’abonnement à la newsletter).
Devrais-je m’en soucier ?
Lors de notre dernière mesure, les assistants IA (principalement ChatGPT) représentaient 0,25 % du trafic total d’un site web, comparé à Google à 39,35 %. Avec 1,01 % du trafic référé par ChatGPT menant à une page 404, les URLs hallucinées impactent un faible pourcentage d’un petit pourcentage du trafic moyen d’un site web.
C’est un exercice utile pour comprendre une autre idiosyncrasie de la recherche IA, mais cela ne représente pas un levier de croissance énorme. Si vous pouvez minimiser l’impact des URLs hallucinées avec très peu d’effort, cela vaut probablement la peine.
Pour cette raison, nous sommes sur le point d’ajouter un nouveau filtre à Web Analytics qui vous aidera à trouver les URLs hallucinées en seulement deux clics. Si vous cherchez une alternative simple à Google Analytics, gratuite pour jusqu’à 1 million d’événements chaque mois, consultez-la :
Des questions ou des commentaires sur cette recherche ? Faites-le moi savoir sur LinkedIn.
Liens internes suggérés :
– À découvrir également : [Comment améliorer votre SEO grâce aux mots-clés de longue traîne](https://digital-power.fr/comment-ameliorer-votre-seo-grace-aux-mots-cles-de-longue-traine/)
– Avez-vous vu cela : [Les critères à considérer pour définir un bon lien : regards croisés](https://digital-power.fr/les-criteres-a-considerer-pour-definir-un-bon-lien-regards-croises/)
– À lire en complément : [Obtenez une clarté immédiate sur votre SEO avec le nouveau tableau de bord Yoast SEO](https://digital-power.fr/obtenez-une-clarte-immediate-sur-votre-seo-avec-le-nouveau-tableau-de-bord-yoast-seo/)
