white and black duck on green grass during daytime

Trafic LLM logs Apache : outil vanilla JS gratuit

Ce qu’il faut retenir
  • Les logs Apache permettent d’analyser le trafic des bots IA de manière rétroactive, contrairement à un plugin WordPress qui ne collecte des données qu’à partir de son installation.
  • L’outil identifie automatiquement les user agents des principaux LLM (GPTBot, ClaudeBot, ChatGPT-User, etc.) afin de mesurer leur activité, les pages consultées et l’évolution de leur comportement dans le temps.
  • L’analyse s’effectue entièrement dans le navigateur grâce à une stack légère en vanilla JS, sans dépendance, sans inscription et sans transfert de données vers un serveur tiers.
  • Les données filtrées peuvent être exportées facilement et la liste des user agents suivis reste personnalisable pour inclure des bots ou agents spécifiques.

Résumé généré par IA

On entend parler d’IA partout, c’est la foire. Mais une question que je me pose depuis un moment, c’est : concrètement, comment est-ce que les LLM se baladent sur nos sites ? Qu’est-ce qu’ils regardent vraiment ? C’est ce truc-là qui m’a motivé à développer un petit outil simple pour tracker le trafic LLM directement depuis les logs Apache. Toujours dans ma quête de comprendre comment tout ça fonctionne sous le capot.

Table des matières

Pourquoi les logs Apache et pas un plugin WordPress ?

Ma première idée, c’était un plugin WordPress. Logique, rapide à balancer en prod… sauf que j’ai vite laissé tomber. Le gros problème ? La rétroactivité.

Un plugin voit ce qui se passe à partir du moment où vous l’installez, et c’est tout. Impossible de remonter dans le temps pour voir comment les bots se comportaient il y a trois mois, ou de mesurer l’évolution avant et après une optimisation de contenu.

Les fichiers de log Apache, c’est différent. Tout est là, depuis le début :

  • Chaque requête HTTP enregistrée avec son user agent
  • Chaque URL crawlée avec son code de réponse
  • Chaque timestamp pour reconstituer une chronologie complète

C’est là que ça se joue. Et contrairement à un plugin SaaS, vos logs restent chez vous, aucune donnée ne part sur un serveur tiers.

Détecter le trafic LLM par les user agents : le cœur du projet

Une fois l’idée posée, la construction s’est faite assez naturellement. Les LLM ont leurs propres user agents quand ils crawlent le web – c’est ce qui les rend traçables dans les logs. Voici les quatre étapes que l’outil automatise :

  1. Lecture et ingestion des fichiers de log : La première chose à régler, c’était la volumétrie. Des logs Apache sur plusieurs mois, ça peut vite peser lourd. L’outil accepte autant de fichiers que vous voulez, tous d’un coup ou un par un, comme vous préférez.
  2. Détection et tri des user agents LLM : L’outil identifie automatiquement les bots connus, les trie et génère des stats claires sur leurs visites. Tu vois d’un coup d’œil qui est venu, combien de fois, et sur quelles pages.
  3. Export des données filtrées : Un bouton d’export simple pour récupérer ce que vous avez filtré et affiché. Indispensable pour partager une analyse ou la croiser avec d’autres données.
  4. Personnalisation des user agents suivis : Par défaut, les bots LLM connus sont préconfigurés. Mais si vous avez déployé votre propre agent ou bot pour un audit, vous pouvez l’ajouter et le tracker sans contrainte.

Vous pouvez trouver les principaux user agents LLM détectés par défaut, avec leurs tendances. Info ici : les données Cloudflare (2025) Et la liste complète des user agents IA vérifiés est maintenue par Search Engine Journal dans leur référentiel mis à jour en continu.

Stack volontairement légère : vanilla JS, zéro dépendance

J’ai fait le choix de partir sur du full vanilla JS, HTML et CSS. Pas de framework, pas de dépendances. Et surtout : pas d’inscription, pas d’auth, pas de données qui traînent quelque part sur un serveur.

Le fonctionnement est simple :

  1. Vous chargez vos logs dans l’interface
  2. L’analyse se fait entièrement dans votre navigateur
  3. Vous récupérez vos résultats, rien ne sort de votre machine !

C’est gratuit aujourd’hui, ça le restera demain. L’outil va évoluer au fil de mes besoins, mais sans jamais se transformer en usine à gaz. Pas de SaaS, pas de pricing tiers, pas de « freemium ».

Ce que vous pouvez faire concrètement avec cet outil

Ce qui est cool avec cet outil, c’est de pouvoir répondre à des questions simples mais franchement précieuses :

  • Quels LLM visitent mon site, et à quelle fréquence ?
  • Quelles pages les intéressent le plus ?
  • Est-ce que mes actions d’optimisation ont un impact réel sur leur comportement de crawl ?
  • Depuis quand tel bot crawle-t-il mon site et est-ce que ça a changé récemment ?

La comparaison avant/après devient possible.

Comprendre comment les IA explorent votre contenu, c’est déjà une longueur d’avance sur ce que sera le SEO de demain. Les logs Apache sont aujourd’hui l’un des rares endroits où vous pouvez observer le trafic LLM de manière brute, sans filtre, sans intermédiaire entre vous et la réalité du crawl. On n’en est qu’au début, autant commencer à observer maintenant.

FAQ

Cherchez les chaînes "GPTBot" ou "ClaudeBot" dans vos logs Apache. Sur un serveur Linux, le fichier est généralement à /var/log/apache2/access.log. Une commande comme grep -i "GPTBot" access.log liste toutes les lignes correspondantes. L'outil automatise cette détection pour tous les bots LLM connus en une seule passe, avec un tableau récapitulatif par bot et par URL crawlée.

GPTBot crawle pour entraîner les modèles. ChatGPT-User est actif quand un utilisateur demande à ChatGPT de consulter une URL en temps réel. Ce sont deux user agents distincts avec des comportements très différents : GPTBot fait de l'indexation de fond à son propre rythme, ChatGPT-User répond à une requête utilisateur immédiate. Les deux sont traçables dans vos logs Apache et les deux ont des implications différentes pour votre stratégie de contenu.

Normalement Oui 😀 il accepte plusieurs fichiers simultanément et tourne entièrement dans votre navigateur. Pas de limite imposée par un serveur tiers, tout se passe en local.

Conclusion : les logs Apache, premier réflexe pour surveiller le trafic LLM

Le trafic LLM dans les logs Apache, c’est une mine d’information encore largement sous-exploitée. Pas besoin d’un outil complexe ou payant pour commencer à observer ce qui se passe vraiment sur votre site.

Cet outil vanilla JS, c’est mon premier pas dans cette direction. Simple, gratuit, respectueux de vos données. Il va évoluer au fil de ce que j’apprends – sans jamais dériver vers le SaaS ou le « créez votre compte pour voir vos résultats ».

Si vous l’essayez et que vous avez des retours, des bugs ou des idées, n’hésitez pas.

L’outil est ici -> LLM Tracker

Samy Kantari - Expert WordPress + IA

Kantari Samy

Expert WordPress + IA

👨‍💻 10 ans dans le game WordPress, chez Whodunit, à bricoler du code, à dompter des bugs et à faire tourner des projets de toutes tailles.
Puis l’IA est arrivée… et là, révélation 💡 !
J’ai switché de mindset, réinventé ma façon de coder et avec le vibe coding : une nouvelle ère où je ne suis plus limité par le temps ni par les outils.

Aujourd’hui ? Je code toujours… Mais avec mon copilote IA.
On forme une team de choc. Lui, c’est la puissance. Moi, c’est la vision. Ensemble, on déverrouille ce qui semblait impossible hier. 🚀

10+ Années d'expérience
+++ Projets réalisés
80% code par IA
S’abonner
Notification pour
guest
0 Commentaires