brown wooden letter blocks on white surface

Mardown pour LLM : Simplifiez l’accès au contenu WordPress

Ce qu’il faut retenir
  • Le HTML fait augmenter la consommation de tokens et les coûts API car les LLM doivent d’abord nettoyer les balises, le CSS et le JavaScript avant d’accéder au texte réel.
  • Le Markdown élimine le bruit structurel tout en préservant titres, listes et liens, ce qui simplifie le parsing et réduit drastiquement le nombre de tokens requis.
  • Le plugin WordPress génère automatiquement le Markdown à chaque publication, le stocke dans une méta et le rend disponible rétroactivement pour les anciens articles.
  • Les articles Markdown peuvent être récupérés soit via les headers HTTP qui indiquent l’acceptation du format, soit en ajoutant .md à l’URL.
  • Fournir du Markdown aux LLM améliore l’extraction sémantique, diminue les coûts et facilite l’indexation et le vectorisation pour les solutions RAG et les agents IA.

Résumé généré par IA

Suite à mon dernier article sur Ollama et les résumés avec un LLM, je suis revenu sur une question assez simple : comment faire en sorte qu’un LLM accède plus directement au contenu d’un site WordPress ? Parce qu’aujourd’hui, dans la plupart des cas, il tombe sur du HTML. Et ce n’est pas vraiment un format pensé pour optimiser les articles Markdown pour LLM.

Table des matières

Le problème du HTML pour les LLM

Un LLM qui récupère une page web WordPress doit d’abord gérer tout ce qui n’a rien à voir avec le contenu réel :

  • Les balises HTML structurelles
  • La mise en page CSS et attributs de style
  • Les éléments purement visuels et décoratifs
  • Les scripts JavaScript embarqués

Il doit « nettoyer » tout ça avant même de comprendre le texte et cette étape de parsing peut augmenter de considérablement la consommation de tokens.

Résultat concret :

  1. Plus de tokens consommés inutilement
  2. Plus de traitement préliminaire requis
  3. Une extraction parfois moins fiable du contenu réel
  4. Des coûts API plus élevés pour les développeurs

Alors que le besoin réel est beaucoup plus simple : récupérer du texte exploitable pour produire des articles Markdown pour LLM optimisés.

Pourquoi le Markdown change la donne pour les articles destinés aux LLM

Le format Markdown enlève une grosse partie du bruit structurel tout en préservant l’essentiel.

Ce qu’on garde avec les articles Markdown pour LLM

  • La structure hiérarchique (titres H1, H2, H3)
  • La lisibilité humaine et machine
  • Une organisation claire du contenu
  • Les listes ordonnées et non ordonnées
  • Les liens hypertextes essentiels

Ce qu’on enlève pour optimiser les articles Markdown pour LLM

  • Les balises HTML complexes
  • La logique d’affichage visuel
  • Tout ce qui est décoratif pour un navigateur
  • Les attributs CSS et classes

Pour un LLM, ça fait une différence directe et mesurable. Il reçoit un contenu plus simple à lire, plus léger à traiter et moins coûteux en tokens. Et surtout, plus stable à exploiter dans des systèmes RAG. Par exemple ici, en extrayant l’entièreté de mes articles sous format Markdown, j’ai une liste complète de tous mes articles et je peux les mettre en place dans un RAG et ainsi pouvoir fouiller, rechercher tous mes éléments.

action-scheduler-wordpress-guide.md
ajouter-bouton-editeur-gutenberg-ia.md
anatomie-dun-plugin-woocommerce-creation-dun-tableau-de-bord-statistique.md
automatisation-email-n8n-notifications-workflow-2025.md
automatiser-notifications-woocommerce-n8n.md
betterdictation-la-transcription-audio-simple-sur-mac.md
block-wordpress-affichage-conditionnel-avec-ia-guide-complet.md
bloquer-une-ip-malveillantes-wordpress-avec-mu-plugins.md
claude-code-et-ses-limites-retour-dexperience.md
claude-code-ia-test-complet-cout-limites.md
claude-pro-limites-et-solutions-pour-developper.md
comment-analyser-rapidement-la-structure-dun-projet.md
comment-creer-un-compteur-de-vues-wordpress-simple-et-efficace.md
comment-creer-une-page-doptions-wordpress-moderne-avec-react-et-gutenberg.md

Le vrai objectif : simplifier l’accès au contenu

L’idée du plugin n’est pas juste de « faire du Markdown ». C’est surtout de répondre à un besoin concret : éviter de forcer un LLM à parser du HTML complexe.

En lui donnant directement des articles Markdown, on change la logique d’exploitation :

  1. Moins de parsing structurel nécessaire
  2. Moins de bruit informationnel
  3. Plus de contenu utile dès le départ
  4. Meilleure compatibilité avec les agents IA
  5. Réduction significative des coûts API

On lui donne exactement ce dont il a besoin, sans surcharge, garantissant une interprétation cohérente.

Un plugin WordPress volontairement simple

Je suis parti sur une approche très directe pour générer le Markdown.

Le principe en trois étapes :

  1. Tu installes le plugin depuis le repository WordPress officiel (bientôt le lien)
  2. Tu l’actives en un clic
  3. Tu configures les types de contenus que tu souhaites avoir sous format Markdown.
    • Chaque article deviendra automatiquement disponible en Markdown après chaque publication ou si tu cliques sur le bouton pour tout générer d’un coup.

Sans configuration complexe. Sans réglages techniques inutiles. Et surtout : ça fonctionne aussi rétroactivement sur tous les anciens articles déjà publiés.

Comment fonctionne la génération des articles Markdown pour LLM

Plutôt que de générer le Markdown à chaque requête (coûteux en ressources), j’ai choisi une approche plus stable et performante.

Processus de conversion automatique

À chaque publication ou mise à jour d’article (publié) :

  1. L’article HTML est converti automatiquement en Markdown
  2. Le résultat est stocké dans une meta WordPress dédiée
  3. Cette version devient la référence pour les LLM
  4. Aucune régénération n’est nécessaire côté lecture

Système de fallback intelligent

Et si jamais quelque chose manque ou échoue :

  • Fallback automatique sur le contenu HTML

Ce fallback garantit que vos articles sont toujours disponibles, même en cas de problème temporaire.

Deux façons d’accéder aux articles Markdown pour LLM

Je voulais garder quelque chose de flexible pour maximiser la compatibilité. Il y a donc deux accès possibles pour récupérer vos articles Markdown.

Méthode 1 : Via les headers HTTP

Le client (LLM, agent IA, script, etc.) indique qu’il accepte du Markdown via le header HTTP, et le serveur renvoie directement ce format.

Même URL, contenu différent selon le client :

  • Navigateur web : reçoit le HTML classique
  • LLM avec header approprié : reçoit le Markdown

Méthode 2 : Via l’URL avec extension .md

On ajoute simplement .md à la fin de l’URL de l’article. Et on récupère directement la version Markdown optimisée pour LLM.

Exemple :

  • URL HTML : votresite.com/mon-article/
  • URL Markdown : votresite.com/mon-article.md

Cette double approche garantit une compatibilité maximale avec tous les outils d’IA actuels et futurs.

Ce que les articles Markdown pour LLM apportent concrètement

L’intérêt n’est pas dans le format en lui-même, mais dans ce qu’il permet de simplifier et d’optimiser.

Pour les LLM (ChatGPT, Claude, Gemini, etc.)

  • Réduction du parsing nécessaire
  • Diminution drastique du bruit structurel
  • Économie de tokens consommés
  • Extraction plus fiable du contenu sémantique

Pour les usages RAG et agents IA

  • Un contenu directement exploitable sans preprocessing
  • Plus facile à indexer et vectoriser
  • Plus cohérent sur l’ensemble du site
  • Meilleure qualité des embeddings générés

On ne change pas les articles originaux. On change simplement la manière dont ils sont consommés par les intelligences artificielles.

Conclusion : Adoptez les articles Markdown pour LLM dès maintenant

Les articles Markdown représentent une évolution logique dans la manière dont nous proposons du contenu à l’ère de l’intelligence artificielle. Plutôt que de forcer les LLM à parser du HTML complexe, nous leur facilitons le travail avec un format propre, léger et directement exploitable.

Le plugin est déjà en place sur mon blog. Tous les articles sont accessibles en Markdown via les headers HTTP ou via l’extension .md dans l’URL. Il est actuellement en attente de validation sur le repository WordPress officiel.

Si vous souhaitez optimiser votre WordPress pour l’IA et réduire drastiquement la consommation de tokens de vos contenus, les articles Markdown pour LLM sont une solution simple, efficace et sans impact sur vos visiteurs humains.

Samy Kantari - Expert WordPress + IA

Kantari Samy

Expert WordPress + IA

👨‍💻 10 ans dans le game WordPress, chez Whodunit, à bricoler du code, à dompter des bugs et à faire tourner des projets de toutes tailles.
Puis l’IA est arrivée… et là, révélation 💡 !
J’ai switché de mindset, réinventé ma façon de coder et avec le vibe coding : une nouvelle ère où je ne suis plus limité par le temps ni par les outils.

Aujourd’hui ? Je code toujours… Mais avec mon copilote IA.
On forme une team de choc. Lui, c’est la puissance. Moi, c’est la vision. Ensemble, on déverrouille ce qui semblait impossible hier. 🚀

10+ Années d'expérience
+++ Projets réalisés
80% code par IA
S’abonner
Notification pour
guest
0 Commentaires
Commentaires en ligne
Afficher tous les commentaires