L’Indexation : la mémoire de TOM
Comment TOM apprend à connaître le contenu de votre site pour pouvoir répondre avec précision.
L’indexation, c’est quoi exactement ?
Quand TOM arrive sur votre site, il ne « sait » rien de votre contenu. L’indexation est le processus qui lui permet de lire, comprendre et mémoriser vos articles et pages.
C’est grâce à cette étape que TOM peut répondre à « Que vendez-vous ? » ou « Où êtes-vous situés ? » avec des informations réelles tirées de votre site — et non des réponses inventées.
Un nouveau bibliothécaire
Qui lit tous les livres avant d’ouvrir au public. Il peut ensuite orienter les visiteurs avec précision.
TOM qui indexe
Qui lit tous vos articles et pages WordPress. Il répond ensuite en citant des sources concrètes.
Comment fonctionne l’indexation ?
TOM utilise une architecture RAG (Retrieval-Augmented Generation). Avant de répondre, il cherche dans vos contenus les passages les plus pertinents, puis les transmet à Mistral AI pour construire une réponse.
Lecture du contenu WordPress
TOM parcourt tous vos articles et pages publiés. Il extrait le texte brut : titre, contenu, catégories.
wp_posts · post_status = ‘publish’Découpage en blocs
Le contenu est découpé en petits blocs de texte cohérents — un paragraphe, une section — pour faciliter la recherche.
Découpage sémantique · ~500 tokens/blocStockage dans la base WordPress
Ces blocs sont sauvegardés localement dans votre base de données. Rien ne quitte votre serveur à cette étape.
Table wp_tom_index · Hébergée sur votre serveurRecherche à la question
Quand un visiteur pose une question, TOM cherche les blocs les plus pertinents et les fournit à Mistral AI comme contexte.
Top 5 résultats · Recherche sémantiqueGénération de la réponse
Mistral AI génère une réponse en langage naturel basée uniquement sur les blocs trouvés. Si l’info n’est pas sur le site, TOM le dit clairement.
mistral-small-latest · Réponse en ~1 secondeQuel contenu TOM peut-il connaître ?
TOM indexe trois types de contenus WordPress. Sur jcgilbert.fr, voici la répartition actuelle :
⚠️ Ce qui n’est PAS indexé
- Les brouillons (articles non publiés)
- Les contenus privés (visibilité restreinte)
- Les images, vidéos et fichiers PDF
- Les commentaires des visiteurs
- Le contenu des plugins tiers (formulaires, etc.)
Deux façons de mettre TOM à jour
⚡ Indexation automatique
À chaque publication ou mise à jour d’un article, TOM l’indexe immédiatement. Vous n’avez rien à faire.
🔄 Réindexation manuelle
Le bouton « Réindexer tout le contenu » force une relecture complète. Utile dans trois cas :
L’indexation, au cœur de la boucle LOOP
L’indexation n’est pas une opération ponctuelle — c’est un cycle vertueux. Plus votre contenu est riche, meilleures sont les réponses de TOM. Et de meilleures réponses attirent plus de visiteurs, qui posent des questions, qui révèlent des lacunes… que vous comblerez.
Vous publiez du contenu
Articles, pages, descriptions — TOM l’indexe automatiquement
Les visiteurs posent des questions
TOM répond en puisant dans l’index. Les échanges sont enregistrés dans les logs.
Les logs révèlent les lacunes
Les « Je n’ai pas trouvé » identifient les sujets manquants dans votre contenu.
Vous enrichissez le contenu
Nouveaux articles → nouvel index → meilleures réponses → retour à l’étape 1.
