02. Indexation

02
TOM · Guide pédagogique · 2 / 3

L’Indexation : la mémoire de TOM

Comment TOM apprend à connaître le contenu de votre site pour pouvoir répondre avec précision.

60 Documents indexés
52 Articles
8 Pages
0 Produits WooCommerce
Comprendre

L’indexation, c’est quoi exactement ?

Quand TOM arrive sur votre site, il ne « sait » rien de votre contenu. L’indexation est le processus qui lui permet de lire, comprendre et mémoriser vos articles et pages.

C’est grâce à cette étape que TOM peut répondre à « Que vendez-vous ? » ou « Où êtes-vous situés ? » avec des informations réelles tirées de votre site — et non des réponses inventées.

📚

Un nouveau bibliothécaire

Qui lit tous les livres avant d’ouvrir au public. Il peut ensuite orienter les visiteurs avec précision.

🤖

TOM qui indexe

Qui lit tous vos articles et pages WordPress. Il répond ensuite en citant des sources concrètes.


Architecture RAG

Comment fonctionne l’indexation ?

TOM utilise une architecture RAG (Retrieval-Augmented Generation). Avant de répondre, il cherche dans vos contenus les passages les plus pertinents, puis les transmet à Mistral AI pour construire une réponse.

1

Lecture du contenu WordPress

TOM parcourt tous vos articles et pages publiés. Il extrait le texte brut : titre, contenu, catégories.

wp_posts · post_status = ‘publish’
2

Découpage en blocs

Le contenu est découpé en petits blocs de texte cohérents — un paragraphe, une section — pour faciliter la recherche.

Découpage sémantique · ~500 tokens/bloc
3

Stockage dans la base WordPress

Ces blocs sont sauvegardés localement dans votre base de données. Rien ne quitte votre serveur à cette étape.

Table wp_tom_index · Hébergée sur votre serveur
4

Recherche à la question

Quand un visiteur pose une question, TOM cherche les blocs les plus pertinents et les fournit à Mistral AI comme contexte.

Top 5 résultats · Recherche sémantique
5

Génération de la réponse

Mistral AI génère une réponse en langage naturel basée uniquement sur les blocs trouvés. Si l’info n’est pas sur le site, TOM le dit clairement.

mistral-small-latest · Réponse en ~1 seconde

Ce qui est indexé

Quel contenu TOM peut-il connaître ?

TOM indexe trois types de contenus WordPress. Sur jcgilbert.fr, voici la répartition actuelle :

52 Articles
Le cœur du blog. Posts, actualités, billets de fond.
8 Pages
À propos, Contact, Services, Mentions légales.
0 Produits WooCommerce
Pour les sites e-commerce avec WooCommerce actif.

⚠️ Ce qui n’est PAS indexé

  • Les brouillons (articles non publiés)
  • Les contenus privés (visibilité restreinte)
  • Les images, vidéos et fichiers PDF
  • Les commentaires des visiteurs
  • Le contenu des plugins tiers (formulaires, etc.)
Implication pratique
Si une information importante est dans un brouillon ou une page privée, TOM ne la connaît pas. Il faut publier pour qu’elle soit indexée et accessible à l’assistant.

Comment indexer

Deux façons de mettre TOM à jour

Toujours actif

⚡ Indexation automatique

À chaque publication ou mise à jour d’un article, TOM l’indexe immédiatement. Vous n’avez rien à faire.

Vous publiez un article
TOM détecte la publication automatiquement
Le contenu est indexé en arrière-plan
TOM peut y répondre immédiatement

🔄 Réindexation manuelle

Le bouton « Réindexer tout le contenu » force une relecture complète. Utile dans trois cas :

Après une migration de contenu en masse
Si vous suspectez des incohérences dans l’index
Après une mise à jour du plugin TOM
Peut prendre quelques minutes selon la taille du site

Philosophie

L’indexation, au cœur de la boucle LOOP

L’indexation n’est pas une opération ponctuelle — c’est un cycle vertueux. Plus votre contenu est riche, meilleures sont les réponses de TOM. Et de meilleures réponses attirent plus de visiteurs, qui posent des questions, qui révèlent des lacunes… que vous comblerez.

📝
Vous publiez du contenu

Articles, pages, descriptions — TOM l’indexe automatiquement

💬
Les visiteurs posent des questions

TOM répond en puisant dans l’index. Les échanges sont enregistrés dans les logs.

📊
Les logs révèlent les lacunes

Les « Je n’ai pas trouvé » identifient les sujets manquants dans votre contenu.

🔄
Vous enrichissez le contenu

Nouveaux articles → nouvel index → meilleures réponses → retour à l’étape 1.

Retour en haut