PageIndex et le RAG vectorless : pourquoi ça peut changer la recherche documentaire par IA
AI resume
PageIndex propose une nouvelle façon d’aborder le RAG pour les documents longs et structurés. Au lieu de se limiter à la similarité entre chunks, l’approche mise davantage sur la structure du document, la navigation raisonnée et la vérifiabilité des réponses.
PageIndex et le RAG vectorless : pourquoi ça peut changer la recherche documentaire par IA
Au départ, le avait une promesse simple : connecter une IA à des documents pour qu’elle réponde avec des sources, au lieu d’inventer.
Sur le papier, c’est très puissant. En pratique, ça fonctionne bien pour des contenus simples : FAQ, documentation produit, support client, notes internes courtes.
Mais dès qu’on passe à des documents longs et structurés, les limites apparaissent.
Un rapport annuel, un contrat, une annexe financière ou un document réglementaire ne se lit pas comme une page web classique. Il faut comprendre la structure, suivre des renvois, comparer des tableaux, revenir à une annexe, relier plusieurs sections.
C’est là que PageIndex devient intéressant.
Son idée n’est pas seulement de permettre à l’IA de lire plus de pages. Son vrai apport, c’est d’aider l’IA à savoir où lire, dans quel ordre, et pourquoi.
Pourquoi le RAG classique atteint ses limites
Le classique fonctionne généralement comme ça : on découpe un document en petits morceaux, appelés chunks.
Chaque chunk est ensuite transformé en vecteur, une sorte de représentation mathématique de son sens. Quand l’utilisateur pose une question, le système cherche les chunks les plus proches de cette question.
Cette logique marche bien quand la réponse se trouve dans un passage court et clair.
Mais dans des documents complexes, la similarité ne suffit pas.
Un passage peut ressembler à la question sans être le bon. Un tableau peut être séparé de son titre. Une phrase peut dire “voir annexe G”, alors que l’annexe se trouve 80 pages plus loin.
Dans ce cas, le classique peut récupérer un extrait proche, mais incomplet ou mal contextualisé.
C’est particulièrement problématique pour les documents financiers, juridiques ou réglementaires, là où l’exactitude est importante. Une réponse fiable dépend souvent de plusieurs parties du document, pas seulement d’un paragraphe isolé.
Ce que PageIndex change
PageIndex propose une approche différente : au lieu de voir le document comme une suite de morceaux indépendants, il le transforme en structure navigable.
Concrètement, il crée une sorte de table des matières intelligente, lisible par le modèle.
Le document devient un arbre composé de :
sections ;
sous-sections ;
pages ;
blocs ;
résumés ;
références internes.
L’IA peut alors naviguer dans le document comme un humain le ferait.
La question n’est plus seulement :
Quel passage ressemble le plus à ma question ?
Elle devient plutôt :
Quelle partie du document dois-je consulter pour répondre correctement ?
Ce changement est important.
Dans un rapport financier, par exemple, une information peut être évoquée dans le corps du texte, détaillée dans une annexe, puis chiffrée dans un tableau. PageIndex permet théoriquement de suivre cette piste documentaire au lieu de s’arrêter au premier passage similaire.
C’est pour ça qu’on parle parfois de vectorless, c’est-à-dire sans recherche reposant uniquement sur des vecteurs.
Au cœur du système, la recherche ne dépend pas seulement de la similarité sémantique. Elle repose davantage sur la structure du document et sur une navigation raisonnée.
Il faut quand même nuancer : dans la pratique, PageIndex peut aussi être utilisé dans des systèmes hybrides, avec des bases vectorielles. Le but n’est donc pas forcément de supprimer les vecteurs, mais de mieux les compléter.
Pourquoi c’est important pour les entreprises
PageIndex est surtout intéressant dans les secteurs où les documents sont longs, techniques et sensibles.
En finance, il peut servir à analyser des rapports annuels, des notes annexes ou des documents d’audit.
En droit, il peut aider à suivre des clauses, des définitions et des annexes.
Dans l’industrie, il peut faciliter la lecture de manuels techniques ou de procédures.
En santé et en recherche, il peut aider à retrouver des informations dans des protocoles, publications ou dossiers réglementaires.
Le vrai enjeu n’est pas seulement de “trouver un passage”. C’est de trouver le bon chemin dans le document.
Pour une entreprise, le bénéfice peut être très concret :
des réponses plus fiables ;
des citations plus précises ;
une meilleure traçabilité ;
moins de temps passé à vérifier manuellement ce que l’IA a produit.
C’est important parce qu’une réponse d’IA sans source claire est difficile à utiliser sérieusement.
Si le système peut dire précisément d’où vient l’information — page, section, tableau, annexe — alors la réponse devient beaucoup plus exploitable.
Ce qu’on peut affirmer, et ce qu’il faut nuancer
PageIndex met en avant des résultats solides, notamment sur des benchmarks financiers comme FinanceBench.
C’est un bon signal, car ce type de benchmark correspond bien aux cas d’usage visés : documents longs, structurés, financiers.
Mais il faut rester prudent.
Une performance élevée sur un benchmark ne veut pas dire que l’outil sera toujours meilleur dans tous les contextes. Les résultats communiqués par les équipes ou communautés autour du projet doivent être pris comme des signaux prometteurs, pas comme une preuve définitive.
Même chose pour la traction GitHub ou les articles qui parlent du projet. Cela montre qu’il y a un vrai intérêt autour de l’approche, mais pas encore que PageIndex va remplacer tout le marché du .
PageIndex ne remplace pas les bases vectorielles
Il ne faut pas voir PageIndex comme “la fin” de Pinecone, Weaviate, Milvus, LlamaIndex ou Haystack.
Les bases vectorielles restent très utiles pour faire de la recherche large, trouver des contenus similaires, explorer de gros volumes de documents ou travailler sur des bases moins structurées.
Elles sont particulièrement efficaces quand on ne sait pas exactement dans quel document chercher.
La meilleure approche sera probablement hybride :
utiliser les vecteurs pour identifier les bons documents ;
utiliser PageIndex pour naviguer intelligemment à l’intérieur.
PageIndex ne détruit donc pas l’écosystème du . Il en déplace le centre de gravité.
Il montre que, dans les documents professionnels, le retrieval n’est pas seulement un problème de similarité. C’est aussi un problème de structure, de logique et de navigation.
Conclusion
PageIndex est prometteur parce qu’il répond à une vraie limite du classique : les documents longs ne sont pas juste des blocs de texte.
Ce sont des structures organisées, avec des sections, des tableaux, des annexes et des renvois.
Pour bien répondre, une IA ne doit pas seulement trouver un passage qui ressemble à la question. Elle doit comprendre où chercher, comment avancer dans le document, et comment justifier sa réponse.
La vraie révolution n’est donc pas l’IA qui lit plus de pages.
C’est l’IA qui apprend où lire, dans quel ordre, et pourquoi.
PageIndex et RAG vectorless : l’avenir de la recherche documentaire IA | Erevon