RAG hybride BM25 + vectoriel : implémentation
Votre RAG vectoriel rate des questions que vous ne voyez pas
C'est une remarque que j'entends souvent sur les projets RAG : "Ça marche bien en général, mais parfois il ne trouve rien sur des questions pourtant simples."
Exemple concret : "Quelle est la procédure ISO-27001 pour les accès distants ?" → 0 résultat pertinent.
Le vectoriel encode le sens. Mais quand la question contient un identifiant exact (une norme, un code produit, un acronyme métier), l'encodage sémantique rate complètement.
C'est ce qu'on appelle le vocabulary mismatch. Et c'est le problème que le hybrid search résout.