Hybrid Search : Définition et Exemples
La Hybrid Search est une technique de recherche d'information qui combine la recherche lexicale (par mots-clés) et la recherche sémantique (par vecteurs) pour obtenir des résultats plus pertinents et complets.
Définition complète
La Hybrid Search, ou recherche hybride, est une approche qui fusionne deux paradigmes fondamentaux de la recherche d'information : la recherche lexicale traditionnelle (comme BM25 ou TF-IDF) et la recherche sémantique basée sur des embeddings vectoriels. L'objectif est de tirer le meilleur des deux mondes pour maximiser la pertinence des résultats.
La recherche lexicale excelle pour trouver des correspondances exactes de mots-clés, des noms propres, des identifiants ou des termes techniques spécifiques. En revanche, elle échoue lorsque l'utilisateur formule sa requête différemment du document cible. La recherche sémantique, elle, comprend le sens et les intentions derrière une requête grâce aux modèles d'embeddings, mais peut manquer des correspondances exactes importantes.
En combinant les deux approches, la Hybrid Search utilise généralement un mécanisme de fusion des scores (comme le Reciprocal Rank Fusion ou une pondération linéaire) pour produire un classement final unifié. Chaque méthode génère ses propres résultats et scores, puis un algorithme les combine en attribuant un poids relatif à chaque source.
Cette technique est devenue incontournable dans les systèmes de RAG (Retrieval-Augmented Generation) où la qualité de la recherche impacte directement la pertinence des réponses générées par les LLM. Des bases de données comme Weaviate, Pinecone, Qdrant ou Elasticsearch proposent désormais la Hybrid Search en natif, rendant son adoption accessible à la plupart des développeurs.
Étymologie
Le terme combine « hybrid » (du latin hybrida, désignant un croisement entre deux espèces) et « search » (recherche). Il est apparu dans le domaine de l'information retrieval vers 2022-2023 avec la popularisation des bases de données vectorielles et des systèmes RAG, pour désigner la fusion entre recherche classique par mots-clés et recherche vectorielle sémantique.
Exemples concrets
Système RAG pour une documentation technique
Configure un pipeline RAG avec hybrid search : utilise BM25 pour capturer les correspondances exactes sur les noms de fonctions et les paramètres, et un embedding model pour la recherche sémantique. Pondère 0.3 pour le lexical et 0.7 pour le sémantique.
Moteur de recherche e-commerce
Implémente une recherche hybride pour notre catalogue produits : la recherche par mots-clés doit matcher les références exactes et noms de marque, tandis que la recherche sémantique doit comprendre des requêtes comme 'chaussures pour courir sous la pluie' même si aucun produit ne contient ces mots exacts.
Base de connaissances d'entreprise
Mets en place une hybrid search sur notre base documentaire interne avec Reciprocal Rank Fusion. Les utilisateurs cherchent parfois par numéro de ticket (lexical) et parfois par description de problème (sémantique). Les deux modes doivent coexister.
Usage pratique
En prompt engineering, la Hybrid Search intervient principalement dans la conception de systèmes RAG. Lorsque vous construisez un pipeline de retrieval, spécifiez explicitement dans vos prompts système que le contexte provient d'une recherche hybride et ajustez les poids lexical/sémantique selon votre cas d'usage. Pour des documents techniques avec beaucoup de jargon spécifique, privilégiez un poids lexical plus élevé ; pour des requêtes en langage naturel, augmentez le poids sémantique.
Concepts liés
FAQ
Quelle est la différence entre la recherche sémantique et la Hybrid Search ?
Comment choisir les poids entre recherche lexicale et sémantique ?
Quels outils permettent d'implémenter facilement la Hybrid Search ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.