Token : Définition et signification — Wiki IA

Une recherche qui trouve des résultats basés sur le sens plutôt que sur la correspondance exacte de mots-clés. Au lieu de chercher des documents contenant le mot « réparation », la recherche sémantique trouve des documents sur « corriger », « résoudre », « patcher » et « déboguer » parce qu'ils signifient des choses similaires. Elle fonctionne en convertissant le texte en embeddings (vecteurs numériques) et en trouvant les correspondances les plus proches dans l'espace vectoriel.

Pourquoi c'est important

La recherche sémantique est la raison pour laquelle la recherche moderne semble magique comparée à la recherche par mots-clés. Elle propulse les systèmes RAG, la recherche dans la documentation, la découverte de produits en e-commerce et le routage des tickets de support. Si tu construis une application qui doit trouver de l'information pertinente, la recherche sémantique est probablement la bonne approche.

En profondeur

Le pipeline : (1) encoder tes documents en embeddings à l'aide d'un modèle comme BGE, E5 ou Voyage, (2) stocker ces embeddings dans une base de données vectorielle (Pinecone, Qdrant, Weaviate, pgvector), (3) quand une requête arrive, l'encoder avec le même modèle, (4) trouver les embeddings les plus proches en utilisant des métriques de similarité comme la similarité cosinus ou le produit scalaire. La requête « comment corriger une fuite de mémoire » correspond à un document intitulé « déboguer la consommation de RAM dans Node.js » parce que leurs embeddings sont proches dans l'espace vectoriel.

Recherche hybride

La recherche sémantique pure a une faiblesse : elle peut manquer des correspondances exactes que la recherche par mots-clés attrape facilement. Si quelqu'un cherche le code d'erreur « ERR_SSL_PROTOCOL_ERROR », la recherche sémantique pourrait retourner du dépannage SSL général au lieu de l'erreur exacte. La recherche hybride combine les deux : correspondance par mots-clés (BM25) pour la précision et recherche sémantique pour le rappel, puis fusionne les résultats. La plupart des systèmes de recherche en production utilisent des approches hybrides.

Le choix du modèle d'embedding compte

La qualité de la recherche sémantique dépend entièrement du modèle d'embedding. Les modèles à usage général (text-embedding-3 d'OpenAI, Cohere Embed) fonctionnent bien pour la plupart des textes. Les modèles spécialisés (entraînés sur des données médicales, juridiques ou de code) surpassent les modèles généraux dans leur domaine. Les modèles multilingues permettent la recherche interlinguistique. Le leaderboard MTEB évalue les modèles d'embedding sur de nombreuses tâches — c'est la meilleure ressource pour en choisir un.

Recherche sémantique

Pourquoi c'est important

En profondeur

Recherche hybride

Le choix du modèle d'embedding compte

Concepts connexes