Zubnet AIसीखेंWiki › Semantic Search
AI उपयोग

Semantic Search

इसे भी कहा जाता है: Vector Search, Neural Search
ऐसी खोज जो शब्दों के सटीक मिलान के बजाय अर्थ के आधार पर परिणाम ढूंढती है। "fix" शब्द वाले दस्तावेज़ों की तलाश करने के बजाय, semantic search "repair," "resolve," "patch," और "debug" के बारे में दस्तावेज़ ढूंढती है क्योंकि उनका अर्थ समान है। यह टेक्स्ट को embeddings (संख्यात्मक vectors) में बदलकर और vector space में निकटतम मिलान ढूंढकर काम करती है।

यह क्यों मायने रखता है

Semantic search इसी कारण से आधुनिक खोज keyword search की तुलना में जादुई लगती है। यह RAG systems, दस्तावेज़ खोज, ई-कॉमर्स उत्पाद खोज, और support ticket routing को संचालित करती है। यदि आप कोई भी ऐसा एप्लिकेशन बना रहे हैं जिसे प्रासंगिक जानकारी खोजने की आवश्यकता है, तो semantic search संभवतः सही दृष्टिकोण है।

गहन अध्ययन

पाइपलाइन: (1) अपने दस्तावेज़ों को BGE, E5, या Voyage जैसे मॉडल का उपयोग करके embeddings में एन्कोड करें, (2) इन embeddings को vector database (Pinecone, Qdrant, Weaviate, pgvector) में स्टोर करें, (3) जब कोई query आए, तो उसे उसी मॉडल से एन्कोड करें, (4) cosine similarity या dot product जैसे similarity metrics का उपयोग करके निकटतम embeddings खोजें। "how to fix a memory leak" query "debugging RAM consumption in Node.js" शीर्षक वाले दस्तावेज़ से मेल खाती है क्योंकि उनकी embeddings vector space में करीब हैं।

Hybrid Search

शुद्ध semantic search में एक कमज़ोरी है: यह उन सटीक मिलानों को छोड़ सकती है जो keyword search आसानी से पकड़ लेती है। अगर कोई error code "ERR_SSL_PROTOCOL_ERROR" खोजता है, तो semantic search सटीक error के बजाय सामान्य SSL troubleshooting दे सकती है। Hybrid search दोनों को जोड़ती है: सटीकता के लिए keyword matching (BM25) और recall के लिए semantic search, फिर परिणामों को मर्ज करती है। अधिकांश प्रोडक्शन search systems hybrid दृष्टिकोण का उपयोग करते हैं।

Embedding Model का चुनाव महत्वपूर्ण है

Semantic search की गुणवत्ता पूरी तरह से embedding model पर निर्भर करती है। सामान्य-उद्देश्य वाले models (OpenAI का text-embedding-3, Cohere Embed) अधिकांश टेक्स्ट के लिए अच्छे काम करते हैं। Domain-specific models (चिकित्सा, कानूनी, या कोड डेटा पर प्रशिक्षित) अपने domain में सामान्य models से बेहतर प्रदर्शन करते हैं। बहुभाषी models cross-language search को सक्षम करते हैं। MTEB leaderboard कई कार्यों में embedding models का benchmark करता है — यह सही model चुनने का सबसे अच्छा संसाधन है।

संबंधित अवधारणाएँ

← सभी शब्द
← Self-Attention Sentiment Analysis →