الخطوة 2: تحويل النص لأرقام — Embeddings

فهم كيف يحول AI النصوص إلى أرقام قابلة للمقارنة.
ما هي الـ Embeddings؟
كيف يعرف الكمبيوتر أن "سيارة" و"مركبة" متشابهتان في المعنى؟ الإجابة: يحوّل كل كلمة أو جملة إلى سلسلة أرقام (Vector). الكلمات المتشابهة في المعنى تكون أرقامها قريبة. تشبيه: مثل إحداثيات GPS — المدن القريبة جغرافياً لها إحداثيات قريبة. Embeddings تفعل نفس الشيء لكن مع المعاني.
كيف يعمل؟
"سيارة" → [0.23, 0.87, 0.45, ...] (1536 رقم) "مركبة" → [0.25, 0.85, 0.44, ...] (أرقام قريبة = معنى قريب) "طعام" → [0.91, 0.12, 0.67, ...] (أرقام بعيدة = معنى مختلف) ببساطة: النصوص المتشابهة في المعنى تكون قريبة في "فضاء الأرقام".
نماذج Embedding الشائعة
• text-embedding-3-small (OpenAI): سريع ورخيص، 1536 بُعد • text-embedding-3-large (OpenAI): أدق، 3072 بُعد • voyage-3 (Anthropic/Voyage): أداء ممتاز للنصوص الطويلة • gecko (Google): خفيف وسريع • multilingual-e5 (Microsoft): ممتاز للغة العربية
تحدي اللغة العربية مع Embeddings
معظم نماذج Embedding تدربت أساساً على الإنجليزية. للعربية: • استخدم نماذج multilingual عندما تكون الدقة مهمة • اختبر دائماً بنصوص عربية حقيقية • النماذج تتحسن باستمرار — متابعة التحديثات مهم • النصوص الفصحى تعمل أفضل من العامية عادةً