الفصل 08
الخطوة 1: تقسيم المستندات — Chunking

تعلم كيف تقسم مستنداتك إلى أجزاء قابلة للبحث.
2 دقيقة قراءة
لماذا نحتاج التقسيم؟
تخيل أن لديك كتاباً من 500 صفحة وسأل شخص سؤالاً. هل ترسل الكتاب كاملاً لـ AI؟ بالطبع لا! Chunking = تقسيم المستندات الكبيرة إلى أجزاء صغيرة (chunks) يمكن البحث فيها. مثل تقطيع البيتزا: لا تأكلها كاملة دفعة واحدة، تقطعها لشرائح مناسبة.
✦
أنواع التقسيم
أفضل الممارسات
• الحجم المثالي: 500-1000 token لكل جزء • التداخل (Overlap): 10-20% بين الأجزاء المتجاورة لتجنب فقدان السياق • الاختبار: جرب أحجام مختلفة وقارن جودة الإجابات • للغة العربية: قد تحتاج أجزاء أكبر لأن الكلمات العربية تستهلك tokens أكثر
مثال على التفكير في التقسيم
مستند: سياسات الشركة (50 صفحة)
تقسيم سيء:
→ قسم واحد كبير (50 صفحة) — لا يمكن البحث فيه
→ كل جملة منفصلة — يفقد السياق
تقسيم جيد:
→ كل سياسة = جزء منفصل (سياسة الإجازات، سياسة السفر، ...)
→ حجم كل جزء: 300-800 كلمة
→ تداخل: 50 كلمة بين كل جزأين متجاورين
→ إضافة metadata: اسم القسم، رقم الصفحة، تاريخ التحديث