llmنُشر فـ 4 juin 20265 دقائق قراءة

Granite 4.1: كيفاش IBM بنات نماذج لغوية قوية وصغيرة

IBM طلقات Granite 4.1، عائلة ديال نماذج لغوية مدربة على 15 تريليون token. النموذج 8B كيضاهي نموذج أكبر بـ 4 مرات. شنو السر؟

IBM كشفات اليوم على Granite 4.1، عائلة جديدة ديال النماذج اللغوية الكبيرة (LLM — نماذج AI كتفهم وكتكتب نص بحال إنسان، مدرّبة على ملايير الكلمات). والخبر المثير: النموذج الصغير ديالهم (8 مليار معامل) كيضاهي نموذج أكبر بـ 4 مرات من الجيل السابق.

السؤال اللي كل واحد كيسولو: كيفاش؟ الجواب ماشي غير بالحجم — الجواب هو جودة البيانات والتدريب الذكي.

الأرقام الأساسية

Granite 4.1 كاينة فثلاث أحجام:

3B — صغيرة، خفيفة، تقدر تشتغل على هاتفك
8B — متوسطة، قوية، الأفضل للإنتاج
30B — كبيرة، الأقوى، للمهام المعقدة

كل الثلاثة اتدربو على 15 تريليون token (Token — وحدة صغيرة من النص اللي كيقراها النموذج، عادة جزء من كلمة). وكل واحد يقدر يقرا نصوص طويلة جدا: 512,000 token (يعني كتاب كامل فمرة واحدة).

وكل النماذج متاحة بـ Apache 2.0 — يعني مفتوحة المصدر، تقدر تستعملها فشركتك بدون قيود.

السر: 5 مراحل ديال التدريب

بدل ما تدرب النموذج مرة واحدة على كل البيانات، IBM درّبوه 5 مرات متتالية، كل مرة بتركيز مختلف.

المرحلة 1: الأساس العام

النموذج كيتعلم اللغة من بيانات عامة:

59% ويب عام (CommonCrawl)
20% كود برمجي
7% رياضيات
10.5% وثائق تقنية وعلمية
2% لغات غير إنجليزية
1.5% محتوى متخصص

المرحلة 2: التركيز على الكود والرياضيات

هنا النموذج كيبدأ يتعلم التفكير المنطقي:

35% رياضيات (5 مرات أكثر من المرحلة 1)
30% كود (1.5 مرة أكثر)
12% ويب عالي الجودة
9% بيانات مصنعة (synthetic) عالية الجودة

المراحل 3-4: التدقيق والتعليمات

هنا كاين حاجة مهمة جدا: Chain-of-Thought (تسلسل التفكير — تقنية كتخلي الـ AI يكتب خطواته قبل الجواب). النموذج كيتعلم كيفاش يشرح تفكيره خطوة بخطوة.

البيانات كتصير أكثر توازن وجودة:

16.67% ويب عالي الجودة
16.67% رياضيات
16.67% كود
12.5% سلاسل تفكير طويلة
7.5% تعليمات لغوية
4.5% تعليمات برمجية

المرحلة 5: التعامل مع النصوص الطويلة

هاد المرحلة الأخيرة كتوسع نافذة السياق (Context window — كمية النص اللي النموذج قادر يقرا ويستحضر فالذاكرة) من 4,000 token لـ 512,000 token.

تقدر تتخيل الفرق: 4,000 token = 3 ديال صفحات Word. 512,000 token = كتاب كامل ولا أكثر.

التدقيق الحقيقي: 4.1 مليون عينة يدوية

بعد التدريب الأساسي، IBM بدات مرحلة التدريب الإشرافي (Supervised Fine-tuning — تخصيص النموذج على بيانات محددة باش يكون أحسن فمهمة معينة). ولكن ماشي بأي بيانات — بيانات مفلترة بدقة.

IBM استعملات LLM-as-Judge (نموذج AI كيحكم على جودة الإجابات). كل إجابة كتمر على 6 معايير:

اتباع التعليمات — واش النموذج فهم اللي طلب منو
الصحة — واش الجواب صحيح
الاكتمال — واش الجواب كامل
الإيجاز — واش الجواب مختصر بدون حشو
الطبيعية — واش الجواب يقرا بحال إنسان
المعايرة — واش النموذج واثق من جوابو بالقدر الصحيح

أي إجابة فيها هلوسة (الهلوسة — ملي النموذج كيخترع معلومات غير صحيحة بثقة) ولا معلومات خاطئة كتنرفض تلقائيا، حتى لو كانت كتحصل على نقاط عالية.

النتيجة: 4.1 مليون عينة عالية الجودة فقط.

التحسين الأخير: تعلم التعزيز (Reinforcement Learning)

بعد التدريب الإشرافي، IBM استعملات تعلم التعزيز (Reinforcement Learning ⚠️ — تقنية كتخلي النموذج يتعلم من خلال التجربة والخطأ، بحال كيعطيو reward على الإجابات الصحيحة) فـ 4 مراحل متتالية:

1. تعلم متعدد المجالات

النموذج كيتدرب على 45,504 prompt (طلب) من مجالات مختلفة في نفس الوقت. هاد الطريقة كتمنع النموذج من أنو ينسى اللي تعلمو قبل (catastrophic forgetting).

2. تحسين الحوار (RLHF)

النموذج كيتدرب على أسئلة عامة باش يكون أكثر ودية ومفيد. النتيجة: تحسن 18.9 نقطة فـ Alpaca-Eval (معيار كيقيس جودة الحوار).

3. معايرة الهوية والمعرفة

مرحلة صغيرة (40 خطوة تدريب فقط) كتحسن قدرة النموذج على أنو يعرّف نفسو بشكل صحيح.

4. تحسين الرياضيات

المرحلة 2 (RLHF) كانت تخلي النموذج ينسى الرياضيات. المرحلة 4 كتعيد تدريبو على مسائل رياضية باش يرجع أداؤو. النتيجة: +3.8 نقاط على معيار GSM8K، و**+23.48 نقطة** على DeepMind-Math.

النتيجة المثيرة: 8B كيضاهي 32B

الاختبار الحقيقي: هل هاد الطريقة كتخدم فعلا؟

نعم.

Granite 4.1-8B (نموذج صغير بـ 8 مليار معامل) كيضاهي ولا يتفوق على Granite 4.0-H-Small (نموذج قديم بـ 32 مليار معامل، لكن كيستعمل تقنية Mixture of Experts — MoE ⚠️ — تقنية كتخلي النموذج يستعمل فقط جزء من نفسو لكل سؤال، بحال فريق متخصصين بدل فريق واحد كبير).

النموذج الجديد الصغير كيتفوق على الكبير القديم في 10 معايير مختلفة:

IFEval (اتباع التعليمات)
AlpacaEval (جودة الحوار)
MMLU-Pro (المعرفة العامة)
GSM8K (الرياضيات)
DeepMind-Math (الرياضيات المتقدمة)
وغيرها

هاد الشي يعني: أنت ما خاصك نموذج كبير باش تقدر تشتغل بجودة عالية. نموذج صغير مدرب بذكاء يقدر يضاهي نموذج كبير مدرب بطريقة عادية.

الأداء العملي

Granite 4.1 كيقدر:

يتعامل مع أدوات (Tool calling) — يقدر يستعمل APIs ويدير مهام معقدة
يتعامل مع نصوص طويلة — 512,000 token يعني يقدر يقرا كتاب كامل ويجيب ليك معلومات منو
يشتغل بسرعة — ماشي بحاجة سلاسل طويلة من التفكير، يعني latency منخفضة وتكاليف أقل
يشتغل بـ 12 لغة — إنجليزي، فرنسي، إسباني، عربي، كود، وغيرها

التكنولوجيا الخلفية

IBM درّبات Granite 4.1 على NVIDIA GB200 NVL72 cluster (مئات آلاف من أقوى الـ GPUs فالعالم). المرة الواحدة من التدريب استغرقات أسابيع، وكلفة ملايين الدولارات.

ولكن الخبر الجيد: أنت ما خاصك تدرب النموذج من جديد. IBM طلقاتو مفتوح المصدر، تقدر تحملو وتستعملو مباشرة.

شنو كيعني هاد الشي ليك؟

Granite 4.1 هو نموذج إنتاجي قوي، مفتوح المصدر، وكفعال. البنوك المغربية والشركات الكبرى اللي بحاجة chatbot ذكي ولا assistant بدون أن يعتمدو على شركات خارجية كيقدرو يستعملوه. المطورين المستقلين كيقدرو يبنيو تطبيقات AI بدون تكاليف API عالية. حتى الجامعات والمدارس التقنية بحال 1337 و Le Wagon Casa كيقدرو يستعملوه للتعليم.

النقطة الأكثر أهمية: هاد النموذج يثبت أن الجودة تفوق الحجم. مطور ذكي كيقدر يستعمل نموذج 8B مع بيانات عالية الجودة ويضاهي نموذج 32B مدرب بطريقة عادية. هادا يعني فرص أكثر للشركات الصغيرة والمتوسطة، والمطورين المستقلين كيشتغلو مع شركات أوروبية — ماخاصهم استثمار ملايين باش يدخلو عالم الـ AI.