developerنُشر فـ 4 juin 20263 دقائق قراءة

Microsoft طلقات ASSERT: أداة تختبر سلوك الـ AI بكلمات عادية

أداة جديدة من Microsoft كتحول وصف بسيط لسلوك الـ AI لاختبارات كاملة. تخدم المطورين باش يتأكدو الـ AI كيشتغل بحال ما بغاو.

مشكل قديم: عندك نموذج AI قوي، ولكن واش متأكد بلي كيتصرف بالطريقة اللي بغيتيها فتطبيقك الخاص؟ واش كيحترم السياسات ديالك؟ واش كيعامل البيانات الحساسة بشكل آمن؟

الاختبارات العامة (بحال الـ Benchmarks الكبيرة) ماتجاوبش على هاد الأسئلة. هنا جات ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing)، أداة جديدة من Microsoft اللي كتحول المشكلة من معقدة لسهلة.

شنو هي ASSERT بالضبط؟

ASSERT هي أداة مفتوحة المصدر (Open source) كتخلي المطورين يكتبو متطلبات سلوك الـ AI بلغة عادية، وتحولهم لاختبارات شاملة وموثقة. ماخاصك تكتب كود معقد — غير قول ليها شنو بغيتي، وهي كتدير الباقي.

العملية بسيطة:

أنتي كتكتبي: "الـ AI ماخاصو يرسل emails لناس خارج الشركة"
ASSERT كتولد: حالات اختبار تتفقد هاد القاعدة
ASSERT كتشغل: الاختبارات على نموذجك
ASSERT كتقول ليك: نجحت ولا فشلت، وشنو اللي وقع

كيفاش كتخدم؟

مثال حقيقي: عندك AI Agent (وكيل ذكي — برنامج AI كيقدر يدير مهام بشكل مستقل بحال قراءة وثائق وكتابة ملخصات) كيدير البحث عن الوثائق داخل الشركة.

بغيتي تتأكد من:

ماخاصو يرسل معلومات سرية لناس ماشي من الإدارة العليا
كيعطي ملخصات قصيرة وواضحة
كيحترم السياق ديال الطلب السابق

أنتي كتكتبي هاد القيود بالدارجة أو الإنجليزية، ASSERT كتفهمهم وكتولد 50 حالة اختبار مختلفة. بعدا كتشغل الـ AI Agent على كل حالة وكتقول ليك: "نجح فـ 48 حالة، فشل فـ 2". وتقدر تشوف بالضبط فين غلط.

الميزات الأساسية

1. التحويل من نص لاختبارات

ASSERT كتستعمل AI نفسها باش تفهم ما كتبتي وتحوله لاختبارات دقيقة. الـ Embedding (تحويل الكلمات لأرقام كتمثل المعنى، بحال خريطة كتعطي مكان لكل كلمة) والـ LLM كيخدمو معا.

2. تتبع المسار الكامل

ASSERT ماتقول ليك غير النتيجة النهائية. كتسجل كل خطوة اللي الـ AI دارها: الأدوات اللي استعملها، الـ API calls، حتى الأفكار الوسيطة. هاد معناه إيلا فشل الاختبار، تقدر تشوف بالضبط فين الخطأ.

3. الاختبار المستمر

تقدر تشغل ASSERT:

قبل الإطلاق (قبل ما تطلق النموذج)
بعد الإطلاق (للتأكد من الأداء الحقيقي)
بشكل مستمر (مراقبة يومية)

مثال تطبيقي: مكتب قانوني

تخيل مكتب محاماة مغربي استعمل AI لتحليل العقود. بغيهم يتأكدو:

الـ AI ماغاديش يفصح على معلومات سرية ديال العملاء
كيعطي تحليل دقيق للشروط الخطيرة
كيحترم القانون المغربي

بدل ما يختبرو يدويا (ساعات وساعات)، كتبو القيود فـ ASSERT، وولات الأداة كتدير الباقي.

علاش هاد الشي مهم؟

سارة بيرد (Sarah Bird)، Chief Product Officer ديال Responsible AI فـ Microsoft، قالت بكلماتها: "إيلا ما فهمتيش سلوك النموذج ديالك، صعيب تقول بلي كيلبي معايير الشركة ديالك." الترجمة العملية: بدون اختبارات، كتشتغلي عمياء.

هاد الأداة كتسد فراغ حقيقي. الاختبارات العامة (بحال Benchmark — اختبار قياسي كيقارن أداء نماذج AI مختلفة) كتقول ليك إيلا النموذج ذكي ولا لا. ولكن ما تقول ليك إيلا كيتصرف بحال ما بغيتي أنتي فتطبيقك الخاص.

السياق الأوسع

هاد الإطلاق جزء من اتجاه أكبر فالصناعة. كل شركة كبرى (Stanford، MLCommons، حتى METR) كتركز على الاختبارات المتكررة (Regression testing — التأكد من أن التحديثات الجديدة ماخربتش الحاجات القديمة). السبب: نماذج الـ AI بدات تكون قوية بزاف، والمخاطر ولات حقيقية.

شنو كيعني هاد الشي ليك؟

الشركات المغربية اللي بدات تستعمل AI — بنوك، مكاتب قانونية، شركات اتصالات — غادي يحتاجو أدوات بحال ASSERT باش يتأكدو من الأمان والالتزام. حتى المهنيين المستقلين كيخدمو clients أوروبيين غادي يضطرو يستعملو أدوات اختبار قوية — هاد الأداة مفتوحة المصدر (Open source) يعني مجانية وسهل تخصيصها. المطورين المغاربة اللي عندهم خبرة فـ Python و LLMs كيقدرو يبدأو يتعلمو ASSERT دابا، وهاد مهارة غادي تكون مطلوبة بزاف فالسنوات الجاية، خاصة فالـ remote مع شركات أوروبية كتبني AI systems معقدة وخطيرة.