researchنُشر فـ 4 juin 20264 دقائق قراءة

EVA-Bench 2.0: معيار جديد لاختبار وكلاء الصوت — 213 سيناريو فـ 3 قطاعات

ServiceNow طلقات EVA-Bench 2.0، معيار شامل لاختبار وكلاء الصوت الذكيين. 213 سيناريو واقعي فـ 3 قطاعات: الطيران، خدمات تقنية، والرعاية الصحية.

وكلاء الصوت (Voice agents — برامج AI كتفهم الكلام وكتجاوب عليه بصوت صحيح) عندها مشكل كبير: أداة كتشتغل بشكل مثالي فقطاع واحد ممكن تفشل تماما فقطاع ثاني. بحال نظام كيقرا رموز التأكيد (Confirmation codes) فحجز الطيران بدقة، ولكن كيتخبط ملي يتعامل مع سياسات معقدة فأنظمة الموارد البشرية.

ServiceNow أطلقات اليوم EVA-Bench 2.0، معيار (Benchmark — اختبار قياسي كيقارن أداء نماذج AI مختلفة) جديد كيختبر وكلاء الصوت فـ 3 قطاعات مختلفة، مع 213 سيناريو واقعي و 121 أداة (Tool — برنامج ولا خدمة كيقدر الوكيل يستعملها). هاد الإطلاق هو قفزة كبيرة من الإصدار الأول، اللي كان فيه فقطاع واحد.

الـ 3 قطاعات ديال EVA-Bench 2.0

1. خدمة العملاء فالطيران (Airline CSM) — 50 سيناريو

حجز الرحلات، تعديل المقاعد، التعامل مع الرحلات الملغاة. هاد القطاع كيختبر قدرة الوكيل على قراءة رموز معقدة وتأكيدات دقيقة بشكل صحيح.

2. خدمات تقنية المؤسسات (Enterprise ITSM) — 80 سيناريو

إعادة تعيين كلمات المرور، حل المشاكل التقنية، إدارة الوصول. هاد القطاع أصعب: الوكيل خاصو يتعامل مع سياسات أمان معقدة وخطوات مصادقة متعددة.

3. خدمات الموارد البشرية فالرعاية الصحية (Healthcare HRSD) — 83 سيناريو

طلبات الإجازة، التأمين الصحي، معلومات الموظفين. هاد القطاع كيختبر معرفة الوكيل بقوانين حقيقية بحال FMLA (قانون أمريكي للإجازات العائلية) وأرقام NPI (معرفات الأطباء).

شنو اللي يخلي EVA-Bench 2.0 مختلفة؟

1. سيناريوهات متنوعة، ماشي مكررة

المعيار ماشي غير اختبارات بسيطة. فيه 3 أنواع ديال السيناريوهات:

اتصالات بقصد واحد: العميل بغى حاجة واحدة
اتصالات بـ 4 أقصاد: العميل عندو مشاكل متعددة فنفس الاتصال
اتصالات عدائية: العميل كيحاول يتجاوز الخطوات ولا يدخل لمعلومات ما خاصوش يدخلوها

زيد على هاد الشي، فيه سيناريوهات "غير محققة" — يعني الطلب ما يقدر يتحقق. هادا مهم بزاف: الوكلاء الحقيقيين كيتعاملو مع أشياء غير ممكنة كل يوم.

2. المصادقة كاينة فكل مكان

الأبحاث السابقة كتقول بلي المصادقة (Authentication — التحقق من هوية المستعمل) هي أكثر نقطة ضعف فالوكلاء. EVA-Bench 2.0 تضمنت مصادقة حقيقية فكل سيناريو: OTP (رموز التحقق لمرة واحدة)، أسئلة أمان، توقيع رقمي.

3. التوليد المشترك (Joint Generation) — تقنية ذكية

السيناريوهات ما تولدوش عشوائي. كل سيناريو فيه 3 أجزاء متعلقة ببعضها:

الهدف ديال المستعمل: قرار تفصيلي كيقول للمحاكي بالضبط شنو اللي خاص يقول ومتى يضغط للحصول على شي حاجة بديلة. بدل "العميل بغى حجز رحلة"، الهدف يقول: "اطلب الرحلة الساعة 8 صباحا. إيلا ما كاينش، قبل الساعة 9. إيلا ما كاينش، اطلب رحلة بديلة".

قاعدة البيانات الأولية: البيانات اللي الأدوات كتقرأ منها (حسابات، حجوزات، رموز تأكيد).

الحالة النهائية المتوقعة (Ground truth): الجواب الصحيح. النظام يشتغل السيناريو على GPT-5.4 باش يعرف شنو اللي خاص يحصل.

الفائدة؟ بدون هاد التعقيد، السيناريوهات كتكون غامضة. الوكيل الواحد يقدر يفهمها بطريقة، والثاني بطريقة ثانية. النتائج تبقا غير موثوقة.

التحقق من الجودة: 4 مراحل

الفحص الهيكلي: تحقق من أن البيانات متطابقة مع المتطلبات
التحقق بـ LLM: هل الهدف والبيانات متسقة مع بعضها؟
التحقق من السلسلة: هل الوكيل يقدر يحل السيناريو بدون أخطاء؟
المراجعة اليدوية: بشر كيتحققو من كل شي بعد التوليد الآلي

في الآخر، شغلو النموذج الثلاثة الأقوى (GPT-5.4، Gemini 3.1 Pro، Claude Opus 4.6) على كل سيناريو. إيلا فشلت واحدة، راجعو اليد إيلا المشكل فالنموذج ولا فالسيناريو نفسو. كل السيناريوهات المختارة قادرة يتحل بـ نموذج واحد على الأقل.

الميزة الجديدة: دعم اللغات

EVA-Bench 2.0 كتجهز نفسها للتوسع لغات ثاني. ماشي غير ترجمة الكلام — كل شي: أسماء المدن، أسماء الموظفين، أرقام الهاتف. الفكرة واضحة: وكيل كيشتغل بشكل مثالي بالإنجليزية ممكن يفشل تماما بالعربية ولا الفرنسية.

شنو كيعني هاد الشي ليك؟

هاد المعيار مهم بزاف لشركات البنوك والاتصالات والرعاية الصحية. الوكلاء الصوتيين غادي يكونو محور خدمة العملاء فالسنوات الجاية — بدل موظفين كيقضيو 8 ساعات فالهاتف، نظام AI كيدير الشغل 24/7. ولكن بدون معايير قوية بحال EVA-Bench 2.0، شركة ممكن تشري نظام كيشتغل بشكل مثالي فالاختبار ولكن كيفشل فالواقع.

للمطورين المغاربة، هاد فرصة: ServiceNow كتستثمر بزاف فهاد المجال، والشركات الأوروبية كتدير عمليات بالعربية والفرنسية. بناء وكلاء صوت بحال هادي يتطلب مهارات متقدمة فـ LLMs، Speech-to-text، وتصميم الحوار — كل هادي مطلوب بزاف. حتى المهنيين المستقلين كيقدرو يبنيو خدمات صغيرة: بنك محلي بغى وكيل صوت لحجز المواعيد، محامي بغى نظام لتصنيف الاستفسارات — EVA-Bench 2.0 كتدي إطار واضح لاختبار الحل ديالك قبل ما تطلقو.