researchPublié le 4 juin 20264 min de lecture

EVA-Bench 2.0 : le nouveau standard pour tester les agents vocaux

ServiceNow lance EVA-Bench 2.0, un benchmark complet pour évaluer les agents vocaux IA. 213 scénarios réalistes dans 3 secteurs : aviation, IT d'entreprise et santé.

EVA-Bench 2.0: معيار جديد لاختبار وكلاء الصوت — 213 سيناريو فـ 3 قطاعات

Les agents vocaux (programmes IA qui comprennent la parole et répondent par la voix) ont un problème majeur : un système qui fonctionne parfaitement dans un secteur peut échouer complètement dans un autre. Imaginez un système capable de lire avec précision les codes de confirmation dans une réservation aérienne, mais qui s'effondre face aux politiques complexes d'un système de gestion des ressources humaines.

ServiceNow vient de lancer EVA-Bench 2.0, un benchmark (test de référence qui compare les performances de différents modèles IA) destiné à évaluer les agents vocaux dans 3 secteurs distincts, avec 213 scénarios réalistes et 121 outils (programmes ou services que l'agent peut utiliser). Ce lancement représente un bond considérable par rapport à la première version, qui ne couvrait qu'un seul secteur.

Les 3 secteurs d'EVA-Bench 2.0

1. Service client aérien (Airline CSM) — 50 scénarios

Réservation de vols, modification de sièges, gestion des vols annulés. Ce secteur teste la capacité de l'agent à interpréter des codes complexes et des confirmations précises.

2. Services IT d'entreprise (Enterprise ITSM) — 80 scénarios

Réinitialisation de mots de passe, résolution de problèmes techniques, gestion des accès. Ce secteur est plus difficile : l'agent doit naviguer dans des politiques de sécurité complexes et des étapes d'authentification multiples.

3. Services RH en santé (Healthcare HRSD) — 83 scénarios

Demandes de congés, assurance maladie, informations sur les employés. Ce secteur teste la connaissance de l'agent concernant des lois réelles comme la FMLA (loi américaine sur les congés familiaux) et les numéros NPI (identifiants des médecins).

Qu'est-ce qui rend EVA-Bench 2.0 différente ?

1. Des scénarios variés, pas répétitifs

Le benchmark ne propose pas simplement des tests basiques. Il existe 3 types de scénarios :

Appels à intention unique : le client a besoin d'une seule chose
Appels à intentions multiples : le client a plusieurs problèmes dans un seul appel
Appels adversariaux : le client essaie de contourner les étapes ou d'accéder à des informations qu'il ne devrait pas voir

En plus, il y a des scénarios « non réalisables » — c'est-à-dire que la demande ne peut pas être satisfaite. C'est crucial : les agents réels font face à des demandes impossibles tous les jours.

2. L'authentification est partout

Les recherches antérieures montrent que l'authentification (vérification de l'identité de l'utilisateur) est le point faible majeur des agents. EVA-Bench 2.0 intègre une authentification réelle dans chaque scénario : OTP (codes de vérification à usage unique), questions de sécurité, signatures numériques.

3. La génération conjointe (Joint Generation) — une technique intelligente

Les scénarios ne sont pas générés aléatoirement. Chaque scénario comprend 3 éléments interconnectés :

L'objectif de l'utilisateur : une instruction détaillée qui indique au simulateur exactement ce que dire et quand demander une alternative. Au lieu de « le client veut réserver un vol », l'objectif précise : « demandez un vol à 8h du matin. Si indisponible, acceptez jusqu'à 9h. Si toujours indisponible, demandez un vol alternatif ».

La base de données initiale : les données que les outils lisent (comptes, réservations, codes de confirmation).

L'état final attendu (Ground truth) : la bonne réponse. Le système exécute le scénario sur GPT-5.4 pour déterminer ce qui devrait se passer.

L'avantage ? Sans cette complexité, les scénarios seraient ambigus. Un agent pourrait les interpréter d'une façon, un autre d'une autre. Les résultats seraient peu fiables.

Vérification de la qualité : 4 étapes

Vérification structurelle : s'assurer que les données correspondent aux exigences
Vérification par LLM : l'objectif et les données sont-ils cohérents ?
Vérification de la chaîne : l'agent peut-il résoudre le scénario sans erreurs ?
Révision manuelle : des humains vérifient tout après la génération automatique

Finalement, ils ont exécuté les trois modèles les plus puissants (GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6) sur chaque scénario. Si l'un échoue, ils examinent manuellement si le problème vient du modèle ou du scénario lui-même. Tous les scénarios sélectionnés peuvent être résolus par au moins un modèle.

La nouvelle fonctionnalité : support multilingue

EVA-Bench 2.0 se prépare à s'étendre à d'autres langues. Ce n'est pas juste une traduction vocale — tout est adapté : noms de villes, noms d'employés, numéros de téléphone. L'idée est claire : un agent qui fonctionne parfaitement en anglais peut échouer complètement en arabe ou en français.

Qu'est-ce que cela signifie pour vous ?

Ce benchmark est crucial pour les banques, les télécoms et les services de santé. Les agents vocaux vont devenir le cœur du service client dans les années à venir — au lieu d'employés passant 8 heures au téléphone, un système IA gère le travail 24/7. Mais sans des standards solides comme EVA-Bench 2.0, une entreprise pourrait acheter un système qui fonctionne parfaitement en test mais échoue en production.

Pour les développeurs marocains, c'est une opportunité : ServiceNow investit massivement dans ce domaine, et les entreprises européennes opèrent en arabe et en français. Construire des agents vocaux comme ceux-ci nécessite des compétences avancées en LLMs, speech-to-text et conception de dialogue — tout est très demandé. Même les freelances peuvent créer des services : une banque locale a besoin d'un agent vocal pour les rendez-vous, un cabinet juridique veut un système de classification des demandes — EVA-Bench 2.0 fournit un cadre clair pour tester votre solution avant le lancement.