llmPublié le 12 juin 20264 min de lecture

Anthropic reconnaît avoir bridé secrètement Fable 5 pour les chercheurs

Anthropic a dû avouer avoir discrètement dégradé les capacités de Fable 5 pour empêcher la création de modèles concurrents. La firme s'engage à rendre ces restrictions visibles.

Anthropic اعترفات: خبيات قدرات Claude Fable 5 من الباحثين

Le secret révélé quelques heures après le lancement

Anthropic a lancé Fable 5 le 9 juin 2026 en le présentant comme son modèle le plus puissant jamais ouvert au grand public. Mais dès les heures suivantes, des chercheurs ont découvert un paragraphe enfoui dans la documentation technique du modèle : Fable 5 était programmé pour dégrader silencieusement ses réponses lorsqu'il détectait des requêtes liées au développement d'IA de pointe.

Cette restriction couvrait l'entraînement de modèles concurrents, le débogage de code IA et l'optimisation d'architectures neuronales. Le problème : contrairement aux garde-fous sur la cybersécurité ou la biologie, qui affichaient un avertissement explicite, cette dégradation restait invisible à l'utilisateur. Le modèle continuait à sembler utile, mais redirigeait discrètement la requête vers Claude Opus 4.8, un modèle moins performant.

Pourquoi Anthropic a-t-il agi en secret ?

Anthropric a justifié la mesure en invoquant la sécurité. La firme avait détecté des tentatives massives d'« AI distillation » — l'utilisation des sorties de Claude pour entraîner des modèles rivaux — ce que ses conditions d'utilisation interdisent explicitement.

Dans un communiqué à Wired, Anthropic a déclaré : « Ces garde-fous empêchent des adversaires étrangers d'utiliser nos modèles les plus puissants d'une manière qui poserait de graves risques pour la sécurité. Les États-Unis et leurs alliés disposent d'un avantage en matière de puces de pointe et des logiciels hautement optimisés. »

Cette position reflétait une crainte exprimée par la firme dans un récent billet de blog : que l'IA améliore ses capacités plus vite que la société ne puisse s'y adapter. Anthropic estimait alors qu'il serait « bon pour le monde d'avoir la possibilité de ralentir ou de suspendre temporairement le développement de l'IA de pointe ».

La réaction de la communauté

Mais la communauté scientifique n'a pas accepté cette justification. Des chercheurs en sécurité de l'IA, généralement alignés avec Anthropic, ont exprimé leur désaccord. Un ancien employé d'Anthropic a écrit : « Vous travaillez sur l'IA pour lutter contre le cancer ? Désolé, je ne peux pas vous aider. »

Le problème était clair : une telle pratique bridait aussi les chercheurs qui développaient des IA de pointe pour la médecine, la recherche fondamentale ou l'évaluation de sécurité.

Dean Ball, chercheur senior à la Foundation for American Innovation et ancien conseiller de la Maison Blanche, a écrit sur X que « dégrader les performances sur la recherche en apprentissage automatique sans en informer l'utilisateur est d'une hostilité choquante ». Il a ajouté que cette politique de « sabotage secret » minait la position globale d'Anthropic en empêchant les chercheurs de collaborer sur la sécurité de l'IA.

Will Brown, responsable de la recherche chez Prime Intellect, a souligné que ces restrictions auraient pu entraver l'écosystème grandissant des cabinets d'évaluation tiers, qui testent les modèles en matière de sécurité et de fiabilité.

Anthropic reconnaît son erreur

Face à la controverse, Anthropic a plié. Dans un communiqué adressé à Wired, la firme a déclaré : « Nous modifions les garde-fous de Fable 5 concernant le développement de LLM de pointe pour les rendre visibles. Nous avons fait le mauvais compromis et nous nous excusons de ne pas avoir trouvé le bon équilibre. »

Concrètement, Anthropic va désormais alerter les utilisateurs lorsqu'une requête est refusée ou redirigée vers un modèle moins performant pour des raisons de développement d'IA. Ce sera toujours bridé, mais transparent.

Ce que cela change

La décision d'Anthropic marque un tournant dans la façon dont les entreprises d'IA gèrent les restrictions sur leurs modèles. La transparence devient non négociable, même quand elle expose les limites d'une stratégie de sécurité.

Cependant, les restrictions elles-mêmes restent en place. Anthropic continue de refuser ou de dégrader les capacités de Fable 5 pour les chercheurs qui tentent de développer des modèles concurrents. La différence : désormais, ils le sauront.

Articles liés