llmPublié le 4 juin 20265 min de lecture

Granite 4.1 : comment IBM crée des modèles IA puissants et légers

IBM lance Granite 4.1, une famille de modèles de langage entraînés sur 15 trillions de tokens. Le modèle 8B rivalise avec un modèle 4 fois plus gros. Le secret ? La qualité des données et l'entraînement intelligent.

Granite 4.1: كيفاش IBM بنات نماذج لغوية قوية وصغيرة

IBM vient de dévoiler Granite 4.1, une nouvelle famille de modèles de langage de grande taille (LLM — des modèles IA qui comprennent et génèrent du texte comme un humain, entraînés sur des milliards de mots). Et la nouvelle qui fait sensation : le plus petit modèle (8 milliards de paramètres) rivalise avec un modèle 4 fois plus volumineux de la génération précédente.

La question que tout le monde se pose : comment ? La réponse ne réside pas dans la taille — elle réside dans la qualité des données et l'entraînement intelligent.

Les chiffres clés

Granite 4.1 existe en trois tailles :

3B — petite, légère, peut tourner sur votre téléphone
8B — moyenne, puissante, idéale pour la production
30B — grande, la plus puissante, pour les tâches complexes

Les trois ont été entraînés sur 15 trillions de tokens (un token — une unité minuscule de texte que le modèle lit, généralement une partie d'un mot). Et chacun peut lire des textes très longs : 512 000 tokens (c'est-à-dire un livre entier en une seule fois).

Tous les modèles sont disponibles sous Apache 2.0 — c'est-à-dire open source, vous pouvez les utiliser dans votre entreprise sans restrictions.

Le secret : 5 phases d'entraînement

Au lieu d'entraîner le modèle une seule fois sur toutes les données, IBM l'a entraîné 5 fois consécutives, chaque fois avec un focus différent.

Phase 1 : la base générale

Le modèle apprend la langue à partir de données générales :

59 % web général (CommonCrawl)
20 % code de programmation
7 % mathématiques
10,5 % documentation technique et scientifique
2 % langues non-anglaises
1,5 % contenu spécialisé

Phase 2 : focus sur le code et les mathématiques

Ici, le modèle commence à apprendre la pensée logique :

35 % mathématiques (5 fois plus que la phase 1)
30 % code (1,5 fois plus)
12 % web de haute qualité
9 % données synthétiques de haute qualité

Phases 3-4 : affinage et instructions

Ici, quelque chose de très important apparaît : Chain-of-Thought (chaîne de pensée — une technique qui permet à l'IA d'écrire ses étapes avant de répondre). Le modèle apprend à expliquer son raisonnement étape par étape.

Les données deviennent plus équilibrées et de meilleure qualité :

16,67 % web de haute qualité
16,67 % mathématiques
16,67 % code
12,5 % longues chaînes de pensée
7,5 % instructions linguistiques
4,5 % instructions de programmation

Phase 5 : gestion des textes longs

Cette dernière phase élargit la fenêtre de contexte (context window — la quantité de texte que le modèle peut lire et mémoriser) de 4 000 tokens à 512 000 tokens.

Vous pouvez imaginer la différence : 4 000 tokens = 3 pages Word. 512 000 tokens = un livre entier ou plus.

L'affinage réel : 4,1 millions d'échantillons manuels

Après l'entraînement de base, IBM a lancé une phase d'entraînement supervisé (Supervised Fine-tuning — adapter le modèle sur des données spécifiques pour qu'il soit meilleur dans une tâche donnée). Mais pas avec n'importe quelles données — des données filtrées avec précision.

IBM a utilisé LLM-as-Judge (un modèle IA qui juge la qualité des réponses). Chaque réponse passe par 6 critères :

Suivi des instructions — le modèle a-t-il compris ce qu'on lui demandait
Exactitude — la réponse est-elle correcte
Complétude — la réponse est-elle complète
Concision — la réponse est-elle brève sans remplissage
Naturel — la réponse se lit-elle comme écrite par un humain
Calibrage — le modèle est-il confiant au bon niveau

Toute réponse contenant une hallucination (hallucination — quand le modèle invente des informations incorrectes avec confiance) ou des informations fausses est automatiquement rejetée, même si elle obtient des points élevés.

Résultat : 4,1 millions d'échantillons de haute qualité seulement.

L'amélioration finale : apprentissage par renforcement (Reinforcement Learning)

Après l'entraînement supervisé, IBM a utilisé l'apprentissage par renforcement (Reinforcement Learning — une technique qui permet au modèle d'apprendre par essais et erreurs, un peu comme lui donner des récompenses pour les bonnes réponses) en 4 phases consécutives :

1. Apprentissage multi-domaines

Le modèle s'entraîne sur 45 504 prompts (demandes) de différents domaines en même temps. Cette approche empêche le modèle d'oublier ce qu'il a appris avant (catastrophic forgetting).

2. Amélioration du dialogue (RLHF)

Le modèle s'entraîne sur des questions générales pour devenir plus amical et utile. Résultat : amélioration de 18,9 points sur Alpaca-Eval (un benchmark qui mesure la qualité du dialogue).

3. Calibrage de l'identité et des connaissances

Une petite phase (40 étapes d'entraînement seulement) qui améliore la capacité du modèle à se présenter correctement.

4. Amélioration des mathématiques

La phase 2 (RLHF) faisait oublier au modèle les mathématiques. La phase 4 le réentraîne sur des problèmes mathématiques pour restaurer ses performances. Résultat : +3,8 points sur GSM8K, et +23,48 points sur DeepMind-Math.

Le résultat impressionnant : 8B rivalise avec 32B

Le vrai test : cette approche fonctionne-t-elle vraiment ?

Oui.

Granite 4.1-8B (petit modèle avec 8 milliards de paramètres) rivalise ou surpasse Granite 4.0-H-Small (ancien modèle avec 32 milliards de paramètres, mais utilisant la technique Mixture of Experts — MoE — une technique qui permet au modèle d'utiliser seulement une partie de lui-même pour chaque question, comme une équipe de spécialistes au lieu d'une grande équipe unique).

Le nouveau petit modèle surpasse le grand ancien modèle sur 10 benchmarks différents :

IFEval (suivi des instructions)
AlpacaEval (qualité du dialogue)
MMLU-Pro (connaissances générales)
GSM8K (mathématiques)
DeepMind-Math (mathématiques avancées)
et autres

Cela signifie : vous n'avez pas besoin d'un modèle énorme pour obtenir une haute qualité. Un petit modèle entraîné intelligemment peut rivaliser avec un grand modèle entraîné de manière ordinaire.

Les performances pratiques

Granite 4.1 peut :

Utiliser des outils (Tool calling) — peut utiliser des APIs et gérer des tâches complexes
Gérer des textes longs — 512 000 tokens signifie qu'il peut lire un livre entier et vous en extraire des informations
Fonctionner rapidement — pas besoin de longues chaînes de pensée, ce qui signifie une latence basse et des coûts réduits
Fonctionner en 12 langues — anglais, français, espagnol, arabe, code, et autres

La technologie sous-jacente

IBM a entraîné Granite 4.1 sur un cluster NVIDIA GB200 NVL72 (des centaines de milliers des GPUs les plus puissants du monde). Une seule phase d'entraînement a pris des semaines et coûté des millions de dollars.

Mais la bonne nouvelle : vous n'avez pas besoin de réentraîner le modèle. IBM l'a lancé en open source, vous pouvez le télécharger et l'utiliser directement.

Qu'est-ce que cela signifie pour vous ?

Granite 4.1 est un modèle de production puissant, open source et efficace. Les banques marocaines et les grandes entreprises qui ont besoin d'un chatbot intelligent ou d'un assistant sans dépendre de sociétés externes peuvent l'utiliser. Les développeurs indépendants peuvent créer des applications IA sans les coûts élevés des APIs. Même les universités et les écoles techniques comme 1337 et Le Wagon Casa peuvent l'utiliser pour l'enseignement.

Le point le plus important : ce modèle prouve que la qualité surpasse la taille. Un développeur intelligent peut utiliser un modèle 8B avec des données de haute qualité et rivaliser avec un modèle 32B entraîné de manière ordinaire. Cela signifie plus d'opportunités pour les petites et moyennes entreprises, et les développeurs indépendants travaillant avec des entreprises européennes — ils n'ont pas besoin d'investir des millions pour entrer dans le monde de l'IA.

Articles liés

الاتحاد الأوروبي بغى يكون مستقل تكنولوجيا: 4 محاور جديدة

infrastructure

L'UE dévoile son plan pour l'autonomie numérique européenne

La Commission européenne présente un paquet de mesures pour renforcer ses capacités en semi-conducteurs, cloud, IA et open source, réduisant sa dépendance aux fournisseurs extérieurs.

3 min de lectureLire la suite

<bdi>Nemotron 3.5</bdi>: نموذج أمان <bdi>AI</bdi> كيتفهم الصور والنصوص وكيقبل سياسات مخصصة

llm

Nemotron 3.5 : le modèle de sécurité IA qui comprend textes et images

NVIDIA lance Nemotron 3.5, un modèle de sécurité IA multimodal qui analyse textes et images simultanément et accepte des politiques de sécurité personnalisées. Essentiel pour les entreprises utilisant l'IA en plusieurs langues.

4 min de lectureLire la suite

<bdi>NousCoder-14B</bdi>: نموذج كود مفتوح المصدر فوقت <bdi>Claude Code</bdi>

open-source

NousCoder-14B : le modèle de code open source qui défie Claude

Nous Research lance un modèle de programmation open source entraîné en 4 jours seulement. Ses performances rivalisent avec les systèmes professionnels bien plus coûteux.

5 min de lectureLire la suite

الـ <bdi>AI</bdi> والعربية: ماشي مشكل اللغة، مشكل الثقة

llm

L'IA arabe face à un problème de confiance, pas de langue

Les modèles d'IA mondiaux produisent un arabe fluide mais imprécis. En finance, droit et gouvernance, cette illusion de précision devient dangereuse.

5 min de lectureLire la suite

← Tous les articles