researchنُشر فـ 4 juin 20263 دقائق قراءة

Cosmos 3 : le modèle IA qui comprend la physique réelle

NVIDIA lance Cosmos 3, un modèle unifié capable de comprendre le mouvement, la physique et la causalité. Open source et révolutionnaire pour la robotique et les véhicules autonomes.

NVIDIA Cosmos 3: النموذج الأول كيفهم ويدير الفيزياء الحقيقية

NVIDIA vient de lancer Cosmos 3, un modèle IA conçu pour accomplir quelque chose qui n'était pas simple jusqu'à présent : comprendre la physique réelle. Pas seulement analyser des images et du texte — comprendre le mouvement, la causalité (si une balle tombe, elle descendra), et les relations spatiales.

Ce modèle s'adresse aux robots, aux véhicules autonomes et aux usines intelligentes. Et la meilleure nouvelle : il est open source sur Hugging Face, et vous pouvez le télécharger et l'utiliser dès maintenant.

Qu'y a-t-il de nouveau dans Cosmos 3 ?

La grande différence : un seul modèle au lieu de cinq.

Avant, si vous vouliez construire un système capable de comprendre la physique, vous deviez travailler avec des modèles séparés :

  • Un modèle pour générer des vidéos (Cosmos Predict)
  • Un modèle pour contrôler les mouvements (Cosmos Transfer)
  • Un modèle pour comprendre les scènes (Cosmos Reason)
  • Un modèle pour les politiques de mouvement (Cosmos Policy)

Maintenant, tout cela se trouve dans un seul modèle. Cet omni-modèle utilise une architecture appelée Mixture-of-Transformers (MoT), c'est-à-dire plusieurs Transformers (l'architecture technique sur laquelle reposent la plupart des modèles IA modernes comme GPT et Claude) qui travaillent ensemble intelligemment.

Le résultat : vous pouvez gérer tout cela en un seul forward pass :

  • Générer des vidéos réalistes à partir de texte, d'images ou d'autres vidéos
  • Prédire les mouvements et les séquences futures
  • Comprendre la physique de scènes complexes

Pourquoi est-ce important pour la Physical AI ?

L'IA actuelle comprend les images et le texte. Mais les robots et les véhicules autonomes ont besoin de quelque chose de différent : comprendre la physique en action.

Imaginez un robot qui doit saisir des objets sur une étagère. Ce n'est pas suffisant de dire « c'est un rectangle ». Il doit comprendre :

  • Comment l'objet se déplace si vous le frappez
  • Le poids et l'équilibre
  • La vitesse et la force nécessaires

Cosmos 3 fait tout cela. Les entreprises l'utilisent pour :

  • La robotique : entraîner un robot sur des mouvements complexes sans casser les choses
  • Les véhicules autonomes : simuler des scénarios dangereux (débris sur la route, accidents potentiels)
  • La sécurité industrielle : générer des données d'entraînement pour les systèmes de surveillance

Deux versions : Nano et Super

NVIDIA a lancé deux versions :

Cosmos 3 Nano (16 milliards de paramètres)

La version légère, capable de fonctionner sur une GPU workstation comme la RTX PRO 6000. Idéale pour les petites entreprises et les développeurs indépendants. Disponible gratuitement sur Hugging Face.

Cosmos 3 Super (64 milliards de paramètres)

La version lourde, pour générer des données massives et la recherche. Nécessite des GPUs NVIDIA Hopper ou Blackwell (les derniers processeurs NVIDIA).

Comment l'utiliser ?

NVIDIA a intégré Cosmos 3 avec Diffusers (la célèbre bibliothèque Hugging Face pour la génération). Vous pouvez l'utiliser en seulement 5 lignes de code :

from diffusers import Cosmos3OmniPipeline
pipe = Cosmos3OmniPipeline.from_pretrained("nvidia/Cosmos3-Nano")
result = pipe(prompt="Your prompt here", num_frames=1)

Les prompts doivent être détaillés. Au lieu de dire « robot picking up objects », dites :

« A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned above colored objects. Overhead fluorescent lights illuminate the scene brightly. »

Plus les détails sont précis, meilleure sera la vidéo.

Les données et le post-training

NVIDIA a également lancé des ensembles de données synthétiques pour que les entreprises puissent adapter le modèle à leur contexte.

Si vous avez un robot spécifique ou un environnement particulier, vous pouvez entraîner Cosmos 3 sur vos propres données. Ce post-training (l'adaptation du modèle à des données spécifiques pour améliorer les performances sur une tâche donnée) améliore considérablement les résultats.

NVIDIA a publié les scripts complets sur GitHub — pas de code fermé.

Qu'est-ce que cela signifie pour vous ?

Les entreprises marocaines dans les secteurs industriels — phosphates (OCP), électricité, usines intelligentes — peuvent énormément bénéficier de ce type de modèles. Générer des données d'entraînement pour les robots signifie économiser des millions de dirhams (pas besoin d'acheter des milliers de robots pour tester).

Même les développeurs marocains travaillant à distance pour des entreprises européennes trouveront ici un nouveau domaine : construire des systèmes de Physical AI nécessite une expertise en Computer Vision, Robotique et Simulation. La demande de talents dans ce domaine sera énorme dans les années à venir, particulièrement dans les grandes entreprises technologiques. Et puisque l'outil est open source, vous n'avez pas besoin de licence coûteuse — vous pouvez commencer à expérimenter dès maintenant.

مقالات ذات صلة