Dossier NVIDIA Isaac & Cosmos

34 articles

La pile NVIDIA Isaac et les world models Cosmos : simulation, génération de données synthétiques, sim2real pour entraînement de politiques robotiques.

Figure 1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Tous les dossiers →

1arXiv cs.RO IA physiqueOpinion

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

Des chercheurs ont publié sur arXiv (référence 2605.13276) un framework distribué baptisé D-VLA, conçu pour entraîner par renforcement les modèles Vision-Language-Action (VLA) à très grande échelle. Le problème central qu'ils adressent est un goulot d'étranglement systémique : lorsqu'on applique du reinforcement learning (RL) à des VLA de plusieurs milliards de paramètres dans un environnement distribué, la simulation physique haute-fidélité et les calculs d'inférence se disputent les mêmes ressources GPU (VRAM, bande passante), ce qui dégrade le débit global. D-VLA répond par trois mécanismes : un "Plane Decoupling" qui isole physiquement les données d'entraînement haute fréquence du contrôle des poids basse fréquence, un pipeline asynchrone à quatre fils d'exécution ("Swimlane") permettant le chevauchement complet des phases de sampling, d'inférence, de calcul de gradient et de distribution des paramètres, et un système dual-pool de gestion VRAM couplé à une réplication "topology-aware". Sur le benchmark LIBERO, le framework surpasse significativement les solutions RL dominantes en débit et en efficacité d'échantillonnage pour des modèles à l'échelle du milliard de paramètres. Des tests de passage à l'échelle trillion de paramètres indiquent une stabilité maintenue et un speedup linéaire. L'enjeu industriel est concret : les modèles VLA sont désormais au coeur des architectures robotiques génériques (manipulation, navigation, planification multimodale), mais leur entraînement par RL reste prohibitif en ressources. Un framework qui résout le conflit simulation/optimisation et atteint un speedup linéaire à l'échelle du trillion de paramètres lève l'un des principaux verrous pour entraîner des agents polyvalents sans multiplier les clusters GPU de façon exponentielle. C'est une brique infrastructure, pas un robot, mais elle conditionne directement la vitesse à laquelle des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les VLA internes de Figure AI peuvent être affinés par RL dans des environnements simulés réalistes. Ce travail s'inscrit dans une course à la scalabilité du RL pour l'embodied AI, où les frameworks existants (IsaacLab, RLlib, sample-factory) n'ont pas été conçus pour les contraintes spécifiques des VLA massifs. Les auteurs ne mentionnent pas d'affiliation institutionnelle clairement identifiable dans l'abstract, et le papier est un preprint non encore évalué par les pairs. Aucun déploiement réel ni partenariat industriel n'est annoncé à ce stade. Les prochaines étapes naturelles seraient une validation sur des tâches robotiques plus complexes que LIBERO et une intégration avec des simulateurs comme Isaac Sim ou MuJoCo à grande échelle.

UELes chercheurs européens en embodied AI pourraient exploiter ce framework pour réduire le coût GPU de l'entraînement RL sur VLA, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

Dossier NVIDIA Isaac & Cosmos

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

Estimation de scènes encombrées prêtes pour la simulation par optimisation conjointe de forme et de pose intégrant la physique

Contacts corps rigides lisses formulés comme un ReLCP : un problème de complémentarité linéaire généré récursivement

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation

IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite

Modèle JODA : dynamique articulaire composable pour objets articulés

Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents

Exploiter les gradients analytiques dans l'apprentissage par renforcement à sécurité garantie

DexSim2Real : transfert simulation-réel guidé par un modèle fondation pour la manipulation dextérique généralisable

Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation

Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples

Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle

Une approche rigoureuse pour générer des démonstrations synthétiques haute fidélité en apprentissage par imitation

MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage

Lucid-XR : un moteur de données en réalité étendue pour la manipulation robotique

RopeDreamer : modèle d'espace d'état récurrent cinématique pour la dynamique des objets linéaires déformables

EvolvingAgent : un agent à curriculum auto-évolutif avec modèle du monde continu pour les tâches à long horizon

Navigation omnidirectionnelle par vision : apprentissage par distillation enseignant-élève avec estimation de profondeur monoculaire

LeHome : un environnement de simulation pour la manipulation d'objets déformables en contexte domestique

Estimation de la présence humaine par vision pour améliorer la sécurité et l'efficacité des AMR en entrepôt industriel

Un robot humanoïde Nvidia tient un poste de 8 heures en usine Siemens à 60 bacs par heure

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés

Apprentissage rapide par simulation GPU pour la manipulation de matériaux déformables en quelques minutes

Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique

ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets

De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables

Vidéo du vendredi : un robot humanoïde apprend à jouer au tennis face à des humains