Dossier NVIDIA GR00T — page 4

190 articles · page 4 sur 4

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

151arXiv cs.RO RechercheOpinion

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

Une équipe de chercheurs a publié sur arXiv en mai 2026 (arXiv:2605.08571) un cadre théorique baptisé BEACON -- acronyme de Best-Effort Adaptation for Cross-Domain Co-Training -- destiné à entraîner des politiques robotiques génératives lorsque les données dans le domaine cible sont rares. L'approche repose sur un mécanisme de pondération par importance : plutôt que de mélanger naïvement des démonstrations provenant de domaines sources abondants (simulation, autres environnements) avec un faible nombre de démonstrations réelles, BEACON apprend simultanément une politique visuomotrice basée sur la diffusion et des poids par échantillon source qui minimisent une fonction objectif garantissant la généralisation sur le domaine cible. Pour rendre cela praticable sur des séquences de haute dimension, les auteurs développent des estimateurs de divergence à l'échelle de l'instance, des mises à jour alternées stochastiques, et une extension multi-sources capable de pondérer des domaines sources hétérogènes. L'enjeu est directement lié au problème du sim-to-real gap, l'un des verrous principaux de la robotique de manipulation : collecter des démonstrations téléopérées dans le monde réel reste coûteux et lent, tandis que la simulation génère des données à bas coût mais au prix d'un écart de distribution souvent fatal au déploiement. BEACON montrerait, selon les auteurs, des gains de robustesse et d'efficacité de données par rapport à trois baselines majeures -- entraînement sur cibles seules, co-entraînement à ratio fixe, et alignement de features explicite -- dans des configurations sim-to-sim, sim-to-real et manipulation multi-sources. Le résultat le plus contre-intuitif est qu'en l'absence de tout objectif d'alignement explicite, BEACON produit néanmoins un alignement de représentations comme effet émergent de la pondération par divergence. Les auteurs ne fournissent pas de taux de réussite précis dans l'abstract, ce qui limite la comparaison directe avec des benchmarks publiés. Ce travail s'inscrit dans une vague de recherches sur le transfert de politiques entre domaines, portée notamment par des méthodes comme RoboAgent, DROID, ou les approches VLA (vision-language-action) de Physical Intelligence (Pi-0) et Google DeepMind (GR00T N2), qui cherchent elles aussi à tirer parti de données hétérogènes à grande échelle. Là où ces dernières misent sur des architectures généralistes entraînées sur des corpus massifs, BEACON propose un angle complémentaire et plus frugal : exploiter intelligemment des sources existantes sans disposer de millions de démonstrations. Le code et les expériences n'étant pas encore publics, il reste à confirmer si les résultats tiennent sur des tâches de manipulation réelle complexes hors du cadre contrôlé des évaluations présentées.

Dossier NVIDIA GR00T — page 4

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Video Friday : l'IA confère aux mains robotiques une dextérité humaine

SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée

Correspondance de flux action-à-action

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé

Du langage à la logique : une architecture théorique pour la navigation sécurisée fondée sur les modèles VLM

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède

Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled

Décomposer et recomposer : inférer de nouvelles compétences robotiques à partir des capacités existantes

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Anticipation-VLA : résolution de tâches incarnées à long horizon par génération de sous-objectifs

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Attention spatiale stéréo multi-étapes pour manipulation mobile en temps réel sous variations d'échelle et perturbations

MotuBrain : un modèle du monde avancé pour le contrôle robotique

Modélisation du monde centrée sur les événements avec récupération augmentée par mémoire pour la prise de décision en IA incarnée

ImagineNav++ : piloter des modèles vision-langage comme navigateurs incarnés par imagination de scènes

Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?

Un robot humanoïde chinois grandeur nature avec 18 000 capteurs maîtrise 115 degrés de liberté

Modélisation unifiée des actions dans un monde 4D à partir de vidéos avec débruitage asynchrone

Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

Shengshu Technology lance Motubrain, son modèle monde-action

dWorldEval : évaluation évolutive de politiques robotiques via un modèle du monde à diffusion discrète

Modèle VLA GazeVLA : apprendre l'intention humaine pour la manipulation robotique

Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense

Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise

Planification VLA à horizon étendu par conditionnement sur traces

UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions

De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables

Transfert de compétences entre géométries différentes en une seule démonstration par décomposition en parties

COVER : planification de mouvement en temps fixe avec cartes à couverture vérifiée en environnements semi-statiques

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Règles critiquées : les 5 mises à jour de la GPT-3 de Microsoft