Dossier NVIDIA GR00T — page 3

190 articles · page 3 sur 4

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

101arXiv cs.RO IA physiqueOpinion

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Une équipe de chercheurs a publié sur arXiv (référence 2410.14022v2) une architecture de contrôle combinant des modèles Vision-Langage-Action (VLA) à grande échelle avec des politiques d'imitation légères pour la manipulation dextère multi-doigts. Le système repose sur une main robotique anthropomorphique propriétaire à 13 degrés de liberté (DOF), dotée d'une compliance mécanique modulable au niveau des doigts. Le cœur de l'approche est un contrôleur à commutation piloté par événements : le VLA assure la planification de haut niveau à partir d'instructions en langage naturel, tandis que des politiques dextères légères, entraînées par imitation sur des sous-tâches spécifiques, prennent le relais pour l'exécution précise. Les transitions entre les deux niveaux sont déclenchées par des signaux d'événement que le VLA apprend à prédire lui-même après fine-tuning sur un volume minimal de démonstrations. Ce travail s'attaque à un verrou bien identifié du secteur : les VLA (Pi-0, OpenVLA, GR00T N2) excellent en planification multi-tâches mais opèrent typiquement avec des préhenseurs pince à 2 DOF, insuffisants pour la manipulation fine. À l'inverse, les politiques d'imitation pour mains multi-doigts restent cantonnées à des tâches étroitement définies, sans généralisation par langage. En montrant que la compliance matérielle, soit la capacité d'une main à absorber passivement les perturbations de contact, améliore la stabilité sans complexifier le contrôle logiciel, les auteurs fournissent un argument concret en faveur de la co-conception hardware-software, encore trop souvent négligée dans la course au sim-to-real. La modularité revendiquée, à savoir l'ajout de nouvelles compétences ou le changement de main sans réentraîner le VLA, constitue une propriété potentiellement intéressante pour les intégrateurs industriels, même si les conditions d'évaluation restent strictement laboratoire. L'approche s'inspire de la "two-channel hypothesis" du contrôle moteur humain, qui distingue la planification corticale des réflexes spinaux. Sur le plan concurrentiel, elle se positionne face aux travaux de Physical Intelligence (Pi-0), de Google DeepMind sur la manipulation dextère, et aux architectures ACT ou Diffusion Policy appliquées à des mains haute-DOF. Ni institution d'appartenance ni métriques de performance chiffrées ne figurent dans l'abstract disponible, ce qui limite toute évaluation externe sérieuse de la contribution. La prochaine étape crédible serait une validation sur des benchmarks standardisés comme YCB et une comparaison directe avec des mains tierces commerciales, pour confirmer que la cross-embodiment claim tient hors du cadre contrôlé des auteurs.

Dossier NVIDIA GR00T — page 3

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Drifting Field Policy : une politique générative en une étape via le flux de gradient de Wasserstein

BioProVLA-Agent : système multi-agents incarné avec VLA et raisonnement en boucle fermée en laboratoire biologique

BrickCraft : composition de compétences visuomotrices avec guidage manuel pour l'assemblage de briques emboîtables à long horizon

La collecte de données robotiques traditionnelle est obsolète : ce qui la remplace

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

Utilisation créative d'outils par raisonnement contrefactuel

TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain

Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Paramétrage adaptatif des scans pour l'inspection robotique par plongements vision-langage et calcul hyperdimensionnel

RLDX-1 : rapport technique

Préhension indépendante du point de vue par VLM et observations partielles

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

Phone2Act : système de téléopération économique et universel pour la collecte de données VLA à grande échelle

Raisonner en texte et en images : traces de raisonnement vision-langage entrelacées pour la manipulation robotique à long horizon

Extraire la récompense cachée dans les politiques de diffusion

Lucid-XR : un moteur de données en réalité étendue pour la manipulation robotique

Being-H0.7 : un modèle du monde-action en perspective égocentrique

Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

Apprentissage robotique à partir de vidéos humaines : une synthèse

ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs

STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique

Un cerveau unique pour tout gérer : la Chine développe un modèle d'IA unifié pour la robotique multi-tâches complexe

Navigating l'encombrement : planification bi-niveau par points de passage pour systèmes multi-robots

Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies

Apprendre l'apesanteur : imiter des mouvements non auto-stabilisants sur un robot humanoïde

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée

Préentraînement séparé des dynamiques directe et inverse pour un apprentissage robotique découplé

AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA

ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé

OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste

2D ou 3D : qui gouverne la saillance dans les modèles VLA ? Un cadre d'élagage de tokens en trois étapes avec conscience de la saillance modale

XEmbodied : un modèle fondation aux indices géométriques et physiques renforcés pour les environnements incarnés à grande échelle

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable

IA embarquée : optimiser la mémoire pour faire tourner de grands modèles sur NVIDIA Jetson

La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China

Les atouts de la chaîne d'approvisionnement asiatique pourraient donner à l'Asie un avantage sur les États-Unis dans la course à l'IA, selon Foo de Granite Asia