Dossier NVIDIA GR00T — page 2

190 articles · page 2 sur 4

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

51arXiv cs.RO IA physiqueOpinion

PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 15 mai 2026 sur arXiv (2605.10925) PriorVLA, un framework d'adaptation pour les modèles Vision-Language-Action (VLA) destinés à la manipulation robotique généraliste. L'approche repose sur deux composants distincts : un Prior Expert gelé, utilisé en lecture seule pour conserver les représentations apprises lors du pré-entraînement, et un Adaptation Expert entraînable sur la tâche cible. Des Expert Queries extraient des priors de scène depuis le VLM pré-entraîné et des priors moteurs depuis le Prior Expert, puis les injectent dans l'Adaptation Expert pour guider la spécialisation. Résultat : PriorVLA ne met à jour que 25 % des paramètres modifiés par un fine-tuning complet. Sur le benchmark RoboTwin 2.0-Hard, il dépasse pi0.5 de 11 points ; sur LIBERO, il atteint 99,1 % de taux de succès moyen. Sur huit tâches réelles et deux plateformes embarquées, le modèle affiche 81 % de succès en distribution et 57 % hors distribution. En régime few-shot à 10 démonstrations par tâche, il atteint respectivement 48 % et 32 %, surpassant pi0.5 de 24 et 22 points. Le problème central que PriorVLA attaque est bien documenté : le fine-tuning complet d'un VLA pré-entraîné sur de grandes quantités de données tend à écraser les priors larges au profit de patterns étroits propres à la distribution d'entraînement, dégradant la généralisation hors distribution. C'est précisément le noeud du déploiement industriel, un robot doit fonctionner dans des environnements légèrement différents de ceux vus à l'entraînement. Les gains OOD de PriorVLA, conjugués à ses performances few-shot, suggèrent une voie plus efficace en données et en calcul pour adapter des fondations générales à des cellules de production spécifiques, sans réentraîner l'intégralité du modèle. PriorVLA s'inscrit dans la course à l'adaptation des VLA généralistes, un segment dominé par Physical Intelligence avec pi0 et pi0.5, et par NVIDIA avec GR00T N2 côté infrastructure. L'article utilise pi0.5 comme baseline principale, ce qui positionne PriorVLA explicitement comme une amélioration de l'état de l'art issu de Physical Intelligence. L'approche par expert gelé rappelle des techniques issues du PEFT (Parameter-Efficient Fine-Tuning) en NLP, ici transposées à l'action robotique. Les benchmarks RoboTwin 2.0 et LIBERO sont des standards académiques simulés ; les résultats sur tâches réelles, bien que prometteurs, restent limités à un contexte de laboratoire. Aucun déploiement industriel ni partenariat industriel n'est mentionné dans la publication.

UELes laboratoires de robotique européens (CEA-List, INRIA) pourraient appliquer cette méthode pour adapter des VLA généraux à leurs plateformes avec moins de données et de calcul, mais aucune entité française ou européenne n'est directement impliquée dans la publication.

Dossier NVIDIA GR00T — page 2

PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)

Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique

HarmoWAM : harmoniser manipulation généraliste et précise grâce aux modèles d'action du monde adaptatifs

ALAM : des transitions latentes algébriquement cohérentes pour les modèles VLA

HiVLA : un système de manipulation incarnée hiérarchique centré sur l'ancrage visuel

Apprentissage sim-vers-réel zéro-shot pour robots : étude de préhension réactive par main dextérique

HeteroGenManip : manipulation généralisable pour les interactions avec des objets hétérogènes

Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde

LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)

RoboMemArena : un benchmark complet et exigeant pour la mémoire des robots

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

CapVector : des vecteurs de capacité transférables dans l'espace paramétrique pour les modèles VLA

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

CommandSwarm : génération d'arbres de comportement en langage naturel pour essaims robotiques avec contraintes de sécurité

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique

DynaRetarget : un retargeting dynamiquement réalisable par optimisation de trajectoire par échantillonnage

NoiseGate : plannings de bruit par pas de temps latent comme filtrage d'information dans les modèles monde-action

CSR : politiques en temps réel à horizon infini avec représentations d'état massivement en cache

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Parkour humanoïde perceptif : enchaînement de compétences dynamiques par correspondance de mouvement

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés

Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde

ReActor : apprentissage par renforcement pour le reciblage de mouvement avec physique

Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel

Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

Atlas de Boston Dynamics épate avec un appui tendu renversé parfait

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Sécurité de l'IA incarnée : panorama des risques, attaques et défenses

Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle

Une approche rigoureuse pour générer des démonstrations synthétiques haute fidélité en apprentissage par imitation

Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative

VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert

ShapeGrasp : complétion de forme et préhension visuo-haptiques simultanées pour une manipulation robotique améliorée

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

Unitree redéfinit le marché des robots humanoïdes d'entrée de gamme avec un modèle à 4 290 $

Comment fonctionnent réellement les VLA en environnements ouverts

Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

InternScenes : un jeu de données de scènes intérieures simulables à grande échelle avec des agencements réalistes

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique