Aller au contenu principal
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
IA physiquearXiv cs.RO1sem

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub.

Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels.

Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

Impact France/UE

La mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

À lire aussi

Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique
1arXiv cs.RO 

Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2507.01099, version 4) un modèle de génération vidéo 4D destiné à améliorer la planification et la manipulation robotique. L'approche prend en entrée une seule image RGB-D par point de vue, c'est-à-dire une image couleur couplée à une carte de profondeur, et génère des séquences vidéo futures alignées spatialement et temporellement depuis de nouveaux angles de caméra, sans nécessiter la connaissance préalable des poses de caméra. La cohérence géométrique multi-vue est imposée pendant l'entraînement par une supervision fondée sur l'alignement de nuages de points inter-vues (cross-view pointmap alignment), forçant le modèle à construire une représentation 3D partagée de la scène. Les vidéos 4D prédites sont ensuite exploitées par un tracker de pose 6DoF disponible sur étagère pour reconstituer les trajectoires de l'effecteur terminal du robot, produisant des politiques de manipulation qui généralisent à des points de vue inédits. Les expériences portent sur plusieurs jeux de données robotiques simulés et réels, avec de meilleures performances visuelles et spatiales que les approches de référence. Ce résultat s'attaque directement à l'un des verrous majeurs du déploiement industriel de la manipulation robotique : la dépendance à une calibration précise des caméras et à leur positionnement fixe. En apprenant implicitement la géométrie de la scène plutôt qu'en la recevant comme entrée explicite, le modèle produit des prédictions visuellement stables là où les approches concurrentes dérivent dès qu'on change l'angle de vue. Pour un intégrateur ou un COO industriel, cela signifie qu'une cellule robotisée pourrait potentiellement réutiliser une politique apprise sans reconfigurer l'ensemble du système de vision si une caméra est déplacée. L'utilisation d'un tracker 6DoF hors catalogue pour extraire les trajectoires limite par ailleurs le besoin d'infrastructure propriétaire et simplifie l'intégration. Ce travail s'inscrit dans la vague des "world models" appliqués à la robotique, aux côtés d'approches comme UniSim ou des modèles VLA (Vision-Language-Action) à grande échelle qui cherchent eux aussi à donner aux robots une compréhension prédictive de leur environnement. La principale réserve est que le papier est une prépublication arXiv, sans validation industrielle annoncée ni partenaire de déploiement identifié : c'est de la recherche amont, pas un produit expédié. Les méthodes concurrentes s'appuyant sur des poses de caméra explicites, comme les approches NeRF ou 3D Gaussian Splatting pour la manipulation, offrent parfois une précision supérieure dans des environnements très contrôlés, mais au prix d'une configuration plus contraignante. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation plus complexes, une montée en échelle sur des plateformes comme les bras Franka ou UR, et une intégration dans des pipelines de politique complète de type diffusion ou transformer.

IA physiquePaper
1 source
MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique
2arXiv cs.RO 

MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique

Des chercheurs présentent ce mois-ci MuseVLA (arXiv:2606.17598, juin 2026), un modèle Vision-Language-Action capable d'intégrer des capteurs non-RGB comme entrées de perception active lors de tâches de manipulation robotique. Sur un robot à main dextre testée en conditions réelles, MuseVLA atteint un taux de succès moyen de 80,6 % sur trois familles de tâches : saisie guidée par la température, recherche d'objet par signal audio, et récupération d'objet dissimulé assistée par radar. L'architecture repose sur un mécanisme en deux temps : le modèle génère d'abord un "sensor token" qui sélectionne dynamiquement la modalité sensorielle pertinente pour la tâche en cours, puis convertit la mesure capteur en une "grounded sensor image", une représentation intermédiaire unifiée fusionnée avec le flux RGB classique avant la génération d'action. Les auteurs introduisent également un pipeline de synthèse de données qui augmente des datasets RGB existants avec des images capteur simulées, contournant ainsi le coût prohibitif de la collecte de données multisensorielles réelles. L'apport principal est architectural plutôt que purement empirique : le découplage entre le traitement capteur spécifique et le backbone VLA permet d'intégrer de nouveaux capteurs sans réentraîner le modèle de base, un principe analogue aux "tool calls" dans les LLM. Cette modularité répond à une limite structurelle des VLA actuels, dont Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA), qui opèrent quasi exclusivement sur RGB. La capacité de zéro-shot sur des tâches non vues lors de l'entraînement est notable, même si les conditions expérimentales restent celles d'un laboratoire, sans déploiement industriel rapporté. Les métriques de cycle time ou de robustesse en environnement non contrôlé ne sont pas fournies, ce qui limite l'interprétation du 80,6 % en contexte réel. Le papier s'inscrit dans une effervescence autour des VLA généralistes depuis mi-2024, avec des acteurs comme Physical Intelligence, 1X Technologies, Enchanted Tools côté européen, et les équipes de Google DeepMind ou Carnegie Mellon qui multiplient les approches de fusion multimodale. MuseVLA reste pour l'instant un preprint sans code ni dataset publié, et la question de la généralisation à des capteurs industriels standards (LiDAR, force/torque) n'est pas traitée. Les prochaines étapes naturelles seraient un benchmark comparatif sur des plateformes connues type Franka ou UR, et une validation hors labo pour confirmer la thèse du sim-to-real sur les données capteur synthétiques.

UELes acteurs européens comme Enchanted Tools opèrent dans le même segment VLA généraliste, mais ce preprint n'implique aucune institution ou entreprise française ou européenne.

IA physiqueOpinion
1 source
VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique
3arXiv cs.RO 

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VILAS (arXiv 2605.02037) est une plateforme de manipulation robotique modulaire à faible coût conçue pour déployer des modèles vision-language-action (VLA) sur du matériel accessible. Le système associe un bras collaboratif Fairino FR5, un préhenseur électrique Jodell RG52-50 et un module de perception à deux caméras, coordonnés via une architecture ZMQ unifiant téleopération, collecte de données et exécution de politiques dans un pipeline unique. Pour saisir des objets fragiles sans capteur de force dédié, les auteurs ont développé une extension de préhenseur souple fondée sur le kirigami, une technique de découpe structurée qui induit une déformation contrôlée sous charge compressive, garantissant un contact doux et répétable. Trois modèles VLA ont été comparés sur cette plateforme : pi0 et pi0.5 de Physical Intelligence, et GR00T N1.6 de NVIDIA, chacun fine-tuné depuis des checkpoints publics sur un jeu de démonstrations identique collecté via le pipeline de téleopération. La tâche de validation retenue est la saisie de raisins, cas représentatif de la manipulation d'objets déformables et fragiles. Ce préprint de recherche démontre que des politiques VLA compétitives peuvent être entraînées et déployées sur du matériel grand public, sans infrastructure coûteuse ni retour d'effort. Pour les intégrateurs et les équipes de R&D à budget contraint, c'est un signal clair : le goulot d'étranglement n'est plus le hardware mais le pipeline de données et le fine-tuning. La comparaison des trois modèles dans des conditions strictement identiques (même bras, même dataset, même tâche) constitue un benchmark pratique rare, la littérature évaluant généralement les VLA sur des plateformes propriétaires difficilement reproductibles. Le fait que GR00T N1.6, conçu initialement pour les humanoïdes de NVIDIA, soit ici testé sur un cobot bas de gamme éclaire aussi la portabilité réelle de ces modèles généralistes, au-delà des démonstrations sur hardware maison. Ce travail s'inscrit dans le mouvement de démocratisation de la robotique apprenante porté notamment par LeRobot de Hugging Face ou les travaux autour d'ACT (Action Chunking with Transformers). Le Fairino FR5 se positionne dans la gamme des cobots abordables, face au Lite6 d'UFactory ou au CR5 de Dobot. Pi0 et pi0.5 sont issus de Physical Intelligence (Pi), startup californienne fondée en 2023 et financée entre autres par Bezos Expeditions, tandis que GR00T N1.6 est le modèle de fondation robotique de NVIDIA présenté en 2025 pour ses partenaires humanoïdes. Les suites naturelles de cette plateforme incluent l'extension à des tâches bi-manuelles, l'élargissement du catalogue d'objets, et potentiellement la publication du dataset de démonstrations pour faciliter la reproductibilité.

IA physiqueOpinion
1 source
HarmoWAM : la manipulation robotique généraliste
4arXiv cs.RO 

HarmoWAM : la manipulation robotique généraliste

Une équipe de chercheurs a soumis HarmoWAM (arXiv:2605.10942) en mai 2026, un nouveau modèle d'action mondial (WAM) end-to-end pour le contrôle de robots manipulateurs. L'architecture unifie deux paradigmes antagonistes dans la littérature : l'"Imagine-then-Execute" (prédiction vidéo puis dynamique inverse), généralisable mais imprécis, et le "Joint Modeling" (actions et représentations visuelles comodélisées), précis mais limité à sa distribution d'entraînement. HarmoWAM combine un world model fournissant des priors physiques spatio-temporels, deux experts d'action complémentaires (un expert prédictif exploitant les dynamiques latentes, un expert réactif inférant les actions depuis l'évolution visuelle prédite), et un Process-Adaptive Gating Mechanism qui sélectionne automatiquement lequel activer selon la phase de la tâche. Sur six tâches réelles évaluées dans trois environnements jamais vus à l'entraînement, le système surpasse les meilleurs VLAs de 33 % et les WAMs concurrents de 29 % en généralisation zéro-shot. Le résultat stratégique n'est pas la performance brute, mais la capacité à généraliser sans réentraînement sur des configurations inédites -- le blocage central identifié par les intégrateurs industriels. Un robot précis en lab s'effondre dès qu'un fond, une position ou un objet change. En découplant transit généraliste et interaction précise, avec un mécanisme automatique pour basculer entre les deux selon la phase, HarmoWAM attaque directement le sim-to-real gap et la fragilité distributionnelle des VLAs actuels. Si ces gains se confirment sur des configurations plus variées, cela contredit l'hypothèse souvent défendue que précision et généralisation restent fondamentalement incompatibles à court terme. Les WAMs émergent comme alternative aux VLAs classiques, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), en intégrant explicitement un modèle prédictif du monde physique dans la boucle de contrôle. HarmoWAM cherche à réconcilier deux branches qui s'étaient développées séparément au sein de cette famille. L'article reste un preprint arXiv non encore évalué par les pairs, sans partenaire industriel cité ni calendrier de déploiement annoncé -- il s'agit donc d'une annonce de recherche, pas d'un produit shipé. Aucune entreprise française ou européenne n'est mentionnée dans les travaux. La prochaine étape naturelle serait une évaluation sur des benchmarks standardisés comme LIBERO ou RLBench, ainsi que des tâches longue durée multi-étapes, domaines où les WAMs montrent encore des limites reconnues.

IA physiqueOpinion
1 source