Aller au contenu principal
VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique
IA physiquearXiv cs.RO5sem

VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Une équipe de chercheurs propose VER (Vision Expert Transformer), une architecture visuelle publiée sur arXiv sous l'identifiant 2510.05213 (version révisée), dédiée à l'apprentissage de politiques robotiques. Le principe central repose sur une phase de préentraînement durant laquelle plusieurs modèles fondamentaux de vision (VFMs) sont distillés dans une bibliothèque d'experts visuels unifiée. Une fois cette bibliothèque constituée, seul un réseau de routage léger, représentant moins de 0,4 % des paramètres totaux, est ajusté pour chaque tâche aval, sélectionnant dynamiquement les experts pertinents selon la nature de la manipulation à effectuer. L'architecture introduit également une méthode de routage par patch baptisée "Patchwise Expert Routing with Curriculum Top-K Annealing", qui affine progressivement la granularité de la sélection d'experts au fil de l'entraînement. Évalué sur 17 tâches robotiques variées combinées à plusieurs têtes de politique, VER atteint des performances état de l'art sur l'ensemble des benchmarks testés.

L'intérêt de cette approche pour les intégrateurs et les chercheurs en robotique tient à deux apports distincts. Les VFMs individuels sont par nature spécialisés : chacun excelle dans un domaine précis (sémantique visuelle, géométrie, correspondance de textures) mais échoue à généraliser sur la diversité des tâches de manipulation. La distillation multi-modèles avec routage dynamique permet d'exploiter des représentations complémentaires sans repartir d'un entraînement complet, réduisant considérablement les coûts de calcul lors de l'adaptation à un nouveau domaine. Par ailleurs, les visualisations produites montrent que VER concentre ses activations sur les régions critiques de la scène, comme l'objet manipulé ou le point de saisie, tout en supprimant les activations parasites en arrière-plan, un problème connu qui dégrade la robustesse des politiques visuelles dans des environnements industriels encombrés.

Ce travail s'inscrit dans la dynamique récente d'intégration des modèles fondamentaux dans les pipelines de contrôle robotique, aux côtés d'architectures comme Octo, OpenVLA ou pi-0 de Physical Intelligence, toutes confrontées au gap entre préentraînement généraliste et déploiement sur robot physique. Les approches concurrentes de type VLA (Vision-Language-Action) partagent cet objectif de réduction du coût d'adaptation domaine-vers-robot, mais impliquent généralement un réentraînement bien plus lourd. VER se distingue par la fraction infime de paramètres ajustés lors du fine-tuning, ce qui le rend potentiellement compatible avec des contraintes matérielles embarquées. Les codes et visualisations sont accessibles sur la page projet des auteurs. À ce stade, il s'agit d'un résultat académique pur : aucun partenariat industriel ni calendrier de déploiement commercial n'est mentionné.

💬 Le point de vue du dev

0,4 % des paramètres à ajuster pour adapter le modèle à une nouvelle tâche robotique, c'est le chiffre qui change tout dans cette approche. Là où les VLA classiques comme OpenVLA ou pi-0 demandent un réentraînement costaud, VER distille plusieurs modèles de vision en amont et laisse un routage minuscule faire le tri à l'inférence, ce qui rend l'adaptation embarquée enfin envisageable sans cluster de GPUs. Résultat académique pur pour l'instant, mais ce type de travail finit généralement en prod 18 mois plus tard.

À lire aussi

Modèle d'action géométrique pour l'apprentissage de politiques robotiques
1arXiv cs.RO 

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

Des chercheurs ont déposé le 16 juin 2026 sur arXiv (arXiv:2606.17046) le Geometric Action Model (GAM), une politique de manipulation robotique conditionnée par le langage naturel. L'architecture réutilise un modèle fondamental géométrique (GFM) pré-entraîné en le scindant en deux segments : les couches superficielles encodent les observations visuelles, tandis qu'un prédicteur causal inséré à la jonction génère des tokens latents futurs conditionnés sur les instructions textuelles, la proprioception et l'historique d'actions du robot. Les blocs restants du GFM décodent ensuite simultanément la géométrie future de la scène et les actions à exécuter via un backbone unique partagé. Sur une suite de benchmarks en simulation et sur robot réel incluant des tâches de manipulation en contact riche, GAM affiche selon ses auteurs une précision, une robustesse, une vitesse d'inférence et une compacité supérieures aux baselines VLA à large échelle actuellement en référence. Le problème central qu'adresse ce travail est le décalage entre les représentations 2D dominantes dans les VLA (vision-language-action models) et la nature tridimensionnelle des interactions physiques. Des systèmes comme Pi-0 et Pi0.5 (Physical Intelligence), GR00T N2 (NVIDIA) ou les modèles RT-X (Google DeepMind) opèrent principalement sur des espaces latents dérivés d'images 2D, ce qui les handicape pour les tâches de saisie précise, d'assemblage et de dépose sur surfaces contraintes. Ancrer la prédiction d'actions directement dans un espace géométrique 3D, avec une modification minimale du modèle fondamental sous-jacent, constitue le pari architectural de GAM. Si ces résultats résistent à une reproductibilité indépendante, ils valideraient l'hypothèse que des priors géométriques explicites améliorent la généralisation des politiques généralistes face au gap sim-to-real. Cette publication s'inscrit dans une course aux VLA généralistes lancée depuis RT-2 (Google DeepMind, 2023), où la majorité des acteurs industriels, dont Figure (Helix), Agility Robotics, 1X et Physical Intelligence, misent sur des transformers multimodaux sans encodage 3D explicite. En parallèle, plusieurs laboratoires académiques (Berkeley, Stanford, CMU) explorent l'intégration de représentations géométriques comme le Gaussian Splatting dans les politiques robotiques. GAM s'inscrit dans cette seconde tendance avec une proposition architecturale minimaliste. À ce stade, il s'agit d'un preprint arXiv non peer-reviewed, sans déploiement industriel ni partenariat hardware annoncé ; une validation sur des plateformes commerciales standards (UR, Franka) en dehors du laboratoire reste à démontrer.

IA physiqueOpinion
1 source
Apprentissage d'une politique visuelle par simulation pour l'insertion de cheville dans des trous inconnus en conditions réelles
2arXiv cs.RO 

Apprentissage d'une politique visuelle par simulation pour l'insertion de cheville dans des trous inconnus en conditions réelles

Des chercheurs proposent sur arXiv (2205.04297) un système d'insertion visuelle peg-in-hole capable de s'adapter à des formes de trous inconnues au déploiement, après entraînement exclusivement en simulation. L'architecture combine trois modules en cascade : un réseau de segmentation (SN), un réseau de capteur virtuel (VSN) qui estime la pose de la pièce cible, et un réseau de contrôle (CN) qui pilote l'insertion. Le VSN et le CN sont entraînés une seule fois en simulation sur un ensemble de formes génériques ; seul le SN est affiné lors du passage au monde réel, via quelques centaines d'échantillons collectés en moins d'une minute de démonstration humaine. Appliqué à la recharge automatique de véhicule électrique, le système atteint un taux de réussite de 10/10 en 2 à 3 secondes, validé en configurations eye-to-hand et eye-in-hand. Le principal apport est de réduire drastiquement le coût du transfert sim-to-real pour des tâches de manipulation de précision. Les approches classiques exigent soit une large collecte de données réelles, soit une modélisation CAO de chaque référence cible, deux contraintes rédhibitoires sur les lignes d'assemblage à forte variabilité de références. En découplant la perception de la politique générique, les auteurs montrent qu'il suffit d'adapter un seul module léger par nouvelle forme, ce qui ouvre la voie à des systèmes vision-pour-assemblage déployables sans ingénierie lourde par référence. Le résultat sur la recharge EV reste à nuancer : 10 essais constituent un échantillon statistiquement limité, et les conditions de test (tolérance mécanique, variabilité d'éclairage) ne sont pas précisées. La tâche peg-in-hole est un benchmark classique de la robotique d'assemblage, longtemps dominé par le contrôle en force et la modélisation géométrique. Ce travail s'inscrit dans la vague des politiques visuelles généralisables entraînées en sim, portée notamment par les approches VLA de Physical Intelligence (Pi-0) et les travaux de meta-learning de Chelsea Finn. L'application à la recharge de véhicule électrique est stratégiquement opportune : plusieurs constructeurs européens cherchent à automatiser cette opération sans infrastructure dédiée côté borne. Les suites naturelles attendues sont une validation sur un spectre plus large de tolérances dimensionnelles, des conditions d'éclairage industriel variées, et une comparaison formelle avec les méthodes hybrides force-vision existantes.

UELa méthode de transfert sim-to-real modulaire pourrait intéresser les constructeurs automobiles européens qui cherchent à automatiser la recharge de véhicules électriques sans infrastructure dédiée côté borne.

IA physiquePaper
1 source
Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique
3arXiv cs.RO 

Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique

L'équipe Qwen d'Alibaba a publié le 22 juin 2026 un rapport technique décrivant Qwen-RobotManip, un modèle fondation Vision-Langage-Action (VLA) conçu pour la manipulation robotique généraliste. Construit sur l'architecture Qwen-VL, le modèle introduit un cadre d'alignement unifié couvrant trois dimensions : la représentation sensorielle, le mouvement, et le comportement. Son corpus d'entraînement atteint environ 38 100 heures de données, constitué exclusivement de jeux de données open source et de vidéos en vue subjective des mains humaines, sans aucune collecte propriétaire. Un pipeline de synthèse convertit ces démonstrations égocentrées en trajectoires robot compatibles avec 15 plateformes matérielles différentes, dont AgileX ALOHA, Franka, UR et ARX. Évalué sur six benchmarks out-of-distribution (RoboCasa365, LIBERO-Plus, EBench, RoboTwin-Clean2Rand, RoboTwin-IF, RoboTwin-XE), Qwen-RobotManip surpasse les modèles précédents sur l'ensemble des configurations et remporte la première place du RoboChallenge avec une amélioration relative de 20 % par rapport à l'état de l'art antérieur. Ce résultat est significatif parce qu'il répond directement à une question centrale du secteur : peut-on appliquer aux données de manipulation robotique la même recette de scaling qui a propulsé les grands modèles de langage ? Jusqu'ici, la réponse restait négative, en raison de l'hétérogénéité structurelle des données de manipulation (formats, espaces d'action, embodiments incompatibles), qui rendait l'entraînement multi-sources incohérent plutôt que synergique. Qwen-RobotManip avance que l'alignement préalable des données résout ce problème, permettant l'absorption à grande échelle sans dégradation. Les capacités émergentes documentées (suivi d'instructions zero-shot, récupération d'erreurs réactive, transfert cross-embodiment) constituent, si elles se confirment en conditions industrielles réelles, un changement de paradigme pour les intégrateurs : moins de fine-tuning spécifique par robot, généralisation à de nouvelles tâches sans redéploiement complet du pipeline. Il convient toutefois de noter que les résultats reposent sur des benchmarks académiques et des validations en laboratoire réel ; aucun déploiement industriel n'est encore documenté, et l'écart sim-to-real reste une inconnue à l'échelle. Qwen-RobotManip s'inscrit dans une course serrée autour des VLA pour la manipulation, où Physical Intelligence (pi0 et pi0.5), Google DeepMind (RT-2, pi-0), et Hugging Face (LeRobot) occupent déjà des positions fortes. Le modèle de Qwen se distingue en revendiquant la performance la plus élevée sur les benchmarks OOD publiés à ce jour, et surtout en n'utilisant aucune donnée propriétaire, ce qui ouvre théoriquement la voie à une adoption plus large. La publication est un preprint arXiv (arXiv:2506.17846v1), pas encore soumis à peer review, et aucune date de disponibilité du modèle ni annonce de pilote industriel n'accompagne ce rapport. Les prochaines étapes probables incluent une intégration dans l'écosystème Hugging Face ou ModelScope et des évaluations indépendantes en conditions réelles.

💬 L'obstacle au scaling en robotique, c'était pas le manque de données, c'était leur incohérence structurelle. Qwen le prouve ici : aligner avant de scaler, et les benchmarks OOD s'envolent de 20%. Bon, c'est encore du labo et je ne vois aucun déploiement industriel documenté, mais avec zéro donnée propriétaire dans le corpus, les intégrateurs sur Franka ou UR ont une vraie porte d'entrée.

IA physiqueOpinion
1 source
TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques
4arXiv cs.RO 

TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques

Des chercheurs de l'UCLA Mobility Lab ont publié fin février 2026 TIC-VLA (Think-in-Control VLA), un framework de contrôle robotique qui adresse explicitement le décalage temporel entre raisonnement sémantique et action en temps réel. Le modèle introduit une interface "delayed semantic-control" : au lieu de supposer que la sortie du module vision-langage est synchrone avec l'action motrice, TIC-VLA conditionne la génération d'action sur des états sémantiques retardés et sur des métadonnées de latence explicites, en plus des observations courantes. Le pipeline d'entraînement, dit "latency-consistent", injecte des délais de raisonnement réels pendant l'apprentissage par imitation et le reinforcement learning en ligne, alignant ainsi les conditions d'entraînement sur celles du déploiement. Pour l'évaluation, l'équipe présente également DynaNav, une suite de simulation physiquement précise et photoréaliste dédiée à la navigation guidée par langage naturel dans des environnements avec présence humaine. Les expériences couvrent à la fois la simulation et un robot réel, avec des latences de raisonnement pouvant dépasser plusieurs secondes. L'enjeu sous-jacent est structural dans le champ des VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures dérivées de RT-2 supposent implicitement que l'inférence sémantique et le contrôle moteur sont cadencés de manière cohérente. En pratique, les LLM embarqués dans ces architectures introduisent des délais incompressibles de 0,5 à plusieurs secondes, incompatibles avec une boucle de contrôle à 10-20 Hz dans un environnement dynamique. TIC-VLA propose une solution au niveau de l'architecture plutôt qu'au niveau matériel, ce qui est potentiellement plus portable. Les résultats annoncés indiquent une surperformance systématique par rapport aux VLA antérieurs tout en maintenant un contrôle robuste sous latence. Il faut toutefois noter que les benchmarks proviennent en grande partie de DynaNav, un environnement simulé développé par les auteurs eux-mêmes, ce qui appelle une validation indépendante. La problématique de l'asynchronisme VLA n'est pas nouvelle : des travaux comme GROOT ou des approches à architecture duale (slow planner / fast controller) cherchent à séparer les horizons temporels. TIC-VLA se distingue en modélisant la latence comme un paramètre de condition plutôt qu'en la masquant par une architecture hiérarchique. Le projet est porté par le groupe UCLA Mobility Lab, connu pour ses travaux sur la navigation autonome urbaine. La page projet est accessible, mais aucune annonce de déploiement industriel ou de partenariat commercial n'est mentionnée pour l'instant. Les prochaines étapes naturelles seraient une évaluation sur des plateformes standardisées comme le benchmark Open-X Embodiment, et une confrontation avec des architectures concurrentes sur des tâches de manipulation en environnement mixte homme-robot.

IA physiqueOpinion
1 source