Aller au contenu principal
Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)
RecherchearXiv cs.RO3sem

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié Colosseum V2, un benchmark de simulation à grande échelle conçu pour évaluer la capacité de généralisation des modèles VLA (Vision-Language-Action) en manipulation robotique. Le benchmark intègre 28 tâches réparties en 13 catégories et couvre deux morphologies de robots distinctes, allant de primitives de manipulation élémentaires à des comportements long-horizon complexes. Construit sur le simulateur ManiSkill, il exploite la parallélisation GPU pour des évaluations massives et prend en charge les tests en domaine connu (in-domain) comme hors domaine d'entraînement (out-of-domain). Les auteurs ont évalué deux architectures de référence : les Action Chunking Transformers (ACT) et Pi0.5, le modèle de la startup Physical Intelligence.

Les résultats exposent une tension centrale dans le domaine : les VLAs affichent des capacités de perception et de compréhension du langage en zéro-shot héritées de leur pré-entraînement sur de larges corpus, mais leurs performances se dégradent significativement dès que la distribution des données change, qu'il s'agisse de variations d'éclairage, de textures d'objets ou de configurations inédites. Ce fossé entre compréhension sémantique de haut niveau et comportement moteur robuste reste l'un des blocages majeurs à la commercialisation de politiques robotiques générales. Point notable : les auteurs documentent une forte corrélation entre métriques en simulation et métriques réelles, ce qui valide l'utilité écologique du benchmark et réduit la dépendance aux cycles d'évaluation physique, coûteux et peu reproductibles.

Colosseum V2 est l'extension d'un premier benchmark Colosseum publié en 2024, centré sur la robustesse aux perturbations contrôlées. Le domaine manquait jusqu'ici d'un protocole unifié : RoboVQA, OpenVLA-OFT et les évaluations internes de Physical Intelligence ont chacun proposé des métriques partielles, rendant les comparaisons entre systèmes quasi impossibles. Colosseum V2 ambitionne de jouer le rôle fédérateur qu'ImageNet a tenu pour la vision par ordinateur. Les auteurs annoncent l'intégration prochaine de nouvelles morphologies et de tâches bimanuelles, des axes sur lesquels Figure (Figure 03), Apptronik, et dans une moindre mesure des acteurs européens comme Enchanted Tools, commencent à capitaliser avec des données de déploiement réel.

Impact France/UE

Le benchmark offre un protocole d'évaluation standardisé que les équipes R&D françaises et européennes, dont Enchanted Tools, citée pour ses travaux sur les tâches bimanuelles, pourront utiliser pour comparer objectivement leurs modèles VLA face aux acteurs américains et asiatiques.

À lire aussi

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action
2arXiv cs.RO 

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action

Des chercheurs ont publié le 2 juin 2026 FATE-VLA (arXiv:2606.02307), une méthode active de génération de tests pour évaluer les modèles VLA (Vision-Language-Action), ces politiques robotiques généralisées qui combinent perception visuelle, compréhension linguistique et commande motrice. Plutôt que de tester ces modèles sur des benchmarks statiques à échantillonnage aléatoire, FATE-VLA reformule l'évaluation comme un problème de découverte active de défaillances : un algorithme couple exploration guidée par la diversité et modèles surrogate appris sur les exécutions observées, afin d'orienter les tests vers les régions de scène à haut risque. Appliqué à quatre modèles VLA de référence, dont GR00T-N1.6 de NVIDIA, le système identifie jusqu'à 29,7 % de défaillances supplémentaires par rapport aux baselines retenus et expose des modes d'échec plus variés. Sur GR00T-N1.6 spécifiquement, le taux de succès chute de 64,4 % à 34,7 % lorsque les scènes de test ciblent les zones problématiques de l'espace de configuration. Ce résultat soulève une question directe pour quiconque envisage de déployer des VLA en production industrielle : les performances communiquées par les fabricants sont mesurées sur des benchmarks à tirage aléatoire qui, par construction, sous-représentent les configurations critiques. Si les défaillances sont rares mais concentrées dans certaines régions de l'espace de tâche, ce que FATE-VLA confirme empiriquement, un benchmark classique peut afficher 64 % de succès là où un intégrateur confronté à ces configurations limites observera des performances nettement inférieures. Le paradigme proposé s'inspire du fuzzing et du test adversarial déjà standards en sécurité logicielle, deux pratiques absentes des protocoles de validation robotique actuels. Les modèles VLA ont connu une accélération marquée depuis 2023-2024, avec des architectures comme pi-zero (Physical Intelligence), GR00T N1/N1.6 (NVIDIA), OpenVLA et Octo. Leur évaluation s'appuie encore sur des benchmarks fixes comme LIBERO, Calvin ou MetaWorld, tous vulnérables au biais d'échantillonnage décrit ici. FATE-VLA s'inscrit dans une tendance plus large de stress-testing adaptatif des modèles de fondation robotiques, en parallèle des travaux sur la robustesse sim-to-real et le domain randomization. Il s'agit d'un preprint arXiv sans déploiement ni pilote industriel annoncé, mais ses recommandations ciblent directement les équipes de validation chez les fabricants de bras manipulateurs et les intégrateurs qui ne disposent pas encore de standards formels pour certifier des politiques neuronales généralisables avant mise en production.

UELes intégrateurs et fabricants européens évaluant ou déployant des modèles VLA en production industrielle sont directement concernés : les benchmarks standards sur lesquels reposent les performances annoncées (dont celles de GR00T-N1.6 de NVIDIA) sous-représentent par construction les configurations critiques, exposant ces équipes à des taux de défaillance réels nettement supérieurs aux chiffres publiés.

RechercheOpinion
1 source
BOKBO : abstention calibrée pour les politiques de modèles vision-langage-action (VLA)
3arXiv cs.RO 

BOKBO : abstention calibrée pour les politiques de modèles vision-langage-action (VLA)

Une équipe de chercheurs publie BOKBO (Best of K Bad Options), décrit comme la première couche d'abstention conforme pour l'inférence VLA à K échantillons. Le problème adressé est précis : les méthodes de scaling à l'inférence telles que RoboMonkey, SEAL, MG-Select et V-GPS génèrent K chunks d'actions candidates et exécutent celle validée comme la meilleure par un vérificateur. Mais lorsque les K candidates sont toutes non sûres, le système en exécute une sans aucun avertissement. BOKBO s'interpose en amont pour garantir, sans hypothèse sur la distribution des données, un taux maximal de violations exécutées. Deux variantes sont proposées : une globale et une par tâche dite Mondrian, cette dernière étant plus robuste sur les tâches les plus difficiles. Évalué sur le benchmark LIBERO avec OpenVLA-OFT à un seuil de risque ε=0,05, le bound conditionnel CRC tient sur 86% des splits bootstrap, avec une couverture de 78% et un taux de réussite nette de 70%. La variante Mondrian-BOKBO relève la fraction minimale de tenue conditionnelle par tâche de 0,71 à 0,93, sur 5 graines d'entraînement. Le résultat le plus saillant n'est pas la méthode elle-même mais l'échec structurel qu'elle expose. Les scores de non-conformité internes aux politiques VLA, utilisés comme proxies de sécurité dans les approches existantes, corrèlent à 0,98 avec l'hyperparamètre de bruit d'action σ, et pratiquement pas avec les violations réelles. Autrement dit, les filtres de sécurité actuels mesurent un réglage de bruit, non un risque réel. Pour les intégrateurs industriels et les équipes d'homologation, c'est un signal d'alarme : les garanties de sécurité des pipelines VLA déployés en production reposent peut-être sur un proxy invalide. Les auteurs montrent que l'échec est partiellement atténué avec un sampling stochastique au niveau des tokens plutôt que perturbation-based, mais le problème reste mécanisme-spécifique. Ils corrigent aussi un biais méthodologique courant : des seuils de force fixés globalement bien en dessous des forces typiques d'un expert humain gonflent artificiellement les taux de violation jusqu'à un facteur 5. Sur le plan du contexte, les VLA comme OpenVLA-OFT et π₀-FAST, testés tous deux dans l'étude, incarnent la convergence entre foundation models et contrôle robotique temps réel. Le benchmark LIBERO, utilisé comme terrain d'évaluation, est devenu une référence dans l'espace manipulation. BOKBO s'inscrit dans la théorie de la prédiction conforme, appliquée ici pour la première fois à l'abstention calibrée dans ce contexte. Les prochaines étapes logiques seraient une validation sur des environnements réels et des tâches hors distribution plus sévères, LIBERO restant un benchmark simulé aux distributions relativement contrôlées. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade.

UELes équipes d'homologation et intégrateurs industriels européens déployant des pipelines VLA en production devraient auditer leurs mécanismes de sécurité : cette étude montre que les scores de non-conformité utilisés comme proxies de sécurité mesurent un réglage de bruit, pas un risque réel.

RechercheActu
1 source
Raisonnement continu pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

Raisonnement continu pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (2606.00229) une architecture appelée Continuous Reasoning for VLA, qui remplace le langage naturel comme médium de raisonnement pour les politiques robotiques par un espace latent gaussien continu. Le problème est fondamental : le texte opère à la granularité d'une tâche entière, tandis qu'une politique VLA (Vision-Language-Action) doit sélectionner des actions à une échelle temporelle bien plus fine. Le modèle génère d'abord un ensemble structuré de "pensées continues" sous forme de vecteurs gaussiens, puis les réutilise comme contexte partagé pour la génération d'actions par chunks. L'entraînement repose sur un objectif de vérification croisée : un teacher EMA (exponential moving average) doit consommer le raisonnement du modèle étudiant pour prédire les actions cibles, forçant le latent à rester transférable et vérifiable entre instances. Sur robots réels, l'architecture améliore le taux de succès moyen par sous-tâche de 40,4 % sur TX-G2 (variante compatible AgiBot G2) et de 26,3 % sur HSR (Human Support Robot de Toyota), comparé à π0.5 de Physical Intelligence. Ces résultats contredisent une hypothèse répandue : ajouter des tokens de raisonnement textuel via chain-of-thought ou sous-objectifs explicites améliore le contrôle robotique. Les auteurs montrent que ce raisonnement textuel devient facilement un raccourci interne au modèle, efficace sur les comportements vus en entraînement mais peu généralisable. Un médium de raisonnement utile doit être partageable entre instances de modèle et vérifiable via l'amélioration du contrôle aval, deux propriétés que le texte satisfait mal à l'échelle de l'action. La comparaison directe avec π0.5 positionne ce travail en réponse à Physical Intelligence, acteur de référence dans l'espace VLA. Les plateformes testées (AgiBot G2 et HSR) couvrent la robotique de service et industrielle légère, pas uniquement les humanoïdes à fort investissement comme Figure 03 ou Optimus Gen 3. D'autres architectures concurrentes, dont GR00T N2 de NVIDIA et Helix de Figure AI, misent sur des représentations latentes pour améliorer le transfert sim-to-real, mais restent davantage orientées production que recherche fondamentale. Il s'agit pour l'instant d'un résultat académique, sans annonce de pilote commercial ni de déploiement industriel.

RechercheOpinion
1 source