Aller au contenu principal
Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots
IA physiquearXiv cs.RO2sem

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Qwen-VLA, présenté en préprint arXiv par l'équipe Qwen d'Alibaba (arXiv:2605.30280, mai 2026), est un modèle de fondation incarné qui unifie dans un seul système la manipulation robotique, la navigation vision-et-langage et la prédiction de trajectoires. L'architecture étend la pile vision-langage de Qwen par un décodeur d'action basé sur un Diffusion Transformer (DiT), permettant de générer des actions continues en plus du raisonnement perceptif. L'entraînement joint combine trajectoires de manipulation réelles, démonstrations égocentrées humaines, données de simulation synthétique et jeux de données de navigation. Sur les benchmarks publiés, Qwen-VLA-Instruct atteint 97,9 % sur LIBERO, 86,1 %/87,2 % sur RoboTwin-Easy/Hard, 73,7 % sur Simpler-WidowX, et 69,0 % de taux de succès d'objectif sur R2R en navigation. En conditions réelles sur plateforme ALOHA, le modèle affiche 76,9 % de succès moyen hors-distribution (OOD) et 26,6 % en zéro-shot sur DOMINO, une tâche de manipulation dynamique.

La contribution principale est le "embodiment-aware prompt conditioning" : des descriptions textuelles propres à chaque robot spécifient morphologie et conventions de contrôle, permettant théoriquement à un seul jeu de poids de s'adapter à plusieurs plateformes sans réentraînement dédié. Pour les intégrateurs et les COO industriels, c'est directement le problème du cross-embodiment qui freine les déploiements à l'échelle. Les scores OOD sont pertinents mais méritent d'être nuancés : ils portent sur des environnements de laboratoire, et les 76,9 % sur ALOHA concernent une plateforme à deux bras en contexte contrôlé, pas un robot industriel en conditions de production. La sélection des séquences de démonstration dans les preprints arXiv est notoirement favorable aux cas réussis.

Qwen-VLA s'inscrit dans la course aux VLA généralistes, aux côtés de pi-0 de Physical Intelligence (spécialisé manipulation, 400 M$ levés), GR00T N2 de NVIDIA (cross-embodiment annoncé en 2025) et OpenVLA d'UC Berkeley. Son décodeur DiT le rapproche des approches diffusion-based de pi-0, par opposition aux méthodes token-based. Qwen étant déjà un modèle ouvert d'Alibaba largement adopté dans des stacks vision-langage, son extension à l'action physique offre aux équipes de recherche et d'intégration un point d'entrée solide pour le fine-tuning multi-tâche multi-robot. Aucun déploiement commercial n'est annoncé à ce stade : c'est un travail de recherche, pas un produit lancé.

Impact France/UE

Les équipes de recherche et d'intégration robotique européennes peuvent exploiter ce modèle ouvert Alibaba pour du fine-tuning multi-robot multi-tâche, mais aucun partenariat ni déploiement européen n'est annoncé.

À lire aussi

TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques
1arXiv cs.RO 

TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques

Des chercheurs de l'UCLA Mobility Lab ont publié fin février 2026 TIC-VLA (Think-in-Control VLA), un framework de contrôle robotique qui adresse explicitement le décalage temporel entre raisonnement sémantique et action en temps réel. Le modèle introduit une interface "delayed semantic-control" : au lieu de supposer que la sortie du module vision-langage est synchrone avec l'action motrice, TIC-VLA conditionne la génération d'action sur des états sémantiques retardés et sur des métadonnées de latence explicites, en plus des observations courantes. Le pipeline d'entraînement, dit "latency-consistent", injecte des délais de raisonnement réels pendant l'apprentissage par imitation et le reinforcement learning en ligne, alignant ainsi les conditions d'entraînement sur celles du déploiement. Pour l'évaluation, l'équipe présente également DynaNav, une suite de simulation physiquement précise et photoréaliste dédiée à la navigation guidée par langage naturel dans des environnements avec présence humaine. Les expériences couvrent à la fois la simulation et un robot réel, avec des latences de raisonnement pouvant dépasser plusieurs secondes. L'enjeu sous-jacent est structural dans le champ des VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures dérivées de RT-2 supposent implicitement que l'inférence sémantique et le contrôle moteur sont cadencés de manière cohérente. En pratique, les LLM embarqués dans ces architectures introduisent des délais incompressibles de 0,5 à plusieurs secondes, incompatibles avec une boucle de contrôle à 10-20 Hz dans un environnement dynamique. TIC-VLA propose une solution au niveau de l'architecture plutôt qu'au niveau matériel, ce qui est potentiellement plus portable. Les résultats annoncés indiquent une surperformance systématique par rapport aux VLA antérieurs tout en maintenant un contrôle robuste sous latence. Il faut toutefois noter que les benchmarks proviennent en grande partie de DynaNav, un environnement simulé développé par les auteurs eux-mêmes, ce qui appelle une validation indépendante. La problématique de l'asynchronisme VLA n'est pas nouvelle : des travaux comme GROOT ou des approches à architecture duale (slow planner / fast controller) cherchent à séparer les horizons temporels. TIC-VLA se distingue en modélisant la latence comme un paramètre de condition plutôt qu'en la masquant par une architecture hiérarchique. Le projet est porté par le groupe UCLA Mobility Lab, connu pour ses travaux sur la navigation autonome urbaine. La page projet est accessible, mais aucune annonce de déploiement industriel ou de partenariat commercial n'est mentionnée pour l'instant. Les prochaines étapes naturelles seraient une évaluation sur des plateformes standardisées comme le benchmark Open-X Embodiment, et une confrontation avec des architectures concurrentes sur des tâches de manipulation en environnement mixte homme-robot.

IA physiqueOpinion
1 source
VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
2arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

IA physiqueOpinion
1 source
MotionVLA : un modèle vision-langage-action pour les robots humanoïdes
3arXiv cs.RO 

MotionVLA : un modèle vision-langage-action pour les robots humanoïdes

Une équipe de l'AIGeeksGroup a publié le 18 juin 2026 sur arXiv (2606.15142) MotionVLA, un modèle de type Vision-Language-Action conçu pour générer du mouvement humanoïde réaliste à partir d'images de scène et d'instructions textuelles. Le coeur de la contribution repose sur DSFT (Dual-Stream Frequency Tokenizer), un tokeniseur qui décompose le signal de mouvement en deux flux distincts : un flux Base capturant la sémantique de pose basse fréquence, et un flux Phys encodant la dynamique physique haute fréquence. Cette séparation s'appuie sur une analyse en transformée en cosinus discrète (DCT) du corpus HumanML3D, qui révèle un déséquilibre concret : cinq coefficients DCT suffisent à couvrir 93 % de l'énergie des positions articulaires, mais seulement 37 % de l'énergie des vélocités. Les deux flux sont compressés indépendamment par troncature DCT et encodage BPE, puis réinjectés dans un transformeur autorégressif basé sur Qwen3.5 2B. Sur les benchmarks HumanML3D et MBench, MotionVLA réduit l'écart de diversité avec les données réelles de plus de 50 % et améliore la cohérence mouvement-condition de 3,8 %. Ce résultat pointe une limite structurelle des approches à codebook unique, qui dominent actuellement la génération de mouvement humanoïde : en forçant des signaux hétérogènes dans un espace de quantification commun, ces méthodes sous-représentent systématiquement les composantes dynamiques hautes fréquences au profit de la géométrie de pose. Pour les équipes travaillant sur le contrôle de robots humanoïdes ou la synthèse d'animation procédurale, cela signifie que la qualité du mouvement généré peut sembler plausible en posture statique mais manquer de naturel en transition. L'architecture duale de MotionVLA, malgré un backbone léger de 2 milliards de paramètres, obtient des gains mesurables sans augmenter significativement le coût de calcul. MotionVLA s'inscrit dans un mouvement de recherche plus large qui adapte les VLA, initialement développés pour le contrôle robotique visuomoteur, à la génération de comportement humanoïde. Le modèle s'appuie sur Qwen3.5, la famille de modèles open-weight d'Alibaba, et le code source est disponible sur GitHub (AIGeeksGroup/MotionVLA). À ce stade, il s'agit exclusivement d'un résultat de recherche académique évalué sur des benchmarks synthétiques standard, sans déploiement industriel ni partenariat hardware annoncé. Les acteurs comme Figure AI, 1X, Agility Robotics ou Fourier Intelligence, qui investissent dans la génération de mouvement pour leurs humanoïdes, suivent de près ce type de travaux, même si le chemin du benchmark de laboratoire vers un déploiement sim-to-real reste non démontré ici.

IA physiqueOpinion
1 source
USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents
4arXiv cs.RO 

USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents

Une équipe de chercheurs a publié USIM et U0, un dataset de simulation et un modèle vision-langage-action (VLA) conçus pour doter les robots sous-marins d'une intelligence généraliste multi-tâches. Le dataset USIM regroupe plus de 905 000 images issues de 2 275 trajectoires simulées, soit environ 25 heures d'interactions enregistrées sur le robot BlueROV2, un ROV à six degrés de liberté largement utilisé en recherche. Le modèle U0, entraîné sur ces données, est capable d'exécuter des tâches allant de la navigation par évitement d'obstacles à la manipulation mobile en trois dimensions, le tout piloté par des instructions en langage naturel. En évaluation, U0 atteint un taux de succès global de 43,1 % sur des tâches en ligne, soit une amélioration de 5,5 points de pourcentage par rapport aux meilleures baselines existantes (plafonnées à 37,6 %), avec des performances particulièrement élevées en navigation pure, où le taux monte à 87,5 %. L'erreur moyenne de prédiction d'action hors ligne est réduite à 0,0359. Ces résultats ont une portée directe pour les intégrateurs et opérateurs de systèmes sous-marins autonomes : ils démontrent qu'un modèle généraliste entraîné sur données synthétiques peut effectivement franchir le sim-to-real gap dans un environnement aussi contraignant que le milieu aquatique, où la visibilité est réduite, les courants perturbent la stabilité et les repères visuels sont ambigus. Pour le secteur, c'est une validation de l'approche VLA à l'échelle sous-marine, un domaine où la quasi-totalité des travaux antérieurs s'était cantonnée à des méthodes spécialisées tâche par tâche. L'intégration d'un module de perception convolution-attention (CAP) avec estimation de pose cible comme tâche auxiliaire renforce explicitement la conscience spatiale du modèle, ce qui est critique pour la manipulation en 3D dans des scènes non structurées. Jusqu'ici, la robotique sous-marine autonome reposait majoritairement sur des systèmes de contrôle classiques ou des réseaux de neurones entraînés sur des jeux de données tâche-spécifiques, souvent collectés en conditions réelles à coût élevé. L'approche USIM mise sur la synthèse de données simulées à grande échelle pour contourner ce goulot d'étranglement, une stratégie déjà validée en robotique terrestre par des frameworks comme IsaacGym ou Genesis. Du côté des concurrents directs, les travaux sur les robots sous-marins généralistes restent rares : les projets OpenDive ou les plateformes de Woods Hole Oceanographic Institution n'ont pas encore publié d'équivalent VLA. Aucun acteur européen n'est cité dans cet article, bien que des entreprises comme ECA Group (France) ou Saab Seaeye (Suède) opèrent sur le marché ROV industriel. Le papier, disponible sur arXiv (2510.07869v4), pose un cadre d'évaluation standardisé incluant métriques hors ligne et exécution en ligne, ce qui facilitera les comparaisons futures. Les prochaines étapes annoncées concernent le transfert vers des plateformes physiques et l'extension du dataset à des scénarios plus complexes.

UEImpact indirect potentiel pour des acteurs européens du ROV industriel comme ECA Group (France) ou Saab Seaeye (Suède), mais aucun partenariat ni déploiement européen n'est annoncé dans ce travail de recherche.

💬 43 % de succès global, bon, c'est le début. Mais 87 % en navigation pure et zéro données réelles collectées en mer, c'est la preuve que la stratégie simulation-à-grande-échelle fonctionne sous l'eau exactement comme en terrestre : plus besoin d'envoyer un ROV filmer des épaves pendant des mois pour constituer un dataset. ECA Group a un truc sérieux à surveiller.

IA physiqueOpinion
1 source