Amorçage auto-supervisé du raisonnement incarné pour la…

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

39

1arXiv cs.RO

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

Des chercheurs présentent WLA (World-Language-Action), une nouvelle classe de modèles de fondation incarnés pour la robotique, dans un preprint arXiv publié début juin 2026. Le modèle prototype WLA-0, fort de 2 milliards de paramètres actifs, prend en entrée des instructions textuelles, des images et l'état du robot pour générer simultanément des sous-tâches textuelles, des images de sous-objectifs et des commandes motrices. Sur l'NVIDIA RTX 5090, le temps d'inférence est de 40 ms par cycle, ce qui reste dans les plages acceptables pour le contrôle temps réel. Les évaluations atteignent 92,94 % de taux de succès sur le benchmark RoboTwin2.0 Clean et 56,5 % sur RMBench, deux protocoles de référence pour les tâches multi-objets et longue portée. L'intérêt architectural réside dans la fusion de deux paradigmes jusqu'ici distincts : le world modeling, qui consiste à apprendre une représentation prédictive du monde à partir de vidéos égocentrées, et le language reasoning propre aux modèles VLA (Vision-Language-Action) tels que Pi-0 ou OpenVLA. WLA opte pour un backbone Transformer autorégressif plutôt que le Transformer de diffusion bidirectionnel utilisé dans les WAM (World-Action Models), ce qui permet de prédire l'état suivant en deux niveaux complémentaires : intention sémantique textuelle d'un côté, dynamiques physiques fines de l'autre. Un mécanisme de meta-queries rend l'influence du world modeling implicite à l'inférence, mais peut être activé pour du test-time scaling, technique qui améliore le contrôle en allouant davantage de calcul à l'exécution. La capacité annoncée d'apprendre de nouvelles tâches à partir de vidéos cross-embodiment sans annotations d'actions est notable, mais reste à valider sur des robots hétérogènes en dehors d'environnements simulés. WLA s'inscrit dans une course dense à l'unification des modèles robotiques. Face à Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui misent chacun sur des architectures diffusion ou VLA, WLA propose une troisième voie autoregressive combinant génération de sous-objectifs visuels et raisonnement linguistique. L'article reste un preprint non validé par les pairs, sans déploiement industriel annoncé. Les prochaines étapes naturelles seraient une évaluation sur des plateformes physiques variées et des benchmarks réels, les performances simulées étant connues pour surestimer les capacités en conditions d'exploitation. Aucun acteur européen n'est impliqué dans ces travaux.

IA physiqueOpinion

1 source

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

42

2arXiv cs.RO

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

Des chercheurs ont déposé sur arXiv (arXiv:2605.13632, mai 2026) GTA-VLA (Guide, Think, Act), un framework Vision-Language-Action interactif qui permet d'injecter des indices visuels explicites dans le raisonnement d'un robot avant l'exécution. Contrairement aux VLA classiques qui appliquent un mapping direct perception-action appris sur données d'entraînement, GTA-VLA introduit une étape de raisonnement spatial conditionné : l'opérateur peut fournir des points d'affordance, des boîtes englobantes ou des trajectoires dessinées sur l'image, que le modèle intègre dans une chaîne de pensée (Chain-of-Thought, CoT) avant de générer les commandes motrices. Une tête d'action légère ("reactive action head") assure ensuite l'exécution. Sur le benchmark SimplerEnv WidowX en conditions in-domain, le système atteint un taux de succès de 81,2 %, présenté comme état de l'art sur cette tâche. Les auteurs rapportent qu'une seule interaction visuelle suffit à améliorer substantiellement les performances sous perturbations visuelles ou ambiguïtés spatiales hors distribution (OOD). Ce résultat pointe une limite structurelle des VLA actuels : leur fragilité face aux shifts de distribution, c'est-à-dire dès que l'environnement de déploiement diffère des données d'entraînement. Les approches CoT existantes exposent le raisonnement intermédiaire mais restent aveugles à la guidance humaine, rendant la reprise sur erreur difficile sans réentraînement. GTA-VLA propose une troisième voie : maintenir l'autonomie du modèle tout en ouvrant un canal de correction humain minimal, ciblé sur l'espace visuel. Pour un intégrateur industriel, c'est un argument concret contre le demo-to-reality gap : si le robot échoue, l'opérateur désigne visuellement l'objet cible plutôt que de réécrire une instruction texte. La métrique de 81,2 % sur SimplerEnv mérite toutefois d'être contextualisée : ce benchmark reste un environnement simulé contrôlé, et aucun résultat sur hardware réel n'est communiqué dans le papier. GTA-VLA s'inscrit dans l'effervescence des architectures VLA depuis Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui ont tous cherché à coupler raisonnement de haut niveau et exécution robotique fluide. L'apport spécifique est de rendre ce raisonnement "steerable" via des priors spatiaux explicites, là où Pi-0 ou GR00T N2 restent essentiellement autonomes une fois déployés. Publié en preprint non encore évalué par des pairs, le papier ne mentionne ni déploiement sur plateforme physique ni partenariats industriels annoncés. Les prochaines étapes naturelles seraient une validation sur manipulateurs réels (WidowX physique, Franka) et une évaluation de la robustesse de l'interface de guidance en conditions industrielles réelles.

IA physiqueOpinion

1 source

Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action

42

3arXiv cs.RO

Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action

Une équipe de recherche a publié Pelican-Unified 1.0 (arXiv 2605.15153), un modèle de fondation incarné qui intègre dans un seul checkpoint quatre capacités habituellement confiées à des modules distincts : compréhension visuelle, raisonnement, imagination et génération d'actions robotiques. L'architecture repose sur un unique VLM (Vision-Language Model) qui encode scènes, instructions et historiques d'actions dans un espace sémantique partagé. Ce même VLM génère en un seul forward pass des chaînes de pensée orientées tâche, projetées dans une variable latente dense. Un module baptisé Unified Future Generator (UFG) conditionne ensuite sur cette latente pour produire simultanément vidéos futures et séquences d'actions via deux têtes de sortie dans le même processus de débruitage (denoising). Les performances annoncées : 64,7 sur huit benchmarks VLM standards (meilleur parmi les modèles de taille comparable), 66,03 sur WorldArena (premier rang) et 93,5 sur RoboTwin (deuxième meilleure moyenne parmi les méthodes comparées). L'article est déposé en preprint, sans validation par les pairs à ce stade. L'enjeu architectural est direct : les systèmes robotiques avancés actuels reposent quasi universellement sur des experts spécialisés distincts pour percevoir, raisonner, planifier et exécuter. Ce papier cherche à démontrer qu'un modèle unique, optimisé conjointement sur des pertes de langage, vidéo et action, peut égaler ces spécialistes sans compromis de performance. Si ces résultats se confirment hors simulation, l'impact pour les intégrateurs est double : un seul checkpoint à maintenir et une meilleure généralisation inter-tâches. Le couplage imagination-action dans le même processus de débruitage rappelle l'approche de Physical Intelligence avec Pi-0.5, mais l'intégration du raisonnement textuel dans la même passe constitue un degré d'unification plus poussé. Le score sur RoboTwin reste néanmoins un indicateur sim-to-real à valider en conditions réelles. La course aux modèles VLA (Vision-Language-Action) s'est accélérée en 2024-2025 avec Pi-0 et Pi-0.5 de Physical Intelligence, GR00T N2 de NVIDIA, et les modèles RT-X de Google DeepMind, chacun maintenant des composants partiellement séparés pour la planification et la génération motrice. Pelican-Unified 1.0 se positionne comme une alternative radicalement unifiée, mais reste au stade académique : aucun déploiement, aucun partenariat industriel annoncé, et l'équipe auteure n'est pas identifiée dans le résumé public, ce qui limite l'évaluation de la crédibilité institutionnelle. La revendication de "premier modèle unifié" mérite d'être nuancée, plusieurs architectures combinant déjà compréhension et action. Les prochaines étapes naturelles passent par une validation sur des benchmarks en conditions réelles et une soumission à CoRL ou ICRA.

IA physiqueOpinion

1 source

PearlVLA : raffinement progressif de plans d'action pour l'IA incarnée dans l'espace latent

43

4arXiv cs.RO

PearlVLA : raffinement progressif de plans d'action pour l'IA incarnée dans l'espace latent

Des chercheurs ont publié en juin 2026 PearlVLA (arXiv:2606.17924), un cadre VLA (Vision-Language-Action) conçu pour concilier faible latence d'exécution et qualité de planification. L'approche déplace le raisonnement dans l'espace latent d'un modèle VLM, évitant le recours aux chaînes textuelles ou aux sous-objectifs en pixels, deux stratégies courantes mais coûteuses en calcul. L'architecture sépare les représentations en une branche de grounding visuel fixe et une branche de plan latent itérative : à chaque cycle, une "world query" interroge un modèle de monde latent léger et gelé pour obtenir une observation future, utilisée ensuite pour affiner progressivement le plan. Après K cycles, le plan est décodé en parallèle en un "action chunk" pour l'exécution temps réel. L'entraînement repose sur un mécanisme RL baptisé "Causal Refinement-Grouped Process-Reward", qui optimise le raffinement via des récompenses issues d'horizons temporels simulés dans l'espace latent. Évalué sur le benchmark de simulation LIBERO, PearlVLA affiche des résultats à l'état de l'art parmi les méthodes existantes. Le compromis latence/planification est structurant pour le déploiement industriel des VLA. Les modèles à décodage direct restent réactifs mais peinent sur des tâches longue-horizon ; les approches délibératives via chain-of-thought améliorent la planification mais leur latence les rend incompatibles avec le contrôle temps réel. En confinant le raisonnement à l'espace latent, PearlVLA contourne ce dilemme sans coûts de génération textuelle. L'approche est conceptuellement proche des modèles de monde (DreaMer, TD-MPC2), ici appliqués aux VLA. Réserve importante : toutes les évaluations sont conduites en simulation sur LIBERO, sans résultats sur robot réel rapportés dans ce preprint, ce qui limite pour l'instant les conclusions sur la transférabilité sim-to-real. La course aux VLA s'est accélérée depuis 2024 avec π0 (Physical Intelligence), Octo, GR00T N2 (NVIDIA) et les modèles embarqués de Figure, Agility ou 1X. La compétition porte désormais sur deux axes : réduire la latence pour atteindre le contrôle temps réel, et améliorer la généralisation sans réentraînement sur de nouvelles tâches. PearlVLA s'inscrit dans cet effort académique collectif, sans affiliation commerciale identifiée dans le preprint. La prochaine étape naturelle serait une validation sur robot physique et des tests de transfert sim-to-real, qui conditionneront l'intérêt des intégrateurs industriels pour cette architecture.

IA physiqueOpinion

1 source

Amorçage auto-supervisé du raisonnement incarné pour la prédiction d'actions

À lire aussi

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action

PearlVLA : raffinement progressif de plans d'action pour l'IA incarnée dans l'espace latent