Aller au contenu principal
Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot
IA physiquearXiv cs.RO1sem

Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié le 16 juin 2026 (arXiv:2606.13279) un nouveau cadre VLA pour la manipulation bimanuelles robotique, baptisé "Dual-Level Structural Decomposition". L'architecture repose sur deux modules distincts : un "View-Selective Visual Router" qui pondère dynamiquement la contribution de chaque caméra de poignet selon le contexte de la tâche, et un générateur d'actions basé sur un Mixture-of-Experts (MoE) qui sépare explicitement les trajectoires coordonnées (les deux bras agissent ensemble) des trajectoires indépendantes (chaque bras opère séparément). Évalué sur six tâches bimanuelles simulées dans l'environnement RoboTwin 2.0 et trois tâches longues en conditions réelles, le système affiche un gain de 27,7 % de taux de réussite moyen en simulation et de 43,3 % en déploiement physique par rapport à une baseline VLA monolithique équivalente.

Ces résultats interpellent directement les équipes qui développent des politiques de contrôle pour robots humanoïdes ou manipulateurs industriels à deux bras. La progression de 43 % en real-world est significative car elle s'applique à des tâches dites "long-horizon", c'est-à-dire enchaînant plusieurs sous-étapes, là où les VLA monolithiques accumulent les erreurs. Le choix du MoE comme mécanisme de décomposition est notable : plutôt que d'entraîner deux politiques séparées, le modèle apprend à router dynamiquement selon le mode d'interaction détecté, ce qui limite l'explosion du coût d'inférence. Cela valide partiellement l'hypothèse que la structure de l'interaction bimanuele est un biais inductif exploitable -- et que les architectures "tout-en-un" atteignent leurs limites sur ces configurations.

Les VLA bimanuelles constituent un chantier actif depuis l'essor des modèles de fondation robotiques en 2024-2025. Des systèmes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ciblent déjà la manipulation généraliste, mais traitent souvent l'entrée visuelle et la génération d'action de façon uniforme. Ce travail s'inscrit dans une tendance plus large vers des architectures modulaires, aux côtés d'initiatives comme RoboTwin 2.0 lui-même, qui sert ici de benchmark standardisé. Les prochaines étapes naturelles seraient un test sur des robots humanoïdes commerciaux (Figure 03, Unitree H1) ou une intégration dans des cellules industrielles bimanuelles -- les auteurs ne mentionnent pas de partenariat industriel ni de timeline de transfert dans la version preprint.

À lire aussi

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle
1arXiv cs.RO 

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Des chercheurs ont publié le 23 mai 2026 sur arXiv (réf. 2605.23477) un cadre d'apprentissage pour la manipulation robotique compositionnelle baptisé SMoDP (Semantically Structured Mixture-of-Experts Diffusion Policy). L'approche combine des politiques de diffusion avec une architecture Mixture-of-Experts (MoE) guidée sémantiquement : un prédicteur de compétences léger, supervisé par des annotations hors-ligne générées par des modèles vision-langage (VLM), route des séquences d'actions vers des experts spécialisés par phase comportementale (saisie, transport, insertion). La cohérence du routage est assurée par une double stratégie d'alignement contrastif, inter-modal pour ancrer les observations multimodales dans des sémantiques définies en langage naturel, et intra-modal pour maintenir un routage cohérent entre comportements visuellement distincts mais fonctionnellement équivalents. Sur des benchmarks multi-tâches, SMoDP surpasse les baselines diffusion et MoE existantes avec une meilleure efficacité paramétrique, et supporte le transfert vers de nouvelles tâches via fine-tuning frugal. L'enjeu est réel : les politiques de diffusion haute performance sont coûteuses en inférence, tandis que les versions allégées peinent à généraliser dès que le nombre de tâches augmente. Les architectures MoE classiques, qui n'activent qu'un sous-ensemble de paramètres, souffrent d'un défaut de conception : leur routage basé sur des statistiques latentes fragmente les comportements réutilisables entre experts, réduisant l'interprétabilité et la transférabilité. En ancrant la spécialisation dans la structure sémantique de la tâche, SMoDP rend les experts plus modulaires, un avantage direct pour les intégrateurs déployant des robots polyvalents sans réentraîner l'ensemble du modèle. Ce travail s'inscrit dans une course intense à l'efficacité des politiques robotiques. Depuis 2023, les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence) ont supplanté les approches classiques, et les succès des MoE dans les LLM (Mixtral, Qwen-MoE) ont incité les chercheurs en robotique à adapter ces architectures, avec des résultats mitigés faute d'un bon mécanisme de routage. SMoDP se rapproche des pipelines VLA (Vision-Language-Action) comme OpenVLA ou GR00T N2 de NVIDIA, en intégrant la supervision sémantique par VLM comme lien entre langage et action. À ce stade, il s'agit d'une contribution académique validée en simulation et en environnement de laboratoire, sans annonce de déploiement industriel ni de partenaire commercial ; l'étape logique suivante serait une validation sur plateformes matérielles réelles à grande diversité de tâches.

💬 Le vrai problème des MoE en robotique, c'était le routage : les experts se spécialisaient sur des statistiques latentes sans rapport avec ce que le robot faisait vraiment. Ancrer la spécialisation sur des phases comportementales concrètes, saisir, transporter, insérer, c'est le bon sens qui manquait, et les benchmarks suivent. Reste à confirmer ça sur du matériel réel, pas juste en simulation.

IA physiqueOpinion
1 source
ST-π : VLA spatio-temporel structuré pour la manipulation robotique
2arXiv cs.RO 

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Une équipe de chercheurs a publié fin avril 2026 ST-π (ST-pi), un modèle vision-langage-action (VLA) conçu pour améliorer la manipulation robotique fine en introduisant une planification spatiotemporelle explicitement structurée. Contrairement aux VLA classiques qui projettent directement les observations visuelles vers des actions step-by-step, ST-π décompose la tâche en deux niveaux distincts : un VLM spatiotemporel qui encode des observations 4D (vidéo + profondeur) et génère une séquence ordonnée de "prompts d'action" au niveau chunk, incluant sous-tâches, ancrage spatial et ancrage temporel ; puis un "action expert" conditionné sur ces prompts, qui utilise un mécanisme de double générateur pour modéliser conjointement les dépendances spatiales et la causalité temporelle, produisant in fine les paramètres d'action step-level. Les auteurs ont également constitué un dataset réel avec annotations spatiotemporelles structurées pour le fine-tuning. Le code source est disponible sur GitHub (chuanhaoma/ST-pi). L'intérêt de cette approche réside dans l'explicitation du raisonnement spatiotemporal, un point aveugle documenté des VLA actuels. Les modèles existants comme Pi-0 (Physical Intelligence), OpenVLA ou RT-2 encodent implicitement ce raisonnement dans les représentations visuelles et d'action, ce qui les rend fragiles face à des séquences comportementales multiples avec des frontières temporelles précises, typiquement les tâches d'assemblage, de tri ou de manipulation en plusieurs étapes que les intégrateurs industriels cherchent à automatiser. ST-π propose une architecture où le VLM planifie globalement et l'action expert raffine localement, ce qui est une séparation de responsabilités plus proche de la façon dont les ingénieurs roboticiens structurent eux-mêmes les programmes de manipulation. Ce travail s'inscrit dans une dynamique de recherche active sur le sim-to-real et la généralisation des VLA, portée notamment par Physical Intelligence, Google DeepMind (avec GR00T N2 côté NVIDIA) et des laboratoires académiques en Chine. ST-π est un preprint arXiv (2604.17880), pas encore évalué en peer review, et les métriques de performance annoncées restent à confronter à des benchmarks indépendants comme LIBERO ou RLBench. Aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade, il s'agit d'une contribution de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés et un test sur des robots réels en dehors du dataset des auteurs.

IA physiqueOpinion
1 source
APEX : exécution adaptative de politiques pour la manipulation de précision
3arXiv cs.RO 

APEX : exécution adaptative de politiques pour la manipulation de précision

Une équipe de chercheurs a publié sur arXiv (référence 2606.16504) un framework baptisé APEX, Adaptive Policy Execution, conçu pour combler le fossé d'exécution qui dégrade les performances des robots manipulateurs pilotés par des politiques d'imitation. Dans les benchmarks rapportés, APEX réduit l'erreur de suivi induite par le contrôleur de 41,2 % sur la relecture de démonstrations, et améliore le taux de succès en manipulation de 4,8 à 25,8 points de pourcentage selon la classe de politique testée, visuomoteur ou VLA (Vision-Language-Action). Ces résultats couvrent quatre familles de politiques distinctes, ce qui constitue une base de comparaison plus large que la plupart des papiers du genre. Le problème que APEX adresse est structurel dans le domaine : les politiques d'imitation modernes génèrent des références d'action de haut niveau (positions cibles, trajectoires) que des contrôleurs bas niveau exécutent ensuite. Or ces politiques sont entraînées sans modéliser la dynamique du contrôleur sous-jacent, ce qui crée un écart systématique entre les actions commandées et les actions réalisées, un problème particulièrement critique pour les tâches de manipulation de précision (assemblage, insertion, saisie fine). Les approches existantes nécessitaient soit de modifier l'architecture de la politique pré-entraînée, soit de reprogrammer le contrôleur bas niveau. APEX se positionne comme une couche intermédiaire plug-and-play, traitant la politique et le contrôleur comme des boîtes noires inaccessibles. Il reconstruit une référence dynamiquement faisable à partir des sorties de la politique, puis s'adapte en temps réel via le feedback d'état bas niveau. Les auteurs fournissent une garantie formelle de convergence, ce qui est notable dans un champ souvent dominé par des résultats empiriques sans fondement théorique. Le contexte est celui d'une course intense au déploiement des VLA dans des environnements industriels réels : des modèles comme pi0 (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind) affichent des résultats impressionnants en simulation ou en laboratoire, mais peinent à translater leurs performances sur des robots physiques en raison précisément de ce sim-to-real gap d'exécution. APEX s'inscrit dans une tendance émergente, sans toucher aux poids du modèle, améliorer l'exécution physique, qui concurrence les approches de fine-tuning sur robot réel. La publication ne mentionne pas de partenaires industriels ni de timeline de déploiement ; il s'agit d'une contribution de recherche, pas d'un produit annoncé. L'enjeu pour les intégrateurs est direct : si le framework tient ses promesses à plus grande échelle, il pourrait devenir un composant standard entre n'importe quelle politique foundation et n'importe quel bras robot commercial, sans nécessiter d'accès au code source de l'un ou de l'autre.

IA physiqueOpinion
1 source
MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique
4arXiv cs.RO 

MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique

Des chercheurs présentent ce mois-ci MuseVLA (arXiv:2606.17598, juin 2026), un modèle Vision-Language-Action capable d'intégrer des capteurs non-RGB comme entrées de perception active lors de tâches de manipulation robotique. Sur un robot à main dextre testée en conditions réelles, MuseVLA atteint un taux de succès moyen de 80,6 % sur trois familles de tâches : saisie guidée par la température, recherche d'objet par signal audio, et récupération d'objet dissimulé assistée par radar. L'architecture repose sur un mécanisme en deux temps : le modèle génère d'abord un "sensor token" qui sélectionne dynamiquement la modalité sensorielle pertinente pour la tâche en cours, puis convertit la mesure capteur en une "grounded sensor image", une représentation intermédiaire unifiée fusionnée avec le flux RGB classique avant la génération d'action. Les auteurs introduisent également un pipeline de synthèse de données qui augmente des datasets RGB existants avec des images capteur simulées, contournant ainsi le coût prohibitif de la collecte de données multisensorielles réelles. L'apport principal est architectural plutôt que purement empirique : le découplage entre le traitement capteur spécifique et le backbone VLA permet d'intégrer de nouveaux capteurs sans réentraîner le modèle de base, un principe analogue aux "tool calls" dans les LLM. Cette modularité répond à une limite structurelle des VLA actuels, dont Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA), qui opèrent quasi exclusivement sur RGB. La capacité de zéro-shot sur des tâches non vues lors de l'entraînement est notable, même si les conditions expérimentales restent celles d'un laboratoire, sans déploiement industriel rapporté. Les métriques de cycle time ou de robustesse en environnement non contrôlé ne sont pas fournies, ce qui limite l'interprétation du 80,6 % en contexte réel. Le papier s'inscrit dans une effervescence autour des VLA généralistes depuis mi-2024, avec des acteurs comme Physical Intelligence, 1X Technologies, Enchanted Tools côté européen, et les équipes de Google DeepMind ou Carnegie Mellon qui multiplient les approches de fusion multimodale. MuseVLA reste pour l'instant un preprint sans code ni dataset publié, et la question de la généralisation à des capteurs industriels standards (LiDAR, force/torque) n'est pas traitée. Les prochaines étapes naturelles seraient un benchmark comparatif sur des plateformes connues type Franka ou UR, et une validation hors labo pour confirmer la thèse du sim-to-real sur les données capteur synthétiques.

UELes acteurs européens comme Enchanted Tools opèrent dans le même segment VLA généraliste, mais ce preprint n'implique aucune institution ou entreprise française ou européenne.

IA physiqueOpinion
1 source