Aller au contenu principal
SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage
IA physiquearXiv cs.RO3sem

SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Une équipe de chercheurs a publié le 28 mai 2026 sur arXiv (2605.22894) SCRIPT, un système de contrôle de robots humanoïdes en simulation physique piloté par des instructions en langage naturel. L'architecture centrale, baptisée JAST-DiT (Joint Action-State-Text Diffusion Transformer), représente simultanément les actions du robot, ses états physiques et les commandes textuelles sous forme de flux de tokens distincts, reliés par un mécanisme d'attention conjointe. Cette conception permet une interaction directe entre la sémantique linguistique et la dynamique de contrôle, sans passer par une couche de traduction intermédiaire. Pour stabiliser le contrôle sur des horizons longs, SCRIPT intègre un conditionnement d'historique non linéaire qui conserve un contexte récent dense tout en échantillonnant des repères de plus en plus épars dans l'historique à long terme. Le pré-entraînement par imitation supervisée est ensuite renforcé par une phase RLHR (Reinforcement Learning with Hybrid Rewards), qui injecte un bruit apprenable dans le processus de diffusion pour améliorer la qualité de mouvement et le suivi d'instruction en boucle fermée. Les évaluations quantitatives montrent que SCRIPT dépasse les méthodes antérieures sur trois métriques : alignement textuel, qualité de mouvement et réalisme physique. Les études de passage à l'échelle sur le dataset MotionMillion, qui totalise 1 200 heures de données de mouvement, confirment une progression continue des performances à mesure que le modèle grossit.

L'intérêt technique de SCRIPT est de s'attaquer frontalement à la tension structurelle du domaine : entre expressivité sémantique (un humanoïde qui comprend des ordres variés) et faisabilité physique (un humanoïde qui ne tombe pas). Les approches existantes sacrifient généralement l'un pour l'autre. Le fait que SCRIPT améliore simultanément les trois métriques en boucle fermée est notable, car les simulations en boucle ouverte masquent souvent les dérives accumulées. La démonstration de scalabilité sur 1 200 heures de données suggère que l'architecture n'est pas un artefact de surapprentissage sur un corpus réduit, ce qui est un signal positif pour quiconque envisage un pré-entraînement à grande échelle de fondations motrices. Pour les intégrateurs et les équipes R&D, cela valide partiellement l'hypothèse selon laquelle les politiques de diffusion à grande échelle peuvent absorber la variabilité des commandes en langage naturel sans sacrifier la stabilité physique.

Ce travail s'inscrit dans la vague des VLA (Vision-Language-Action models) appliqués aux humanoïdes en simulation physique, un axe de recherche très actif depuis 2024. Il entre en concurrence directe avec des approches comme PHC, UniHSI ou les variantes récentes de contrôle par diffusion de Nvidia (GR00T N2), qui ciblent des problèmes similaires de contrôle conditionné par le langage. SCRIPT se distingue par sa composante RLHR post-entraînement et son protocole de scaling explicite, deux éléments souvent absents des publications académiques concurrentes. Il s'agit ici d'une annonce de recherche préprint, pas d'un produit déployé : le code sera rendu public mais aucun calendrier de transfert vers du matériel réel n'est mentionné. Les prochaines étapes naturelles seront le transfert sim-to-real et l'évaluation sur des plateformes physiques comme Unitree H1 ou Figure 03.

💬 Le point de vue du dev

Tout le monde fait du contrôle d'humanoïde en simu physique en ce moment, mais SCRIPT se distingue par quelque chose de rare en académique : une phase de renforcement post-entraînement documentée. Sur 1 200 heures de données, les perfs progressent sans s'effondrer, ce qui élimine le scénario "artefact de sur-entraînement". Maintenant faut juste que ça tienne sur un vrai robot, et là c'est une autre histoire.

À lire aussi

ADAPT : entraînement de politique analytique intégrant les perturbations pour la locomotion humanoïde
1arXiv cs.RO 

ADAPT : entraînement de politique analytique intégrant les perturbations pour la locomotion humanoïde

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (2606.16542) une méthode baptisée ADAPT (Analytical Disturbance-Aware Policy Training), destinée à améliorer la robustesse locomotrice des robots humanoïdes soumis à des perturbations externes. Le système a été validé sur un Unitree G1 dans trois scénarios représentatifs : poussées au niveau du torse, perturbations en posture statique, et charges asymétriques appliquées aux mains. Dans chaque cas, ADAPT surpasse une politique de référence basée uniquement sur la proprioception (capteurs internes articulaires), avec un meilleur suivi de vitesse et une meilleure stabilité, y compris face à des perturbations hors distribution, c'est-à-dire non rencontrées lors de l'entraînement. La méthode n'exige aucun capteur de force/couple externe : elle s'appuie uniquement sur la dynamique interne du robot pour estimer en ligne les résidus de force et de couple appliqués au corps entier. L'intérêt technique d'ADAPT tient à son observateur de perturbations analytique, fondé sur la physique du corps rigide plutôt que sur un réseau de neurones ou une large randomisation de domaine. Les approches existantes présentent chacune un défaut structurel : la randomisation de domaine dégrade la précision, les objectifs de force spécifiques à une tâche limitent la transférabilité, et les estimateurs appris depuis l'historique de mouvement peinent hors distribution. ADAPT contourne ces compromis en fournissant à la politique un signal d'entrée explicite et physiquement fondé sur les forces et couples perturbateurs estimés, ce qui lui permet de se généraliser à des scénarios jamais vus. Un bénéfice secondaire notable : en pénalisant les perturbations inférées au niveau des articulations inférieures, le système favorise une locomotion plus légère, réduisant les impacts au sol, ce qui peut prolonger la durée de vie mécanique et améliorer la discrétion sonore en milieu de travail. Le Unitree G1 est une plateforme humanoïde commerciale abordable, largement utilisée dans la recherche sur la locomotion apprise, ce qui confère à ces résultats une portée pratique directe. Ce travail s'inscrit dans une tendance plus large où les laboratoires cherchent à combler le fossé sim-to-real sans ajouter de capteurs coûteux, une contrainte forte pour les déploiements industriels à grande échelle. Côté concurrence, des approches similaires ont été explorées par des équipes travaillant sur Boston Dynamics Atlas, Agility Robotics Digit et les humanoïdes Figure et 1X, mais souvent avec des capteurs de force dédiés. ADAPT représente une direction sensorless qui, si elle se confirme sur d'autres plateformes, pourrait simplifier l'intégration matérielle. L'article étant un preprint arXiv non encore évalué par les pairs, la reproductibilité reste à confirmer indépendamment, et les conditions exactes des expériences (vitesses testées, amplitude des poussées) ne sont pas précisées dans le résumé disponible.

IA physiquePaper
1 source
MIMIC-D : imitation multimodale pour la coordination multi-agents par politiques de diffusion décentralisées
2arXiv cs.RO 

MIMIC-D : imitation multimodale pour la coordination multi-agents par politiques de diffusion décentralisées

Des chercheurs ont publié MIMIC-D (Multi-modal Imitation for MultI-agent Coordination with Decentralized Diffusion Policies), un framework d'apprentissage par imitation destiné à coordonner plusieurs agents robotiques sur des tâches multi-modales, c'est-à-dire admettant plusieurs solutions valides. La troisième révision de ce préprint arXiv (2509.14159v3) présente une architecture d'entraînement conjoint avec exécution décentralisée : chaque agent apprend une politique à partir d'informations locales uniquement, sans planificateur central ni canal de communication explicite entre agents. Les politiques s'appuient sur des réseaux de diffusion, capables de représenter des distributions de trajectoires complexes et multi-modales là où l'apprentissage par imitation classique tend à moyenner les modes ou à n'en sélectionner qu'un seul. Des validations en simulation et sur matériel réel sont rapportées, avec des améliorations annoncées sur les baselines état de l'art, sans que des métriques chiffrées précises ne soient publiées dans le résumé. L'enjeu opérationnel est direct : les frameworks multi-agents existants supposent généralement une communication permanente entre robots ou un orchestrateur global, une hypothèse irréaliste en conditions industrielles où le réseau peut être instable, les équipements hétérogènes, et des opérateurs humains présents dans la boucle. MIMIC-D vise à produire une coordination implicite émergente à l'entraînement, sans échange de messages à l'exécution. Pour les intégrateurs ou les COO de sites logistiques et de fabrication, cette approche ouvre la voie à des fleets hétérogènes capables de gérer des variantes de tâches sans reconfiguration centrale, un problème courant dès que les processus sont peu standardisés. Ce travail prend place dans la dynamique post-diffusion appliquée à la robotique, après les résultats de Pi-0 (Physical Intelligence) et des architectures VLA sur des tâches mono-agent. L'extension au multi-agent reste un chantier ouvert : en production, des systèmes comme ceux d'Exotec ou d'Amazon Robotics s'appuient sur des orchestrateurs centralisés (WMS, MFC), exactement ce que MIMIC-D vise à rendre optionnel. Les approches concurrentes incluent les algorithmes MARL classiques (MAPPO, QMIX) et les travaux récents sur les diffusion policies multi-agents avec communication explicite. Étant un preprint en cours de révision, aucun déploiement industriel n'est annoncé. Les évaluations sur des espaces d'action à plus haute dimensionnalité et en environnement humain réel constituent les prochaines étapes naturelles.

UELes intégrateurs européens de flottes robotiques hétérogènes (logistique, fabrication) pourraient à terme bénéficier d'une coordination décentralisée sans orchestrateur central, mais MIMIC-D reste un preprint de recherche sans métriques publiées ni déploiement industriel annoncé.

IA physiqueOpinion
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
3arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper
1 source
Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs
4arXiv cs.RO 

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Une équipe de chercheurs a publié sur arXiv (référence 2410.14022v2) une architecture de contrôle combinant des modèles Vision-Langage-Action (VLA) à grande échelle avec des politiques d'imitation légères pour la manipulation dextère multi-doigts. Le système repose sur une main robotique anthropomorphique propriétaire à 13 degrés de liberté (DOF), dotée d'une compliance mécanique modulable au niveau des doigts. Le cœur de l'approche est un contrôleur à commutation piloté par événements : le VLA assure la planification de haut niveau à partir d'instructions en langage naturel, tandis que des politiques dextères légères, entraînées par imitation sur des sous-tâches spécifiques, prennent le relais pour l'exécution précise. Les transitions entre les deux niveaux sont déclenchées par des signaux d'événement que le VLA apprend à prédire lui-même après fine-tuning sur un volume minimal de démonstrations. Ce travail s'attaque à un verrou bien identifié du secteur : les VLA (Pi-0, OpenVLA, GR00T N2) excellent en planification multi-tâches mais opèrent typiquement avec des préhenseurs pince à 2 DOF, insuffisants pour la manipulation fine. À l'inverse, les politiques d'imitation pour mains multi-doigts restent cantonnées à des tâches étroitement définies, sans généralisation par langage. En montrant que la compliance matérielle, soit la capacité d'une main à absorber passivement les perturbations de contact, améliore la stabilité sans complexifier le contrôle logiciel, les auteurs fournissent un argument concret en faveur de la co-conception hardware-software, encore trop souvent négligée dans la course au sim-to-real. La modularité revendiquée, à savoir l'ajout de nouvelles compétences ou le changement de main sans réentraîner le VLA, constitue une propriété potentiellement intéressante pour les intégrateurs industriels, même si les conditions d'évaluation restent strictement laboratoire. L'approche s'inspire de la "two-channel hypothesis" du contrôle moteur humain, qui distingue la planification corticale des réflexes spinaux. Sur le plan concurrentiel, elle se positionne face aux travaux de Physical Intelligence (Pi-0), de Google DeepMind sur la manipulation dextère, et aux architectures ACT ou Diffusion Policy appliquées à des mains haute-DOF. Ni institution d'appartenance ni métriques de performance chiffrées ne figurent dans l'abstract disponible, ce qui limite toute évaluation externe sérieuse de la contribution. La prochaine étape crédible serait une validation sur des benchmarks standardisés comme YCB et une comparaison directe avec des mains tierces commerciales, pour confirmer que la cross-embodiment claim tient hors du cadre contrôlé des auteurs.

IA physiqueOpinion
1 source