Aller au contenu principal
MIND : contrôle de robot humanoïde par diffusion d'intention multi-échelle guidée par le texte
HumanoïdesarXiv cs.RO3sem

MIND : contrôle de robot humanoïde par diffusion d'intention multi-échelle guidée par le texte

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié fin mai 2026 sur arXiv (2605.26006) MIND, un cadre de contrôle d'humanoïdes simulés piloté par commandes textuelles. Le système traduit une instruction en langage naturel en actions moteur de bas niveau via un mécanisme de diffusion multi-échelle. Deux composants cohabitent : un prédicteur d'intention globale, qui capture la dynamique générale du mouvement, et un prédicteur d'intention immédiate, qui raffine le geste à chaque itération du processus de diffusion. Clé du dispositif : les états internes de l'humanoïde sont encodés dans un espace latent et servent de pont sémantique entre le texte et les commandes moteur. Le code source sera mis en accès ouvert pour faciliter la reproductibilité.

L'apport de MIND est de contourner deux limitations structurelles bien documentées dans la littérature. Les pipelines en deux étapes, génération cinématique puis suivi physique, souffrent d'un décalage de domaine entre les deux modules, ce qui dégrade la qualité des comportements générés. Les approches bout-en-bout par imitation directe texte-vers-actions buttent sur l'écart sémantique entre langage naturel et signaux de bas niveau. En positionnant les états internes de l'humanoïde comme médiateur, sémantiquement plus proches du texte que les couples articulaires bruts, MIND réduit ce double handicap. Les benchmarks expérimentaux montrent des gains en cohérence physique et en alignement sémantique face aux méthodes de référence, bien que ces évaluations restent en environnement simulé, sans validation sur hardware réel.

Le contrôle d'humanoïdes par langage naturel se situe à l'intersection du reinforcement learning, de l'animation physique et des grands modèles de langage. Des travaux antérieurs comme PHC ou les modèles de diffusion de mouvement (MDM, MotionDiffuse) ont établi les bases cinématiques que MIND cherche à dépasser sur le plan de la plausibilité physique. Côté industriel, Figure AI, Boston Dynamics et Unitree Robotics explorent des pipelines texte-vers-mouvement pour leurs plateformes hardware, mais la majorité des démos publiées restent en simulation ou sur des tâches très contraintes. MIND s'inscrit dans la recherche fondamentale sans annoncer de déploiement concret ; son impact réel dépendra de sa capacité à franchir le sim-to-real gap, défi central non résolu pour le contrôle de corps entier.

À lire aussi

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes
1arXiv cs.RO 

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes

Un groupe de chercheurs présente dans un preprint arXiv (2606.03536, soumis le 3 juin 2026) un framework de transfert de style de mouvement pour robots humanoïdes. Le système prend en entrée un court clip humain illustrant un style moteur désiré (rythme de marche, balancement des bras, posture) et un mouvement cible distinct, puis génère un mouvement corps entier stylisé adapté au robot. Le modèle central est un modèle de diffusion latente multi-condition, sensible à la physique, fusionnant conditions de style, de contenu et de trajectoire. La guidance classifier-free permet d'ajuster l'intensité du style sans réentraîner le modèle. Les références générées sont ensuite converties pour le robot Unitree G1 et exécutées par une politique de suivi corps entier entraînée via une stratégie "cluster-and-distill". Sur 125 essais sur robot réel, la méthode atteint un taux de réussite de 96,0 %, avec moins d'artefacts de contact et de jitter que les baselines orientées animation. Ce résultat remet en question le paradigme dominant où chaque comportement expressif d'un humanoïde est soit capturé en démonstration directe, soit scripté manuellement, deux approches coûteuses et non réutilisables entre contenus de mouvement différents. En permettant à un court clip humain de servir de source de style transférable sur des contenus arbitraires, le framework ouvre la voie à une personnalisation motrice procédurale. L'écart simulation-hardware est adressé directement par des régularisations de cohérence de contact et de lissage temporel imposées lors de l'entraînement, un point de friction récurrent dans la chaîne génération-contrôle. Un taux de 96 % sur 125 essais réels représente un résultat solide pour de la recherche académique dans ce domaine, où beaucoup de travaux restent confinés à la simulation. Le Unitree G1 (environ 16 000 dollars) s'est imposé ces 18 derniers mois comme la plateforme de référence pour la recherche humanoïde académique. Ces travaux s'inscrivent dans la tendance des modèles de diffusion appliqués à la génération de mouvement (MDM, MotionDiffuse), prolongée ici jusqu'au contrôle physique sur hardware réel. Dans la course à l'expression motrice des humanoïdes, Boston Dynamics (Atlas), Figure et 1X investissent massivement côté imitation learning et VLA end-to-end, tandis que ce preprint se positionne sur la génération procédurale contrôlée, approche complémentaire. Du côté européen, Wandercraft et Enchanted Tools (France, robot Mirokaï) travaillent sur des problématiques d'expression motrice proches, sur des architectures distinctes. La suite logique serait l'intégration de ce framework dans des pipelines de téléopération ou d'interfaces humain-robot en conditions industrielles réelles.

UEWandercraft et Enchanted Tools (France) travaillent sur des problématiques d'expression motrice similaires et pourraient s'inspirer de cette approche de transfert de style procédural sur hardware réel.

HumanoïdesPaper
1 source
Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes
2arXiv cs.RO 

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes

Des chercheurs ont déposé le 9 juin 2026 sur arXiv (réf. 2606.08253) un framework léger pour entraîner des politiques de locomotion humanoïde capables de suivre précisément des appuis en 3D. Les approches dominantes basées sur l'apprentissage par renforcement avec commande de vitesse produisent des humanoïdes robustes, mais sans contrôle explicite du placement des pas : le robot peut marcher sur un pied humain ou rater un appui précis, compromettant les tâches de manipulation en aval. La méthode proposée introduit un "goal sampler" dynamique qui génère des séquences d'appuis variées pendant l'entraînement, rendant la politique agnostique au terrain. Une nouvelle représentation des cibles de pas compense les imprécisions du monde réel (estimation de pose bruitée, détection de contact peu fiable). La politique fonctionne comme un contrôleur bas niveau autonome, couplable à n'importe quel planificateur haut niveau, qu'il soit basé sur des cartes 2.5D, la vision ou un agent VLA. L'intérêt pour les intégrateurs industriels est concret : la précision du placement des appuis conditionne l'ensemble des tâches loco-manipulation, soit la prochaine étape critique avant le déploiement d'humanoïdes dans les entrepôts et lignes de montage. En découplant le contrôleur bas niveau du planificateur, cette architecture permet de substituer l'algorithme de planification sans réentraîner la locomotion, un argument de modularité fort pour des déploiements multi-environnements. Les expériences en simulation et en transfert sim-to-real sur terrains complexes sont présentées comme concluantes, mais ce preprint non encore évalué par les pairs ne fournit pas de benchmark comparatif public ni de métriques de précision standardisées. Ce framework s'inscrit dans la continuité des travaux sur la locomotion bipède précise issus d'ETH Zurich, du MIT et de CMU, que les équipes commerciales (Boston Dynamics Atlas, Agility Robotics Digit, Unitree H1, Figure AI) cherchent à industrialiser. L'abstract ne précise pas la plateforme matérielle utilisée lors des tests réels, ce qui limite la reproductibilité des résultats. La prochaine étape logique serait une évaluation ouverte sur des robots nommément identifiés, assortie de métriques comparables aux approches concurrentes en planification de pas développées à l'EPFL ou à Carnegie Mellon.

UEL'EPFL est citée comme référence concurrente pour la planification de pas, ce qui signale la compétitivité des labos européens dans ce domaine, mais sans impact direct sur des acteurs ou institutions français.

HumanoïdesPaper
1 source
Adoptez une vision systémique pour le déploiement à grande échelle des humanoïdes au Robotics Summit
3Robotics Business Review 

Adoptez une vision systémique pour le déploiement à grande échelle des humanoïdes au Robotics Summit

Le Robotics Summit & Expo se tiendra les 27 et 28 mai 2026 à Boston, et l'un de ses temps forts techniques sera la session intitulée "Humanoids That Scale: A Systems and Semiconductor Perspective", programmée le second jour à 14h30 ET. L'intervenant principal sera Giovanni Campanella, directeur général du segment robotique chez Texas Instruments, ingénieur diplômé de l'Université de Bologne et du Politecnico di Torino. Sa présentation s'appuiera sur des architectures de référence et des cas de conception réels pour adresser quatre verrous techniques centraux dans le développement des humanoïdes : la fusion de capteurs à haute bande passante, le traitement IA embarqué en temps réel, le contrôle moteur de précision, et la fiabilité des communications entre sous-systèmes distribués. L'événement accueillera plus de 70 intervenants confirmés, issus notamment de Tesla, Toyota Research Institute, PickNik Robotics, Robust AI, Harmonic Drive et Fictiv, répartis sur plus de 50 sessions couvrant l'IA, le design, les technologies habilitantes, la santé et la logistique. La valeur de cette session tient à son niveau d'abstraction : alors que la plupart des annonces dans le secteur humanoïde portent sur les modèles de fondation, les VLA (Vision-Language-Action models) ou les benchmarks de locomotion, Campanella aborde la question par le bas de la pile, au niveau des chaînes de signal analogiques, de la gestion de puissance et du traitement embarqué. Pour un intégrateur ou un directeur technique qui doit concevoir un système déployable, c'est précisément là que se jouent les compromis décisifs : latence bout-en-bout, consommation énergétique par cycle de tâche, et fiabilité des communications dans un environnement industriel bruité. Le message implicite de Texas Instruments est que le "scaling" des humanoïdes n'est pas uniquement un problème logiciel, et que les semi-conducteurs restent un goulot d'étranglement sous-estimé dans la course à la commercialisation. Il faut noter que cet article est avant tout un communiqué promotionnel pour le sommet, sans métriques de déploiement ni annonce produit. Sur le fond, le Robotics Summit est produit par The Robot Report et WTWH Media, et constitue l'un des principaux rendez-vous techniques pour les développeurs de robotique commerciale aux États-Unis. Il est colocalisé cette année avec DeviceTalks Boston, dédié aux dispositifs médicaux. Dans le contexte plus large, la session TI s'inscrit dans une phase où les acteurs humanoïdes majeurs (Figure avec son robot 03, Tesla avec Optimus Gen 3, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2) ont tous publié des démonstrations convaincantes mais où les déploiements industriels à l'échelle restent rares. La question de savoir si l'infrastructure semiconducteur est prête à suivre la cadence des ambitions logicielles sera au coeur des échanges à Boston fin mai.

HumanoïdesActu
1 source
Sommet en robotique : un panel fait le point sur la conception des robots humanoïdes
4Robotics Business Review 

Sommet en robotique : un panel fait le point sur la conception des robots humanoïdes

Lors du Robotics Summit & Expo 2026, tenu à Boston au Thomas B. Menino Convention & Exhibition Center devant quelque 3 900 participants, un panel de haut niveau a fait le point sur l'état réel du développement des robots humanoïdes. Alberto Rodriguez, directeur du comportement robot pour Atlas chez Boston Dynamics, y a révélé que l'entreprise a engagé le déploiement de l'ordre de 25 000 humanoïdes Atlas dans des usines, avec un objectif de capacité de production portée à 30 000 unités par an d'ici 2028. Boston Dynamics a conduit une première démonstration en conditions réelles en usine en 2025, architecture entièrement pilotée par les données, puis a présenté Atlas au CES de janvier 2026 pendant une semaine complète. Pour 2026, la société prévoit un retour en usine pour une démonstration plus complète, de bout en bout, connectant le robot au système d'information de l'usine et gérant les exceptions opérationnelles. Du côté d'Agility, dont la marque commerciale s'est récemment stabilisée sous le nom Agility (ex-Agility Robotics), les déploiements du robot Digit avancent avec Amazon, GXO, Schaeffler, Toyota et Mercado Libre, marquant une sortie effective de la phase pilote. Ce que ce panel signale clairement pour les intégrateurs et décideurs industriels, c'est que le vrai verrou n'est plus mécanique ni même algorithmique, mais stratégique. Rodriguez a posé le problème avec précision : sauf pour de rares applications à très grand volume et très stable, presque tous les postes de travail sont des cas uniques. Le défi du passage à l'échelle repose sur trois axes simultanés, hardware, modèles de comportement, et stratégie d'intégration, et l'échec sur l'un suffit à rendre le déploiement économiquement non viable. La décision de Boston Dynamics de commencer par la logistique en manufacturing, un environnement qui exige de la généralité sans imposer encore les contraintes de timing et de sécurité de la ligne d'assemblage, illustre une approche pragmatique et graduée. Ces chiffres de déploiement engagés, 25 000 unités, sont une donnée de marché rare dans un secteur habitué aux annonces sans livraisons. Boston Dynamics, filiale de Hyundai depuis 2021, a traversé une longue période de recherche pure avant de commercialiser Atlas dans sa version électrique présentée en 2024, succédant aux plateformes hydrauliques historiques. Le marché des humanoïdes reste en pleine effervescence : Figure AI avec Figure 03, Tesla avec Optimus Gen 3 sur sa propre ligne de production, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et des acteurs émergents comme 1X Technologies ou Apptronik positionnent tous leurs solutions sur des créneaux différents, de l'assemblage léger à la manutention lourde. Côté Europe, Enchanted Tools (France) et Wandercraft restent focalisés sur des niches spécifiques, assistance et rééducation, sans viser encore le marché industriel général. Les prochaines étapes à surveiller : la publication par ASTM International (représenté dans le panel par Aaron Prather) de standards de sécurité pour la cohabitation humains-humanoïdes, et les résultats concrets des déploiements Agility/Amazon, dont les métriques opérationnelles restent pour l'instant non publiques.

UELes entreprises françaises (Enchanted Tools, Wandercraft) restent cantonnées aux niches assistance/rééducation sans feuille de route vers l'industriel général, creusant un écart stratégique avec les déploiements à grande échelle désormais en cours en Amérique du Nord.

HumanoïdesActu
1 source