Aller au contenu principal

Dossier Boston Dynamics — page 2

221 articles · page 2 sur 5

Boston Dynamics, pionnier de la locomotion : Atlas électrique, Spot patrouille industrielle et inspection, partenariats Hyundai et Toyota Research Institute.

RoboMemArena : un benchmark complet et exigeant pour la mémoire des robots
51arXiv cs.RO RecherchePaper

RoboMemArena : un benchmark complet et exigeant pour la mémoire des robots

Une équipe de chercheurs a publié sur arXiv (2605.10921) RoboMemArena, un benchmark de grande envergure conçu pour évaluer les capacités mémorielles des robots dans des tâches longues et partiellement observables. Le benchmark couvre 26 tâches distinctes, avec des trajectoires d'exécution dépassant en moyenne 1 000 étapes par tâche, dont 68,9 % des sous-tâches nécessitent explicitement la mobilisation de la mémoire passée. Sa pipeline de génération repose sur un modèle vision-langage (VLM) pour composer les sous-tâches, produire les trajectoires via des fonctions atomiques, et annoter les séquences clés (keyframes, instructions de sous-tâches). Une évaluation en environnement physique réel complète les expériences en simulation, ce qui distingue RoboMemArena des benchmarks existants. Les chercheurs proposent également PrediMem, une architecture VLA à double système : un planificateur VLM haut niveau gère une banque mémoire combinant un buffer récent et un buffer de keyframes, tandis qu'une tête de codage prédictif améliore la sensibilité aux dynamiques de tâche. PrediMem surpasse tous les modèles de référence testés sur RoboMemArena. Ce travail s'attaque à un angle mort persistant dans la recherche robotique : les systèmes actuels, y compris les VLA récents comme Pi-0, GR00T N2 ou Helix, sont majoritairement évalués sur des tâches courtes et observables, où la mémoire à long terme n'est pas critique. RoboMemArena expose la fragilité de ces architectures dès que l'horizon de décision s'allonge et que l'environnement devient partiellement observable. Pour un intégrateur ou un décideur B2B, le chiffre-clé est celui des 1 000 étapes : la plupart des benchmarks industriels actuels restent en dessous de 100 étapes, ce qui masque des lacunes importantes en conditions réelles. L'inclusion d'une évaluation physique réelle renforce la crédibilité des résultats, même si les détails de configuration matérielle ne sont pas précisés dans l'abstract. La question de la mémoire robotique n'est pas nouvelle : des travaux comme MemoryReplay, EpisodeVQA ou les architectures à attention récurrente (R-VLA) ont posé les bases, mais sans benchmark unifié à cette échelle. RoboMemArena s'inscrit dans une tendance plus large d'outillage de l'évaluation des VLA, aux côtés de BenchBot, RLBench2 ou Open X-Embodiment. PrediMem reste pour l'instant un modèle académique sans déploiement annoncé, et ses résultats devront être confirmés sur des plateformes matérielles tierces (Unitree G1, Figure 03, Boston Dynamics Atlas) pour convaincre au-delà du laboratoire. Les auteurs évoquent des lois de mise à l'échelle (scaling laws) pour les systèmes mémoriels complexes, ce qui suggère une piste de recherche active dans les mois à venir.

UELes laboratoires européens (CEA-List, INRIA) pourraient adopter RoboMemArena comme référence commune pour évaluer leurs architectures VLA sur des horizons longs, comblant l'absence actuelle de benchmark unifié à cette échelle.

1 source
Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié
52arXiv cs.RO 

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

Des chercheurs ont publié sur arXiv (identifiant 2511.22963, troisième version) Humanoid-LLA, un modèle d'action fondé sur un grand modèle de langage capable de convertir des instructions en langage naturel libre en séquences de mouvement whole-body exécutables directement sur des robots humanoïdes. Le système s'attaque à deux verrous techniques bien connus dans le domaine : la rareté des données appariées langage-mouvement humanoïde, et l'instabilité physique des mouvements synthétiques. Pour y remédier, l'architecture apprend un vocabulaire de mouvement unifié humain-humanoïde qui permet d'ancrer la sémantique de haut niveau dans un espace de contrôle physiquement cohérent. L'entraînement suit un protocole en deux étapes : une phase supervisée par Chain-of-Thought sur les séquences de mouvement, suivie d'un affinage par reinforcement learning conditionné par un retour de simulation physique. Les évaluations combinent tests en simulation et expériences réelles en cross-embodiment, soit sur plusieurs modèles de robots distincts. Ce travail comble un angle mort persistant dans la recherche sur les humanoïdes : la commande en langage libre pour le contrôle du corps entier, et pas seulement du bras manipulateur. Les approches existantes restent soit cantonnées à des instructions prédéfinies, soit contraintes à sacrifier la diversité des mouvements pour conserver la stabilité physique. Humanoid-LLA tente de lever ce compromis en intégrant explicitement la physique dans la boucle d'apprentissage via le RL. Pour les intégrateurs et les COO industriels, l'enjeu est concret : un tel modèle pourrait réduire la dépendance aux interfaces de programmation spécialisées et abaisser le coût d'interaction avec des humanoïdes en ligne de production. La capacité de généralisation à des commandes inédites reste la métrique-clé revendiquée, mais l'absence de benchmarks comparatifs standardisés et la sélection probable des démonstrations vidéo invitent à nuancer les conclusions. Humanoid-LLA s'inscrit dans la montée en puissance des modèles VLA (Vision-Language-Action), un segment où Physical Intelligence avec pi0, Google DeepMind avec RT-2 et GR00T N2 co-développé avec NVIDIA, et Figure avec son pipeline Helix ont toutes misé sur le couplage langage-action pour dépasser les politiques sensorimotrices figées. La spécificité de cette contribution est le focus explicite sur le mouvement du corps complet plutôt que sur la manipulation d'objets, un espace encore peu exploré à grande échelle. L'article demeure un preprint non évalué par les pairs, sans déploiement industriel ni partenariat de mise en production annoncé. Les prochaines étapes probables incluent une soumission en conférence de type ICRA ou CoRL, et une validation sur des humanoïdes commerciaux comme l'Unitree H1 ou le Boston Dynamics Atlas, régulièrement utilisés comme bancs de test dans ce segment.

IA physiqueOpinion
1 source
EFGCL : apprentissage du mouvement dynamique par curriculum guidé par forces externes, inspiré du spotting
53arXiv cs.RO 

EFGCL : apprentissage du mouvement dynamique par curriculum guidé par forces externes, inspiré du spotting

Des chercheurs ont publié sur arXiv (réf. 2605.10063) une méthode baptisée EFGCL (External Force Guided Curriculum Learning) pour entraîner des robots à pattes à exécuter des mouvements dynamiques complexes de tout le corps via apprentissage par renforcement. L'idée centrale emprunte au "spotting" en gymnastique artistique : comme un coach qui tient physiquement l'athlète lors des premiers essais, la méthode introduit des forces externes assistives directement dans la boucle d'entraînement simulé. Les expériences portent sur un robot quadrupède réalisant trois tâches : saut vertical (Jump), saut arrière (Backflip) et saut latéral (Lateral-Flip). Sur la tâche Jump, EFGCL réduit le temps d'apprentissage d'environ un facteur deux par rapport au RL conventionnel. Plus significatif encore, Backflip et Lateral-Flip, que les méthodes RL standard ne parviennent tout simplement pas à apprendre, deviennent accessibles. Les politiques résultantes ont été transférées et déployées sur un robot réel, avec des comportements jugés cohérents avec ceux observés en simulation. L'intérêt technique principal est double. Premièrement, la méthode n'exige ni reward shaping spécifique à la tâche ni trajectoires de référence issues de motion capture, deux dépendances coûteuses qui compliquent habituellement le pipeline. Deuxièmement, en permettant à l'agent d'expérimenter des exécutions réussies très tôt dans l'entraînement, EFGCL contourne le problème classique de l'exploration inefficace dans les espaces à haut risque d'échec. La validation sim-to-real, bien que présentée sur un seul robot quadrupède dans un contexte académique contrôlé, apporte un signal positif sur la transférabilité des politiques apprises avec forces assistives vers des conditions physiques réelles, une question encore largement ouverte pour les mouvements acrobatiques. Le domaine du whole-body motion learning pour robots à pattes est en pleine activité depuis plusieurs années, porté notamment par les travaux de l'ETH Zurich sur ANYmal et par Unitree (G1, H1) côté matériel accessible pour la recherche. Boston Dynamics, avec Atlas, démontre régulièrement des mouvements dynamiques impressionnants, mais son pipeline repose largement sur des trajectoires optimisées à la main. L'approche curriculum learning guidé par forces s'inscrit dans une tendance plus large visant à rendre le RL applicable sans données de démonstration, aux côtés de méthodes comme le curriculum automatique ou l'imitation d'adversaire. Il s'agit d'une publication académique préprint, sans annonce de déploiement industriel ni de partenariat commercial associé.

RecherchePaper
1 source
Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente
54arXiv cs.RO 

Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente

Une équipe de chercheurs publie Diff-CAST (Diffusion-guided Constraint-Aware Symmetric Tracking), un nouveau cadre de prior de mouvement pour la locomotion quadrupède biomimétique, déposé le 12 mai 2026 en preprint sur arXiv (2605.08804). La méthode substitue les modèles de diffusion aux discriminateurs GAN classiquement utilisés dans les pipelines combinant apprentissage par renforcement (RL) et imitation learning. L'architecture intègre deux composants : le SACC (Symmetric Augmented Command Conditioning), conçu pour corriger les dérives involontaires de cap lors de manœuvres complexes hors distribution, et un bloc de RL contraint (Constrained RL) chargé de garantir la conformité aux limites dynamiques des actionneurs lors du passage sur matériel physique, dans un schéma global baptisé Sim2Re. Le verrou que Diff-CAST cherche à lever est documenté dans la communauté : à mesure que les jeux de données de mouvement grossissent et se diversifient (sources multiples, données non curées), les discriminateurs GAN s'effondrent en mode collapse, incapables de modéliser des distributions multi-modales complexes. Les modèles de diffusion, dont la supériorité sur ce point est établie en génération d'images et de trajectoires, constituent une alternative logique. Si les expériences sur quadrupède réel confirment les résultats annoncés, cela ouvrirait la voie à un scaling massif de datasets hétérogènes sans perte de diversité comportementale, notamment pour des transitions fluides entre marche, trot et récupération. Il convient cependant de souligner que le papier est un preprint non évalué par les pairs, et que le gap sim-to-real reste à valider indépendamment. La locomotion quadrupède à base de RL est un domaine consolidé depuis les travaux d'ANYbotics sur ANYmal et du laboratoire Robotic Systems Lab d'ETH Zurich, prolongés par des équipes de Carnegie Mellon et Berkeley. Unitree (Go2, H1) et Boston Dynamics industrialisent ces méthodes, tandis que le secteur académique cherche à réduire la dépendance aux données de capture de mouvement coûteuses au profit de datasets non curés. Diff-CAST s'inscrit précisément dans cette tendance. Les prochaines étapes attendues sont la publication du code source, des benchmarks standardisés sur des plateformes comme Isaac Lab ou legged gym, et une validation multi-robots au-delà du quadrupède utilisé dans les expériences reportées.

RecherchePaper
1 source
Propriétés dynamiques et reproductibilité d'un torse humanoïde pneumatique compact pour le contrôle piloté par données
55arXiv cs.RO 

Propriétés dynamiques et reproductibilité d'un torse humanoïde pneumatique compact pour le contrôle piloté par données

Une équipe de recherche a publié sur arXiv (réf. 2603.14787v2) le développement d'un robot humanoïde compact à 13 degrés de liberté (DOF), actionné exclusivement par pneumatique et conçu pour l'interaction physique humain-robot (pHRI). Avant de concevoir un contrôleur global, les chercheurs ont d'abord caractérisé les propriétés dynamiques du système, notamment les délais d'actionnement, et confirmé que le comportement mécanique est hautement reproductible. S'appuyant sur cette reproductibilité, ils ont implémenté un contrôleur data-driven sur un sous-système de bras à 4 DOF, fondé sur un perceptron multicouche (MLP) avec compensation explicite des délais temporels. Le réseau a été entraîné sur des données de mouvements aléatoires pour apprendre à générer des commandes de pression capables de suivre des trajectoires arbitraires. Comparé à un régulateur PID classique sur les mêmes trajectoires, le contrôleur neuronal affiche une précision de suivi supérieure. La démonstration que des actionneurs pneumatiques à haut nombre de DOF peuvent être pilotés efficacement par apprentissage machine est un résultat concret. Les pneumatiques sont intrinsèquement non-linéaires : leur comportement dépend de la pression d'alimentation, de la température et des frictions internes, ce qui rend toute modélisation analytique coûteuse à construire et fragile en exploitation. En montrant que le système présente une reproductibilité suffisante pour être appris directement depuis les données, les chercheurs contournent ce problème sans passer par un modèle physique complet. Pour les intégrateurs et décideurs B2B qui évaluent des solutions de robotique collaborative, ce type d'approche pourrait accélérer le déploiement de systèmes pneumatiques dans des environnements de contact humain, où la compliance naturelle des actionneurs offre une sécurité passive que les moteurs électriques rigides ne peuvent pas égaler structurellement. La course aux humanoïdes est aujourd'hui dominée par des architectures électriques : Figure Robotics (Figure 02), Tesla (Optimus Gen 2) et Boston Dynamics (Atlas HD) misent toutes sur des moteurs à couple direct ou à réducteur harmonique. La pneumatique reste un axe de niche, exploré par des laboratoires académiques et des industriels comme l'allemand Festo pour ses propriétés de compliance et de sécurité intrinsèque. Le résumé arXiv ne précise pas l'affiliation institutionnelle des auteurs. L'étape naturelle suivante serait d'étendre le contrôleur MLP du bras à 4 DOF à l'ensemble des 13 DOF du torse complet, puis de valider en conditions d'interaction physique réelle. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé ; le travail reste au stade de la publication académique préliminaire.

RecherchePaper
1 source
Xiaoyubot lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC
56Pandaily 

Xiaoyubot lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC

Xiaoyubot, startup chinoise spécialisée dans l'IA embodied industrielle, a bouclé un tour de financement de série B+ de plusieurs centaines de millions de yuans (montant exact non précisé), selon le média financier IPOZaozhidao. Ce tour est co-mené par cinq investisseurs industriels : Xiaomi, Didi, BAIC Investment (bras financier du constructeur automobile BAIC), Fosun Venture et la China Construction Bank Development (CCDC). Lei Wanqiang, co-fondateur de Xiaomi, y participe pour la quatrième fois consécutive, signe d'une conviction institutionnelle durable. Les fonds levés seront affectés à l'accélération du déploiement de Xiaoyubot sur l'ensemble des scénarios industriels couverts par l'IA embodied, terme désignant les systèmes d'IA capables d'agir physiquement dans un environnement réel via un corps robotique. L'ambition déclarée de Xiaoyubot est d'atteindre un rythme de livraison de 100 000 unités par an, seuil qu'elle présente elle-même comme le ticket d'entrée pour la phase finale de la course aux robots incarnés. La société développe une architecture baptisée "un cerveau, plusieurs formes" (one brain, multiple forms), conçue pour piloter différentes morphologies robotiques depuis un même système cognitif général, avec l'objectif de mutualiser les coûts de développement logiciel tout en couvrant un spectre large de cas d'usage industriels. La composition du tour est elle-même un signal stratégique : réunir des acteurs de l'internet (Xiaomi, Didi), de l'automobile (BAIC), de la finance privée (Fosun) et de la finance d'État (CCB) sous un même cap est rare et suggère un positionnement de plateforme nationale plutôt qu'une verticale sectorielle étroite. Fondée avec pour mission de déployer des robots IA dans des scénarios industriels variés, Xiaoyubot s'inscrit dans un écosystème chinois de la robotique en pleine effervescence, aux côtés de Unitree Robotics, Fourier Intelligence ou encore UBTECH. Ce tour intervient alors que plusieurs acteurs chinois cherchent à atteindre une échelle de production industrielle avant leurs concurrents occidentaux tels que Boston Dynamics, Figure AI ou 1X Technologies. L'objectif des 100 000 unités annuelles reste une cible annoncée, sans calendrier précis ni preuve de commandes fermes publiés à ce stade.

UELa constitution d'un consortium industrie-finance-État autour de Xiaoyubot accélère la course chinoise aux 100 000 unités annuelles et intensifie la pression concurrentielle sur les acteurs européens de la robotique industrielle, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieActu
1 source
Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre
57Le Big Data 

Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre

Figure AI a publié le 8 mai 2026 une vidéo montrant deux de ses robots humanoïdes F.03 nettoyer une chambre et refaire un lit en moins de deux minutes, de manière entièrement autonome. Les deux machines ouvrent une porte, déplacent une chaise de bureau, rangent un casque audio, ferment un livre, puis s'attaquent ensemble à la confection du lit: elles saisissent la couette, la déplient et la lissent de façon synchronisée. Le tout est piloté par Helix-02, le système d'intelligence artificielle maison développé par Figure AI pour contrôler ses humanoïdes. L'entreprise affirme que c'est la première fois qu'un unique réseau neuronal gouverne plusieurs robots humanoïdes coopérant sur une tâche complexe, en combinant perception visuelle, locomotion et manipulation fine dans une seule architecture. Ce qui distingue cette démonstration des précédentes, c'est l'absence de chef d'orchestre centralisé entre les deux robots. Chacun analyse la scène via ses propres caméras et interprète les intentions de l'autre uniquement en observant ses mouvements, sans communication directe. Ils fonctionnent comme deux humains qui tendraient une housse de couette sans se concerter verbalement. Le moment le plus significatif techniquement reste la manipulation de la couette: un tissu souple change constamment de forme, ce qui oblige chaque robot à recalculer ses actions en temps réel à chaque geste de son partenaire. C'est un problème de robotique notoirement difficile, très différent de la manipulation d'objets rigides comme des boîtes ou des outils. Figure AI s'inscrit dans une course industrielle intense autour des robots humanoïdes destinés aux environnements domestiques et professionnels, un marché que convoitent aussi Tesla avec Optimus, Boston Dynamics, Agility Robotics ou encore 1X. La coopération multi-robot représente une étape charnière: un seul humanoïde ne suffit pas pour de nombreuses tâches du monde réel qui nécessitent deux paires de mains. Cependant, la prudence reste de mise face à ce type de démonstration. La pièce est soigneusement préparée avant l'exercice, les objets placés de façon optimale, et aucun élément imprévu ne vient perturber les robots pendant l'opération. La distance entre un environnement de démo contrôlé et un appartement ordinaire avec ses câbles, ses animaux de compagnie et son désordre quotidien reste considérable. Les progrès sont néanmoins réels et s'accélèrent: la question n'est plus de savoir si les humanoïdes atteindront ce niveau d'autonomie en conditions réelles, mais à quelle échéance.

HumanoïdesOpinion
1 source
Unitree lance UniStore, le premier App Store mondial pour robots humanoïdes, avec 24 applications de mouvement disponibles au lancement
58Pandaily 

Unitree lance UniStore, le premier App Store mondial pour robots humanoïdes, avec 24 applications de mouvement disponibles au lancement

Unitree Robotics a lancé UniStore, une plateforme de distribution d'applications pour robots humanoïdes, structurée autour de quatre modules : User Square, Motion Library, Dataset et Developer Center. Au lancement, la Motion Library propose 24 actions motrices téléchargeables, parmi lesquelles une danse style Jackson, du Mantis Boxing, le Charleston, des animations "比心" (finger heart) et une catégorie de comportements humoristiques baptisée "整活". Ces contenus sont accessibles en essai gratuit à durée limitée. L'interface utilisateur reproduit le modèle UX des app stores mobiles : navigation, téléchargement et installation de nouvelles compétences directement depuis une application smartphone, sans intervention technique sur le robot. La plateforme est compatible avec l'ensemble de la gamme Unitree, humanoïdes G1 et H1, quadrupède B2 et robot chien Go2. Le Developer Center ouvre la publication à des développeurs tiers, qui peuvent créer et soumettre leurs propres packages de mouvements. L'initiative est structurellement significative pour le secteur, même si les 24 applications du lancement relèvent davantage de la démonstration grand public que du cas d'usage industriel. Ce qui compte, c'est le modèle : Unitree cherche à décorréler la valeur logicielle de la valeur matérielle, en instaurant un écosystème tiers autour de ses plateformes physiques. Pour les intégrateurs et les décideurs B2B, c'est une orientation claire vers la monétisation des comportements robotiques et une réduction de la dépendance aux pipelines de développement propriétaires. Cela pose aussi une question sur la résilience qualité : des comportements créés par des tiers et installés sur des robots humanoïdes en environnement réel soulèvent des enjeux de validation et de responsabilité que la plateforme ne documente pas encore publiquement. Unitree, fondée en 2016 à Shenzhen, s'est imposée comme le fournisseur de robots quadrupèdes les moins chers du marché avant de pivoter vers les humanoïdes avec le H1 puis le G1, commercialisé sous les 16 000 dollars. La stratégie UniStore s'inscrit en opposition directe avec Boston Dynamics, dont l'approche reste fermée et orientée contrats enterprise, mais aussi face à Figure AI, Agility Robotics et 1X, qui misent sur des pipelines logiciels internes. Si des développeurs tiers commencent à publier des packages de mouvements fonctionnels, Unitree pourrait accélérer sa couverture de cas d'usage sans porter seul le coût R&D. Les prochaines étapes à surveiller : le volume de contributions externes dans les 90 premiers jours et l'éventuelle ouverture d'un modèle de monétisation pour les développeurs.

UESignal compétitif indirect pour les intégrateurs et développeurs européens : Unitree instaure un écosystème logiciel ouvert autour de robots humanoïdes low-cost, sans équivalent chez les acteurs occidentaux pour l'instant.

Chine/AsieOpinion
1 source
Parkour humanoïde perceptif : enchaînement de compétences dynamiques par correspondance de mouvement
59arXiv cs.RO 

Parkour humanoïde perceptif : enchaînement de compétences dynamiques par correspondance de mouvement

Des chercheurs ont publié sur arXiv (arxiv:2502.15827, version révisée en mai 2026) une architecture modulaire baptisée Perceptive Humanoid Parkour (PHP), qui permet à un robot humanoïde d'enchaîner des séquences de parkour autonomes sur des parcours d'obstacles variés. Le système a été validé sur un robot Unitree G1 en conditions réelles : il peut franchir des obstacles atteignant 1,25 mètre de hauteur, soit 96 % de la taille du robot, et choisit dynamiquement entre quatre primitives de mouvement (enjamber, grimper, sauter par-dessus, rouler en descente) selon la géométrie détectée. La seule entrée sensorielle utilisée est une caméra de profondeur embarquée couplée à une commande de vitesse discrète en 2D, sans GPS ni cartographie externe. Ce qui distingue PHP des approches précédentes est la combinaison de deux techniques jusqu'ici rarement couplées à cette échelle : le motion matching, qui assemble des primitives gestuelles humaines retargetées via une recherche par plus proche voisin dans un espace de features, et la distillation de politiques RL multi-compétences via DAgger. Le résultat concret est un robot capable de décision contextuelle en boucle fermée sur des obstacles dont la position change en temps réel, sans recalcul de trajectoire globale. Pour les intégrateurs industriels et les décideurs robotique, cela valide empiriquement que la composition de skills à horizon long dans un environnement non contrôlé n'est plus seulement une démonstration en laboratoire, mais un comportement reproductible sur matériel standard. Le Unitree G1 est un humanoïde de série à environ 16 000 dollars, ce qui donne à ces résultats une portée plus large que des travaux réalisés sur des plateformes propriétaires. La recherche sur la locomotion humanoïde agile s'est intensifiée depuis les travaux pionniers de Boston Dynamics sur Atlas et les démonstrations de parkour d'Agility Robotics ; côté apprentissage automatique, des équipes comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) travaillent sur des politiques généralisées, mais avec un focus manipulation plus que locomotion acrobatique. PHP s'inscrit dans une tendance académique distincte, orientée expressivité du mouvement humain plutôt que productivité industrielle. La prochaine étape naturelle sera de tester la robustesse sur des obstacles non vus à l'entraînement et de mesurer les taux d'échec sur des runs prolongés, deux métriques absentes du papier actuel.

HumanoïdesPaper
1 source
Sur l'émergence d'une structure pendulaire dans la locomotion multi-contacts
60arXiv cs.RO 

Sur l'émergence d'une structure pendulaire dans la locomotion multi-contacts

Un preprint déposé sur arXiv le 8 mai 2026 (arXiv:2605.05707) s'attaque à une question fondamentale en commande de robots à pattes : pourquoi le modèle du pendule inversé linéaire (LIPM) fonctionne-t-il aussi bien en pratique, alors qu'il est généralement introduit comme un simple choix de modélisation plutôt qu'un résultat d'optimisation formel ? Les auteurs construisent un problème de commande optimale centroïdale (OCP) pénalisant le taux de variation du moment angulaire et montrent que la structure pendulaire en émerge naturellement. En appui de rang plein, l'optimum converge vers un profil de forces pendulaire à une vitesse gouvernée par la décomposition en valeurs singulières (SVD) du jacobien des moments, avec une constante géométrique dépendant de l'embase de contact qui correspond aux données expérimentales à 16 % près. En appui bipodal de trot (N=2 contacts), le cône de friction impose une borne inférieure sur le taux de moment angulaire qu'aucun réglage de pondération ne peut annuler, avec un point de non-différentiabilité à une accélération horizontale critique calculable en forme fermée. L'ensemble a été validé sur un quadrupède à masse ponctuelle et sur le Unitree Go1 dans le simulateur MuJoCo, en boucle ouverte (QP) et en boucle fermée au niveau couple. Ces travaux comblent un manque théorique persistant dans la commande de locomotion : LIPM était jusqu'ici une hypothèse posée a priori, non dérivée de la structure du problème d'optimisation sous-jacent. Démontrer formellement les conditions dans lesquelles la structure pendulaire est optimale, et celles où elle cesse de l'être (trot, fortes accélérations), fournit aux concepteurs de contrôleurs MPC centroïdaux un cadre de réglage plus rigoureux. La borne inférieure en trot est particulièrement instructive : elle explique des comportements empiriquement observés sur quadrupèdes réels et identifie une limite structurelle que le tuning seul ne peut surmonter. À noter que la validation se limite au simulateur MuJoCo, sans confrontation au monde réel ni à des terrains non structurés. L'article s'inscrit dans la longue lignée des formalisations des heuristiques de locomotion, du ZMP (Vukobratović, années 1970) au DCM (Pratt et al., 2006) jusqu'aux approches centroïdales modernes portées par des laboratoires comme le MIT Biomimetics Lab, l'ETH Zürich (plateforme ANYmal, commercialisée par ANYbotics) et le LAAS-CNRS à Toulouse. L'utilisation du Unitree Go1 comme plateforme de validation reflète la démocratisation de la recherche en locomotion quadrupède autour de robots accessibles. La contribution reste théorique : elle n'annonce ni nouveau robot ni déploiement industriel, mais offre un outil d'analyse formel utile aux équipes travaillant sur Spot (Boston Dynamics), ANYmal ou les futures générations de contrôleurs pour humanoïdes bipèdes.

UELe LAAS-CNRS (Toulouse) est cité comme laboratoire de référence dans ce domaine ; ce cadre formel peut directement alimenter les travaux de locomotion des équipes françaises et européennes (ANYbotics, futurs humanoïdes bipèdes).

RecherchePaper
1 source
ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA
61arXiv cs.RO 

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Une équipe de recherche publie ce 7 mai 2026 ConsisVLA-4D (arXiv:2605.05126), un framework unifié pour la manipulation robotique qui cherche à résoudre deux angles morts structurels des modèles Vision-Language-Action actuels : la perception spatiale 3D et le raisonnement temporel 4D. L'architecture repose sur trois modules complémentaires. Le premier, CV-Aligner, filtre les régions pertinentes à l'instruction en cours et aligne les identités d'objets entre plusieurs points de vue, assurant une cohérence sémantique inter-caméras. Le second, CO-Fuser, élimine les ambiguïtés de relations spatiales entre objets via des représentations latentes compactes, sans recourir à des capteurs de profondeur dédiés. Le troisième, CS-Thinker, combine les tokens sémantiques de CV-Aligner et les tokens géométriques de CO-Fuser pour construire une représentation implicite des dynamiques locales et globales de la scène, permettant un raisonnement visuel continu au fil de l'exécution. Les auteurs rapportent des gains de 21,6 % sur le benchmark LIBERO et de 41,5 % en environnement réel par rapport à OpenVLA, avec des accélérations d'inférence respectives de 2,3x et 2,4x. Le code est publié en open source. Ces résultats sont significatifs pour le débat, toujours ouvert dans le secteur, sur la capacité des VLA à passer de la démonstration contrôlée au déploiement réel. Le gain le plus notable est celui en conditions réelles (+41,5 % vs +21,6 % en simulation), ce qui suggère que la cohérence spatiotemporelle adresse précisément le sim-to-real gap que d'autres architectures peinent à combler. L'absence de capteur de profondeur dédié est également un point concret pour les intégrateurs industriels : réduire la dépendance à des capteurs supplémentaires diminue le coût de déploiement et la surface de défaillance. L'accélération d'inférence de 2,3x à 2,4x, si elle se confirme dans des cycles de manipulation industriels (pick-and-place, assemblage), est un argument directement actionnable pour des COO cherchant à calibrer le throughput de cellules robotisées. Il convient toutefois de noter que les métriques sont mesurées contre OpenVLA, qui reste une baseline académique, et non contre des systèmes commerciaux comme pi-0 (Physical Intelligence) ou Helix (Figure), ce qui limite la portée comparative. Les modèles VLA de première génération, dont OpenVLA et RT-2, se sont construits sur des pipelines essentiellement 2D, héritant des architectures vision-langage conçues pour la compréhension d'images statiques. La contrainte de cohérence spatiotemporelle que ConsisVLA-4D formalise est un problème que l'ensemble des acteurs du secteur, Physical Intelligence avec pi-0, DeepMind avec RT-X, et Boston Dynamics sur le plan applicatif, tentent de résoudre par des voies différentes (données de préentraînement massives, retour haptique, diffusion de politiques). Dans le paysage français et européen, des entreprises comme Enchanted Tools et Wandercraft travaillent sur des problématiques adjacentes de contrôle robuste en environnement non structuré, où la perception multi-vue est également un verrou. La prochaine étape logique pour ConsisVLA-4D sera de confronter le framework à des tâches longue-horizon et à des environnements non rigides, deux cas d'usage encore peu couverts par le benchmark LIBERO.

UELes entreprises européennes comme Enchanted Tools et Wandercraft, confrontées au verrou de la perception multi-vue en environnement non structuré, pourraient intégrer le framework open-source ConsisVLA-4D pour renforcer leur contrôle robuste sans capteur de profondeur dédié.

💬 Le gain en conditions réelles (+41,5 %) qui dépasse celui en simulation, c'est le signe que quelque chose de structurel est résolu, pas juste un overfitting sur benchmark. Pas de capteur de profondeur dédié en plus, ce qui change vraiment le calcul pour l'intégration industrielle. Bon, la baseline c'est OpenVLA, pas pi-0, donc on garde les pieds sur terre.

IA physiqueOpinion
1 source
Apprentissage par renforcement contraint via découplage dynamique sphérique-radial
62arXiv cs.RO 

Apprentissage par renforcement contraint via découplage dynamique sphérique-radial

Une équipe de chercheurs présente DD-SRad (Dynamic Decoupled Spherical Radial Squashing), une méthode d'apprentissage par renforcement contraint conçue pour respecter les limites de vitesse d'articulation lors du déploiement de politiques sur des robots physiques. Le problème cible est précis : chaque joint d'un robot a une vitesse maximale d'incrément par pas de contrôle, déterminée par l'inertie moteur, la bande passante électrique et la rigidité de transmission. Ces limites sont hétérogènes d'un joint à l'autre, formant une région admissible en forme de boîte rectangulaire dans l'espace des incréments d'action. Les benchmarks MuJoCo montrent que DD-SRad atteint le meilleur retour de tâche à zéro violation de contrainte, avec une couverture de l'espace admissible supérieure de 30 à 50 % aux méthodes de référence sphériques. Des simulations haute-fidélité dans IsaacLab valident l'approche sur les robots humanoïdes Unitree H1 et G1, en utilisant directement les spécifications officielles des joints comme paramètres d'entrée. L'apport technique central de DD-SRad est de remplacer un rayon global unique par un rayon adaptatif calculé indépendamment pour chaque actionneur, ce qui aligne précisément la contrainte imposée sur la vraie région admissible per-joint. Les méthodes existantes, projection par programme quadratique (QP) et paramétrisation sphérique, imposent une contrainte isotrope en forme de boule, qui sous-couvre exponentiellement l'espace réel à mesure que l'hétérogénéité des joints augmente. DD-SRad satisfait les contraintes dures par pas de contrôle avec probabilité 1, préserve des gradients bien conditionnés pendant l'entraînement, et ne requiert aucun solveur externe à l'exécution. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela ouvre un chemin direct des fiches techniques hardware vers une politique sûre, sans étape de calibration manuelle des marges de sécurité. L'article s'inscrit dans un axe de recherche actif sur le sim-to-real pour les humanoïdes, dominé par les travaux autour des robots Unitree, Boston Dynamics Atlas, et des politiques apprises par imitation ou RL (IsaacLab, MuJoCo). Les approches concurrentes pour la gestion des contraintes d'actionneurs en RL incluent les méthodes de barrière logarithmique, les Lagrangiens augmentés, et les projections QP à chaud, chacune avec un surcoût computationnel à l'inférence que DD-SRad prétend éliminer. La validation reste pour l'instant en simulation ; aucun résultat de déploiement réel sur H1 ou G1 n'est reporté dans cette version arXiv, ce qui constitue la limite principale à surveiller avant toute généralisation industrielle.

RecherchePaper
1 source
Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
63arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source
IA incarnée : un compromis nécessaire entre confidentialité et utilité
64arXiv cs.RO 

IA incarnée : un compromis nécessaire entre confidentialité et utilité

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.05017) un article de position soutenant que les systèmes d'IA incarnée (Embodied AI, EAI) entrent dans des environnements réels sensibles sans architecture conçue pour gérer la confidentialité de façon systémique. Le problème identifié est structurel : les solutions EAI actuelles optimisent leurs composantes isolément, en quatre étapes distinctes (instruction, perception, planification, interaction), sans prendre en compte leurs interactions en matière de vie privée dans des déploiements haute fréquence où les fuites de données sont souvent irréversibles. Les auteurs proposent SPINE (Secure Privacy Integration in Next-generation Embodied AI), un cadre unifié qui traite la confidentialité comme un signal de contrôle dynamique traversant l'ensemble du cycle de vie du système, et non comme une fonction locale à chaque étape. SPINE intègre une matrice de classification de sensibilité contextuelle multi-critères et a été conceptuellement validé par des études de cas préliminaires en simulation et en conditions réelles. L'enjeu central est architectural : en optimisant chaque étape indépendamment, les concepteurs créent une crise systémique de confidentialité dès le déploiement en environnement sensible. Un robot qui planifie ses déplacements, perçoit son environnement visuel et suit des instructions vocales génère un flux continu de données croisées : plans de logement, routines quotidiennes, visages, conversations. SPINE démontre que des correctifs locaux restent insuffisants face à ce couplage inter-étapes. Pour les intégrateurs et décideurs B2B en secteurs réglementés (santé à domicile, garde d'enfants, industrie), ce cadre propose une grille d'analyse systémique à intégrer en amont de tout déploiement, avant que les fuites ne deviennent impossibles à contenir. Ce travail s'inscrit dans un contexte de multiplication rapide des robots humanoïdes destinés à des environnements non industriels, avec des acteurs comme Figure, 1X Technologies et Boston Dynamics côté américain, et en Europe des entreprises comme Enchanted Tools ou Wandercraft qui positionnent leurs systèmes vers des espaces partagés. Le RGPD impose déjà des obligations strictes sur la collecte de données biométriques et comportementales, mais aucun standard sectoriel spécifique aux EAI n'existe encore. Les auteurs publient leur code sur GitHub (rminshen03/EAIPrivacy\Position) et formulent une invitation explicite à structurer un agenda de recherche autour de systèmes EAI sécurisés et fonctionnels, dont une prochaine étape naturelle serait l'intégration de SPINE dans des pipelines VLA (Vision-Language-Action) existants pour mesurer le coût réel en performance de ces contraintes de confidentialité.

UELe RGPD s'applique directement aux déploiements EAI en Europe et le cadre SPINE offre aux intégrateurs européens (dont Enchanted Tools et Wandercraft) une grille d'analyse systémique pour anticiper la conformité réglementaire avant tout déploiement en environnement sensible.

RechercheOpinion
1 source
Le robot humanoïde Unitree G1 provoque un premier retard de vol à cause de ses batteries
65Interesting Engineering 

Le robot humanoïde Unitree G1 provoque un premier retard de vol à cause de ses batteries

Un robot humanoïde Unitree G1 a provoqué un retard de plus d'une heure à l'aéroport international d'Oakland, en Californie, après que le personnel de la compagnie aérienne a soulevé des questions sur la capacité de sa batterie embarquée. Le pack d'accumulateurs du robot dépassait les seuils en watt-heure fixés par la Federal Aviation Administration (FAA) pour les cellules lithium-ion transportées en cabine et en soute : au-delà de 100 Wh, une batterie de rechange nécessite l'accord explicite de la compagnie ; au-delà de 160 Wh, elle est simplement interdite en cabine. Or, les robots humanoïdes modernes embarquent des packs d'une capacité comprise entre 1 kWh et plus de 2 kWh, soit jusqu'à douze fois la limite autorisée pour un ordinateur portable. Les agents au sol ont dû traverser une cascade de questions sur la chimie des cellules, la configuration du pack, sa démontabilité et sa classification matières dangereuses, avant que l'appareil puisse être autorisé au départ, sous les regards impatients des autres passagers. Ce retard illustre une lacune structurelle dont les conséquences dépassent un simple incident opérationnel. La réglementation FAA sur les matières dangereuses a été conçue pour les appareils électroniques grand public et les véhicules électriques transportés en fret, non pour un robot bipède occupant un siège passager. Un pack de 2 kWh représente une énergie thermique potentielle comparable à douze batteries de laptop combinées, avec un risque d'emballement thermique non négligeable dans un fuselage pressurisé où les possibilités d'intervention sont limitées. Pour les intégrateurs et les entreprises qui déploient des humanoïdes hors des environnements contrôlés, l'incident d'Oakland signale que chaque nouveau contexte (usine, hôpital, entrepôt, aéroport) est susceptible de rencontrer un cadre réglementaire écrit sans eux, générant des blocages opérationnels imprévisibles et potentiellement coûteux. L'humanoïde impliqué est le G1 de Unitree Robotics, constructeur chinois qui a misé sur l'accessibilité tarifaire de ses plateformes pour accélérer la diffusion grand public de la robotique humanoïde. Commercialisé autour de 16 000 dollars, le G1 est l'un des humanoïdes les plus abordables du marché, loin devant les propositions de Figure AI, Boston Dynamics ou 1X Technologies. L'incident survient dans un contexte où la FAA fait déjà face à une pression soutenue pour réviser ses règles sur les batteries lithium, à la suite d'incidents d'incendie en fret aérien. Sans directive explicite pour cette nouvelle catégorie d'appareils, les agents au sol continueront d'improviser au cas par cas et les passagers d'attendre. Une clarification réglementaire s'impose à mesure que les robots humanoïdes quittent les laboratoires pour intégrer des espaces publics et des flux logistiques réels.

UELes opérateurs européens de robots humanoïdes sont exposés aux mêmes restrictions EASA sur les batteries lithium, et cet incident révèle un vide réglementaire qui pourrait bloquer le transport aérien de ces appareils en Europe sans cadre spécifique.

RegulationReglementation
1 source
Vidéo : le robot Atlas bouge déjà mieux que certains gymnastes
66Le Big Data 

Vidéo : le robot Atlas bouge déjà mieux que certains gymnastes

Boston Dynamics a publié le 5 mai 2026 une courte vidéo montrant son robot humanoïde Atlas réaliser un appui tendu renversé suivi d'un L-sit maintenu plusieurs secondes, avant de se relever sans assistance. Cette nouvelle génération d'Atlas affiche des caractéristiques techniques imposantes : 1,88 mètre de hauteur (6,2 pieds), 90 kilogrammes, 56 degrés de liberté articulaire, des rotations à 360° sur les articulations clés, une protection IP67 contre la poussière et l'eau, et une plage de fonctionnement de -20° à +40°C. Ce n'est plus un prototype de laboratoire : il s'agit d'une version conçue pour une industrialisation future, avec seulement deux types d'actionneurs distincts dans l'ensemble du corps. Le L-sit est une figure de gymnastique artistique qui exige une force abdominale extrême, un équilibre millimétré et une coordination quasi parfaite, déjà difficile pour un humain entraîné, quasi insoluble pour une machine de 90 kilos jusqu'à récemment. Ce que Boston Dynamics démontre ici, c'est la maturité de son pipeline d'apprentissage par renforcement : Atlas s'entraîne en simulation virtuelle sur des milliers d'essais, affine ses stratégies de mouvement, puis transfère ces réflexes acquis vers le robot physique. Le résultat visible est frappant, les gestes ne ressemblent plus à des séquences programmées point par point, mais à un équilibre instinctif, comme si la machine anticipait ses propres pertes de stabilité avant qu'elles ne surviennent. C'est un saut qualitatif majeur : la fluidité du mouvement est désormais comparable à celle d'un gymnaste humain de niveau intermédiaire. Derrière la démonstration spectaculaire, les enjeux sont industriels et stratégiques. Le travail sur la locomotion généraliste est piloté par le RAI Institute, dirigé par Marc Raibert, fondateur historique de Boston Dynamics, avec l'objectif de créer un système de contrôle unifié capable de gérer aussi bien la marche quotidienne que les figures acrobatiques. Hyundai, propriétaire de Boston Dynamics depuis 2021, prévoit de déployer Atlas dans sa gigantesque usine de Géorgie dès 2028, et vise à terme une production de 30 000 unités humanoïdes par an. Atlas n'est cependant pas seul sur ce marché : Figure, Agility Robotics, Tesla avec Optimus, et plusieurs startups chinoises se disputent les mêmes contrats industriels. Boston Dynamics possède probablement l'humanoïde techniquement le plus avancé, mais la transition d'une vidéo virale à une ligne de production fiable, rentable et à grande échelle reste le vrai défi, et c'est là que la compétition se jouera dans les deux prochaines années.

HumanoïdesOpinion
1 source
Sécurité de l'IA incarnée : panorama des risques, attaques et défenses
67arXiv cs.RO 

Sécurité de l'IA incarnée : panorama des risques, attaques et défenses

Une équipe de chercheurs a publié fin avril 2026 sur arXiv (identifiant 2605.02900) une revue systématique de la sécurité dans l'IA incarnée (embodied AI), couvrant plus de 400 articles académiques. Le périmètre s'étend à l'ensemble du pipeline d'un agent physique : perception sensorielle, cognition, planification, exécution d'actions et interactions humain-robot. La taxonomie proposée organise les menaces en quatre grandes familles d'attaques (adversariales, backdoor, jailbreak, matérielles) et trois axes de défense (détection d'attaques, entraînement robuste, inférence sûre). Les domaines d'application ciblés incluent la conduite autonome, la robotique industrielle et d'assistance, ainsi que les applications médicales, tous caractérisés par des conséquences physiques directes en cas de défaillance. Ce travail pointe trois angles morts particulièrement préoccupants pour les intégrateurs et les équipes produit. D'abord, la fragilité de la fusion multimodale : combiner vision, LiDAR et langage amplifie les surfaces d'attaque plutôt que de les réduire, contrairement à l'hypothèse dominante de redondance. Ensuite, l'instabilité de la planification sous attaque jailbreak : les modèles vision-langage-action (VLA) comme Pi-0 ou GR00T N2, de plus en plus déployés dans des systèmes humanoïdes, restent vulnérables à des injections de prompt qui court-circuitent les contraintes de sécurité définies au niveau applicatif. Enfin, la confiance dans les interactions en monde ouvert demeure non résolue dès que le scénario sort des conditions de laboratoire, ce qui est précisément le cas des déploiements industriels réels. Le contexte est celui d'une accélération brutale du déploiement d'agents physiques autonomes depuis 2024, portée par des acteurs comme Figure AI, Boston Dynamics, 1X Technologies, Apptronik et des labos publics (Stanford, CMU, ETH Zurich). L'absence d'un cadre de sécurité unifié est jusqu'ici restée dans l'angle mort de la course aux performances : les benchmarks sectoriels mesurent la dextérité et le sim-to-real transfer, rarement la robustesse face à un adversaire actif. Ce survey constitue un premier référentiel structuré ; il ne propose pas de solution clé en main mais identifie les briques manquantes, notamment les protocoles d'évaluation standardisés pour les attaques sur hardware embarqué et les mécanismes de contrôle d'intégrité des VLA en production.

UELes acteurs européens déployant des VLA (dont ETH Zurich, contributeur cité) et soumis à l'AI Act, qui classe les applications médicales et industrielles en systèmes à haut risque, devront intégrer les protocoles d'évaluation de robustesse adversariale identifiés comme manquants par ce survey.

RechercheOpinion
1 source
OGPO : un affinage complet et efficace des politiques de contrôle génératives
68arXiv cs.RO 

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Un preprint arXiv de mai 2026 (2605.03065) présente OGPO, Off-policy Generative Policy Optimization, un algorithme de fine-tuning par renforcement pour les politiques génératives de contrôle (GCPs) basées sur la diffusion ou le flow matching, paradigme central de modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). OGPO propage les gradients à travers l'intégralité du processus génératif via un objectif PPO modifié et maintient des réseaux critiques off-policy pour maximiser la réutilisation des données. Évalué sur des tâches de manipulation multi-tâches, d'insertion haute précision et de contrôle dextère, l'algorithme revendique un état de l'art et serait, selon les auteurs, le premier à fine-tuner des politiques de behavior cloning mal initialisées jusqu'au succès complet sans données expertes dans le replay buffer en ligne. Quatre stabilisateurs pratiques sont introduits : success-buffer regularization, conservative advantages, régularisation χ², et réduction de la Q-variance. Le fine-tuning RL des politiques génératives est l'un des principaux verrous pour le déploiement industriel de la robotique. Le behavior cloning pré-entraîne des modèles polyvalents sur de larges corpus de démonstrations, mais plafonne en deçà des taux de succès requis pour l'assemblage de précision ou la manipulation de pièces complexes. L'absence de données expertes dans le replay buffer est stratégiquement importante : un intégrateur adaptant un modèle fondation à une cellule de production spécifique n'a pas à collecter de nouvelles démonstrations coûteuses. Les stabilisateurs introduits adressent directement la sur-exploitation des critiques, mode d'échec documenté qui rendait les approches précédentes instables sur des observations en pixels. Les politiques diffusion pour la robotique ont émergé en 2023 avec Chi et al. (Diffusion Policy), avant d'être étendues au flow matching avec Pi-0 de Physical Intelligence et la famille GR00T de NVIDIA. Le fine-tuning RL de ces architectures avait été tenté avec des méthodes comme DPPO, mais restait limité aux politiques bien initialisées et nécessitait souvent des données expertes. OGPO se positionne comme une approche généraliste applicable à toute GCP. En compétition académique, les laboratoires de Berkeley, CMU et Stanford travaillent sur des problématiques proches. Côté industriel, Physical Intelligence, Boston Dynamics et Figure AI intègrent ce type d'optimisation dans leurs pipelines, et des acteurs européens comme Enchanted Tools (France) opèrent dans cet espace. La suite logique est une validation à plus grande échelle sur hardware réel et une extension aux architectures VLA (Vision-Language-Action) multimodales.

UEEnchanted Tools (France) opère sur des architectures similaires et pourrait intégrer OGPO pour affiner ses politiques de contrôle sans collecte de démonstrations expertes supplémentaires.

💬 Le vrai verrou, c'était ça : fine-tuner sans avoir à collecter de nouvelles démos expertes, parce que personne n'a le budget pour ça quand on adapte un modèle fondation à une cellule de prod spécifique. OGPO le fait, sur des politiques diffusion comme Pi-0 ou GR00T, avec des stabilisateurs intégrés pour que ça ne s'effondre pas en cours de training sur des observations en pixels. Reste à tenir sur du hardware réel à grande échelle, mais comme porte d'entrée vers la robotique de précision sans données expertes, c'est le genre de papier qu'on attendait.

IA physiqueOpinion
1 source
Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle
69Interesting Engineering 

Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle

La division Robotics d'Hexagon AB, basée à Zurich, et l'entreprise autrichienne Fill Maschinenbau ont annoncé un partenariat pour déployer le robot humanoïde AEON dans les ateliers de Fill à Gurten, en Autriche. Ce pilote cible des tâches de conduite de machines (machine tending), d'inspection et de support opérationnel dans des environnements de production à haute mixité. Point notable : AEON n'est pas un robot bipède, mais adopte une locomotion sur roues complétée par des bras de manipulation, une fusion de capteurs multimodale et une intelligence embarquée sur puce NVIDIA Jetson Orin. Présenté en juin 2025, il avait effectué son premier déploiement industriel en décembre 2025 à l'usine BMW Group de Leipzig, unique référence terrain disponible à ce jour. Ce partenariat met en avant une approche simulation-first que les intégrateurs suivent de près. Hexagon revendique une réduction des cycles d'entraînement de plusieurs mois à quelques semaines grâce à NVIDIA Isaac Sim et Isaac Lab, qui permettent d'acquérir navigation, locomotion et manipulation en environnement virtuel avant tout déploiement réel. Le robot utilise également NVIDIA Isaac GR00T et les outils Mimic pour apprendre à partir de démonstrations humaines et générer des données de mouvement synthétiques. Si ces gains se confirment en production, ils apporteraient une réponse partielle au problème du sim-to-real gap, considéré comme l'un des principaux obstacles à l'industrialisation des humanoïdes. Prudence néanmoins : les deux déploiements cités restent à des stades pilotes, sans métriques publiées sur des cycles de production continus. Hexagon AB est un groupe suédois spécialisé en métrologie et intelligence industrielle, dont la division Robotics à Zurich s'est positionnée sur le segment humanoïde après des acteurs comme Figure AI (accord BMW signé dès 2024 pour le Figure 02), Boston Dynamics ou Agility Robotics (Digit, déployé chez Amazon). Les données spatiales collectées par AEON sont remontées vers Hexagon Reality Cloud Studio via HxDR et intégrées à NVIDIA Omniverse pour générer des jumeaux numériques industriels en temps réel, un positionnement qui ancre l'offre davantage dans l'écosystème PLM et métrologie d'Hexagon que dans la robotique mobile pure. Les prochaines étapes incluent une migration vers la puce NVIDIA IGX Thor pour renforcer les garanties de sécurité collaborative. En Europe, cette initiative rejoint les travaux de Wandercraft sur l'humanoïde de réhabilitation médicale et ceux d'Enchanted Tools sur des plateformes à usage hospitalier, signe d'un écosystème continental qui monte progressivement en maturité industrielle.

UELe partenariat entre Hexagon AB (Suède/Zurich) et Fill Maschinenbau (Autriche) pour déployer AEON en usine illustre la montée en maturité industrielle de l'écosystème européen des robots humanoïdes, aux côtés de Wandercraft et Enchanted Tools.

FR/EU ecosystemeOpinion
1 source
Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs
70arXiv cs.RO 

Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs

Une équipe de recherche publie sur arXiv (arXiv:2605.01191, mai 2026) Sentinel-VLA, un modèle de type vision-language-action (VLA) doté d'un module de surveillance active baptisé "sentinel". Contrairement aux VLA classiques qui exécutent des plans fixes, Sentinel-VLA déclenche un raisonnement approfondi uniquement lorsque c'est nécessaire : lors de la planification initiale d'une tâche, ou lorsque le module sentinel détecte une erreur d'exécution en temps réel. L'ensemble des données d'entraînement, couvrant 44 tâches et plus de 2,6 millions de transitions, a été généré et annoté automatiquement via un pipeline dédié. Le modèle intègre également l'algorithme SECL (Self-Evolving Continual Learning), qui lui permet d'identifier ses propres limites de compétence et de collecter automatiquement de nouvelles données pour les repousser, combiné à un adaptateur OC-Adapter (Orthogonal Continual Adapter) qui contraint les mises à jour de paramètres dans un espace orthogonal pour éviter l'oubli catastrophique. En conditions réelles (les détails des configurations expérimentales ne sont pas encore disponibles dans cette prépublication), les auteurs rapportent un gain de plus de 30 % de taux de succès par rapport à PI0, le modèle de Physical Intelligence actuellement considéré comme état de l'art. Le code, les poids et le pipeline de génération de données seront publiés en open source. Ces résultats, si confirmés par la communauté, adressent un blocage majeur dans le déploiement industriel des robots manipulateurs : l'incapacité à se corriger face à une perturbation imprévue. Les VLA existants, qu'il s'agisse de PI0, d'OpenVLA ou des dérivés de RT-2, produisent des plans d'action relativement rigides et échouent dès lors qu'une pièce est mal positionnée ou qu'un objet glisse. Le mécanisme "sentinel" propose une réponse architecturale à ce problème en dissociant l'exécution routinière (peu coûteuse en calcul) du raisonnement correctif (déclenché à la demande), ce qui est pertinent pour un déploiement sur du matériel embarqué à puissance de calcul limitée. L'approche SECL, qui combine auto-évaluation des capacités et apprentissage continu sans oubli, représente également une piste sérieuse pour les intégrateurs qui cherchent à étendre progressivement le répertoire de tâches d'un robot sans retraining complet. Il convient néanmoins de noter que le +30 % annoncé est issu d'expériences en laboratoire dont le protocole exact reste à préciser, et que les vidéos de démonstration n'ont pas encore été rendues publiques au moment de cette prépublication. Sentinel-VLA s'inscrit dans une vague de travaux cherchant à rendre les VLA robustes hors environnement contrôlé, une problématique que Physical Intelligence avait mise en lumière avec PI0 (lancé fin 2024) et que des acteurs comme Figure AI (Figure 03), Boston Dynamics ou 1X Technologies tentent également d'adresser côté hardware. Du côté recherche, les laboratoires de Carnegie Mellon, Stanford et Berkeley publient régulièrement des variantes de VLA avec des stratégies de correction différentes (chain-of-thought embarqué, boucles de feedback visuelles). La particularité de Sentinel-VLA est de traiter la correction non comme un post-processing, mais comme une composante native de l'architecture. L'open-source annoncé, code, poids et pipeline de données, pourrait accélérer l'adoption de cette approche dans la communauté académique et chez les constructeurs de robots à budget R&D contraint. Aucune date de release ni partenariat industriel n'est mentionné dans cette version préliminaire.

UELa publication open-source prévue (code, poids, pipeline de données) pourrait bénéficier aux laboratoires de robotique européens travaillant sur les VLA manipulateurs, mais aucun acteur français ou européen n'est directement impliqué dans cette prépublication.

💬 Ce qui m'intéresse ici, c'est pas le +30% (les configs restent floues, faut attendre les vidéos), c'est que la correction d'erreur est dans l'archi, pas greffée dessus après coup. Sur du matériel embarqué avec peu de calcul disponible, c'est le genre de truc qu'on attendait depuis un moment. Reste à voir si ça tient hors labo, mais l'open source annoncé va vite mettre ça à l'épreuve.

IA physiqueOpinion
1 source
Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes
71arXiv cs.RO 

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes

Des chercheurs ont publié en mars 2026 sur arXiv un framework baptisé Rhythm, conçu pour piloter simultanément deux robots humanoïdes Unitree G1 en interaction physique directe. Le système repose sur trois composants : un module IAMR (Interaction-Aware Motion Retargeting) qui génère des références de mouvement réalistes à partir de captures de données humaines, une politique d'apprentissage par renforcement IGRL (Interaction-Guided Reinforcement Learning) qui modélise les dynamiques de contact couplées via des récompenses basées sur des graphes, et un pipeline de transfert sim-to-real permettant de déployer ces comportements sur robots physiques. Les comportements validés incluent l'accolade et la danse synchronisée entre deux G1, transférés de simulation vers le monde réel. Il s'agit d'un travail académique, pas d'un produit commercialisé. L'intérêt technique est dans la résolution du problème de contact couplé multi-corps : quand deux humanoïdes se touchent, les efforts mécaniques se propagent en boucle entre les deux chaînes cinématiques, rendant le contrôle instable. Rhythm aborde ce problème par des récompenses graph-based qui capturent explicitement l'interaction entre les deux agents, plutôt que de traiter chaque robot indépendamment. Pour un intégrateur ou un ingénieur robotique, c'est une validation que le sim-to-real fonctionne même pour des dynamiques de contact bilatérales, un verrou qui bloquait la plupart des approches multi-robots à manipulation physique. Cela ouvre la voie à des tâches collaboratives exigeant une coordination fine, comme le port de charges lourdes à deux, le transfert d'objets ou l'assemblage bimanuel étendu. Le robot Unitree G1 est une plateforme commerciale accessible (environ 16 000 dollars), ce qui donne à ces résultats une reproductibilité supérieure aux travaux sur robots propriétaires. Dans la course aux humanoïdes, les acteurs comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Boston Dynamics se concentrent sur des déploiements unitaires en environnement industriel ; la coordination physique entre deux humanoïdes reste un espace peu exploré commercialement. Rhythm ne s'inscrit pas encore dans une roadmap produit annoncée, mais la disponibilité du code sur arXiv et le choix du G1 suggèrent une communauté de recherche qui converge vers la standardisation des plateformes, préfigurant des pilotes industriels à horizon 18-36 mois.

RecherchePaper
1 source
Une approche rigoureuse pour générer des démonstrations synthétiques haute fidélité en apprentissage par imitation
72arXiv cs.RO 

Une approche rigoureuse pour générer des démonstrations synthétiques haute fidélité en apprentissage par imitation

Une équipe de chercheurs a publié fin avril 2025 sur arXiv (arXiv:2605.01232) un cadre de synthèse de données d'entraînement robotiques combinant le rendu 3D Gaussian Splatting (3DGS) et les Dynamic Movement Primitives (DMP). Le système part d'une seule démonstration experte et d'un scan multi-vues court pour reconstruire une scène 3DGS, puis retargete la trajectoire originale vers de nouvelles configurations d'objets et de points de vue via des DMPs, encodant ainsi la forme spatiale et le profil temporel du mouvement de façon paramétrique. Pour éviter les collisions dans des scènes encombrées sans représentation géométrique additionnelle, les auteurs introduisent une formulation analytique des DMPs opérant directement sur le champ de densité continu induit par la représentation 3DGS. L'approche a été évaluée sur le robot mobile manipulateur Spot de Boston Dynamics, sur trois tâches de manipulation à sensibilité croissante à la fidélité de trajectoire. Comparée à des pipelines basés sur des planificateurs échantillonnés ou l'optimisation de trajectoire, la méthode réduit l'écart moyen à la trajectoire experte et le taux de collisions, et améliore le taux de succès des politiques visuomotrices de type diffusion entraînées sur ces données. Le résultat principal contredit une intuition répandue en apprentissage par imitation : augmenter la diversité des démonstrations ne garantit pas de meilleures politiques si cette diversité efface la structure fine de la trajectoire experte. Pour des manipulations en contact, saisie contrainte ou assemblage précis, c'est précisément cette structure spatiale et temporelle qui conditionne le succès ; les planificateurs classiques l'éliminent en cherchant des chemins valides alternatifs, augmentant la variance des données sans en accroître la valeur informative. Intégrer la géométrie 3DGS directement dans les DMPs plutôt que d'utiliser un module de collision séparé simplifie le pipeline et évite les incohérences entre rendu et raisonnement géométrique, un problème récurrent dans les systèmes hybrides sim-to-real. Ce travail s'inscrit dans un courant de recherche actif depuis la popularisation du 3DGS en 2023, qui cherche à exploiter cette technique de représentation de scène pour générer à bas coût des données de supervision robotique, en alternative aux moteurs de simulation physique comme Isaac Sim ou MuJoCo qui exigent une modélisation manuelle intensive. Des approches parallèles comme RoboGSim ont exploré cet espace, mais en découplant rendu et planification de mouvement. Le système reste à ce stade un preprint arXiv, évalué sur un seul robot dans des scènes relativement délimitées ; sa généralisation à des plateformes à plus haute dextérité (bras 7 DOF, mains multi-doigts) et son couplage avec des fondations de politiques de type pi-0 ou GR00T N2 constituent les prochaines étapes naturelles à tester.

RecherchePaper
1 source
Stabilité de l'apprentissage par renforcement guidé par fonction de Lyapunov de contrôle
73arXiv cs.RO 

Stabilité de l'apprentissage par renforcement guidé par fonction de Lyapunov de contrôle

Une équipe de chercheurs a publié mi-mai 2026 sur arXiv (arXiv:2605.01978) une analyse théorique de la stabilité des politiques de contrôle issues du reinforcement learning (RL) appliqué à la locomotion humanoïde. Le cœur du travail porte sur la technique dite CLF-RL, qui consiste à construire les fonctions de récompense du RL à partir de fonctions de Lyapunov de contrôle (Control Lyapunov Functions, CLF), un outil classique de la théorie du contrôle. Les auteurs démontrent formellement la stabilité exponentielle des contrôleurs optimaux résultants, aussi bien en temps continu qu'en temps discret, en traitant le problème RL comme un problème de commande optimale. Les résultats sont vérifiés numériquement sur des systèmes de référence académiques (double intégrateur, cart-pole), puis les récompenses guidées par CLF sont appliquées à un robot humanoïde marchant pour générer des orbites périodiques stables. Ce travail comble un écart critique entre la pratique et la théorie dans le domaine de la robotique humanoïde. Le RL est aujourd'hui la méthode dominante pour faire marcher des humanoïdes, avec des déploiements chez Figure, Tesla, Agility Robotics ou encore Unitree, mais ces systèmes manquent de garanties de stabilité formelles, ce qui freine leur certification pour des environnements industriels ou la cohabitation humain-robot. Prouver la stabilité exponentielle, c'est-à-dire démontrer que le système converge vers sa trajectoire cible à un taux borné même après une perturbation, est un résultat nettement plus fort que la simple stabilité au sens de Lyapunov. Pour un intégrateur ou un COO industriel, cela ouvre la voie à une qualification plus rigoureuse des systèmes RL en production. La CLF-RL s'inscrit dans un courant académique plus large qui tente de réconcilier l'efficacité empirique du RL avec la rigueur de la théorie du contrôle, un programme de recherche actif depuis les travaux sur la Control Barrier Function (CBF) et les approches de type safety-critical control. Face aux approches purement model-based (Boston Dynamics) ou au RL non guidé (Agility, Figure Gen-2), la CLF-RL propose une voie intermédiaire. Ce papier reste une contribution théorique et de simulation, sans déploiement matériel annoncé sur un humanoïde commercial, et la généralisation à des dynamiques complètes à haute dimension (32 DOF et plus) reste un défi ouvert.

UECes garanties formelles de stabilité exponentielle pourraient alimenter les futurs cadres de certification des humanoïdes en environnement industriel européen (AI Act, normes IEC 61508), mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert
74arXiv cs.RO 

VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert

Une équipe de chercheurs publie VoxAfford (Voxel-enhanced Affordance Detection), une méthode de détection d'affordance 3D en vocabulaire ouvert, disponible en preprint sur arXiv (identifiant 2605.01365, mai 2025). L'affordance 3D désigne la localisation automatique des zones d'interaction sur un objet - où saisir, pousser, verser - à partir d'une description textuelle libre et non prédéfinie. Sur les benchmarks de référence, VoxAfford affiche une amélioration d'environ 8% en mIoU (mean Intersection over Union) par rapport aux meilleures méthodes existantes. Des expériences sur robot réel valident un transfert zero-shot vers des objets inédits, c'est-à-dire non présents dans les données d'entraînement. Le problème central adressé touche directement la robotique de manipulation : les grands modèles de langage multimodaux (MLLMs) utilisés pour générer des masques de segmentation produisent des tokens sémantiquement riches mais spatialement appauvris, parce que leur génération autorégressive modélise des dépendances séquentielles plutôt que des relations de voisinage géométrique dans l'espace 3D. VoxAfford contourne ce goulot d'étranglement en injectant des caractéristiques géométriques multi-échelles issues d'un encodeur 3D VQVAE (Vector Quantized Variational AutoEncoder) pré-entraîné et figé, directement dans les tokens de sortie après génération. Un mécanisme de cross-attention interroge les motifs géométriques à chaque échelle de voxel en utilisant la sémantique d'affordance comme requête, tandis qu'une porte de compatibilité apprise dose l'injection. Les tokens enrichis sont ensuite agrégés en un prompt d'affordance spatialement cohérent, propagé avec les features par point pour produire le masque final. Les 8% de gain en mIoU sont présentés sans détail sur les conditions exactes de benchmark, un point à nuancer avant toute comparaison directe avec d'autres travaux. La détection d'affordance en vocabulaire ouvert constitue un verrou central pour les robots manipulateurs devant opérer en langage naturel dans des environnements non structurés, problématique partagée par les plateformes humanoïdes (Figure, Unitree, Boston Dynamics) comme par les bras industriels programmés via instruction vocale. Les approches précédentes, notamment celles étendant les MLLMs avec des tokens de sortie spéciaux, butaient précisément sur cette dichotomie sémantique-géométrique que VoxAfford tente de combler. L'architecture s'inscrit dans la tendance des modèles VLA (Vision-Language-Action) qui cherchent à réconcilier compréhension linguistique et précision spatiale - un défi que des acteurs comme Physical Intelligence (pi0), Google DeepMind (GR00T N2) et 1X affrontent également dans leurs pipelines de manipulation. La validation en robot réel avec transfert zero-shot, et non uniquement en simulation, renforce la crédibilité des résultats face au sim-to-real gap fréquemment reproché aux méthodes d'IA incarnée. Aucun acteur français ou européen n'est mentionné dans cette publication ; les suites naturelles incluent l'intégration dans des pipelines de manipulation sur des plateformes comme les bras Franka Robotics ou Universal Robots.

UEImpact indirect à terme : intégration possible sur des plateformes européennes (Franka Robotics DE, Universal Robots DK), mais aucune contribution ou institution FR/UE impliquée dans la publication.

RecherchePaper
1 source
Physical AI : l’intelligence artificielle incarne enfin le monde réel
75Le Big Data 

Physical AI : l’intelligence artificielle incarne enfin le monde réel

La Physical AI désigne une nouvelle génération de systèmes d'intelligence artificielle capables non plus de traiter des données textuelles ou visuelles, mais d'agir directement sur le monde matériel. Contrairement aux modèles de langage classiques qui prédisent des séquences de tokens, ces systèmes combinent des capteurs avancés, vision 3D, lidar, accéléromètres, avec des modèles de fondation pour percevoir leur environnement en temps réel, raisonner sur sa géométrie et produire des mouvements précis en termes de force et de couple. En 2026, l'arrivée de processeurs embarqués suffisamment puissants permet à ces architectures de fonctionner sans délai réseau, rendant la correction de trajectoire instantanée : un bras robotique qui heurte un obstacle recalcule son chemin seul, sans intervention humaine. L'enjeu industriel est considérable. Là où la robotique classique imposait une programmation rigide adaptée à des environnements contrôlés, la Physical AI permet aux machines de s'adapter à l'imprévu, une pièce déplacée, une variation de surface, un collègue humain qui traverse l'espace de travail. La tolérance à l'erreur est radicalement différente de celle de l'IA générative : une hallucination dans un résumé de texte est embarrassante, une erreur de trajectoire dans un entrepôt logistique peut endommager du matériel coûteux ou blesser quelqu'un. Cela pousse les équipes d'ingénierie à exiger des niveaux de fiabilité proches de ceux de l'aéronautique, ce qui tire vers le haut l'ensemble de la chaîne de développement matériel et logiciel. Ce mouvement s'inscrit dans une trajectoire plus longue. Depuis le milieu des années 2010, la robotique industrielle stagnait : les bras mécaniques étaient rapides mais aveugles, incapables de généraliser à de nouveaux contextes sans re-programmation. L'émergence des grands modèles de vision et de langage a ouvert la voie à un apprentissage par démonstration et par simulation physique ultra-réaliste, contournant le besoin de millions d'exemples réels difficiles à collecter. Des acteurs comme NVIDIA avec sa plateforme Isaac, Boston Dynamics ou encore Figure AI investissent massivement dans cette convergence numérique-physique. La prochaine étape sera de déterminer qui contrôle les couches logicielles fondamentales, et donc l'économie de la robotique généralisée, avant que le marché ne se consolide autour de deux ou trois plateformes dominantes.

HumanoïdesOpinion
1 source
Cartes de coût conditionnées à la tâche pour la locomotion sur pattes
76arXiv cs.RO 

Cartes de coût conditionnées à la tâche pour la locomotion sur pattes

Une équipe de recherche a publié sur arXiv (identifiant 2605.00261, mai 2025) une méthode permettant aux robots à pattes de naviguer plus fiablement sur des terrains non structurés en modélisant l'incertitude épistémique dans la prédiction des appuis. Le principe : un modèle appris, entraîné à prédire les points de contact viables au sol, intègre désormais une estimation de sa propre incertitude, conditionnée à la fois sur les relevés de hauteur du terrain et sur la commande de mouvement transmise au robot. Testé en simulation et en conditions réelles, le système distingue les zones de terrain "connues" (in-distribution) des zones hors distribution (OOD), c'est-à-dire absentes des données d'entraînement. Cette incertitude est intégrée dans un cadre unifié de génération de costmaps, directement exploitable par un planificateur de trajectoire. Résultat principal : jusqu'à 37 % de réduction de l'erreur de faisabilité en simulation, avec un comportement de planification plus robuste qu'un modèle reposant uniquement sur la géométrie du terrain. L'enjeu est concret pour les intégrateurs de robots à pattes en milieu industriel. La plupart des systèmes appris actuels échouent silencieusement sur des terrains hors distribution : le robot tente quand même le franchissement, avec des risques de chute ou de blocage. En rendant l'incertitude explicite et traduite en coût dans le planificateur, le système peut délibérément éviter les zones qu'il ne reconnaît pas. C'est une avancée pour le déploiement en environnements non contrôlés, là où il est impossible de couvrir exhaustivement tous les types de surface lors de l'entraînement. La méthode offre aussi une voie de sortie au problème des datasets limités : un modèle entraîné sur une distribution restreinte peut opérer en sécurité en sachant délimiter son propre domaine de compétence. Cette problématique s'inscrit dans un effort de recherche plus large visant à combler le gap sim-to-real en locomotion à pattes, défi qui mobilise des acteurs comme ANYbotics (dont l'ANYmal est déployé en inspection industrielle), Boston Dynamics (Spot) ou Unitree Robotics. La tendance dominante jusqu'ici consistait à accumuler davantage de données et à diversifier les terrains de simulation. L'approche par quantification d'incertitude offre une voie complémentaire, particulièrement adaptée aux déploiements à domaine restreint où la collecte de données exhaustive est coûteuse. Les auteurs ne mentionnent ni timeline de commercialisation ni partenariat industriel identifié : il s'agit d'un preprint académique, sans validation sur robot commercial nommé.

RecherchePaper
1 source
Locus Robotics déploie Locus Array pour l'automatisation complète des entrepôts
77Robotics & Automation News 

Locus Robotics déploie Locus Array pour l'automatisation complète des entrepôts

Locus Robotics, spécialiste américain des systèmes d'automatisation d'entrepôts, a officialisé le lancement de Locus Array, une solution qu'elle qualifie de système de préparation de commandes entièrement autonome. La plateforme intègre des robots mobiles autonomes (AMR), un bras de préhension robotisé et un module de perception piloté par IA, avec l'objectif de couvrir l'ensemble du flux de traitement des commandes sans intervention humaine. Des déploiements en accès anticipé sont déjà engagés chez des clients en Amérique du Nord, bien que les détails opérationnels (payload, cadence de cycle, taux de précision) n'aient pas encore été communiqués publiquement. L'enjeu industriel est réel : les AMR de première génération automatisaient le transport inter-zones, mais laissaient le picking, tâche la plus coûteuse en main-d'oeuvre -- à des opérateurs humains. Intégrer un bras de préhension directement sur la plateforme mobile représente un saut architectural vers l'autonomie bout-en-bout. Pour les intégrateurs et les décideurs logistiques, cela change le calcul du ROI : si les métriques tiennent à l'échelle, l'argument pour réduire les effectifs de picking devient structurel. Reste à valider la robustesse hors conditions contrôlées, un point que l'annonce ne documente pas encore. Locus Robotics a levé plus de 400 millions de dollars depuis sa fondation en 2015, mais a traversé une période difficile en 2023, avec des réductions d'effectifs significatives liées à un ralentissement du marché e-commerce. Locus Array s'inscrit donc dans une stratégie de repositionnement vers la valeur ajoutée. Sur ce segment, la concurrence est dense : Exotec (Roubaix, France) avec son système Skypod, Symbotic, Geek+ et Boston Dynamics avec Stretch visent tous le même créneau de préparation autonome. La phase d'accès anticipé devra produire des données opérationnelles convaincantes pour crédibiliser la proposition face à ces acteurs déjà déployés à grande échelle.

UEExotec (Roubaix, France) est directement en compétition sur ce créneau de préparation autonome et devra défendre sa position si Locus Array produit des métriques opérationnelles convaincantes à l'échelle.

IndustrielOpinion
1 source
À Silicon Valley, des entreprises d'IA incarnée chinoises et américaines échangent sur 4 problèmes clés
7836Kr 

À Silicon Valley, des entreprises d'IA incarnée chinoises et américaines échangent sur 4 problèmes clés

Le 28 avril 2026, MagicLab a tenu à San José sa Global Embodied Intelligence Summit (GEIS), en présence de représentants d'Adobe, TikTok et IBM. La société a présenté trois nouveaux produits : le modèle-monde Magic-Mix, construit sur deux moteurs, Magic-WAM pour la compréhension du monde réel et Magic-Creator pour la génération de données synthétiques en boucle fermée ; la main dextre MagicHand H01, 20 DOF et 44 capteurs tactiles 3D haute résolution ; le robot humanoïde MagicBot X1, 180 cm, 70 kg, 31 DOF actifs, couple articulaire maximal de 450 N·m, fonctionnement continu 24h/7j via double batterie. Ces annonces s'accompagnent d'un objectif commercial de 14 milliards de dollars de revenus d'ici 2036, un chiffre que la société ne détaille pas. La conférence s'inscrit dans une accélération visible du secteur : Zhiyuan Robotics a annoncé sa 10 000e unité en à peine trois mois (de 5 000 à 10 000 robots) ; Unitree affiche dans son prospectus d'IPO 1,707 milliard de RMB de chiffre d'affaires 2025, plus de 5 500 unités expédiées, et plus de 50 % du revenu réalisé à l'international. La GEIS a structuré quatre débats techniques majeurs pour le secteur. Sur la donnée d'entraînement, la stratégie dominante est le mix : MagicLab collecte environ 16 000 trajectoires réelles par jour et les amplifie d'un facteur 10 000 par synthèse, ciblant l'assemblage automobile électrique comme gisement prioritaire (60 à 70 % de processus encore manuels). Zhengyi Luo du NVIDIA GEAR Lab détaille la répartition de son équipe : 50 % données simulées, 15 % motion capture, 25 % vidéos internet, 10 % données réelles haute qualité. Haozhi Qi, chercheur à l'Amazon Frontier AI and Robotics, pose la limite de la synthèse : elle fonctionne pour les compétences élémentaires, pas pour les tâches à horizon long comme préparer un repas. Sur les architectures VLA (vision-langage-action), Qi explique leur dominance actuelle par la maturité des capteurs visuels face aux capteurs tactiles encore embryonnaires, VLA compensant ainsi le déficit sensoriel par la modalité visuelle. Sur les mains dextres, Evan Tao de Chestnut Robotics, ancien membre clé de l'équipe Tesla Optimus, défend une architecture hybride tendons plus IA, recherchant l'équilibre entre manipulation fine et robustesse industrielle. Sur la mise à l'échelle, Jan Liphardt, cofondateur d'OpenMind et professeur associé à Stanford en bioingénierie, recommande un déploiement terrain le plus précoce possible : laboratoires et simulations ne reproduisent pas lumière intense, sols humides ou charnières oxydées, conditions qui révèlent les défaillances systémiques des robots. La tenue de la GEIS en Californie traduit un repositionnement stratégique des acteurs robotiques chinois vers les marchés industriels occidentaux. MagicLab affronte Figure AI, Agility Robotics et Boston Dynamics sur le segment humanoïde industriel, tout en concurrençant Unitree et Zhiyuan sur son marché domestique. La présence de PrismaX, OpenMind et XGSynBot confirme que la commercialisation de la robotique humanoïde est désormais transatlantique. Les déploiements pilotes annoncés visent des usines d'assemblage et des environnements publics, aéroports, écoles, lieux de soins, avec pour objectif explicite d'accumuler des données d'interaction que les simulations les plus sophistiquées ne peuvent pas générer.

UEL'expansion transatlantique des constructeurs chinois (MagicLab, Unitree, Zhiyuan) vers les marchés industriels occidentaux intensifie la pression concurrentielle sur les intégrateurs et fabricants robotiques européens, sans déploiement explicite en Europe annoncé à ce stade.

💬 Zhiyuan passe de 5 000 à 10 000 robots en trois mois, Unitree fait déjà plus de la moitié de son CA à l'export. C'est ça la vraie info, pas les 14 milliards de revenus d'ici 2036 (ça, ça sent la slide investisseur non étayée). Le truc que je retiens de Liphardt : ni labo ni simulation ne reproduisent une charnière oxydée, donc déploie en usine le plus tôt possible.

HumanoïdesOpinion
1 source
Unitree redéfinit le marché des robots humanoïdes d'entrée de gamme avec un modèle à 4 290 $
79Interesting Engineering 

Unitree redéfinit le marché des robots humanoïdes d'entrée de gamme avec un modèle à 4 290 $

Unitree, la firme de robotique fondée à Hangzhou en Chine, a dévoilé un nouveau robot humanoïde à bras duaux baptisé G1 (version upper-body), commercialisé à partir de 26 900 yuans, soit environ 4 290 dollars. Le robot abandonne la structure corps entier traditionnelle au profit d'une architecture modulaire : base fixe ou châssis mobile selon le cas d'usage. Chaque bras est disponible en configuration 5-DOF ou 7-DOF, pour un total de 15 à 31 degrés de liberté selon la variante choisie. Le poignet offre une rotation de la taille à ±150°, la tête supporte ±115° en lacet et ±36° en tangage, et le préhenseur atteint une répétabilité de ±0,1 mm. La charge utile est de 2 kg par bras. Le système embarque une vision binoculaire stéréo, un tableau de quatre microphones et une interaction vocale, le tout animé par deux CPU 8 cœurs haute performance, complétés par un module de vision en tête délivrant 10 TOPS de calcul IA. Le robot supporte alimentation externe ou embarquée, et pèse entre 11 et 32 kg selon configuration. La même semaine, Unitree publiait une démonstration de son G1 bipède intégral effectuant des pirouettes et des rotations sur patins à roulettes via un contrôle roue-jambe coordonné, un exercice spectaculaire mais sans lien direct avec les capacités industrielles annoncées ici. Ce tarif de 4 290 dollars positionne Unitree comme l'entrée de gamme la plus accessible du segment manipulation humanoïde, un marché encore dominé par des plateformes à cinq ou six chiffres. Si la stratégie reproduit le succès de la série Go (robots quadrupèdes qui ont conquis la communauté académique et dev en cassant les prix), elle pourrait accélérer significativement l'écosystème autour de la robotique de manipulation. L'accès à du matériel capable à faible coût réduit la dépendance à la simulation, raccourcit les cycles d'itération et permet des tests en conditions réelles, ce qui est critique pour les travaux en embodied AI, notamment sur les VLA (Vision-Language-Action models). Reste que les interfaces de bas niveau exposées pour le développement secondaire sont un vrai signal positif : elles indiquent un positionnement outillage de recherche autant que produit commercial. Unitree avait déjà introduit en 2025 le R1, un humanoïde complet à 26 articulations vendu 39 999 yuans (environ 5 900 dollars), confirmant une ligne directrice claire : prix d'entrée agressif, itération rapide, capture de l'écosystème développeur avant de monter en gamme. Le paysage concurrentiel reste dense : Boston Dynamics dispose d'une profondeur technique éprouvée et de relations entreprise établies ; Figure AI (Figure 03), Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Agility Robotics positionnent leurs systèmes sur la fiabilité industrielle et les déploiements à grande échelle, segments où la réputation et le support comptent autant que le prix. La vraie mesure du succès de cette plateforme se lira dans six à douze mois, au travers des projets open-source, travaux académiques et startups early-stage qui choisiront, ou non, de construire dessus.

UEL'offre à prix cassé de Unitree pourrait abaisser les barrières matérielles pour les laboratoires académiques et startups européens travaillant sur les modèles VLA, sans déploiement ni partenariat européen annoncé à ce stade.

Chine/AsieOpinion
1 source
Apprentissage de politiques de loco-manipulation quadrupède avec perception tactile
80arXiv cs.RO 

Apprentissage de politiques de loco-manipulation quadrupède avec perception tactile

Une équipe de chercheurs a publié en avril 2026 sur arXiv (2604.27224) un pipeline hiérarchique de loco-manipulation pour robots quadrupèdes intégrant le retour tactile. Le système combine une politique visuotactile de haut niveau, entraînée sur des démonstrations humaines réelles, qui prédit simultanément les trajectoires de l'effecteur terminal et les signaux tactiles attendus caractérisant l'évolution du contact, avec une politique corps-entier entraînée par reinforcement learning à grande échelle en simulation et transférée zero-shot sur robot physique. Évalué sur trois tâches à contact riche (réorientation en main avec insertion, serrage de vanne, manipulation d'objets fragiles), le système affiche un gain moyen de 28,54 % par rapport aux baselines vision seule et visuotactile sans prédiction tactile. L'apport principal est de démontrer que vision et proprioception restent insuffisantes pour résoudre des contacts incertains et évolutifs, et que le retour tactile fournit une observabilité directe que les autres modalités ne peuvent pas suppléer. La mise à l'échelle de l'apprentissage tactile à un système complet de loco-manipulation quadrupède est une contribution distinctive : la littérature récente s'était concentrée sur les bras fixes et les mains dextres, laissant les plateformes mobiles en dehors du périmètre. Le transfert zero-shot sim-to-real de la politique multimodale corps-entier valide par ailleurs qu'il est possible de combler le gap simulation-réalité sur des politiques sensorielles complexes sans fine-tuning sur robot physique, un résultat concret pour les déploiements industriels. La manipulation par quadrupèdes s'est accélérée depuis 2023 avec Spot (Boston Dynamics) et ANYmal (ANYbotics, ETH Zurich), qui s'appuient cependant essentiellement sur la vision et la proprioception. L'intégration d'une couche tactile hiérarchique sur des systèmes mobiles reste une extension non triviale, absente des plateformes Unitree B2/Z1 ou des travaux sur MIT Cheetah. La suite logique inclut l'extension à des capteurs haute densité (GelSight, capacitif distribué) et à des chaînes de manipulation multi-étapes en milieu industriel réel. Ce travail est un preprint non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats au-delà du protocole expérimental décrit.

UELes résultats sur le transfert zero-shot sim-to-real et la manipulation tactile quadrupède sont directement pertinents pour ANYbotics (spin-off ETH Zurich) et ses déploiements d'inspection industrielle en Europe, où ANYmal constitue la plateforme de référence.

RecherchePaper
1 source
De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM
81arXiv cs.RO 

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

Une étude publiée sur arXiv (référence 2604.27267) propose la première modélisation unifiée des menaces de sécurité pour les systèmes robotiques autonomes pilotés par des grands modèles de langage (LLM). Les auteurs ont modélisé un robot autonome déployé en architecture edge-cloud sous la forme d'un Data Flow Diagram (DFD) hiérarchique, puis appliqué la méthode STRIDE-per-interaction sur six points de franchissement de frontières de confiance. Cette analyse identifie trois familles de menaces distinctes : les menaces cyber conventionnelles (injections réseau, falsification de données), les menaces adversariales (attaques sur la perception visuelle ou sensorielle) et les menaces conversationnelles (prompt injection, manipulation des sorties du LLM). Trois chaînes d'attaque cross-boundary sont tracées de l'entrée externe jusqu'à l'actionnement physique non sécurisé du robot. Ce travail est significatif parce qu'il démontre que ces trois catégories de menaces convergent aux mêmes points d'interface architecturale, ce qui invalide l'hypothèse implicite de nombreux intégrateurs selon laquelle les couches perception, planification et actuation peuvent être sécurisées indépendamment. L'étude expose trois failles structurelles distinctes : l'absence de validation sémantique indépendante entre l'entrée utilisateur et la commande d'actionneur, la translation cross-modale de la perception visuelle vers l'instruction LLM, et le franchissement non médié des frontières via les outils côté fournisseur (tool use). Pour un COO industriel ou un intégrateur déployant des robots LLM-enabled en production, ces résultats impliquent que le pipeline perception-planification-actuation constitue une surface d'attaque continue, et non un empilement de composants isolables. Le contexte est celui d'une intégration accélérée des LLM dans la robotique autonome, portée par des acteurs comme Figure AI, 1X Technologies, Boston Dynamics ou Physical Intelligence (pi0), qui utilisent des architectures VLA (Vision-Language-Action) pour le contrôle haut niveau. Les travaux antérieurs traitaient séparément la cybersécurité robotique, les attaques adversariales sur la perception et la sécurité des LLM, sans modèle architectural unifié. Cette étude, encore au stade preprint et non évaluée par les pairs, comble ce vide méthodologique et devrait alimenter les discussions dans les groupes de standardisation (ISO TC 299, IEC) sur la certification des systèmes robotiques cognitifs. Les auteurs ne précisent pas d'affiliations institutionnelles spécifiques ni de financements dans l'abstract.

UECette étude devrait alimenter les groupes de standardisation européens (IEC, ISO TC 299) travaillant sur la certification des systèmes robotiques cognitifs dans le cadre de l'AI Act, en fournissant une méthodologie unifiée manquante.

RechercheOpinion
1 source
Figure affirme produire un robot humanoïde par heure, soit une multiplication par 24 en quatre mois
82Interesting Engineering 

Figure affirme produire un robot humanoïde par heure, soit une multiplication par 24 en quatre mois

Figure, la startup californienne spécialisée en robotique humanoïde, a annoncé avoir atteint un rythme de production d'un robot Figure 03 par heure dans son usine BotQ, située en Californie. Ce chiffre représente une multiplication par 24 du cadence de fabrication en moins de quatre mois, partant d'un robot par jour début 2026. Plus de 350 unités ont été livrées à ce jour, plus de 500 batteries expédiées, et plus de 9 000 actionneurs produits. La ligne de fabrication s'appuie sur un logiciel propriétaire déployé sur plus de 150 postes de travail en réseau, avec plus de 50 points d'inspection intermédiaires. Le taux de réussite en fin de ligne (first-pass yield) dépasse 80 %, et le rendement de production des batteries atteint 99,3 %. Chaque unité subit plus de 80 tests fonctionnels incluant des exercices de stress mécanique (squats, jogging) avant expédition. L'objectif affiché reste de 12 000 robots par an à pleine capacité. Ce passage du stade prototype à la production industrielle est significatif dans la course aux humanoïdes, où la majorité des acteurs restent encore dans des phases de démonstrateur ou de déploiement pilote très limité. Un taux de rendement end-of-line supérieur à 80 % sur un produit mécatronique aussi complexe est un indicateur industriel crédible, bien que Figure ne précise pas la définition exacte de ce seuil ni les conditions de test. En parallèle, Figure a publié une mise à jour majeure de son modèle d'IA Helix, baptisée System 0 (S0). L'ancienne version reposait uniquement sur la proprioception (états articulaires, posture). S0 intègre désormais des caméras stéréo embarquées qui génèrent une représentation 3D de l'environnement, permettant au robot de naviguer des escaliers et des terrains variés avec une stabilité décrite comme comparable à celle d'un humain. Le système est entraîné par renforcement en simulation sur des terrains aléatoires, et les comportements appris se transfèrent directement au monde réel sans recalibration, ce qui constitue une avancée notable sur le classique problème du sim-to-real gap. Figure a été fondée en 2022 par Brett Adcock et a levé plus de 675 millions de dollars, dont une ronde notable en 2024 avec des participations de Microsoft, Nvidia, OpenAI et Samsung. Le Figure 03 est la troisième génération de son robot humanoïde, succédant au Figure 01 et 02. Dans un secteur extrêmement concurrentiel, Figure se positionne face à Tesla (Optimus Gen 2), Boston Dynamics (Atlas électrique), Agility Robotics (Digit, déployé chez Amazon), Physical Intelligence (Pi-0) et Unitree. La montée en volume de BotQ est aussi une course aux données : plus de robots déployés signifie davantage de données réelles pour entraîner Helix. Figure indique viser des déploiements dans les secteurs de la recherche, du commercial et de l'usage domestique, sans préciser de calendrier client ni de prix public pour le Figure 03.

HumanoïdesActu
1 source
M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions
83arXiv cs.RO 

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

Des chercheurs ont publié fin avril 2025 sur arXiv (2504.18662) un extracteur de représentations multimodal baptisé M2R2 (MultiModal Robotic Representation for Robotic TAS), conçu pour la segmentation temporelle d'actions (TAS) en robotique. L'approche combine des informations proprioceptives (encodeurs, capteurs force-couple, état des articulations) et extéroceptives (caméras RGB) dans un extracteur de features commun, accompagné d'une stratégie d'entraînement inédite permettant la réutilisation de ces représentations sur plusieurs architectures de segmentation indépendantes. Les résultats annoncés positionnent M2R2 à l'état de l'art sur trois jeux de données de référence en robotique : REASSEMBLE (assemblage de composants), (Im)PerfectPour (versage de liquide) et JIGSAWS (chirurgie robotique laparoscopique simulée). Une étude d'ablation extensive quantifie la contribution respective de chaque modalité. L'intérêt principal de M2R2 réside dans la modularité de son extracteur : les approches multimodales existantes en robotique fusionnaient les modalités directement à l'intérieur du modèle de segmentation, rendant les features non réutilisables entre architectures. Ici, le découplage extracteur/modèle de TAS ouvre la voie à une bibliothèque de représentations partageable, ce qui réduit le coût de réentraînement lors du changement de tâche ou de robot. Sur les scénarios à faible visibilité d'objet, les extracteurs purement visuels issus du computer vision chutent en performance, là où l'ajout de la proprioception maintient la robustesse. C'est un résultat concret sur la fragilité des approches vision-seule dans des environnements industriels ou chirurgicaux réels, où occlusions et éclairage variable sont la norme. La segmentation temporelle d'actions est un verrou historique pour l'autonomie des robots manipulateurs : sans identifier les frontières entre skills (saisir, aligner, visser...), il est impossible de planifier, corriger ou réutiliser des séquences de gestes. En chirurgie robotique, JIGSAWS est le benchmark de référence depuis 2016, utilisé notamment dans les travaux autour des plateformes da Vinci (Intuitive Surgical). En robotique industrielle, des acteurs comme Wandercraft ou les équipes de manipulation de Boston Dynamics s'appuient sur des approches similaires pour les transitions de phases motrices. M2R2 reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé, mais son extracteur réutilisable représente un candidat sérieux pour des pipelines d'imitation learning dans lesquels labelliser chaque skill manuellement est le principal goulot d'étranglement.

UEL'extracteur modulaire M2R2 pourrait bénéficier aux équipes de manipulation françaises (notamment Wandercraft) en réduisant le coût de labellisation dans les pipelines d'imitation learning, mais reste une contribution académique sans déploiement industriel annoncé.

RecherchePaper
1 source
Fausse faisabilité dans le MPC à impédance variable pour la locomotion sur pattes
84arXiv cs.RO 

Fausse faisabilité dans le MPC à impédance variable pour la locomotion sur pattes

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.22251) une analyse formelle d'une erreur de formulation dans les contrôleurs prédictifs à impédance variable (variable impedance MPC) pour la locomotion des robots à pattes. Le problème identifié : traiter la raideur articulaire comme une variable de décision instantanée génère un ensemble faisable (Fparam) strictement plus large que l'ensemble physiquement réalisable (Freal) sous dynamiques d'actionneur du premier ordre. Les auteurs formalisent cette distinction via le paramètre sans dimension α = ωs·T (bande passante de l'actionneur multipliée par l'échelle temporelle de la tâche). Sur un monopède sauteur 1D, ils prouvent l'existence d'un seuil analytique αcrit en dessous duquel aucune commande de raideur admissible ne réalise la prédiction du modèle. Un second seuil αinfeas < αcrit établit un régime où même restreindre la plage de raideur admissible ne corrige pas la faisabilité. La validation numérique sur dix combinaisons de paramètres montre une déviation monotone croissante à mesure qu'α diminue (R² = 0,99 en log-log). Le transfert sur un pendule inversé à ressort (SLIP) planaire confirme que les déviations de centre de masse et de chronométrage d'appui sont les conséquences primaires. Ce résultat a des implications directes pour les intégrateurs déployant des MPC sur robots à pattes. Les formulations existantes peuvent paraître faisables numériquement tout en étant irréalisables physiquement, ce qui explique en partie le sim-to-real gap persistant dans les locomotions dynamiques. L'étude contredit l'hypothèse qu'un réglage conservateur des plages de raideur suffit à garantir la réalisabilité : en dessous d'α_infeas, cette approche est structurellement inopérante, quelle que soit la marge de sécurité appliquée. La commande à impédance variable s'est imposée en robotique à pattes pour adapter dynamiquement la compliance articulaire, notamment dans les plateformes d'ANYbotics (ANYmal), Boston Dynamics et Agility Robotics. La correction proposée par les auteurs est directe : augmenter l'état de prédiction du MPC avec la raideur courante ferme le décalage par construction. Aucune validation expérimentale sur hardware n'est encore annoncée, et la généralisation à des architectures multi-DOF reste à démontrer, ce qui limite pour l'instant la portée pratique immédiate du résultat.

UEANYbotics (Suisse/UE), dont la plateforme ANYmal est citée comme directement concernée, expose les équipes R&D européennes travaillant sur la locomotion dynamique à un risque de sim-to-real gap structurel lié à ce défaut de formulation MPC.

RecherchePaper
1 source
Accenture, Vodafone et SAP testent des robots humanoïdes en entrepôt
85Robotics Business Review 

Accenture, Vodafone et SAP testent des robots humanoïdes en entrepôt

Accenture, Vodafone Procure & Connect et SAP ont mené un pilote de robotique humanoïde dans l'entrepôt de Vodafone à Duisburg, en Allemagne, dont les résultats ont été présentés à Hannover Messe 2026. Durant ce programme, les robots recevaient leurs missions d'inspection directement via le système SAP Extended Warehouse Management (EWM) et effectuaient de manière autonome des rondes visuelles dans l'installation : détection de produits mal placés ou endommagés, évaluation de l'empilement des palettes et de la répartition des charges, repérage d'espaces de stockage sous-utilisés, identification de risques comme des obstacles dans les allées ou des palettes mal alignées. Les conclusions étaient remontées en temps réel dans le système SAP. Les robots sont équipés de la solution "Robot Brain" d'Accenture, entraînés dans des jumeaux numériques construits via l'Accenture Physical AI Orchestrator, lui-même basé sur NVIDIA Omniverse, le blueprint NVIDIA Mega et les outils NVIDIA Metropolis pour la vision IA. Ils interagissent avec les opérateurs par la voix, les gestes et le texte. Un point à noter : aucun modèle de robot humanoïde n'est communiqué dans les annonces officielles, et aucune métrique de performance -- charge utile, degrés de liberté, temps de cycle -- n'a été publiée. L'intérêt de ce pilote réside moins dans la prouesse robotique que dans la démonstration d'une intégration native avec un WMS standard du marché. SAP EWM équipe une grande partie des opérations logistiques mondiales : si cette interface tient à l'échelle, elle réduit considérablement la friction d'adoption pour les grands acteurs industriels, qui n'auront pas à refondre leur SI existant. Pour les COO logistiques, les arguments avancés -- réduction des accidents de travail, des heures supplémentaires et de la dépendance à l'intérim -- sont bien plus concrets que la promesse de l'"IA physique". Vodafone Procure & Connect va plus loin en évoquant explicitement un futur "business de solutions de main-d'oeuvre humanoïde", ce qui signale une ambition de monétiser l'expérience acquise au-delà de l'usage interne -- un signal que les intégrateurs et les investisseurs du secteur logistique devraient noter. Ce pilote s'inscrit dans la stratégie d'Accenture de se positionner comme intégrateur de référence pour la robotique humanoïde en entreprise, en capitalisant sur son partenariat technologique avec NVIDIA. Dans un marché où Boston Dynamics déploie Stretch chez DHL et GXO, Figure AI a signé avec BMW, et Apptronik travaille avec Mercedes-Benz, Accenture joue la carte de la couche d'intégration SI plutôt que du hardware -- aucun fabricant de robot n'est nommé dans les communications, ce qui suggère soit une architecture hardware-agnostique, soit des partenariats encore confidentiels. Pour SAP, c'est une démonstration de la pertinence de l'EWM dans un monde de robots physiques autonomes. Les prochaines étapes restent vagues : une extension à la chaîne d'approvisionnement globale de Vodafone est évoquée, mais sans dates ni volumes cibles. Ce projet demeure, pour l'heure, un pilote présenté en salon -- pas encore un déploiement industriel confirmé.

UELe pilote en entrepôt Vodafone à Duisburg démontre une intégration native des robots humanoïdes avec SAP EWM, ERP dominant de la logistique européenne, ce qui pourrait réduire significativement la friction d'adoption pour les opérateurs industriels européens sans refonte de leur SI existant.

FR/EU ecosystemeOpinion
1 source
ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot
86arXiv cs.RO 

ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot

Des chercheurs ont présenté ExpressMM, un framework destiné aux manipulateurs mobiles déployés en environnements humains, capable de générer des comportements expressifs en temps réel pendant l'exécution de tâches collaboratives. Publié sur arXiv (2604.05320v3), le système repose sur une architecture à deux niveaux : un planificateur de haut niveau fondé sur un modèle vision-langage (VLM) prend en charge la perception et le raisonnement conversationnel, tandis qu'une politique vision-langage-action (VLA) de bas niveau produit les mouvements expressifs du robot. Élément distinctif : ExpressMM supporte les interactions interruptibles, c'est-à-dire que l'utilisateur peut modifier ou rediriger les instructions du robot en cours d'exécution. L'évaluation a été conduite sur un manipulateur mobile réel lors d'un scénario d'assemblage collaboratif, avec des démonstrations en direct devant un public et des questionnaires post-session. La majorité des travaux antérieurs sur les comportements expressifs des robots s'appuyaient sur des mouvements préprogrammés ou appris par démonstration, et n'anticipaient pas les interruptions en cours de tâche, un cas pourtant courant dès qu'un humain travaille aux côtés d'un robot. ExpressMM traite cette lacune en couplant une VLA capable de s'adapter dynamiquement aux nouvelles instructions avec un raisonnement langage-vision pour maintenir la cohérence sociale de l'interaction. Les résultats des questionnaires indiquent que les observateurs ont trouvé les actions du robot clairement interprétables, les interactions socialement appropriées, et le comportement prévisible et sûr. Pour les intégrateurs industriels et les équipes opérations, c'est un signal fort : les robots collaboratifs ne peuvent plus se contenter d'accomplir une tâche ; ils doivent être lisibles par les humains qui partagent l'espace de travail. Le sujet de l'expressivité robotique est activement exploré depuis plusieurs années dans la communauté HRI, mais les approches précédentes peinaient à généraliser au-delà de comportements scénarisés ou de démos contrôlées. L'utilisation conjointe d'un VLM et d'une VLA dans un seul pipeline interruptible représente une progression architecturale significative. Sur le plan concurrentiel, des acteurs comme Boston Dynamics (avec Spot) ou des startups HRI telles que Enchanted Tools en France (robot Miroki) travaillent également sur la dimension sociale des robots collaboratifs, mais peu publient des évaluations HRI aussi structurées en conditions réelles. Les prochaines étapes logiques pour ExpressMM seraient des déploiements en environnements industriels ou de service à plus grande échelle, où la variété des interactions humaines dépasse largement les scénarios d'assemblage contrôlés.

UELa recherche est directement pertinente pour Enchanted Tools (France, robot Miroki), qui travaille sur des problématiques similaires d'expressivité sociale et d'interaction humain-robot collaboratif.

IA physiqueOpinion
1 source
Transformer de navigation multimodal sensible à l'incarnation physique
87arXiv cs.RO 

Transformer de navigation multimodal sensible à l'incarnation physique

Des chercheurs ont publié sur arXiv (2604.19267) ViLiNT, un modèle de navigation par objectif pour robots terrestres qui fusionne images RGB, nuages de points LiDAR 3D, un embedding de destination et un descripteur d'embodiment dans une architecture transformer. La sortie du transformer conditionne un modèle de diffusion chargé de générer des trajectoires navigables ; ces trajectoires sont ensuite scorées et classées par une tête de prédiction de dégagement de chemin (path clearance), entraînée sur des labels générés automatiquement hors ligne. Un token d'embodiment propre à chaque robot permet au modèle d'adapter la génération et la sélection des trajectoires aux dimensions physiques de la plateforme. Entraîné sur données hétérogènes issues de plusieurs plateformes et environnements, ViLiNT affiche une amélioration de 166 % du taux de succès (Success Rate) en moyenne sur trois environnements simulés par rapport à NoMaD, la baseline vision-only de référence. Ces résultats ont été confirmés en déploiement réel, sur un rover évoluant dans des champs d'obstacles. Le gain de 166 % sur NoMaD est frappant, mais à contextualiser : la comparaison porte sur des scénarios de navigation hors route où la dégradation sous distribution shift est précisément le problème ciblé, ce qui peut gonfler le delta. L'enjeu industriel est néanmoins réel : les AMR et robots de livraison outdoor subissent exactement ce type de régression dès qu'ils quittent leur environnement d'entraînement. L'apport clé de ViLiNT pour les intégrateurs est double. D'abord, la fusion RGB + LiDAR rend le modèle plus robuste aux variations de luminosité ou de texture de terrain. Ensuite, l'embodiment token ouvre la voie à un modèle unique déployable sur plusieurs plateformes de dimensions différentes, sans réentraînement complet, ce qui réduit significativement le coût de portage. La navigation par objectif pour robots mobiles terrestres est un chantier actif depuis les travaux fondateurs de NoMaD (Berkeley, 2023) et des politiques GNFactor/ViNT. ViLiNT s'inscrit dans la vague des politiques multimodales qui cherchent à combler le sim-to-real gap par enrichissement sensoriel plutôt que par augmentation de données synthétiques. Côté concurrence, des acteurs comme Boston Dynamics (Spot), Clearpath ou Anybotics travaillent sur des problématiques similaires de robustesse hors route, et des laboratoires comme ETH Zurich et CMU publient dans le même espace. ViLiNT reste pour l'instant un preprint sans déploiement industriel annoncé ; les prochaines étapes naturelles seraient une validation sur terrains non structurés plus diversifiés (végétation, boue) et une évaluation du coût computationnel embarqué pour confirmer la viabilité sur hardware contraint.

UEETH Zurich travaille sur des problématiques similaires de navigation hors route ; les fabricants d'AMR et robots outdoor européens pourraient bénéficier de l'embodiment token pour réduire les coûts de portage multi-plateformes, mais aucun partenariat ou déploiement européen n'est annoncé à ce stade.

IA physiquePaper
1 source
Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes
88Interesting Engineering 

Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes

RobCo, startup allemande fondée à Munich, a dévoilé à la Hannover Messe 2026 un robot humanoïde industriel baptisé Autonomous Alfie, conçu pour des tâches de fabrication complexes impliquant une forte variabilité : kitting, palettisation, assemblage de précision et manipulation de matériaux sensibles. L'annonce intervient dans la foulée d'une levée de fonds Serie C de 100 millions de dollars, orientée vers le développement de ce que RobCo appelle la "Physical AI". Le robot embarque une manipulation bimanuels, c'est-à-dire une coordination à deux bras imitant la gestuelle humaine, couplée à un système de vision et de perception haptique permettant de gérer des pièces mal orientées ou des flux de travail changeants. Les premiers déploiements clients sont annoncés pour la fin 2026, sans précision sur les sites ou les secteurs ciblés. RobCo dispose déjà d'opérations à San Francisco et Austin, et l'essentiel de ce financement est clairement orienté vers le marché américain. Ce que RobCo met en avant, c'est le passage à ce qu'il nomme le "niveau 4 d'autonomie" en contexte industriel : un système capable d'apprendre par observation plutôt que par programmation explicite, et d'exécuter des tâches avec une intervention humaine minimale, même dans des environnements non structurés. C'est précisément le segment qui résiste encore à l'automatisation classique, dominée par les bras articulés répétitifs qui exigent des environnements stables et des fixtures précises. Si les performances annoncées se confirment en production réelle, Alfie s'attaquerait au "messy middle" de la chaîne industrielle, ce gisement de tâches manuelles à haute variabilité que ni les AMR ni les cobots traditionnels n'ont su automatiser à l'échelle. Le modèle Robotics-as-a-Service (RaaS) proposé en parallèle vise à supprimer le frein du capex initial, facilitant une adoption rapide sans engagement d'achat lourd. Il faut néanmoins noter qu'Alfie est décrit comme étant encore en "phase finale de développement" : les affirmations sur l'autonomie de niveau 4 restent à valider sur des lignes de production en conditions réelles, les vidéos de démo présentées à Hannover Messe ne constituant pas une preuve de déploiement industriel à l'échelle. RobCo n'est pas un nouvel entrant : la société était jusqu'ici positionnée sur les bras robotiques modulaires pour PME, avant de pivoter vers l'humanoïde et la Physical AI. Elle rejoint un champ concurrentiel désormais dense, où Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies se disputent la même promesse d'un robot généraliste pour l'industrie. En Europe, des acteurs comme Enchanted Tools (Mirokaï) ou Wandercraft développent des approches parallèles, sans avoir encore atteint la phase de déploiement commercial annoncé. La prochaine étape décisive pour RobCo sera la publication de métriques de production vérifiables, notamment les temps de cycle en conditions non contrôlées et les taux d'erreur sur tâches à haute variabilité, seuls indicateurs capables de distinguer une démonstration convaincante d'un produit réellement opérationnel.

UERobCo, startup allemande basée à Munich, annonce un humanoïde industriel et lève 100M$ mais oriente son financement prioritairement vers le marché américain, limitant l'impact concret à court terme pour l'industrie européenne malgré la vitrine de Hannover Messe.

L'utilisation des LLM pour la planification en IA incarnée introduit des risques de sécurité systématiques
89arXiv cs.RO 

L'utilisation des LLM pour la planification en IA incarnée introduit des risques de sécurité systématiques

Des chercheurs ont publié le 24 avril 2026 sur arXiv (arXiv:2604.18463) un benchmark nommé DESPITE, conçu pour évaluer systématiquement la sécurité des grands modèles de langage (LLM) utilisés comme planificateurs robotiques. Le jeu de données comprend 12 279 tâches couvrant à la fois des dangers physiques (collisions, manipulation de charges) et normatifs (violation de règles de sécurité industrielles), avec une validation entièrement déterministe. Testé sur 23 modèles, le résultat le plus frappant est le suivant : le meilleur modèle en termes de planification n'échoue à produire un plan valide que dans 0,4 % des cas, mais génère des plans dangereux dans 28,3 % des situations. Parmi les 18 modèles open-source évalués, allant de 3 milliards à 671 milliards de paramètres, la capacité de planification s'améliore fortement avec la taille (de 0,4 % à 99,3 % de réussite), tandis que la conscience du danger reste remarquablement plate (38 à 57 %). Trois modèles propriétaires dotés de capacités de raisonnement explicite atteignent des niveaux de sécurité nettement supérieurs, entre 71 % et 81 %, alors que les modèles propriétaires sans raisonnement et les modèles open-source restent sous le seuil des 57 %. Ces résultats contredisent directement l'hypothèse, implicite dans de nombreux projets d'intégration, selon laquelle un modèle plus capable est automatiquement plus sûr. Les auteurs identifient une relation multiplicative entre capacité de planification et conscience du danger : un LLM qui planifie mieux complète davantage de tâches en toute sécurité, mais uniquement parce qu'il génère plus de plans valides, pas parce qu'il évite mieux les situations à risque. Pour un intégrateur robotique ou un COO industriel qui envisage de déployer un LLM comme cerveau d'un AMR ou d'un bras manipulateur, cela signifie concrètement que la saturation des performances de planification, déjà proche pour les modèles frontier, déplace le goulot d'étranglement vers la sécurité, un axe que les recettes de scaling habituelles ne résolvent pas. Ce travail s'inscrit dans un débat actif autour des architectures VLA (Vision-Language-Action) et de l'utilisation des LLM comme planificateurs de haut niveau dans des systèmes comme ceux développés par Physical Intelligence (pi0), Figure AI ou Boston Dynamics. Le benchmark DESPITE comble un vide méthodologique : jusqu'ici, les évaluations de sécurité reposaient sur des scénarios ad hoc ou des métriques de performance générale. L'absence de tout modèle open-source dépassant les 57 % de conscience du danger soulève des questions directes pour les acteurs européens qui misent sur des modèles ouverts pour des raisons de souveraineté ou de coût, notamment dans les secteurs logistique et manufacturier. Les prochaines étapes logiques incluent l'intégration de DESPITE dans les pipelines de fine-tuning orientés sécurité et la collaboration avec des organismes de normalisation comme l'ISO ou l'IEC pour ancrer ces métriques dans des référentiels de certification robotique.

UELes acteurs européens qui misent sur des modèles open-source pour des raisons de souveraineté se retrouvent plafonnés à 57 % de conscience du danger, bien en dessous des modèles propriétaires à raisonnement explicite (71–81 %), ce qui fragilise directement les déploiements LLM-as-planner dans la logistique et le manufacturier européens.

RechercheOpinion
1 source
Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation
90arXiv cs.RO 

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation

Des chercheurs ont publié sur arXiv (arXiv:2604.17258, avril 2026) un pipeline de déploiement rapide permettant de préparer un robot humanoïde à manipuler un nouvel objet en environ 30 minutes, contre un à deux jours dans les approches classiques. Le système s'appuie sur trois composants à base de modèles de fondation : l'annotation automatique via Roboflow pour entraîner un détecteur YOLOv8, la reconstruction 3D par Meta SAM 3D à partir d'images standard (smartphone suffisant, pas de scanner laser), et le suivi de pose 6-DoF en zero-shot par FoundationPose, qui utilise directement le maillage généré par SAM 3D comme gabarit. Les commandes de pose alimentent un planificateur de cinématique inverse sous Unity, transmises en UDP au robot Unitree G1 via le SDK propriétaire. Les métriques annoncées : mAP@0.5 = 0,995 en détection, précision de suivi σ inférieure à 1,05 mm, et saisie réussie sur cinq positions dans l'espace de travail. Le pipeline a également été validé sur une tâche d'application de mastic sur vitre d'automobile, ce qui constitue un environnement industriel concret. L'enjeu principal est la réduction du "time-to-deployment" pour la manipulation humanoïde, un goulot d'étranglement majeur qui freine l'intégration en environnement industriel réel. Passer de deux jours à 30 minutes sans équipement spécialisé change la donne pour les intégrateurs et les PME industrielles qui ne disposent pas d'équipes robotique dédiées. Le recours au zero-shot pour FoundationPose signifie qu'aucun réentraînement n'est nécessaire pour chaque nouvel objet, ce qui valide partiellement l'hypothèse que les modèles de fondation peuvent absorber la variabilité d'objets sans collecte de données lourde. Cela dit, les résultats sont présentés sur cinq positions fixes et deux tâches seulement ; la robustesse en conditions de production non contrôlées reste à démontrer. Le robot support, le Unitree G1, est un humanoïde commercial chinois à 16 degrés de liberté vendu autour de 16 000 dollars, positionné comme plateforme de recherche accessible. Les composants logiciels mobilisés (Roboflow, Meta SAM 3D, FoundationPose de NVidia) sont tous open-source ou accessibles via API, ce qui renforce la reproductibilité. Dans le paysage actuel où Figure (Figure 03), Tesla (Optimus), Physical Intelligence (pi0) et Boston Dynamics investissent massivement dans les pipelines de manipulation apprise, cette approche modulaire et frugale en données offre une alternative pragmatique, notamment pour les déploiements pilotes dans des cellules de production à faible volume ou à variété élevée d'objets.

UELes intégrateurs robotiques et PME industrielles européens peuvent évaluer et reproduire ce pipeline open-source (Roboflow, Meta SAM 3D, FoundationPose) pour réduire drastiquement le time-to-deployment sur des cellules de production à haute variété d'objets, sans équipement spécialisé ni équipe robotique dédiée.

IA physiquePaper
1 source
Vidéo : ce robot chinois a battu le record du semi-marathon détenu par un humain
91Le Big Data 

Vidéo : ce robot chinois a battu le record du semi-marathon détenu par un humain

Un robot humanoïde du fabricant chinois Honor a bouclé un semi-marathon à Pékin en 50 minutes et 26 secondes, surpassant le record humain de la discipline détenu par l'athlète ougandais Jacob Kiplimo. Surnommé "Lightning", ce robot aux jambes de 95 centimètres a reproduit une foulée longue et efficace, proche de celle des athlètes professionnels. Honor n'a pas engagé un seul robot dans cette course, mais trois, signalant une stratégie industrielle assumée plutôt qu'un simple coup de communication. Parmi les plus de 100 robots humanoïdes présents sur la ligne de départ, près de la moitié ont franchi l'arrivée sans aucune assistance humaine directe, analysant leur environnement en temps réel et ajustant leur trajectoire de manière autonome. Ce résultat marque un saut qualitatif net par rapport à l'édition précédente, où beaucoup de robots abandonnaient en chemin, perdaient l'équilibre ou s'immobilisaient en plein effort. En 2026, les machines tiennent la distance, accélèrent, et certaines dépassent des coureurs professionnels sur plusieurs segments. Le chiffre le plus révélateur n'est pas le chrono, mais la croissance du nombre de participants : d'une vingtaine de robots l'an dernier à plus de 100 cette année. Ce que démontre Honor, c'est la capacité à faire sortir des technologies grand public, développées à l'origine pour les smartphones, vers des machines capables de performances physiques comparables à celles d'un humain entraîné. Pour l'industrie robotique mondiale, c'est la preuve que l'endurance et l'autonomie de déplacement en milieu réel ne sont plus des obstacles théoriques. La Chine investit massivement dans la robotique humanoïde depuis plusieurs années, portée par une volonté politique de dominer ce secteur jugé stratégique, au même titre que les semi-conducteurs ou l'intelligence artificielle. Des entreprises comme Unitree, Fourier Intelligence ou désormais Honor s'imposent dans un marché mondial où Boston Dynamics et Tesla (avec Optimus) font figure de références. Le semi-marathon de Pékin fonctionne comme un banc d'essai public : les robots y affrontent des conditions réelles, imprévisibles, face à des milliers de coureurs humains. Chaque édition sert à mesurer les progrès effectifs, loin des démonstrations contrôlées en laboratoire. La prochaine étape logique sera de voir ces systèmes opérer dans des environnements industriels ou de service, où la robustesse et l'autonomie comptent autant que la vitesse. La course au semi-marathon n'est qu'un indicateur parmi d'autres d'une compétition technologique beaucoup plus large qui ne fait que commencer.

UELa montée en puissance de la Chine dans la robotique humanoïde, illustrée par Honor, Unitree et Fourier, représente un défi stratégique direct pour l'industrie européenne, qui accuse un retard croissant face à des acteurs soutenus par une volonté politique nationale forte.

Suivi simplifié : retargeting neural des mouvements pour le contrôle global du robot humanoïde
92arXiv cs.RO 

Suivi simplifié : retargeting neural des mouvements pour le contrôle global du robot humanoïde

Une équipe de chercheurs a publié NMR (Neural Motion Retargeting), un framework d'apprentissage automatique conçu pour résoudre l'un des verrous fondamentaux de la robotique humanoïde : transférer des mouvements humains bruts vers un robot physique sans générer d'artefacts cinématiques. Testé sur le Unitree G1, un humanoïde à 23 degrés de liberté commercialisé autour de 16 000 dollars, NMR démontre sa capacité sur des tâches dynamiquement exigeantes comme les arts martiaux et la danse. Les résultats publiés montrent une élimination quasi-totale des "joint jumps" (discontinuités articulaires) et une réduction significative des auto-collisions par rapport aux méthodes de référence actuelles, tout en accélérant la convergence des politiques de contrôle en aval. Le problème que NMR adresse est structurel. Les approches traditionnelles par optimisation géométrique sont non-convexes et convergent systématiquement vers des optima locaux, produisant des mouvements physiquement incohérents inutilisables pour l'entraînement de politiques de contrôle. NMR reformule le problème différemment : au lieu de chercher une solution optimale, il apprend la distribution des données de mouvement valides. Le pipeline repose sur CEPR (Clustered-Expert Physics Refinement), qui utilise un VAE pour regrouper les mouvements humains hétérogènes en motifs latents homogènes, puis fait intervenir des experts en reinforcement learning massivement parallèle pour projeter chaque cluster sur le manifold de mouvements réalisables du robot. Ces données haute-fidélité supervisent ensuite un réseau hybride CNN-Transformer non-autoregressif capable de raisonner sur le contexte temporel global, évitant les pièges géométriques locaux. L'implication pour les intégrateurs est directe : un pipeline de retargeting plus robuste signifie moins de curation manuelle des données de démonstration, goulot d'étranglement majeur dans le développement de politiques whole-body. Ce travail s'inscrit dans une compétition intense autour du sim-to-real et du retargeting humain-robot, domaine où s'affrontent des approches comme SMPL-based retargeting, PhysHOI ou encore les pipelines de Berkeley Humanoid. Unitree, fabricant chinois qui positionne le G1 comme plateforme de recherche accessible face aux robots Figure, Agility ou Boston Dynamics, bénéficie directement de ces avancées publiées en open research. La prochaine étape naturelle sera la validation sur des tâches de manipulation en environnement non structuré, où la cohérence whole-body entre locomotion et bras reste le défi non résolu du secteur.

RecherchePaper
1 source
Améliorer la stabilité des robots mobiles sur terrain accidenté grâce à la surveillance des vibrations
93Robotics Business Review 

Améliorer la stabilité des robots mobiles sur terrain accidenté grâce à la surveillance des vibrations

Des ingénieurs spécialisés en robotique mobile publient un retour d'expérience terrain démontrant que la surveillance vibratoire permet de prédire les instabilités d'un véhicule terrestre non habité (UGV) avant que les capteurs visuels ne les détectent. Lors d'un essai avec un UGV de taille intermédiaire sur sol accidenté - quelques pierres, légère inclinaison - l'engin a basculé malgré une image caméra jugée correcte et un scan lidar ne signalant aucun danger. Des tests comparatifs ont ensuite couvert trois surfaces : terre compacte (signal vibratoire stable, faible amplitude), gravier meuble (signal chaotique, pics haute fréquence) et sable mou (oscillations lentes, basse fréquence). La distinction est opérationnelle : les pics haute fréquence indiquent des impacts avec roches ou débris susceptibles de provoquer un transfert de charge brutal, tandis que les oscillations basse fréquence signalent une perte progressive de sustentation (roue qui s'enfonce ou glisse). Dans un test de type rover, une couche de sable masquait des roches enchâssées invisibles aux caméras et au lidar : l'IMU a détecté les pics vibratoires correspondants avant que le robot n'atteigne physiquement la zone critique. Ce que ces résultats remettent en cause, c'est la domination des architectures de navigation purement visuelles - caméras, lidar, SLAM - dans les stacks robotiques actuels. Ces systèmes cartographient l'espace mais ne prédisent pas la réponse mécanique du sol à la charge : un terrain peut paraître compact et se comporter comme de la poudre sous le poids d'un UGV de plusieurs dizaines de kilos. La surveillance vibratoire, fondée sur des capteurs inertiels (IMU) et accéléromètres embarqués, apporte une rétroaction proprioceptive : le robot ressent le terrain plutôt que de seulement le voir. Pour un intégrateur ou un COO industriel déployant des AMR ou des UGV en milieu extérieur non structuré, l'argument économique est direct - réduire les incidents de basculement sans alourdir la pile de perception externe ni ajouter de capteurs coûteux. La valeur tient dans l'exploitation analytique de signaux déjà présents sur toute plateforme équipée d'un IMU standard. Ces travaux s'inscrivent dans une tendance active depuis plusieurs années en robotique quadrupède - Boston Dynamics Spot, ANYmal d'ANYbotics, recherches de DeepMind sur la locomotion adaptative - mais encore peu transposée aux UGV à roues. Les approches équivalentes sont explorées par Clearpath Robotics (Husky, Warthog), AGCO pour l'agriculture autonome, et des spécialistes du tout-terrain comme Neobotix ou Robopec en Europe. En France, le LAAS-CNRS dispose d'un historique de recherche sur la navigation tout-terrain qui rejoint cette problématique. Il convient de noter que l'article ne mentionne ni produit commercialisé ni timeline de déploiement : il s'agit d'un retour d'expérience méthodologique, pas d'une annonce produit. Les prochaines étapes naturelles seraient l'intégration de ces signaux vibratoires dans des contrôleurs adaptatifs temps réel et leur fusion formelle avec les planificateurs de trajectoire existants, notamment pour les applications de livraison autonome et d'inspection en milieu dégradé.

UELes intégrateurs européens de robots mobiles tout-terrain, notamment Neobotix et Robopec, et le LAAS-CNRS disposent d'une base de recherche directement exploitable pour intégrer la surveillance vibratoire dans leurs stacks de navigation UGV extérieur.

AutrePaper
1 source
MODEX 2026 : retour sur le salon
94Robotics Business Review 

MODEX 2026 : retour sur le salon

MODEX 2026 s'est tenu à Atlanta avec plus de 1 000 exposants et environ 50 000 participants, confirmant sa place de principal salon supply chain en Amérique du Nord. Les éditeurs Eugene Demaitre (The Robot Report / Automated Warehouse) et Sarah Wynn (Packaging OEM) y ont recensé plusieurs dynamiques : montée en puissance des ASRS (systèmes automatisés de stockage et récupération) avec AutoStore et Attabotics dans une concurrence accrue, démonstrateurs de déchargement de camions signés Boston Dynamics, Pickle Robot et Slip Robotics, et manipulateurs mobiles Omron sur le segment intralogistique. FANUC présentait ses "rainbow pallets" développés avec Angelini Technologies, aux côtés de capteurs SICK et des solutions picking de Brightpick, Locus Robotics et Ocado. En marge du salon, deux annonces ont concentré l'attention. Skild AI a acquis la division robotique de Zebra Technologies, héritière de Fetch Robotics : selon Deepak Pathak, co-fondateur et CEO, "la Fetch Team est la principale raison de l'acquisition", pour ses années d'expérience de déploiement terrain. Skild prévoit de combiner son IA hardware-agnostic avec la plateforme d'orchestration Symmetry de Zebra, maintenir le support de la base installée Fetch, et développer de nouveaux produits entrepôt. Boston Dynamics a également annoncé l'intégration de Gemini Robotics ER 1.6 de Google DeepMind dans sa plateforme Orbit AIVI-Learning, promettant à Spot une capacité de raisonnement visuo-spatial, de planification de tâches et de détection de succès. L'acquisition Fetch-Skild est la pièce la plus structurante : elle permet à Skild de court-circuiter des années de déploiement terrain en récupérant directement l'équipe et la base client. Pour les intégrateurs, cela signifie un interlocuteur unifié sur l'IA embarquée, l'orchestration fleet-level et le support opérationnel, ce qui simplifie l'intégration mais réduit mécaniquement la concurrence entre briques logicielles. L'annonce Boston Dynamics-Google reste, elle, au stade partenarial : aucune métrique de performance industrielle n'a été publiée sur des cycles réels, et les capacités annoncées pour Gemini Robotics ER 1.6 (raisonnement spatial, task planning, success detection) sont pour l'instant documentées en conditions contrôlées. Fetch Robotics avait été racheté par Zebra Technologies en 2021 pour environ 290 millions de dollars ; cette cession à Skild marque une sortie discrète de Zebra du marché robotique autonome, trois ans après une intégration qui n'a pas tenu ses promesses de synergies. Skild AI, fondé par les anciens chercheurs de CMU Deepak Pathak et Abhinav Gupta, avait levé 300 millions de dollars en 2024 pour déployer son modèle de fondation multi-embodiment à travers différentes plateformes matérielles. Le partenariat Boston Dynamics-Google DeepMind s'inscrit dans la stratégie Gemini Robotics annoncée début 2025, qui consiste à diffuser les modèles VLA (Vision-Language-Action) dans des robots commerciaux via des OEM partenaires. Locus Robotics, concurrent direct sur le segment AMR picking, traverse des difficultés financières depuis 2023, ce qui redistribue les cartes sur ce segment précisément.

UELes opérateurs européens équipés de robots Fetch devront désormais s'adresser à Skild AI pour le support et les évolutions de leur parc installé, suite à l'acquisition de la division robotique de Zebra Technologies.

AutreActu
1 source
Tesla pris de vitesse ? Chery vend déjà son robot humanoïde en ligne
95Frandroid 

Tesla pris de vitesse ? Chery vend déjà son robot humanoïde en ligne

Le constructeur automobile chinois Chery, jusqu'ici principalement connu pour ses véhicules électriques, vient de franchir un cap inattendu en mettant en vente son premier robot humanoïde, le Mornine M1, directement en ligne. Affiché à environ 39 000 euros, l'engin embarque une batterie de capteurs directement issus des systèmes de conduite autonome développés par Chery pour ses voitures. Le robot est commercialisé sans passer par des canaux de distribution traditionnels, une stratégie de vente directe qui rappelle celle adoptée par Tesla pour ses véhicules. Cette mise sur le marché place Chery dans une course technologique qui dépasse largement le secteur automobile. À ce prix, le Mornine M1 s'adresse potentiellement aux industriels, entrepôts logistiques et laboratoires souhaitant automatiser des tâches physiques complexes. La réutilisation de composants issus de la conduite autonome représente un avantage compétitif réel : Chery amortit ses investissements en R&D sur deux marchés simultanément, réduisant ainsi les coûts de développement. Cependant, l'article signale un point faible significatif qui n'est pas détaillé dans l'extrait disponible, ce qui laisse planer un doute sur la maturité réelle du produit. Le lancement du Mornine M1 s'inscrit dans une dynamique chinoise plus large visant à dominer le marché mondial de la robotique humanoïde, un secteur où Tesla avec Optimus, Figure AI et Boston Dynamics se livrent une concurrence féroce. La Chine a fait de la robotique humanoïde une priorité industrielle nationale, et voir un constructeur automobile s'y engouffrer illustre la convergence accélérée entre mobilité autonome et robotique. Chery rejoint ainsi BYD et d'autres géants industriels chinois qui diversifient leurs activités bien au-delà de l'électromobilité.

UELes industriels et entrepôts logistiques européens pourraient accéder à un robot humanoïde à 39 000€, accentuant la pression concurrentielle sur le marché de l'automatisation physique en Europe.

HumanoïdesOpinion
1 source
Des robots quadrupèdes lisent des jauges et thermomètres grâce à Google Gemini
96Ars Technica AI 

Des robots quadrupèdes lisent des jauges et thermomètres grâce à Google Gemini

Les chiens robots de Boston Dynamics, comme le quadrupède Spot, sont désormais capables de lire avec précision des thermomètres analogiques et des manomètres lors de leurs rondes dans les usines et entrepôts. Cette avancée repose sur le nouveau modèle d'IA robotique de Google DeepMind, baptisé Gemini Robotics-ER 1.6, annoncé le 14 avril 2026. Ce modèle agit comme un "moteur de raisonnement de haut niveau pour robot", capable de planifier et d'exécuter des tâches complexes impliquant une compréhension fine de l'environnement physique. Il permet notamment de déchiffrer des instruments de mesure comprenant plusieurs aiguilles, des niveaux de liquide, des graduations et du texte, ainsi que d'effectuer des inspections visuelles via des hublots transparents donnant accès à l'intérieur de cuves et de tuyauteries. Cette capacité de "raisonnement incarné" représente un saut qualitatif important pour l'automatisation industrielle. Jusqu'ici, lire un manomètre analogique ou interpréter un niveau dans un réservoir exigeait une intervention humaine ou des capteurs dédiés. Avec Gemini Robotics-ER 1.6, un robot comme Spot peut désormais effectuer des rondes d'inspection autonomes dans des environnements industriels complexes sans infrastructure supplémentaire, réduisant potentiellement les coûts de maintenance et les risques pour les opérateurs humains dans des zones dangereuses. Ce développement s'inscrit dans la collaboration continue entre Google DeepMind et Boston Dynamics, entreprise détenue par le constructeur automobile coréen Hyundai Motor Group. Hyundai teste activement des robots bipèdes et quadrupèdes dans ses usines d'assemblage automobile, faisant de ces environnements un terrain d'expérimentation privilégié. La course à l'IA robotique s'intensifie entre les grands acteurs technologiques, et l'intégration de modèles de vision multimodaux puissants comme Gemini dans des robots physiques ouvre la voie à des inspecteurs autonomes capables d'opérer dans n'importe quelle installation industrielle existante, sans modification matérielle.

UELes industriels européens pourraient adopter cette technologie pour automatiser les rondes d'inspection sans modifier leur infrastructure existante, mais aucune entreprise ou institution française/européenne n'est directement impliquée.

IA physiqueActu
1 source
Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique
97MarkTechPost 

Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique

Google DeepMind a publié Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à servir de cerveau cognitif aux robots évoluant dans des environnements physiques réels. Ce modèle ne contrôle pas directement les membres d'un robot, c'est le rôle du modèle jumeau Gemini Robotics 1.5, dit VLA (vision-language-action), qui traduit les instructions en commandes motrices. Gemini Robotics-ER 1.6 joue plutôt le rôle du stratège : il analyse l'espace, planifie les tâches, détecte les succès et peut appeler des outils externes comme Google Search ou des fonctions définies par l'utilisateur. Par rapport à la version 1.5, la nouvelle itération améliore nettement les capacités de raisonnement spatial et physique, pointage précis au pixel près, comptage d'objets, raisonnement relationnel ("l'objet le plus petit", "déplacer X vers Y"), et introduit une fonctionnalité entièrement nouvelle : la lecture d'instruments analogiques. L'impact de ces améliorations est concret et mesurable. Dans les benchmarks internes, Gemini Robotics-ER 1.6 identifie correctement le nombre de marteaux, ciseaux, pinceaux, pinces et outils de jardin présents dans une scène, et refuse de pointer des objets absents de l'image, là où la version 1.5 hallucine une brouette inexistante et rate plusieurs objets. Cette fiabilité est critique : dans un pipeline robotique, une fausse détection d'objet provoque des erreurs en cascade, le robot tentant d'interagir avec du vide. La détection de succès multi-vues, savoir quand une tâche est réellement terminée en fusionnant plusieurs flux caméra simultanément, améliore également la capacité du système à décider entre relancer une tentative échouée ou passer à l'étape suivante. La lecture d'instruments, elle, permet pour la première fois à un robot de lire un cadran analogique, un thermomètre ou un manomètre sans avoir besoin que l'instrument soit numérique. Cette publication s'inscrit dans une course effrénée à l'IA physique, où Google DeepMind affronte des acteurs comme Figure AI, Physical Intelligence ou Boston Dynamics sur le terrain de la robotique généraliste. L'architecture duale stratège/exécuteur choisie par DeepMind tranche avec les approches bout-en-bout de certains concurrents, pari sur une meilleure modularité et une plus grande capacité à intégrer des outils tiers. La lecture d'instruments ouvre des perspectives industrielles immédiates : inspection d'équipements dans des usines ou des centrales, environnements où la numérisation complète des capteurs reste coûteuse. Gemini Robotics-ER 1.6 est disponible via Google AI Studio et l'API Gemini, et DeepMind a annoncé un programme d'accès anticipé pour les entreprises souhaitant l'intégrer dans leurs pipelines robotiques.

UELes capacités de lecture d'instruments analogiques et d'inspection visuelle ouvrent des débouchés immédiats pour les industriels européens (usines, centrales) souhaitant déployer des robots dans des environnements non numérisés.

HumanoïdesOpinion
1 source
Agibot livre son 10 000e robot humanoïde produit en série
98The Information AI 

Agibot livre son 10 000e robot humanoïde produit en série

Agibot, startup chinoise spécialisée dans les robots humanoïdes et basée à Shanghai, a annoncé ce lundi avoir produit sa 10 000e unité en série. Cette étape symbolique intervient seulement trois mois après que l'entreprise avait annoncé la sortie de son 5 000e robot — ce qui signifie qu'Agibot a doublé son volume de production en moins d'un trimestre, un rythme industriel sans précédent dans ce secteur. Cette cadence illustre la montée en puissance de la robotique humanoïde à grande échelle, jusqu'ici considérée comme un horizon lointain. Atteindre 10 000 unités en production de masse positionne Agibot comme un acteur capable de livrer des robots à des clients industriels à des volumes réellement opérationnels — ce que ni Boston Dynamics ni Figure n'ont encore atteint publiquement. Cela crée une pression directe sur les concurrents occidentaux. Cette accélération s'inscrit dans une course technologique et industrielle que Pékin soutient activement, avec des subventions ciblées sur la robotique humanoïde identifiée comme secteur stratégique. Agibot, fondée en 2023, bénéficie de cette dynamique aux côtés d'autres acteurs chinois comme Unitree ou Fourier Intelligence. La question qui se pose désormais est celle du déploiement réel : dans quelles usines, à quels coûts, et avec quelle fiabilité ces 10 000 robots seront-ils mis au travail.

UELa montée en puissance industrielle de la robotique humanoïde chinoise, soutenue par Pékin, accentue le retard des industriels européens et crée une pression concurrentielle directe sur les filières d'automatisation en France et en UE.

HumanoïdesActu
1 source
Amazon rachète une start-up de robots humanoïdes
99Siècle Digital 

Amazon rachète une start-up de robots humanoïdes

Amazon a finalisé l'acquisition de Fauna Robotics, une jeune entreprise américaine spécialisée dans les robots humanoïdes, selon des informations révélées par Bloomberg. Le montant de la transaction n'a pas été divulgué. Cette opération s'inscrit dans une stratégie d'expansion robotique accélérée du géant de Seattle, qui avait déjà alimenté les rumeurs en juin dernier autour de robots livreurs autonomes. L'annonce intervient quelques jours seulement après une autre initiative dans ce secteur, confirmant un rythme d'investissement soutenu. Pour Amazon, l'enjeu est considérable : ses entrepôts emploient plus d'un million de personnes dans le monde, et l'automatisation des tâches manuelles complexes — picking, tri, manutention — représente un levier de productivité et de réduction des coûts massif. Les robots humanoïdes, capables de manipuler des objets dans des environnements conçus pour les humains, ouvrent des possibilités que les bras robotisés traditionnels ne permettent pas. Pour les travailleurs de la logistique, cette trajectoire soulève des questions directes sur l'évolution de leurs métiers. La course aux robots humanoïdes s'est considérablement intensifiée ces deux dernières années. Figure 02 de Figure AI, Optimus de Tesla, Atlas de Boston Dynamics ou encore les robots de 1X Technologies attirent des milliards de dollars d'investissement. Amazon, qui possède déjà Boston Dynamics via Hyundai et opère des dizaines de milliers de robots dans ses entrepôts, se positionne pour ne pas laisser à des tiers le contrôle de cette technologie stratégique. L'intégration de Fauna Robotics devrait accélérer ses capacités de développement en interne.

UELes entrepôts Amazon en France et en Europe, qui emploient des centaines de milliers de salariés de la logistique, sont directement concernés par cette accélération vers l'automatisation humanoïde.

HumanoïdesActu
1 source
Quel est le robot humanoïde avec Brigitte Macron et Melania Trump à la Maison Blanche ?
100Numerama 

Quel est le robot humanoïde avec Brigitte Macron et Melania Trump à la Maison Blanche ?

Le 25 mars 2026, le robot humanoïde Figure 03, développé par la startup américaine Figure AI, a fait une apparition remarquée lors d'un sommet à la Maison-Blanche consacré à l'éducation et aux technologies. Il était présent aux côtés de Melania Trump et Brigitte Macron, épouse du président français Emmanuel Macron, en visite officielle aux États-Unis. Cette présence symbolique illustre la montée en puissance des robots humanoïdes dans l'espace public et politique. En apparaissant lors d'un événement de haut niveau mêlant deux premières dames, Figure 03 bénéficie d'une vitrine internationale considérable, accélérant la visibilité de Figure AI face à ses concurrents comme Tesla Optimus ou Boston Dynamics. Figure AI, fondée en 2022, s'est imposée comme l'un des acteurs les plus ambitieux du secteur, ayant levé plusieurs centaines de millions de dollars pour développer des robots destinés à des environnements industriels et domestiques.

UELa présence de Brigitte Macron à cet événement diplomatique confère une dimension européenne symbolique à la vitrine des robots humanoïdes, sans impact réglementaire ou économique direct sur la France ou l'UE.

HumanoïdesActu
1 source