Aller au contenu principal

Dossier Apptronik Apollo

38 articles

Apptronik et Apollo : humanoïde américain pour la logistique, partenariat Mercedes-Benz et GXO, soutien NASA Johnson Space Center.

Helix-02 assure désormais des quarts de 8 heures en usine sans intervention humaine
1Interesting Engineering HumanoïdesOpinion

Helix-02 assure désormais des quarts de 8 heures en usine sans intervention humaine

Figure AI a annoncé le 13 mai 2026 que ses robots humanoïdes sont désormais capables d'assurer des postes de travail complets de huit heures de façon entièrement autonome, grâce à son système d'IA Helix-02. La startup californienne a publié une vidéo sur X montrant une équipe de robots opérant "à des niveaux de performance humaine" sans intervention humaine. Helix-02 est un réseau de neurones unifié qui fusionne la vision (caméras en tête et dans les paumes), le toucher (capteurs tactiles au bout des doigts), la proprioception et le contrôle du corps entier en un seul système d'apprentissage, remplaçant les architectures traditionnelles qui séparent contrôleurs de mouvement et de manipulation. La société a également présenté "System 0", un contrôleur neuronal corporel entraîné sur plus de 1 000 heures de données de mouvement humain, qui remplace plus de 109 000 lignes de code C++ artisanal. Les robots ont démontré des tâches à motricité fine incluant le dévissage de bouchons, l'extraction de médicaments depuis des organiseurs, le dosage précis de seringues et le tri de pièces métalliques dans des bacs encombrés. En mode multi-robots, deux humanoïdes ont réinitialisé une chambre entière en moins de deux minutes, sans contrôleur centralisé. Si les affirmations de continuité opérationnelle se confirment à l'échelle, ce passage de démonstrations de quelques minutes à des postes de huit heures représente un seuil industriel significatif pour les intégrateurs et les décideurs B2B. La fusion vision-toucher-proprioception dans un seul modèle neuronal constitue une architecture distincte des AMR actuels et adresse directement le "sim-to-real gap" que la plupart des VLA peinent encore à combler dans des environnements non contrôlés. La capacité de coordination inter-robots sans orchestrateur central est également notable pour les scénarios d'entrepôt et de montage à forte densité humaine. Il convient toutefois de souligner que les vidéos publiées sont sélectionnées par l'entreprise, et qu'aucune donnée indépendante sur les taux d'erreur, les interruptions non filmées ou la variabilité des tâches n'est disponible à ce stade. Figure AI s'appuie sur un déploiement réel déjà documenté chez BMW Group Plant Spartanburg, en Caroline du Sud, où ses robots Figure 02 (70 kg, 170 cm, charge utile 20 kg) auraient accompli des postes de 10 heures, contribué au déplacement de plus de 90 000 pièces et soutenu la production d'environ 30 000 véhicules. La société se positionne directement face à Tesla (Optimus), Agility Robotics (Digit) et Apptronik (Apollo), tous engagés dans une course à la commercialisation de robots humanoïdes polyvalents pour l'industrie. La prochaine étape pour Figure AI sera d'étendre ces déploiements au-delà du secteur automobile et de fournir des métriques vérifiables par des tiers, condition sine qua non pour convaincre les intégrateurs industriels d'aller au-delà du pilote.

UEImpact indirect : BMW Group (constructeur européen) est déjà partenaire de déploiement aux États-Unis, mais une extension aux usines européennes de BMW (Leipzig, Regensburg) constituerait le prochain seuil à surveiller pour les intégrateurs industriels FR/UE.

1 source
PL-Universe Robotics dévoile sa gamme de produits d'IA physique industrielle 2.0
2Pandaily 

PL-Universe Robotics dévoile sa gamme de produits d'IA physique industrielle 2.0

PL-Universe Robotics, start-up chinoise créée il y a seize mois, a présenté ce qu'elle nomme sa "Product Matrix 2.0", articulée autour de deux produits : AcCI, une solution de collecte de données multi-modale affichant une précision annoncée sub-millimétrique, et Dabai, un module robotique dédié au chargement et déchargement industriel intelligent. AcCI combine des interfaces de contrôle VR, maître-esclave et joystick, et capture simultanément des données de force, de couple, de pose, de retour tactile et de vision en boucle fermée. L'annonce s'accompagne d'une stratégie d'écosystème qualifiée d'"all-domain symbiotic" et d'un appel ouvert à des partenaires industriels mondiaux. L'enjeu déclaré est le goulot d'étranglement des données dans le déploiement à grande échelle de l'IA physique, un problème que le secteur reconnaît largement. Une plateforme de collecte end-to-end multi-modale, si elle tient ses promesses, répondrait à un besoin concret pour les intégrateurs cherchant à constituer des jeux de données de démonstration de qualité industrielle. Cependant, cette annonce reste au stade déclaratif : aucun client n'est nommé, aucun volume de déploiement n'est communiqué, et la précision sub-millimétrique est avancée sans conditions de test ni contexte de tâche précisés, ce qui rend toute évaluation indépendante impossible pour l'instant. PL-Universe s'inscrit dans un écosystème très concurrentiel : en Chine, Unitree Robotics et DEEP Robotics avancent sur le déploiement d'humanoïdes industriels, tandis qu'à l'international, Physical Intelligence avec Pi-0, Apptronik et 1X Technologies ont déjà des bases installées ou des contrats actifs sur des pipelines de données robotiques. La société cible un marché qu'elle évalue à "plusieurs milliers de milliards de yuans", une projection ambitieuse et invérifiable à ce stade. Aucune tarification ni date de disponibilité commerciale n'a été précisée ; la prochaine étape annoncée est le recrutement de partenaires d'écosystème à l'échelle mondiale, selon un modèle stratégique que l'entreprise décrit comme "1+N+infini".

Chine/AsieActu
1 source
DreamPolicy : une politique basée sur un modèle du monde unifié pour la locomotion des robots humanoïdes à grande échelle
3arXiv cs.RO 

DreamPolicy : une politique basée sur un modèle du monde unifié pour la locomotion des robots humanoïdes à grande échelle

Des chercheurs ont publié DreamPolicy (arXiv:2505.18780, mai 2025), un cadre de locomotion humanoïde conçu pour maîtriser des terrains variés avec une seule politique de contrôle. Son composant central est un modèle du monde à diffusion autorégressive, entraîné sur des trajectoires agrégées issues de plusieurs politiques spécialisées par type de terrain. Ce modèle génère des trajectoires futures physiquement plausibles qui guident une politique conditionnée, sans ingénierie manuelle des fonctions de récompense. En simulation, DreamPolicy surpasse la meilleure baseline de 27% sur des terrains composites jamais vus à l'entraînement, et de 38% sur des terrains combinés. Le framework est conçu pour scaler avec la taille du dataset offline: plus les données s'accumulent, plus le modèle de diffusion acquiert de compétences locomotrices. La contribution principale est de rompre le verrou "une tâche, une politique" qui freine les systèmes humanoïdes actuels. Les méthodes dominantes reposent sur la distillation de politiques enseignantes spécialisées en une politique étudiante unifiée; ce paradigme capture des primitives de base mais échoue à les composer organiquement face à des environnements composites hors distribution. DreamPolicy y substitue un modèle du monde qui capture des compétences locomotrices généralisables, autorisant un transfert zero-shot vers des terrains inédits. Il convient néanmoins de nuancer: les gains relatifs annoncés (27%, 38%) sont mesurés en simulation uniquement, sans détail sur les taux absolus de succès ni les conditions précises des benchmarks, ce qui limite les comparaisons directes avec d'autres systèmes publiés. Ce travail s'inscrit dans une tendance portée par DreamerV3 (Google DeepMind) et le RL model-based, ici appliquée à la locomotion humanoïde scalable. Figure, Agility Robotics (Amazon), Unitree, Apptronik et Boston Dynamics se livrent une course intensive sur ce segment; en Europe, Wandercraft (France) travaille sur la locomotion bipeède thérapeutique et Enchanted Tools sur des humanoïdes de service. DreamPolicy reste une contribution de recherche pure: aucun déploiement hardware ni partenariat industriel n'est mentionné. La validation sur robot physique constitue l'étape suivante naturelle, avec les défis de sim-to-real gap que les approches à diffusion n'ont pas encore pleinement résolus à grande échelle.

UEImpact indirect : les avancées en locomotion unifiée zero-shot pourraient alimenter les travaux de Wandercraft (France) sur la bipédie thérapeutique, mais aucun lien institutionnel ou déploiement européen n'est mentionné.

RecherchePaper
1 source
Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0
4Pandaily 

Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0

Pro Universe Robotics a présenté son "Product Matrix 2.0", comprenant deux nouvelles offres : AcCI, une solution d'acquisition de données multimodale à précision sub-millimétrique, et le module Dabai, dédié au chargement et déchargement intelligent par robot. AcCI intègre des technologies de contrôle maître-esclave, de téléopération VR et de manette, et capture des données de force, couple, pose, retour tactile et vision, avec une boucle fermée end-to-end. La société lance simultanément une stratégie d'écosystème baptisée "1+N+infinity" et recrute des partenaires mondiaux pour cibler ce qu'elle décrit comme un marché d'intelligence incarnée industrielle à "trillion de yuans" (environ 138 milliards de dollars). Fondée il y a 16 mois seulement, l'entreprise n'a communiqué ni client ni déploiement terrain confirmé. La collecte de données haute qualité reste l'un des principaux goulots d'étranglement pour le déploiement à grande échelle de robots industriels physiquement intelligents. Une solution d'acquisition multimodale en boucle fermée - force, couple, tactile, visuel, pose - répond directement à ce besoin, notamment pour entraîner des VLA (Vision-Language-Action models) sur des tâches de manipulation complexe comme le chargement et déchargement de pièces. Si la précision sub-millimétrique annoncée se confirme en conditions réelles, ce serait un atout concret pour constituer des datasets d'entraînement denses. Cependant, le communiqué ne fournit ni benchmark indépendant, ni volume de données collectées, ni résultats mesurables sur le terrain. Pro Universe Robotics s'inscrit dans un secteur très compétitif : Physical Intelligence avec Pi-0, Figure AI avec le Figure 03, Apptronik, mais aussi des acteurs spécialisés dans la téléopération et la capture de données comme Embodied Intelligence ou Scale AI. La revendication "global-first" sur l'acquisition fusionnée haute précision est difficile à vérifier sans étude comparative indépendante. L'ambition affichée d'un marché au trillion de yuans est une projection courante dans les annonces robotiques chinoises, où l'écart entre ambition déclarée et réalité commerciale reste souvent important. La prochaine étape déterminante sera la signature de partenaires industriels concrets au sein de l'écosystème annoncé.

Chine/AsieActu
1 source
Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs
5Robotics Business Review 

Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs

Hello Robot a annoncé le 12 mai 2026 la disponibilité immédiate de Stretch 4, la quatrième génération de sa plateforme de manipulation mobile à usage général, au prix de 29 950 dollars. Le robot conserve l'architecture distinctive de la gamme, bras télescopique, base omnidirectionnelle, mais intègre une refonte complète selon les termes de Charlie Kemp, co-fondateur et CTO. L'enveloppe sensorielle est significativement enrichie : deux lidars 3D hémisphériques, trois caméras haute résolution, six capteurs laser linéaires et des caméras fisheye RGB à obturateur global couvrent l'environnement à 360 degrés, réduisant drastiquement les angles morts même lorsque le bras est en extension. Une caméra centrale haute résolution surveille spécifiquement l'espace de travail du préhenseur pour les tâches de manipulation fine. La vitesse du bras, du lift et de la base a été doublée par rapport à Stretch 3, et la portée totale étendue de 10 %. Un nouveau système d'alimentation permet jusqu'à huit heures d'autonomie, avec station de recharge autonome intégrée. Ce qui distingue Stretch 4 dans le segment des robots de service tient moins aux gains de vitesse qu'à sa philosophie sensorielle, explicitement calquée sur l'approche "sensor-rich" de Waymo pour le véhicule autonome. Aaron Edsinger, CEO, l'exprime sans détour : les robots mobiles actuels sont "relativement aveugles" aux personnes et aux obstacles dynamiques, ce qui représente un frein réel au déploiement en environnements non structurés, domiciles, établissements de santé. Pour les intégrateurs et les équipes de recherche qui ciblent ces contextes, Stretch 4 offre une base perceptuelle nettement plus robuste que la génération précédente. La hausse de taille répond à un besoin fonctionnel concret : accompagner des utilisateurs en fauteuil roulant motorisé, dont la tête se situe plus haut. La conception reste délibérément orientée sécurité intrinsèque, masse basse, absence d'actionneurs luttant contre la gravité, sans prétendre à une certification formelle, ce qu'Edsinger reconnaît explicitement. Hello Robot a été fondée en 2017 et a commercialisé Stretch à partir de 2020. La plateforme compte aujourd'hui plus de mille utilisateurs dans vingt-trois pays, principalement des laboratoires académiques et des équipes de R&D industrielle. Stretch 3 avait remporté le RBR50 Robotics Innovation Award 2025 dans la catégorie "Robots for Good". La stratégie open-source de Hello Robot la positionne différemment des acteurs humanoïdes (Figure, Agility, Apptronik) ou des robots de service propriétaires (Boston Dynamics Spot). Dans le segment des manipulateurs mobiles à bras unique destinés à la recherche, la concurrence directe inclut Fetch Robotics (racheté par Zebra), le PR2 en voie d'extinction, et les nouvelles plateformes de Robotics+AI startups comme Kepler. Stretch 4 cible une niche précise, recherche en IA physique, assistance aux personnes à mobilité réduite, où le rapport prix/polyvalence sensorielle constitue l'argument principal. Aucune timeline de certification sécurité n'a été communiquée.

IA physiqueActu
1 source
SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel
6arXiv cs.RO 

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Une équipe de recherche associée à DreamVu a publié début mai 2026 SABER (Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation), un corpus de données d'action robotique centré sur les environnements de grande distribution, présenté dans l'arXiv 2605.09613. Le jeu de données a été constitué à partir de plus de 100 heures de captures naturelles dans plusieurs supermarchés réels, sans mise en scène, sans script et sans télé-opération de robot. Deux flux de capteurs ont été utilisés simultanément : une caméra égocentrique montée sur la tête enregistre les manipulations fines des mains à hauteur d'interaction, tandis que la caméra 360° ALIA de DreamVu observe l'ensemble de la scène sous angle exocentrique. Le corpus final comprend 44 800 échantillons d'entraînement répartis en trois représentations d'action : 25 000 séquences d'actions latentes encodées selon le schéma LAPA, 18 600 trajectoires de postures de main dextre recalées dans l'espace articulaire robot, et 1 200 séquences de mouvement corps entier synchronisées retargétées vers une morphologie humanoïde. Appliqué au modèle de fondation robotique GR00T N1.6 de NVIDIA via une recette de post-entraînement multi-tâche à backbone partagé, SABER atteint un taux de succès moyen de 29,3 % sur dix tâches de manipulation en grande distribution, soit 2,19 fois la performance de la baseline de fine-tuning (13,4 %). Ces résultats, bien que modestes en valeur absolue (moins d'un tiers de succès), apportent un argument concret au débat sur le "data gap" qui freine la généralisation des VLA (Vision-Language-Action models) hors de leurs distributions d'entraînement. Les modèles de fondation robotique généralistes comme GR00T ou Pi-0 de Physical Intelligence peinent à performer sur des tâches de manipulation en contexte retail, non par défaut d'architecture, mais parce que ces environnements sont structurellement absents de leurs corpus de préentraînement. La télé-opération pour combler ce vide est onéreuse, logistiquement contrainte et difficile à passer à l'échelle. SABER propose une alternative : capturer des comportements humains naturels en magasin, puis retargéter les trajectoires vers l'espace articulaire du robot, sans jamais déployer ce dernier pendant la phase de collecte. Le gain 2x sur la baseline valide l'hypothèse que la qualité et la spécificité domaine des données comptent autant que l'architecture du modèle, une position qui nuance la course aux paramètres observée depuis 2024. DreamVu, startup spécialisée dans les caméras omnidirectionnelles de précision, s'appuie sur sa caméra ALIA pour se positionner comme fournisseur d'infrastructure de collecte de données pour la robotique incarnée, un segment en pleine structuration. Sur le plan concurrentiel, SABER entre en tension directe avec des initiatives comme Open-X Embodiment (Google DeepMind), DROID, ou les datasets propriétaires de Figure AI et Apptronik, mais se distingue par son ancrage sectoriel retail et l'absence de robot pendant la collecte. GR00T N1.6, le modèle testé, est la version publiée par NVIDIA en 2025 dans le cadre de son projet Isaac GR00T, qui vise à fournir une fondation pré-entraînée pour humanoïdes. Le dataset et le code sont disponibles publiquement sur dreamvu.ai/saber, ce qui ouvre la voie à des réplications et extensions vers d'autres verticales (logistique, pharmacie, restauration rapide) où la manipulation fine en environnement non contrôlé reste un verrou non résolu.

IA physiqueOpinion
1 source
Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls
7Interesting Engineering 

Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls

Figure AI a publié en mai 2026 une vidéo montrant deux robots humanoïdes Helix-02 réinitialiser une chambre à coucher de façon autonome en moins de deux minutes. Les robots ouvrent une porte, accrochent un manteau, ferment un ordinateur portable, rangent un casque, repositionnent des meubles, gèrent une poubelle, et confectionnent ensemble le lit en lissant la couette. L'ensemble de la séquence repose sur un unique modèle Vision-Language-Action (VLA) partagé, le système Helix développé en interne. Aucun planificateur central, aucun contrôleur partagé, aucune communication directe entre les deux unités : chaque robot n'utilise que ses caméras embarquées et sa politique apprise pour inférer les intentions de son partenaire via le mouvement observé. En parallèle, Figure a annoncé que son usine BotQ en Californie produit désormais un robot Figure 03 par heure, contre un par jour quatre mois plus tôt, une cadence de production qui change la discussion sur la scalabilité industrielle des humanoïdes. Ce que cette démonstration prouve, avec les réserves habituelles sur les vidéos sélectionnées, c'est que la coordination multi-robot sans communication explicite devient opérationnelle dans des environnements non structurés. Le défi de la couette est illustratif : un objet déformable sans géométrie stable ni point de préhension prédéfini, tenu simultanément par deux agents qui doivent anticiper les mouvements l'un de l'autre en temps réel. C'est précisément le type de tâche que les approches par script ou par planification centralisée échouent à généraliser. L'intégration du whole-body control, locomotion dynamique sur un seul appui, utilisation de pédales, manipulation d'objets articulés, dans le même modèle VLA suggère que le gap sim-to-real se réduit concrètement : Figure affirme que les comportements entraînés en simulation par reinforcement learning se transfèrent sans calibration supplémentaire sur le robot physique, une affirmation qui mérite confirmation sur des volumes de déploiement plus larges. Figure AI, fondée en 2022 et ayant levé plus d'un milliard de dollars auprès d'investisseurs dont OpenAI, Microsoft et NVIDIA, positionne Helix comme une alternative aux approches modulaires de Boston Dynamics (Atlas), Tesla (Optimus Gen 3) et Physical Intelligence (Pi-0). Agility Robotics (Digit) et Apptronik (Apollo) ciblent davantage la logistique en entrepôt, tandis que Figure et 1X Technologies visent explicitement le domicile et les environnements non structurés. La mise à jour récente de Helix ajoute des caméras stéréo RGB pour une compréhension 3D temps réel via le modèle S0, combinant perception visuelle et proprioception là où les versions précédentes ne s'appuyaient que sur cette dernière. Aucun déploiement commercial en milieu résidentiel n'a encore été annoncé, mais le rythme de production de BotQ et les jalons techniques publiés positionnent un pilote industriel en environnement semi-contrôlé comme horizon réaliste à 12-18 mois.

UELa montée en cadence industrielle de Figure AI (1 robot/heure chez BotQ) et la coordination multi-robot sans communication explicite fixent un étalon technique que les acteurs européens de l'humanoïde comme Enchanted Tools devront intégrer dans leurs feuilles de route concurrentielles.

HumanoïdesOpinion
1 source
AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents
8arXiv cs.RO 

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents

Une équipe de chercheurs a présenté AGILE (arXiv:2602.04672v3), un framework de reconstruction d'interactions dynamiques main-objet à partir de vidéos monoculaires, ciblant deux applications majeures : la collecte de données pour la manipulation dextère en robotique et la création de jumeaux numériques pour la simulation et la réalité virtuelle. La méthode s'attaque à deux verrous techniques qui paralysent les approches existantes : d'une part, le rendu neuronal classique produit sous forte occultation des géométries fragmentées, inutilisables directement en simulation physique ; d'autre part, l'initialisation par Structure-from-Motion (SfM) est notoriellement fragile sur des vidéos captées en conditions réelles. AGILE bascule du paradigme de reconstruction vers ce que les auteurs appellent une "génération agentique" : un Vision-Language Model (VLM) pilote un modèle génératif pour synthétiser un mesh objet complet, fermé (watertight) et texturé haute fidélité, sans dépendre du contenu vidéo occulté. Une stratégie dite "anchor-and-track" initialise la pose de l'objet sur une unique frame d'interaction via un modèle fondation, puis propage cette pose temporellement en exploitant la similarité visuelle entre l'asset généré et les frames vidéo. Une optimisation finale dite contact-aware intègre des contraintes sémantiques, géométriques et de stabilité d'interaction pour garantir la plausibilité physique. Sur les benchmarks HO3D, DexYCB et ARCTIC, AGILE surpasse les baselines en précision géométrique globale. L'intérêt industriel de cette approche réside dans la production d'assets directement exploitables en simulation, une propriété validée par les auteurs via du retargeting real-to-sim pour des applications robotiques. C'est précisément le point de friction qui freinait l'adoption des pipelines de reconstruction vidéo dans les boucles d'entraînement de politiques de manipulation : les meshes obtenus par NeRF ou reconstruction multi-vues classique nécessitaient un travail de remaillage manuel avant d'être injectables dans un moteur physique comme MuJoCo ou Isaac Sim. En contournant le SfM, AGILE devient également utilisable sur des données de terrain non contrôlées, ce qui ouvre la voie à la collecte passive de démos humaines à grande échelle, un prérequis pour les approches VLA (Vision-Language-Action) qui peinent encore à obtenir suffisamment de trajectoires dextères annotées. Le problème de la reconstruction main-objet est étudié depuis plusieurs années, avec des datasets de référence comme HO-3D (2020) et DexYCB (2021), et des méthodes basées sur les modèles paramétriques MANO pour la main. L'originalité d'AGILE est de déporter la reconstruction de l'objet vers une génération guidée, plutôt que de l'estimer directement depuis le signal vidéo dégradé. Les concurrents directs sont les méthodes NeRF-based adaptées aux scènes dynamiques (D-NeRF, HO-NeRF) et les pipelines SfM+MVS classiques, tous sensibles aux occultations. Du côté des acteurs industriels, cette direction intéresse directement les équipes travaillant sur la télé-opération et l'imitation learning pour bras robotiques dextères, notamment chez Dexterous Robotics, Physical Intelligence (Pi) ou les labos académiques proches de Figure et Apptronik. Le projet dispose d'une page dédiée (agile-hoi.github.io) ; aucun code ni dataset supplémentaire n'est annoncé à ce stade.

RecherchePaper
1 source
Podcast : Colin Angle parle de la conception de robots compagnons avec Familiar Machines et Magic
9The Robot Report 

Podcast : Colin Angle parle de la conception de robots compagnons avec Familiar Machines et Magic

Colin Angle, cofondateur et ancien PDG d'iRobot, sort de la discrétion avec une nouvelle startup baptisée Familiar Machines & Magic (FM&M). La société vient de lever le voile sur son projet : développer des robots compagnons appelés "Familiars", conçus pour entretenir des relations à long terme avec leurs utilisateurs, avec une dimension d'intelligence émotionnelle embarquée. FM&M se positionne dans le segment de la "physical AI grand public". Aux côtés d'Angle, l'équipe fondatrice comprend Ira Renfrew, directrice des ressources humaines et du produit, et le Dr Chris Jones, directeur R&D, tous deux vétérans de l'industrie avec des parcours chez iRobot, Amazon et d'autres grandes plateformes technologiques. Le reste de l'équipe cumule des expertises issues de Disney Research, du MIT, de Boston Dynamics et de l'USC. Collectivement, les fondateurs revendiquent le déploiement de plus de 50 millions de robots grand public dans le monde. La société opère depuis Boston, Los Angeles et Hong Kong. Le retour de Colin Angle dans la robotique grand public constitue un signal notable pour un secteur aujourd'hui dominé par les annonces industrielles et les humanoïdes de laboratoire. FM&M mise sur un segment encore peu commercialisé : le robot domestique à vocation relationnelle, distinct du simple assistant vocal ou du robot aspirateur. L'enjeu central est de démontrer qu'une intelligence émotionnelle peut être embarquée dans un produit physique viable sur le marché de masse, hypothèse que plusieurs tentatives précédentes (Jibo, Anki Vector, Embodied Moxie) n'ont pas réussi à valider à grande échelle. Le pedigree de l'équipe apporte une crédibilité rare dans ce segment, notamment sur les questions de navigation, de robustesse produit et de capacité manufacturière. Cela dit, FM&M n'a annoncé ni produit concret, ni prix, ni calendrier de lancement : on reste strictement au stade de la sortie de stealth, sans prototype montré publiquement. Angle a quitté iRobot début 2024 après l'échec du rachat par Amazon, bloqué par la Commission européenne en janvier 2024 pour des raisons de concurrence, ce qui avait contraint l'entreprise à licencier environ 31 % de ses effectifs et Angle à démissionner. Cette rupture a libéré l'un des profils les plus expérimentés de la robotique grand public pour fonder FM&M. Dans le paysage concurrent, les robots compagnons peinent structurellement à trouver un modèle économique pérenne : Embodied a fermé ses portes, Sony perpétue Aibo sur un segment premium très niche, et des acteurs comme 1X Technologies ou Apptronik visent prioritairement l'industrie. Aucune levée de fonds n'a été communiquée publiquement par FM&M, et la formulation retenue par la société, construire "une plateforme à long terme pour la vie artificielle", suggère un horizon commercial encore lointain.

UELe blocage par la Commission européenne du rachat d'iRobot par Amazon (janvier 2024) a indirectement libéré l'équipe fondatrice pour créer FM&M, mais la société n'a annoncé aucune présence ni activité en Europe à ce stade.

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain
10Interesting Engineering 

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain

Genesis AI a dévoilé GENE-26.5, un modèle d'intelligence artificielle qualifié de "cerveau robotique" par l'entreprise, conçu pour doter les robots polyvalents d'une dextérité comparable à celle de l'être humain dans l'exécution de tâches physiques complexes. Le système repose sur une architecture VLA (vision-language-action) : il ingère des flux vidéo issus de caméras embarquées, interprète des instructions en langage naturel et génère directement des commandes motrices de bas niveau, sans pipeline modulaire intermédiaire. Selon Genesis AI, GENE-26.5 permet d'exécuter des séquences de manipulation multi-étapes (saisie, tri, assemblage, adaptation aux variations d'environnement) et fonctionnerait sur plusieurs types de plateformes matérielles sans être lié à une configuration d'actionneurs spécifique. L'entreprise n'a toutefois publié aucun benchmark indépendant ni aucune étude évaluée par les pairs : les performances annoncées reposent exclusivement sur des évaluations internes. La composition et le volume du dataset d'entraînement, probablement issu de sessions de télé-opération humaine et de simulations à grande échelle, n'ont pas été divulgués. L'enjeu de cette annonce dépasse le seul modèle. Le véritable goulot d'étranglement dans le développement des robots polyvalents n'est plus mécanique mais logiciel, et plus précisément la capacité des politiques de contrôle à transférer de la simulation au monde réel (le "sim-to-real gap"). Une architecture VLA end-to-end présente un avantage théorique : la perception et l'action étant couplées dans un même réseau de neurones, le robot peut ajuster sa trajectoire de préhension en temps réel sans attendre un module de planification séparé. Ce couplage comporte toutefois un risque structurel, les erreurs de perception se propageant directement aux commandes motrices sans point de contrôle intermédiaire. Si la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle réduirait significativement les barrières à l'entrée pour les intégrateurs et les startups robotiques qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux, déplaçant la différenciation concurrentielle vers la qualité matérielle et le fine-tuning applicatif. L'annonce intervient dans un contexte de compétition accélérée sur le marché des robots à usage général. Des acteurs américains comme Figure (Figure 03), Agility Robotics ou Apptronik, ainsi que les équipes Optimus de Tesla et les laboratoires de Physical Intelligence (Pi-0) ou de NVIDIA (GR00T N2), visent des volumes de production de l'ordre de 100 000 unités d'ici 2027. La dextérité manuelle reste l'un des problèmes les plus ouverts du domaine : la main humaine mobilise environ 27 os et plus de 30 muscles pour des gestes que les robots ne reproduisent encore qu'approximativement. Genesis AI n'a annoncé ni partenaire matériel, ni calendrier de déploiement commercial, ni conditions de licence pour GENE-26.5. L'affirmation d'une dextérité "au niveau humain" constitue une revendication forte que le secteur attendra de voir confirmer par des données de terrain réelles, hors conditions de démonstration contrôlées.

UESi la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle pourrait réduire les barrières à l'entrée pour les startups et intégrateurs robotiques européens qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux.

IA physiqueOpinion
1 source
GENESIS AI veut apprendre aux robots les gestes humains à grande échelle
11FrenchWeb 

GENESIS AI veut apprendre aux robots les gestes humains à grande échelle

Genesis AI, startup cofondée entre Paris et la Californie, ambitionne de reproduire dans le domaine physique la révolution qu'a opérée l'intelligence artificielle générative dans le logiciel. La société développe une approche destinée à enseigner aux robots des gestes humains complexes à grande échelle, en s'inspirant directement de la logique des grands modèles de langage : collecter des volumes massifs de données pour permettre une généralisation large des capacités motrices. L'objectif est de doter les systèmes robotiques d'une flexibilité comparable à celle que les LLMs ont apportée aux tâches cognitives. L'enjeu est considérable pour l'ensemble de la filière robotique industrielle et grand public. Aujourd'hui, programmer un robot pour qu'il reproduise fidèlement un geste humain reste une tâche laborieuse, spécifique à chaque contexte, et difficile à transférer d'une situation à une autre. Si Genesis AI parvient à construire un modèle généraliste du mouvement physique, cela pourrait accélérer massivement le déploiement de robots dans des environnements non structurés : entrepôts, soins à domicile, industrie manufacturière. La robotique connaît depuis 2023 une véritable effervescence autour des "foundation models" appliqués au mouvement, avec des acteurs comme Physical Intelligence (Pi), Figure AI ou Apptronik qui investissent massivement dans cette direction aux États-Unis. Genesis AI se distingue par son ancrage européen, notamment parisien, dans un secteur dominé par les capitaux américains et asiatiques. La capacité à générer et annoter des données de mouvement à grande échelle reste le verrou technologique central que la startup entend faire sauter.

UEGenesis AI, co-fondée à Paris, représente une initiative européenne dans la robotique fondationnelle, un secteur jusqu'ici dominé par les capitaux américains et asiatiques.

HumanoïdesOpinion
1 source
Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot
12arXiv cs.RO 

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Des chercheurs du RAI Institute publient sur arXiv (2605.05172, mai 2026) Q2RL, un algorithme d'apprentissage offline-to-online conçu pour améliorer automatiquement des politiques de contrôle robotique après une phase d'imitation. La méthode repose sur deux composants distincts : Q-Estimation, qui extrait une Q-function à partir d'une politique de Behavior Cloning (BC) en quelques étapes d'interaction avec l'environnement, et Q-Gating, qui alterne dynamiquement entre les actions BC et les actions RL en comparant leurs Q-values respectives pour guider la collecte de données d'entraînement. Sur les benchmarks standards D4RL et robomimic, Q2RL surpasse les meilleures baselines offline-to-online existantes en taux de succès et en vitesse de convergence. Appliqué directement sur robot réel, il apprend des politiques robustes pour des tâches de manipulation à contact riche et haute précision, assemblage de tuyaux et kitting industriel, en 1 à 2 heures d'interaction, avec des taux de succès atteignant 100 % et un gain jusqu'à 3,75x par rapport à la politique BC initiale. L'enjeu pratique est significatif : le BC reste la méthode dominante pour apprendre à partir de démonstrations humaines, notamment dans les architectures VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence, mais il souffre d'une limite structurelle, il ne s'améliore pas seul une fois déployé. Les approches offline-to-online existantes se heurtent à un problème de distribution mismatch : en passant à l'apprentissage en ligne, le RL tend à écraser les bonnes actions apprises hors ligne. Q2RL adresse ce problème directement via le Q-Gating, qui agit comme un filtre de qualité empêchant la dégradation de la politique. Un délai de convergence de 1 à 2 heures sur robot physique est une performance notable pour des tâches à contact, où la variabilité mécanique rend le sim-to-real particulièrement difficile. Le contexte est celui d'une course intense à l'autonomie post-démonstration. Physical Intelligence (Pi-0), Figure AI, Apptronik et d'autres misent massivement sur le fine-tuning en ligne pour réduire le gap démo-to-deployment. Q2RL s'inscrit dans cette dynamique mais en ciblant l'efficacité computationnelle : l'algorithme est conçu pour tourner sans infrastructure cloud lourde, directement sur le contrôleur embarqué. Le RAI Institute, relativement discret sur la scène robotique, positionne ici une contribution technique solide sur un verrou bien identifié. Le code et les vidéos sont disponibles publiquement, ce qui facilite la reproductibilité et l'éventuelle intégration dans des pipelines industriels existants.

IA physiquePaper
1 source
Atlas de Boston Dynamics épate avec un appui tendu renversé parfait
13Interesting Engineering 

Atlas de Boston Dynamics épate avec un appui tendu renversé parfait

Boston Dynamics a publié de nouvelles séquences de test montrant son robot humanoïde Atlas enchaîner une série de figures acrobatiques avancées : passage d'une posture debout vers un équilibre sur une jambe, descente des mains au sol, puis montée en poirier complet avec rotation des jambes à 180 degrés grâce à des épaules à mobilité étendue, maintien en L-sit pendant plusieurs secondes, et retour fluide en position verticale. Ces capacités reposent sur un système de contrôle corps entier entraîné par apprentissage par renforcement en simulation, conçu pour un transfert dit "zero-shot" : les politiques apprises en simulation sont déployées directement sur le matériel sans recalibration spécifique à la tâche. La version de production de l'Atlas dispose de 56 degrés de liberté et d'un préhenseur à quatre doigts avec retour haptique. Hyundai Motor Group, maison-mère de Boston Dynamics, a confirmé un déploiement sur le site Hyundai Motor Group Metaplant America d'ici 2028, d'abord pour le séquençage de pièces, puis pour l'assemblage complet de composants à l'horizon 2030. Ce que ces démonstrations valident avant tout, c'est la robustesse du sim-to-real sur des comportements hautement dynamiques : le fait qu'une politique unique gouverne à la fois la locomotion, la manipulation et la récupération après instabilité contredit les architectures traditionnelles en pipeline séparé. Pour les intégrateurs industriels et les décideurs B2B, le signal important n'est pas le poirier en lui-même, mais ce qu'il teste : la capacité du stack logiciel à gérer des forces de contact imprévisibles, des transitions posturales rapides et des corrections de couple articulaire en temps réel. C'est exactement ce que requièrent les environnements d'assemblage contraints, où un robot doit adapter sa posture à des espaces réduits et manipuler des pièces à géométrie variable. Cela dit, la prudence s'impose : les vidéos publiées sont sélectionnées et ne renseignent pas sur les taux d'échec, le temps de cycle moyen, ni les conditions environnementales réelles. Boston Dynamics développe Atlas depuis plus d'une décennie, le robot ayant progressivement évolué d'une plateforme hydraulique à un système entièrement électrique présenté en 2024. Cette phase de validation acrobatique, menée en collaboration avec le Robotics & AI Institute, s'inscrit dans la transition explicite de la recherche vers la production industrielle. Sur le marché humanoïde, l'entreprise se positionne face à Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), et NVIDIA/GR00T N2 comme backbone de contrôle, ainsi que 1X, Agility Robotics ou Apptronik pour les applications logistiques. L'ancrage dans l'écosystème Hyundai lui confère un débouché industriel direct que peu de concurrents peuvent revendiquer aujourd'hui. Les prochaines étapes annoncées pointent vers des pilotes terrain chez Hyundai en 2026-2027 avant le déploiement confirmé à grande échelle en 2028.

HumanoïdesOpinion
1 source
Sécurité de l'IA incarnée : panorama des risques, attaques et défenses
14arXiv cs.RO 

Sécurité de l'IA incarnée : panorama des risques, attaques et défenses

Une équipe de chercheurs a publié fin avril 2026 sur arXiv (identifiant 2605.02900) une revue systématique de la sécurité dans l'IA incarnée (embodied AI), couvrant plus de 400 articles académiques. Le périmètre s'étend à l'ensemble du pipeline d'un agent physique : perception sensorielle, cognition, planification, exécution d'actions et interactions humain-robot. La taxonomie proposée organise les menaces en quatre grandes familles d'attaques (adversariales, backdoor, jailbreak, matérielles) et trois axes de défense (détection d'attaques, entraînement robuste, inférence sûre). Les domaines d'application ciblés incluent la conduite autonome, la robotique industrielle et d'assistance, ainsi que les applications médicales, tous caractérisés par des conséquences physiques directes en cas de défaillance. Ce travail pointe trois angles morts particulièrement préoccupants pour les intégrateurs et les équipes produit. D'abord, la fragilité de la fusion multimodale : combiner vision, LiDAR et langage amplifie les surfaces d'attaque plutôt que de les réduire, contrairement à l'hypothèse dominante de redondance. Ensuite, l'instabilité de la planification sous attaque jailbreak : les modèles vision-langage-action (VLA) comme Pi-0 ou GR00T N2, de plus en plus déployés dans des systèmes humanoïdes, restent vulnérables à des injections de prompt qui court-circuitent les contraintes de sécurité définies au niveau applicatif. Enfin, la confiance dans les interactions en monde ouvert demeure non résolue dès que le scénario sort des conditions de laboratoire, ce qui est précisément le cas des déploiements industriels réels. Le contexte est celui d'une accélération brutale du déploiement d'agents physiques autonomes depuis 2024, portée par des acteurs comme Figure AI, Boston Dynamics, 1X Technologies, Apptronik et des labos publics (Stanford, CMU, ETH Zurich). L'absence d'un cadre de sécurité unifié est jusqu'ici restée dans l'angle mort de la course aux performances : les benchmarks sectoriels mesurent la dextérité et le sim-to-real transfer, rarement la robustesse face à un adversaire actif. Ce survey constitue un premier référentiel structuré ; il ne propose pas de solution clé en main mais identifie les briques manquantes, notamment les protocoles d'évaluation standardisés pour les attaques sur hardware embarqué et les mécanismes de contrôle d'intégrité des VLA en production.

UELes acteurs européens déployant des VLA (dont ETH Zurich, contributeur cité) et soumis à l'AI Act, qui classe les applications médicales et industrielles en systèmes à haut risque, devront intégrer les protocoles d'évaluation de robustesse adversariale identifiés comme manquants par ce survey.

RechercheOpinion
1 source
BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes
15arXiv cs.RO 

BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes

Une équipe de chercheurs a publié le 6 mai 2026 BifrostUMI (arXiv:2605.03452), un framework de collecte de données sans robot dédié à l'entraînement de politiques visuomotrices full-body pour robots humanoïdes. Le principe : un opérateur humain équipé d'un casque VR léger réalise des démonstrations manuelles, capturées sous forme de trajectoires de points-clés (keypoints) épars, tandis que des caméras montées au niveau des poignets enregistrent simultanément les données visuelles. Ces données multimodales alimentent ensuite un réseau de politique haut niveau qui apprend à prédire les trajectoires futures conditionnées aux features visuelles observées. Un pipeline de retargeting traduit ensuite ces trajectoires sur la morphologie du robot cible, qui les exécute via un contrôleur corps entier (whole-body controller). L'efficacité du framework est validée sur deux scénarios expérimentaux distincts, sans que les auteurs ne précisent les benchmarks quantitatifs de performance (temps de cycle, taux de succès par tâche) dans le résumé disponible. L'enjeu est direct pour quiconque tente de scaler l'entraînement d'humanoïdes : la télé-opération robotique reste le goulot d'étranglement principal de la collecte de données. Elle exige un accès permanent au hardware, un opérateur qualifié, et génère un flux de données lent et coûteux. BifrostUMI découple complètement la phase de démonstration du robot physique, ce qui ouvre la possibilité de collecter des démonstrations en masse, avec n'importe quel opérateur humain, dans n'importe quel environnement, sans mobiliser la plateforme mécanique. C'est précisément le verrou que les acteurs du secteur cherchent à lever : Figure AI, Physical Intelligence (pi) ou Apptronik dépendent tous de pipelines de collecte lents et onéreux. Si le sim-to-real gap reste un défi ouvert, l'approche keypoint avec retargeting propose une voie alternative au full imitation learning vidéo, en s'appuyant sur une représentation compacte et plus robuste aux variations morphologiques entre démonstrateur et robot. BifrostUMI s'inscrit directement dans la lignée de l'Universal Manipulation Interface (UMI) développé par Stanford, qui avait montré qu'un graspeur instrumenté suffit à générer des démonstrations transférables. Les auteurs étendent ce paradigme au corps entier des humanoïdes, un saut de complexité significatif donné le nombre de degrés de liberté à contrôler. Sur le marché, Physical Intelligence mise sur Pi-0 et ses variantes pour des politiques générales entraînées sur données téléopérées, tandis que Boston Dynamics, Unitree et Fourier Intelligence investissent massivement en infrastructure de télé-op. BifrostUMI, en tant que preprint non encore évalué par les pairs, reste une preuve de concept académique, sans déploiement industriel annoncé ni timeline de commercialisation. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés (RoboSuite, DROID) et une validation sur plusieurs morphologies humanoïdes différentes.

IA physiqueOpinion
1 source
Cadre de commande SDRE hors ligne en trois étapes pour reproduire le mouvement humain sur un robot bipède suspendu
16arXiv cs.RO 

Cadre de commande SDRE hors ligne en trois étapes pour reproduire le mouvement humain sur un robot bipède suspendu

Une équipe de recherche a publié sur arXiv (réf. 2506.04680) une stratégie de contrôle en trois étapes permettant à un robot bipède suspendu de reproduire fidèlement des mouvements humains capturés par mocap, avec une erreur quadratique moyenne (RMSE) inférieure à 3 degrés sur l'ensemble des articulations testées. Le pipeline repose d'abord sur un contrôleur SDRE (State-Dependent Riccati Equation) qui génère des trajectoires de couple optimales à partir du modèle dynamique du système bipède. Une deuxième étape produit des séquences de commandes en vitesse et accélération articulaires via une optimisation paramétrée intégrant les contraintes des actionneurs. La troisième étape applique un contrôleur hybride PID-LQR piloté par les données pour minimiser l'écart entre le mouvement cible et celui effectivement exécuté. Le dispositif expérimental est un robot bipède suspendu conçu spécifiquement pour l'évaluation d'exosquelettes anti-gravité, validé sur deux tâches : squat répétitif et marche. L'enjeu est direct pour l'industrie de l'exosquelette : les protocoles d'homologation impliquent aujourd'hui des sujets humains, ce qui introduit des risques de sécurité et complique la reproductibilité des tests. Remplacer le porteur par un robot calibré sur ses propres données de capture de mouvement ouvre la voie à des bancs d'essai systématiques, automatisés et comparables entre laboratoires. La précision annoncée, moins de 3° de RMSE moyen, est suffisante pour valider des algorithmes d'assistance articulaire sur des cycles locomoteurs complets, même si les auteurs ne précisent pas les conditions de charge ni la fréquence de cycle, deux paramètres déterminants pour juger de la transférabilité à des exosquelettes industriels ou médicaux. Le problème de la reproduction de mouvement humain sur robot hétérogène est un verrou classique en robotique de rééducation, aggravé par les différences de cinématique et d'actionnement entre humain et machine. L'approche SDRE, plus flexible que le LQR classique sur systèmes non-linéaires, n'est pas nouvelle mais son association à un raffinement PID-LQR guidé par les données constitue une contribution méthodologique incrémentale. En France, Wandercraft développe l'exosquelette Atalante pour la rééducation neurologique et fait face aux mêmes problématiques de test reproductible ; Pollen Robotics et Enchanted Tools opèrent sur des segments adjacents. Au niveau international, les équipes de Boston Dynamics, Agility Robotics et Apptronik publient sur des défis similaires en sim-to-real pour bipèdes. La prochaine étape logique pour les auteurs serait de valider le framework sur une plateforme non suspendue, condition nécessaire pour que l'approche soit utilisable en certification exosquelette en conditions réelles.

UEWandercraft (Atalante) et d'autres acteurs français de l'exosquelette sont directement concernés : ce framework de test robotisé et reproductible pourrait informer les futurs protocoles d'homologation d'exosquelettes médicaux et industriels en Europe, réduisant le recours à des sujets humains lors des certifications.

ExosquelettesPaper
1 source
Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède
17arXiv cs.RO 

Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède

Des chercheurs ont publié sur arXiv (identifiant 2508.14994, troisième révision) un système de téleopération à contrôle partagé pour un robot quadrupède équipé d'un bras manipulateur, ciblant les environnements dangereux ou inaccessibles. Le principe : une caméra externe couplée à un modèle d'apprentissage automatique détecte la position du poignet de l'opérateur en temps réel, puis traduit ces mouvements en commandes directes pour le bras robotique. Un planificateur de trajectoire intégré assure la sécurité en détectant et bloquant les collisions potentielles avec les obstacles environnants, ainsi que les auto-collisions entre le bras et le châssis du robot. Le système a été validé sur un robot physique réel, pas uniquement en simulation. Il s'agit d'un preprint académique, pas d'un produit commercialisé. Ce travail adresse un verrou connu dans l'intégration industrielle des robots à pattes : les interfaces joystick ou manette exigent un niveau d'expertise élevé et génèrent une charge cognitive importante pour l'opérateur, augmentant le risque de collision dans des espaces confinés ou dynamiques. En mappant directement les gestes naturels du bras humain vers le bras du robot, l'approche réduit la barrière à l'entrée et pourrait accélérer le déploiement de plateformes comme le Boston Dynamics Spot ARM ou l'ANYmal d'ANYbotics dans des scénarios d'inspection ou de maintenance à risque. La solution revendique un faible coût d'implémentation, ne nécessitant qu'une caméra standard plutôt qu'un équipement de capture de mouvement dédié ou un retour haptique coûteux. La téleopération de robots locomoteurs reste un champ en compétition dense. Les approches concurrentes incluent la commande par réalité virtuelle (Boston Dynamics, Apptronik), les exosquelettes (Sarcos, Shadow Robot) et les interfaces à vision stéréo immersive. Du côté académique, les modèles Visual-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent à réduire ou éliminer la téleopération au profit de l'autonomie embarquée. Ce travail se positionne dans une niche différente : augmenter la sécurité et l'intuitivité du contrôle humain plutôt que de le remplacer. Les prochaines étapes, non détaillées dans le preprint, concerneraient typiquement des tests de robustesse en conditions dégradées (faible luminosité, poussière) et une évaluation comparative des temps de cycle opérateur face aux interfaces existantes.

RecherchePaper
1 source
Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled
18arXiv cs.RO 

Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled

Une équipe de chercheurs a publié le 6 mai 2026 sur arXiv (réf. 2605.03637) un framework génératif pour convertir des vidéos de démonstration humaine en séquences d'exécution robotique plausibles, sans données appariées humain-robot. La méthode décompose la vidéo source en deux espaces latents orthogonaux: l'un encodant la tâche accomplie, l'autre la morphologie du corps en mouvement. Un double objectif contrastif impose cette séparation en minimisant l'information mutuelle entre les deux espaces pour garantir leur indépendance, tout en maximisant la cohérence intra-espace pour stabiliser les représentations. Un adaptateur à faible coût paramétrique injecte ces codes latents dans un modèle de diffusion vidéo figé, produisant des démonstrations robotiques morphologiquement précises et cohérentes dans le temps à partir d'une seule séquence humaine. L'enjeu est critique: les approches existantes génèrent des représentations enchevêtrées où l'information de tâche reste couplée à la cinématique humaine spécifique, ce qui bloque le transfert vers d'autres morphologies. En découplant explicitement ces deux dimensions, la méthode ouvre la voie à l'exploitation des vastes corpus de vidéos humaines disponibles sur internet pour entraîner des politiques de manipulation robotique, sans collecte de démonstrations robot coûteuse par télé-opération. Les expériences rapportent des vidéos générées temporellement consistantes et morphologiquement fidèles, bien que l'abstract ne fournisse pas de métriques quantitatives comparatives avec les baselines; les résultats visuels restent la principale validation. Pour un intégrateur ou un décideur industriel, la promesse est de réduire significativement le coût de labeling nécessaire à l'apprentissage de nouveaux comportements de manipulation. Cette publication s'inscrit dans une compétition intense autour des politiques de manipulation généralisables: Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA (UC Berkeley) cherchent tous à réduire la dépendance aux démonstrations robot propriétaires. L'approche par édition vidéo emprunte un chemin différent des VLA classiques: plutôt qu'apprendre une politique directement depuis des vidéos humaines, elle synthétise d'abord une démonstration robot plausible exploitable par les pipelines d'imitation learning standards. Il s'agit à ce stade d'un preprint préliminaire, sans déploiement industriel ni partenariat annoncé. Le cadre latent disentangled proposé pourrait néanmoins rapidement intéresser des acteurs comme 1X Technologies ou Apptronik, et côté européen, des équipes travaillant sur l'imitation learning comme certains labs INRIA ou des spin-offs de manipulation comme Enchanted Tools.

UEDes équipes INRIA et des spin-offs de manipulation comme Enchanted Tools pourraient bénéficier de cette approche pour réduire le coût de collecte de démonstrations robotiques, mais aucun partenariat ou déploiement européen n'est impliqué à ce stade.

IA physiqueOpinion
1 source
Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel
19Robotics Business Review 

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel

Tutor Intelligence a inauguré DF1, sa "Data Factory" installée dans une ancienne manufacture de Watertown, Massachusetts : un parc de 100 robots semi-humanoïdes bimanaux baptisés Sonny, destinés à collecter des données réelles pour entraîner son modèle vision-langage-action (VLA) Ti0. Fondée en 2021 par Josh Gruenstein (CEO) et Alon Kosowsky-Sachs (CTO) issus du MIT-CSAIL, la startup revendique avoir constitué la plus grande infrastructure de ce type aux États-Unis. Elle a levé 34 millions de dollars en Série A en décembre 2025, puis tenu une journée portes ouvertes en avril 2026. Entre 45 et 50 téléopérateurs distants au Mexique et aux Philippines pilotent les robots par téleopération proprioceptive pour leur enseigner des tâches de picking, kitting et préparation de commandes e-commerce. En évaluant simultanément le même comportement sur 100 unités, la détection d'anomalies s'effectue 100 fois plus vite qu'en opération solo : un cas limite normalement visible après 8 heures d'opération sur un robot unique devient détectable en 5 minutes de fonctionnement de la flotte. Une méthode de prétraitement baptisée "velocity normalization" standardise les profils de démonstration entre téléopérateurs pour homogénéiser le corpus d'entraînement. L'enjeu central est de s'affranchir de la dépendance à la simulation, un pari sur la donnée réelle là où la majorité des acteurs humanoïdes s'appuient encore sur des environnements synthétiques pour réduire leurs coûts de collecte. La thèse de Gruenstein est directe : sans équivalent robotique de Wikipédia, le transfert d'intelligence à l'échelle industrielle passe nécessairement par des humains enseignant des machines en conditions réelles. DF1 est conçue comme le premier maillon d'un cycle vertueux, déploiements commerciaux, données à l'échelle, amélioration continue de Ti0. Pour les intégrateurs et décideurs industriels, cette approche ouvre une trajectoire vers un modèle généraliste capable d'absorber de nouvelles tâches sans reprogrammation lourde, précisément le verrou économique du marché actuel. Les performances annoncées restent toutefois auto-déclarées, sans validation indépendante. Tutor Intelligence a émergé du MIT-CSAIL en 2021, avant l'essor commercial des VLA. La startup est membre de la première promotion du Physical AI Fellowship, programme co-animé par AWS, NVIDIA et MassRobotics, qui lui fournit ressources de calcul cloud et expertise technique. Dans un paysage concurrentiel où Physical Intelligence (pi0), Figure, Apptronik et Boston Dynamics développent chacun leurs propres stacks d'entraînement, Tutor se différencie en contrôlant à la fois le hardware d'entraînement (Sonny), la plateforme de téleopération et le modèle VLA, sans dépendre d'une simulation propriétaire. L'objectif déclaré est de lancer le premier déploiement commercial humanoïde généraliste, en alimentant la boucle de données depuis la production réelle pour piloter les itérations suivantes. Les conditions commerciales, les performances comparatives de Ti0 et les éventuels clients pilotes n'ont pas encore été communiqués.

IA physiqueOpinion
1 source
Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage
20arXiv cs.RO 

Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage

Une équipe de chercheurs a publié début mai 2025 sur arXiv (2605.01434) une architecture de lecture de capteurs analogiques scalable pour mains robotiques dextres. Le système repose sur un registre à décalage série-vers-parallèle (SIPO) qui permet de connecter des modules de capteurs hétérogènes via seulement trois lignes de signal entre chaque module. La validation porte sur une main robotique à tendons équipée de 16 modules articulaires et d'un module tactile à quatre canaux, soit 20 canaux échantillonnés à 1 kHz en mode plein balayage, avec une stabilité confirmée jusqu'à 1,5 kHz. Les capteurs articulaires atteignent une erreur maximale de pente (APE) de 0,446 % et une estimation angulaire inférieure au degré. Pour la perception tactile, des modèles LSTM déployés en inférence temps réel à 1 kHz obtiennent un RMSE de 0,125 N pour l'estimation de force et 93,4 % de précision pour la classification en cinq catégories de localisation de contact. L'apport principal est la dissociation entre nombre de capteurs, complexité du câblage et bande passante d'échantillonnage, un compromis qui freine depuis longtemps le développement de mains densément captées. Limiter l'interconnexion à trois fils réduit la complexité mécanique et électrique de façon significative, un point critique pour les intégrations en espace contraint. La démonstration à 1 kHz sur 20 canaux simultanés avec inférence LSTM embarquée prouve que la chaîne capteur-modèle peut tenir le rythme d'une boucle de contrôle temps réel sans matériel dédié coûteux. Les performances tactiles sont solides sur banc de test, mais l'article ne précise pas les conditions en manipulation libre, un élément à vérifier avant toute extrapolation industrielle. La dextérité robotique reste un verrou majeur pour la manipulation non structurée, et la densification des capteurs dans les mains mécaniques est un axe actif chez des acteurs comme Sanctuary AI, Figure, Apptronik ou 1X, dont les humanoïdes commerciaux peinent encore à atteindre la densité sensorielle des prototypes académiques. L'architecture SIPO présentée est suffisamment générique pour s'adapter à d'autres géométries de main ou d'autres types de capteurs comme la pression, la température ou la proximité, et constitue une base crédible pour des intégrations sur plateformes humanoïdes en cours de commercialisation. Du côté européen, ni Wandercraft ni Enchanted Tools n'ont publié d'approches comparables pour les effecteurs distaux, laissant ce créneau ouvert à de prochains travaux.

UEL'architecture SIPO publiée en open access sur arXiv constitue une base technique directement exploitable pour les équipes R&D européennes travaillant sur les effecteurs distaux d'humanoïdes, un créneau où Wandercraft et Enchanted Tools n'ont pas encore publié d'approches comparables.

RecherchePaper
1 source
Autonomie partagée assistée par un champ de guidage anisotrope à impédance variable
21arXiv cs.RO 

Autonomie partagée assistée par un champ de guidage anisotrope à impédance variable

Une équipe de recherche a publié le 5 mai 2026 (arXiv:2605.02410) un nouveau paradigme pour la téléopération robotique : IAGF-SA (Impedance-Driven Anisotropic Guidance Field Enhanced Shared Autonomy). Le principe repose sur un constat simple mais sous-exploré dans la littérature : l'autonomie partagée (SA) s'est historiquement concentrée sur la capacité du robot à inférer l'intention de l'opérateur humain, sans jamais résoudre le problème inverse, comment le robot communique sa propre intention à l'humain. IAGF-SA introduit un canal de communication physique et incarné, fondé sur le contrôle d'impédance, qui module dynamiquement la réponse du robot aux commandes humaines. Concrètement, le robot ne résiste pas uniformément dans toutes les directions : il oriente sa compliance de façon anisotrope pour guider subtilement la main de l'opérateur vers les trajectoires qu'il juge optimales. Les études utilisateurs couvrent trois scénarios de manipulation et deux interfaces de téléopération différentes, avec des résultats mesurés sur la performance de tâche, le taux d'accord humain-robot, et l'expérience subjective. L'enjeu industriel est concret : dans les déploiements de téléopération semi-autonome, chirurgie robotique, manipulation en environnements dangereux, ou encore téléopération d'humanoïdes en phase de démarrage comme chez Figure ou Apptronik, l'absence de retour d'intention robot oblige l'opérateur à compenser mentalement, ce qui ralentit les cycles et augmente les erreurs. Une approche purement physique, sans interface additionnelle (écran, indicateur sonore), réduit la charge cognitive et s'intègre dans des systèmes existants sans modification matérielle majeure. Le fait que le canal soit continu et gradué, plutôt que binaire ou discret, représente une avancée par rapport aux tentatives précédentes. Cela dit, il s'agit d'une preprint non encore soumise à revue par les pairs, et les études utilisateurs restent limitées en taille : les résultats sont prometteurs mais doivent être validés à plus grande échelle. La recherche en SA s'inscrit dans un contexte de convergence entre apprentissage par imitation (imitation learning, VLA) et contrôle classique en force/impédance. Des travaux antérieurs comme DAgger ou les approches de goal inference bayésienne ont résolu une partie de l'inférence d'intention côté robot, mais la boucle retour vers l'humain restait largement ignorée. Le recours au contrôle d'impédance, technologie maîtrisée industriellement par des cobot comme ceux de KUKA, FANUC ou Universal Robots, rend cette approche potentiellement transférable sans rupture technologique. Les suites logiques incluent une validation sur des plateformes physiques humanoïdes ou cobotiques, ainsi qu'une intégration dans des pipelines VLA où l'intention robot émerge d'un modèle appris plutôt que d'une planification explicite.

UEL'approche repose sur le contrôle d'impédance, technologie maîtrisée par KUKA (allemand) et Universal Robots (danois), ce qui facilite une intégration directe pour les intégrateurs robotiques européens sans rupture matérielle.

RecherchePaper
1 source
SixthSense : estimation générique du torseur corps entier par proprioception seule pour humanoïdes
22arXiv cs.RO 

SixthSense : estimation générique du torseur corps entier par proprioception seule pour humanoïdes

Des chercheurs ont publié début mai 2026 sur arXiv (réf. 2605.01427) SixthSense, un système d'estimation des forces et couples de contact (wrenches) pour robots humanoïdes fonctionnant exclusivement à partir de la proprioception et d'une centrale inertielle (IMU), sans capteur de force-couple dédié. Le système infère en temps réel le moment, la localisation et l'amplitude des wrenches appliqués sur l'ensemble du corps, même lorsque les points de contact sont indéterminés. Techniquement, SixthSense emploie le conditional flow matching pour tokeniser des historiques proprioceptifs et estimer un flux d'événements de contact spatialement et temporellement parcimonieux. Les validations expérimentales couvrent trois régimes distincts - posture statique, marche et suivi de trajectoire corps entier - avec des performances décrites comme "sans précédent" par les auteurs, bien que l'article ne publie pas de métriques comparatives chiffrées pour étayer cette affirmation. L'enjeu est concret pour l'intégration industrielle : les humanoïdes actuellement déployés (Figure 02, Optimus Gen 2, Unitree G1) manquent de perception fiable des efforts de contact pour des tâches exigeant une interaction physique précise - assemblage, manipulation d'objets fragiles, collaboration en cellule mixte. Les méthodes analytiques existantes supposent des contacts connus et des mesures souvent indisponibles en production, notamment en raison de la dynamique en base flottante propre aux bipèdes. SixthSense se présente comme un module plug-and-play intégrable sans modification matérielle, ciblant trois cas d'usage : détection de collision, interaction physique humain-robot (pHRI) et téléopération avec retour d'effort. Ce travail s'inscrit dans l'effort plus large visant à combler le fossé entre démonstrations en laboratoire et déploiements réels pour la perception haptique des humanoïdes. Les principaux acteurs commerciaux - Figure, Agility Robotics, Apptronik, 1X Technologies - comme les plateformes académiques partagent ce même déficit. En France, Wandercraft, spécialiste de l'exosquelette humanoïde pour la rééducation, fait face à des contraintes similaires pour la perception d'effort en interaction avec le patient. La publication demeure une contribution académique : aucun déploiement industriel ni partenariat commercial n'est annoncé, et la robustesse hors conditions contrôlées reste à démontrer.

UEWandercraft (France) développe des exosquelettes humanoïdes à interaction physique patient-robot ; ce module d'estimation d'effort sans capteur dédié pourrait, s'il est validé hors laboratoire, réduire les coûts matériels et améliorer la sécurité de contact en rééducation.

RecherchePaper
1 source
VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes
23arXiv cs.RO 

VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes

Une équipe de chercheurs a publié en mai 2025 sur arXiv les résultats de VOFA, un système de loco-manipulation destiné aux robots humanoïdes capable de pousser des objets lourds vers des positions cibles arbitraires en utilisant uniquement la perception embarquée. Les expériences ont été conduites sur le robot humanoïde Booster T1, et les résultats affichent un taux de réussite supérieur à 90 % en simulation et supérieur à 80 % en conditions réelles. Le système parvient à déplacer des charges allant jusqu'à 17 kg, soit plus de la moitié du poids propre du T1, sans aucune connaissance préalable de la masse des objets ni du coefficient de friction au sol. L'architecture repose sur deux niveaux hiérarchiques : une politique visuomotrice haut niveau, conditionnée par les objectifs, qui traite des observations embarquées bruitées, et un contrôleur bas niveau de type force-adaptive whole-body qui absorbe les incertitudes physiques en boucle fermée temps réel. La difficulté centrale que VOFA cherche à résoudre est précisément celle qui bloque la robotique de manipulation en entrepôt : agir de façon robuste sans connaissance privilégiée de l'état de l'objet, c'est-à-dire sans capteurs dédiés sur le sol, sans marqueurs visuels, et sans modèle de masse injecté à la volée. Le taux de 80 % en monde réel sur des tâches de poussée est significatif car ces tâches cumulent plusieurs sources de défaillance simultanées (glissement, dérive de perception, erreur d'actuation). Ce résultat suggère que la combinaison politique VLA conditionnée visuellement et contrôle force adaptatif permet de franchir le reality gap sans sur-spécialiser le système à un objet ou à un terrain particulier. Pour les intégrateurs logistiques, cela ouvre une voie vers la manutention généraliste sans infrastructure capteur supplémentaire. Le déploiement de robots humanoïdes dans la logistique est activement poursuivi par Figure Robotics (BMW, contrat 2024), Agility Robotics (Amazon), et Apptronik (Mercedes-Benz). VOFA se distingue de leurs approches en adressant explicitement la robustesse aux propriétés physiques inconnues plutôt que la vitesse ou le payload brut. Le Booster T1 est un humanoïde développé par la startup chinoise Booster Robotics, moins médiatisée que ses concurrents américains mais qui dispose d'une plateforme ouverte à la recherche. Le papier reste pour l'instant une contribution académique sans annonce de déploiement ni de partenariat industriel, et les vidéos de démonstration n'ont pas fait l'objet d'une validation externe. Les prochaines étapes naturelles incluent l'extension à des tâches de manipulation bimanuelles et à des environnements encombrants, deux conditions nécessaires pour valider l'approche en entrepôt réel.

IA physiqueOpinion
1 source
L'art de traverser le gouffre : quand une startup est-elle prête pour l'adoption par les entreprises ?
24Robotics Business Review 

L'art de traverser le gouffre : quand une startup est-elle prête pour l'adoption par les entreprises ?

Figure AI a annoncé avoir atteint un rythme de production d'un robot humanoïde par heure dans son usine BotQ, située dans la baie de San Francisco, soit une multiplication par 24 du débit en moins de 120 jours. La société revendique la livraison de plus de 350 unités de troisième génération (Figure 03), la fabrication de plus de 9 000 actionneurs et 500 packs batterie, avec 150 postes de travail en réseau et plus de 50 stations de contrôle qualité en ligne de production. En parallèle, Flex -- fabricant texan de composants électroniques -- a annoncé le déploiement de robots de Teradyne Robotics dans l'ensemble de ses sites de production mondiaux, en combinant les cobots Universal Robots (UR) et les AMR (robots mobiles autonomes) de Mobile Industrial Robot (MiR), deux filiales de Teradyne. Celle-ci a par ailleurs publié ses résultats du premier trimestre 2026 : 91 millions de dollars de chiffre d'affaires, quatrième trimestre consécutif de croissance après deux vagues de licenciements liées à des baisses de revenus en 2023 et 2024. Du côté des distinctions, l'association A3 a remis les prix Engelberger 2026 à Hiroshi Fujiwara, directeur exécutif de la Japan Robot Association (JARA) depuis 2009, et à Robert Little, cofondateur d'ATI Industrial Automation en 1989, qui a fait passer la société de 1 million à plus de 100 millions de dollars de revenus en devenant un acteur mondial des changeurs d'outils robotiques et des capteurs force/couple. Le chiffre de 24x de gain de débit chez Figure AI est spectaculaire, mais il convient de le lire avec précaution : la société communique sur des volumes de production, non sur des déploiements clients ou des contrats signés -- la distinction entre "fabriqué" et "opérationnel chez un client" reste floue dans ce communiqué. Cela dit, atteindre un robot par heure constitue un vrai seuil industriel si les données sont vérifiées, car la plupart des concurrents humanoïdes fonctionnent encore à l'échelle des dizaines d'unités annuelles. Le partenariat Flex/Teradyne est lui plus concret : Flex étant déjà fournisseur de composants pour UR, ce déploiement interne représente un signal fort de maturité opérationnelle des cobots et AMR dans des environnements de production à haute variabilité. C'est précisément la question que pose Neal Hansch, managing partner de Silicon Foundry et invité de l'épisode 242 du Robot Report Podcast : à quel moment un startup robotique est-il réellement prêt pour l'adoption entreprise, au-delà des démonstrations ? Figure AI a lancé ses premiers prototypes publics en 2023 et son Figure 02 en 2024, avec un financement total dépassant le milliard de dollars. Ses principaux concurrents sur le segment humanoïde incluent Tesla (Optimus Gen 3), Agility Robotics déployé chez Amazon, 1X Technologies, Apptronik, et Physical Intelligence (Pi-0, axé VLA), sans oublier Unitree et Fourier Intelligence côté asiatique. Teradyne, de son côté, cherche à repositionner UR et MiR comme infrastructure de "physical AI" face à la montée des solutions intégrées proposées par des acteurs comme Boston Dynamics (désormais sous Hyundai). La trajectoire de Robert Little chez ATI -- 40 ans d'expérience, croissance organique de 100x sur les end-effectors -- rappelle que les composants critiques de la chaîne robotique peuvent générer une valeur durable bien au-delà des intégrateurs systèmes.

UELe déploiement global de Universal Robots (UR) et MiR par Flex valide la maturité opérationnelle de ces deux marques danoises (filiales Teradyne) dans des environnements industriels à haute variabilité, renforçant leur position concurrentielle sur le marché européen des cobots et AMR face aux solutions intégrées émergentes.

HumanoïdesActu
1 source
La première usine intégrée de robots humanoïdes aux États-Unis vise 100 000 NEO d'ici 2027
25Interesting Engineering 

La première usine intégrée de robots humanoïdes aux États-Unis vise 100 000 NEO d'ici 2027

1X, entreprise de robotique dont le siège est à Hayward en Californie, a lancé la production en série de son robot humanoïde NEO dans une usine de 5 400 m² ouverte dans la même ville. La structure emploie actuellement plus de 200 personnes et affiche une capacité de production de 10 000 unités par an, avec l'ambition de dépasser 100 000 robots annuels d'ici 2027. Conçu pour un usage résidentiel (assistance à la mobilité, tâches ménagères légères, interaction quotidienne), le NEO sera proposé à 20 000 dollars à l'achat ou 499 dollars par mois en abonnement. Les premières livraisons aux clients sont prévues pour 2026, via un programme d'accès anticipé. Selon l'entreprise, la totalité de la première année de production, soit plus de 10 000 unités, aurait été réservée en cinq jours lors de l'ouverture des commandes en octobre dernier, un chiffre non corroboré par une source tierce. La démarche de 1X se distingue par une intégration verticale quasi complète : moteurs, batteries, capteurs, structures mécaniques et systèmes de transmission sont conçus et fabriqués en interne, y compris des lignes automatisées de bobinage de cuivre pour les actionneurs. Cette stratégie vise à réduire la dépendance aux fournisseurs externes, accélérer les cycles d'itération matérielle et améliorer la fiabilité, un enjeu critique pour des robots destinés à évoluer dans des environnements domestiques imprévisibles. Chaque NEO embarque la plateforme de calcul NVIDIA Jetson Thor, qui assure l'inférence IA en temps réel à bord (perception, raisonnement, navigation) sans dépendre de l'infrastructure cloud, réduisant ainsi la latence opérationnelle. L'entraînement des comportements passe par les outils de simulation NVIDIA Isaac, permettant un apprentissage par renforcement à grande échelle avant tout déploiement physique, une approche sim-to-real dont la robustesse dans des foyers réels reste à valider. 1X Technologies, anciennement connue sous le nom de Halodi Robotics et d'origine norvégienne, s'est implantée aux États-Unis pour accélérer sa commercialisation. Elle se positionne sur un segment très disputé : Boston Dynamics (Atlas électrique), Figure AI (Figure 03, en partenariat avec BMW), Apptronik (Apollo), Agility Robotics (Digit, déployé chez Amazon) et Tesla (Optimus) se disputent tous une place dans les environnements logistiques et résidentiels. La particularité de 1X est de cibler explicitement le marché grand public plutôt que l'industrie lourde, un positionnement plus risqué à court terme mais potentiellement adressable à bien plus grand volume. Les prochaines étapes déclarées incluent la montée en cadence de l'usine de Hayward, le début des livraisons clients en 2026 et la validation des comportements IA dans des foyers réels, étape déterminante pour savoir si l'humanoïde domestique peut tenir ses promesses face à la complexité du quotidien.

UE1X est issue de Halodi Robotics (Norvège), ce qui confère à son montée en puissance industrielle aux États-Unis une pression concurrentielle indirecte sur les acteurs européens de l'humanoïde ; aucun déploiement ni partenariat EU annoncé à ce stade.

HumanoïdesActu
1 source
Un robot humanoïde chinois grandeur nature avec 18 000 capteurs maîtrise 115 degrés de liberté
26Interesting Engineering 

Un robot humanoïde chinois grandeur nature avec 18 000 capteurs maîtrise 115 degrés de liberté

Kinetix AI, une entreprise de recherche en IA basée à Shenzhen, a dévoilé KAI, un robot humanoïde de taille réelle mesurant 173 cm pour 70 kg. Le robot affiche 115 degrés de liberté (DoF) au total, dont 72 concentrés dans les mains, soit 36 DoF par main combinant 22 articulations actives à commande précise et 14 articulations passives jouant le rôle d'amortisseurs mécaniques. KAI peut se déplacer à 5 km/h, soulever jusqu'à 20 kg, et fonctionne 4 heures par charge grâce à une batterie semi-solide de 1,7 kWh. Sa peau tactile synthétique embarque 18 000 points de capteurs capables de détecter des forces à partir de 0,1 newton, permettant une manipulation haptic-aware en temps réel. Le prix annoncé est inférieur à 40 000 dollars, avec une production en série prévue pour fin 2026. Il s'agit pour l'instant d'une annonce avec démonstration vidéo, sans déploiement commercial confirmé. Le nombre de degrés de liberté des mains est la donnée qui retient l'attention des intégrateurs : la majorité des humanoïdes actuels en compétition (Figure 03, Tesla Optimus Gen 3, Agility Digit) plafonnent à 20-30 DoF manuels, rendant la préhension d'objets complexes ou fragiles difficile à fiabiliser. Les 36 DoF par main de KAI, couplés aux 18 000 capteurs tactiles, visent directement ce goulot d'étranglement. Si les performances annoncées se confirment hors conditions de labo, cela représente un argument sérieux pour les cas d'usage de tri, d'assemblage fin et d'interaction service. Le choix de la batterie semi-solide mérite également d'être noté : en réduisant le risque d'emballement thermique par rapport aux cellules Li-ion classiques, Kinetix adresse un frein réel au déploiement en environnement humain. La cible déclarée reste le service (retail, conciergerie, assistance domicile) et non l'industrie lourde, ce qui situe KAI dans la même catégorie commerciale que Sanctuary AI ou Apptronik. Kinetix AI est une structure relativement peu connue hors de Chine, opérant dans un écosystème humanoïde domestique qui comprend des acteurs déjà bien financés comme Unitree (G1, H1), DEEP Robotics et Fourier Intelligence. Pour entraîner KAI, la société a développé un dispositif portable baptisé KAI Halo, permettant à des opérateurs humains de générer des données d'entraînement lors de tâches quotidiennes via capture vidéo première personne, mouvements corporels et données spatiales. L'architecture d'intelligence repose sur un "World Model" à trois couches (base, action, évaluation) intégrant une simulation prédictive avant exécution de mouvement, approche cohérente avec les tendances actuelles en Physical AI (pi0 de Physical Intelligence, GR00T N2 de NVIDIA). La prochaine étape structurante sera la confirmation de pilotes industriels ou de partenariats distributeurs pour valider la transition du prototype vers le produit livrable.

Chine/AsieOpinion
1 source
AI² Robotics défend les modèles VLA et lance NeuroVLA
27Pandaily 

AI² Robotics défend les modèles VLA et lance NeuroVLA

Guo Yandong, fondateur et PDG d'AI² Robotics, a présenté NeuroVLA, un modèle d'action robotique de troisième génération qui réduit la latence de réponse de plusieurs centaines de millisecondes à quelques dizaines de millisecondes. L'entreprise articule l'évolution des architectures VLA (Vision-Language-Action) en trois stades : les modèles end-to-end de première génération unifiant perception et contrôle ; les systèmes de deuxième génération intégrant des world models pour le raisonnement prédictif ; et désormais NeuroVLA, architecture neuro-inspirée permettant une optimisation continue comparable à la mémoire musculaire. En parallèle, AI² Robotics a lancé AlphaBrain Platform, une boîte à outils open-source combinant modèles VLA neuro-inspirés, entraînement par reinforcement learning à base de tokens et architectures modulaires de world model, avec support des benchmarks de référence LIBERO et CALVIN. L'annonce ne précise ni contexte de déploiement réel, ni clients industriels : il s'agit d'un lancement de modèle et de plateforme, pas d'un déploiement terrain. La réduction de latence revendiquée est le chiffre à surveiller. En manipulation robotique, passer sous 50 ms est généralement considéré comme le seuil nécessaire pour des gestes précis en environnement non structuré. Si NeuroVLA tient ces performances hors laboratoire, cela représenterait une avancée concrète sur le sim-to-real gap, obstacle persistant à la commercialisation des robots VLA. L'ouverture d'AlphaBrain en open-source signale une stratégie d'écosystème : AI² Robotics cherche à fédérer des contributeurs autour de son approche architecturale, à l'image de ce que tente Physical Intelligence avec pi0. AI² Robotics est une startup chinoise spécialisée dans l'embodied AI pour robots manipulateurs et humanoïdes. La prise de position publique de Guo Yandong en faveur des VLA intervient dans un débat architectural actif : les pipelines VLA end-to-end, portés aussi par Figure AI et 1X Technologies, s'affrontent aux approches hybrides modulaires de Sanctuary AI ou Apptronik. Les prochains jalons crédibles à suivre sont les résultats publiés sur LIBERO et CALVIN, qui permettront une comparaison objective avec les modèles concurrents, ainsi que l'annonce éventuelle de pilotes industriels validant les métriques en conditions réelles.

IA physiqueOpinion
1 source
Hexagon et Schaeffler vont déployer 1 000 humanoïdes Aeon dans leur réseau d'usines mondial
28Robotics & Automation News 

Hexagon et Schaeffler vont déployer 1 000 humanoïdes Aeon dans leur réseau d'usines mondial

Hexagon Robotics et Schaeffler, fabricant allemand de composants de précision et de technologie de mouvement (roulements, actionneurs, systèmes d'entraînement), ont annoncé en 2026 l'élargissement de leur partenariat stratégique avec un objectif chiffré : déployer 1 000 robots humanoïdes Aeon dans les usines du réseau mondial de Schaeffler. L'accord fait suite à un programme pilote conjoint mené en 2025, décrit comme concluant par les deux parties. Les spécifications techniques de l'Aeon, payload, degrés de liberté, cadence de cycle, n'ont pas été communiquées dans cette annonce, ce qui limite l'évaluation indépendante des performances réelles. Un engagement à 1 000 unités représente l'un des ordres de déploiement les plus élevés annoncés publiquement dans le segment humanoïde industriel, où la plupart des acteurs en sont encore aux phases de pilote à moins de 50 robots. Si le chiffre est tenu, il constituerait une preuve d'échelle manufacturière que ni Figure (Figure 03), ni Agility Robotics (Digit), ni 1X Technologies n'ont encore atteinte. Pour les intégrateurs et les COO industriels, le signal est que la phase "demo-to-reality gap" peut être franchie dans un environnement de production réel, à condition de disposer d'un partenaire industriel ancré dans la supply chain mécanique. Hexagon est principalement connu comme éditeur de logiciels de métrologie et de fabrication numérique (ex-Hexagon AB), ce qui rend son bras robotique Hexagon Robotics moins visible que ses concurrents purement hardware. Schaeffler, lui, apporte un réseau d'usines dense en Europe, Asie et Amériques, ainsi qu'une expertise en actionneurs pertinente pour la co-conception des bras et des articulations de l'Aeon. Dans la course humanoïde, les concurrents directs sur le segment industriel incluent Tesla Optimus, GR00T N2 de Nvidia/partenaires, et Apollo de Apptronik. Aucune date de livraison ferme ni calendrier de déploiement par site n'a été précisé.

UESchaeffler, fabricant allemand de composants de précision avec un réseau d'usines dense en Europe, est le déployeur central de l'accord ; si le cap des 1 000 unités est atteint, cela établirait une référence d'échelle industrielle directement pertinente pour les constructeurs et intégrateurs robotiques européens.

SEREACT lève 93 millions d’euros pour se positionner au cœur de l’IA appliquée au monde réel
29FrenchWeb 

SEREACT lève 93 millions d’euros pour se positionner au cœur de l’IA appliquée au monde réel

La startup allemande Sereact a annoncé une levée de fonds de 93 millions d'euros en série B, un tour de table qui positionne cette société fondée à Stuttgart parmi les acteurs les mieux capitalisés de l'IA robotique en Europe. Le financement intervient à un moment où la robotique industrielle connaît une transformation profonde, portée par la convergence entre les grands modèles de langage et les systèmes physiques autonomes. Ce qui distingue Sereact sur ce marché en effervescence, c'est son approche architecturale : la société a fait le choix de découpler le logiciel d'intelligence du matériel robot lui-même. Concrètement, son système peut piloter des bras robotiques de différents fabricants sans être lié à un constructeur particulier. Pour les industriels, cela représente une rupture majeure, ils peuvent déployer une intelligence commune sur un parc de robots hétérogène, sans dépendre d'un écosystème propriétaire fermé. Cette levée s'inscrit dans une vague de financements massifs autour de la robotique fondamentale, où des entreprises comme Physical Intelligence (Pi), Figure AI ou Apptronik ont chacune attiré des centaines de millions de dollars ces deux dernières années. L'enjeu pour Sereact est de s'imposer comme couche logicielle de référence dans les entrepôts et les chaînes de production européennes, un segment que les géants américains et asiatiques cherchent eux aussi à verrouiller. Avec ce capital frais, la société devrait accélérer le déploiement commercial de sa plateforme et élargir ses partenariats avec les intégrateurs industriels.

UESereact, startup allemande basée à Stuttgart, cible explicitement les entrepôts et chaînes de production européennes avec une plateforme logicielle d'IA robotique interopérable, offrant aux industriels français une alternative européenne face aux acteurs américains et asiatiques.

HumanoïdesOpinion
1 source
Accenture, Vodafone et SAP testent des robots humanoïdes en entrepôt
30Robotics Business Review 

Accenture, Vodafone et SAP testent des robots humanoïdes en entrepôt

Accenture, Vodafone Procure & Connect et SAP ont mené un pilote de robotique humanoïde dans l'entrepôt de Vodafone à Duisburg, en Allemagne, dont les résultats ont été présentés à Hannover Messe 2026. Durant ce programme, les robots recevaient leurs missions d'inspection directement via le système SAP Extended Warehouse Management (EWM) et effectuaient de manière autonome des rondes visuelles dans l'installation : détection de produits mal placés ou endommagés, évaluation de l'empilement des palettes et de la répartition des charges, repérage d'espaces de stockage sous-utilisés, identification de risques comme des obstacles dans les allées ou des palettes mal alignées. Les conclusions étaient remontées en temps réel dans le système SAP. Les robots sont équipés de la solution "Robot Brain" d'Accenture, entraînés dans des jumeaux numériques construits via l'Accenture Physical AI Orchestrator, lui-même basé sur NVIDIA Omniverse, le blueprint NVIDIA Mega et les outils NVIDIA Metropolis pour la vision IA. Ils interagissent avec les opérateurs par la voix, les gestes et le texte. Un point à noter : aucun modèle de robot humanoïde n'est communiqué dans les annonces officielles, et aucune métrique de performance -- charge utile, degrés de liberté, temps de cycle -- n'a été publiée. L'intérêt de ce pilote réside moins dans la prouesse robotique que dans la démonstration d'une intégration native avec un WMS standard du marché. SAP EWM équipe une grande partie des opérations logistiques mondiales : si cette interface tient à l'échelle, elle réduit considérablement la friction d'adoption pour les grands acteurs industriels, qui n'auront pas à refondre leur SI existant. Pour les COO logistiques, les arguments avancés -- réduction des accidents de travail, des heures supplémentaires et de la dépendance à l'intérim -- sont bien plus concrets que la promesse de l'"IA physique". Vodafone Procure & Connect va plus loin en évoquant explicitement un futur "business de solutions de main-d'oeuvre humanoïde", ce qui signale une ambition de monétiser l'expérience acquise au-delà de l'usage interne -- un signal que les intégrateurs et les investisseurs du secteur logistique devraient noter. Ce pilote s'inscrit dans la stratégie d'Accenture de se positionner comme intégrateur de référence pour la robotique humanoïde en entreprise, en capitalisant sur son partenariat technologique avec NVIDIA. Dans un marché où Boston Dynamics déploie Stretch chez DHL et GXO, Figure AI a signé avec BMW, et Apptronik travaille avec Mercedes-Benz, Accenture joue la carte de la couche d'intégration SI plutôt que du hardware -- aucun fabricant de robot n'est nommé dans les communications, ce qui suggère soit une architecture hardware-agnostique, soit des partenariats encore confidentiels. Pour SAP, c'est une démonstration de la pertinence de l'EWM dans un monde de robots physiques autonomes. Les prochaines étapes restent vagues : une extension à la chaîne d'approvisionnement globale de Vodafone est évoquée, mais sans dates ni volumes cibles. Ce projet demeure, pour l'heure, un pilote présenté en salon -- pas encore un déploiement industriel confirmé.

UELe pilote en entrepôt Vodafone à Duisburg démontre une intégration native des robots humanoïdes avec SAP EWM, ERP dominant de la logistique européenne, ce qui pourrait réduire significativement la friction d'adoption pour les opérateurs industriels européens sans refonte de leur SI existant.

FR/EU ecosystemeOpinion
1 source
Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique
31arXiv cs.RO 

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

Une étude empirique de grande envergure, publiée sur arXiv (référence 2602.23408), apporte les premières réponses systématiques à une question restée sans réponse rigoureuse dans la communauté de la manipulation robotique : comment concevoir l'espace d'action d'une politique apprise par imitation ? Les chercheurs ont conduit plus de 13 000 déploiements réels sur un robot bimanuel, entraîné et évalué plus de 500 modèles sur quatre scénarios distincts, en examinant deux axes structurants : l'axe temporel (représentations absolues vs. incrémentales, dites "delta") et l'axe spatial (espace articulaire, ou joint-space, vs. espace opérationnel, ou task-space). Le résultat principal est sans ambiguïté : les représentations delta, qui encodent des variations de position plutôt que des positions cibles absolues, améliorent systématiquement les performances d'apprentissage. Sur l'axe spatial, joint-space et task-space révèlent des forces complémentaires : le premier favorise la stabilité du contrôle, le second facilite la généralisation à de nouveaux scénarios. Ces résultats ont une portée directe pour les équipes qui développent des politiques robotiques en production. Jusqu'ici, le choix de l'espace d'action relevait d'heuristiques héritées ou de conventions propres à chaque laboratoire, sans base empirique solide. L'étude montre que ce choix n'est pas accessoire : il conditionne fondamentalement le paysage d'optimisation de l'apprentissage par imitation, bien davantage que ce que supposait la littérature. Pour un intégrateur ou un ingénieur concevant un système de manipulation industrielle, la recommandation est désormais claire : préférer les delta actions par défaut, et arbitrer entre joint-space et task-space selon que la priorité est la stabilité du suivi de trajectoire ou la robustesse face à la variabilité des tâches. Ces conclusions sont directement applicables aux architectures VLA (Vision-Language-Action), qui dominent actuellement la recherche en politiques généralisables. Ce travail intervient dans un contexte où la course à la mise à l'échelle des données et des modèles concentre la majorité des ressources de recherche. Des systèmes comme pi-0 (Physical Intelligence), ACT ou Diffusion Policy ont popularisé l'imitation learning comme voie principale vers la manipulation généraliste, et des acteurs comme Figure AI, 1X ou Apptronik misent sur ces architectures pour leurs déploiements industriels. Pourtant, la conception de l'espace d'action restait guidée par des choix hérités des années 2010, faute d'étude comparative à grande échelle. En comblant ce manque avec une rigueur rare, les auteurs posent une base méthodologique qui devrait informer la prochaine génération de politiques bimanuelle et les benchmarks de comparaison entre systèmes.

RechercheOpinion
1 source
RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde
32arXiv cs.RO 

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (2604.21355) un framework baptisé RPG (Robust Policy Gating), conçu pour permettre à des robots humanoïdes d'enchaîner plusieurs compétences de combat dynamique sans instabilité. L'approche repose sur une politique unifiée entraînée avec deux mécanismes de randomisation : la randomisation des transitions de mouvement, qui expose la politique à des états initiaux et terminaux variés entre compétences, et la randomisation temporelle, qui rend l'agent robuste aux coupures imprévises dans la séquence de mouvements. La pipeline de contrôle intègre la locomotion (marche, course) avec les compétences de combat, permettant théoriquement des séquences de durée arbitraire. Le système a été validé en simulation extensive, puis déployé sur le robot humanoïde Unitree G1, la plateforme à 23 DDL du constructeur chinois Unitree Robotics. Le problème central que RPG adresse est connu dans le domaine sous le nom de "skill transition gap" : lorsqu'un agent bascule d'une politique spécialisée à une autre, les états terminaux de la première ne correspondent pas aux états initiaux supposés de la seconde, produisant des comportements hors domaine, des chutes ou des mouvements saccadés. Les approches concurrentes utilisent soit une commutation entre politiques mono-compétence, soit une politique généraliste qui imite des motion clips de référence -- les deux souffrent de ce décalage. RPG propose une solution d'entraînement plutôt que d'architecture, ce qui est notable : la robustesse aux transitions est injectée pendant la phase d'apprentissage, pas via un mécanisme de gating à l'inférence. L'absence de métriques quantitatives dans la publication (temps de cycle, taux de chute, nombre de transitions testées) limite cependant la comparaison directe avec d'autres travaux. RPG s'inscrit dans une vague active de recherche sur le contrôle corps entier des humanoïdes pour des tâches hautement dynamiques, un domaine où les laboratoires UCB, CMU et Stanford publient régulièrement depuis 2023. L'utilisation du G1 comme plateforme de validation est cohérente avec sa popularité croissante en recherche académique, notamment grâce à son coût inférieur à celui des plateformes concurrentes (Boston Dynamics Atlas, Agility Digit). Sur le plan commercial, des acteurs comme Figure AI, 1X Technologies ou Apptronik ciblent des tâches répétitives en entrepôt plutôt que le combat, mais les techniques de transition de compétences développées ici sont directement transposables aux scénarios industriels nécessitant des enchaînements fluides de manipulation et de locomotion. La prochaine étape naturelle serait une évaluation quantitative en conditions adversariales réelles, ainsi qu'un transfert vers des tâches moins "spectaculaires" mais plus proches du déploiement B2B.

RecherchePaper
1 source
AGILINK lance la série OmniHand 3 et livre plus de 8 000 mains dextériques
33Pandaily 

AGILINK lance la série OmniHand 3 et livre plus de 8 000 mains dextériques

AGILINK a officiellement lancé sa série OmniHand 3, composée de trois produits distincts : l'OmniHand 3 Ultra-T, l'OmniHand 3 Lite et l'OmniPicker 3. L'entreprise, fondée en janvier 2026 comme spin-off de la division mains dextres d'AGIBOT, a bouclé trois tours de financement en l'espace d'un mois, levant plusieurs centaines de millions de RMB. Le modèle phare, l'Ultra-T, pèse moins de 500 grammes pour une charge utile de 5 kg, intègre plus de 25 degrés de liberté, une captation tactile sur l'ensemble de la surface et une caméra palmaire embarquée. Son système de tendons à déconnexion rapide permet le remplacement de composants en moins de 10 minutes. L'OmniHand 3 Lite vise la production de masse à bas coût, tandis que l'OmniPicker 3 cible la préhension industrielle avec une durée de vie annoncée à 1 million de cycles et une force de saisie de 140 N. Au moment du lancement, AGILINK revendique plus de 8 000 mains dextres et 10 000 préhenseurs livrés, dont près de 1 000 unités déjà déployées en entrepôts retail, pharmacies et usines, opérant en continu sur des postes de 8 heures. Ces chiffres de déploiement méritent attention : là où la majorité des acteurs de la main robotique dextère restent au stade du prototype ou de la démo contrôlée, AGILINK revendique une production industrielle réelle dès ses premiers mois d'existence. Le seuil des 8 000 unités livrées, si confirmé, constituerait l'un des volumes de série les plus élevés pour ce type de composant à haute dextérité. Pour les intégrateurs et les décideurs industriels, le point technique clé est le quick-release à 10 minutes, qui abaisse drastiquement le coût de maintenance en ligne de production, un frein historique à l'adoption des mains articulées en milieu industriel. AGILINK s'inscrit dans un écosystème chinois en pleine structuration autour de la robotique humanoïde, où AGIBOT, son entreprise mère, développe des plateformes complètes concurrentes de Figure, 1X ou Apptronik. Sur le segment de la main dextère, les concurrents directs incluent Inspire Robots, FFTAI et, côté occidental, Shadow Robot ou Wonik Robotics. La rapidité de la levée de fonds et l'externalisation de la division en entité autonome suggèrent une stratégie de composant-plateforme, visant à équiper l'ensemble de l'industrie humanoïde plutôt qu'un seul robot propriétaire. Les prochaines étapes probables concernent l'intégration avec les modèles VLA (Vision-Language-Action) pour la manipulation généraliste, domaine où le retour haptique et la dextérité fine restent des goulots d'étranglement non résolus à l'échelle.

Chine/AsieActu
1 source
L'importance du sens du toucher pour l'apprentissage par imitation : une étude de cas sur l'allumage d'allumettes par robot
34arXiv cs.RO 

L'importance du sens du toucher pour l'apprentissage par imitation : une étude de cas sur l'allumage d'allumettes par robot

Des chercheurs ont publié en avril 2025 sur arXiv (papier 2504.13618) un cadre d'apprentissage par imitation visuotactile multimodal, évalué sur une tâche de référence particulièrement exigeante : l'allumage d'une allumette par un robot. Le système combine une architecture transformer modulaire avec un modèle génératif basé sur les flux (flow-based generative model), entraîné à partir d'un petit nombre de démonstrations humaines. L'originalité tient à l'intégration active de capteurs tactiles, capables de fournir des informations de contact précises, directement dans la boucle de politique, et non comme signal auxiliaire passif. L'allumage d'allumette n'est pas un choix anodin : c'est une tâche dynamique, riche en contacts, où le retour tactile influence mesurablementles performances humaines, ce qui en fait un banc d'essai pertinent pour isoler la contribution du toucher. Ce travail s'attaque à un angle mort bien identifié du domaine : malgré l'essor récent des politiques d'imitation (diffusion policies, VLA), la plupart des architectures restent mono-modales côté perception, vision seule, parfois force-couple, et échouent sur les manipulations dynamiques où le contact est fugace et précis. L'étude démontre expérimentalement que l'ajout du signal tactile améliore les performances de la politique par rapport à une baseline purement visuelle, ce qui étaye l'hypothèse que le sim-to-real et le demo-to-reality gap sur les tâches contact-rich peuvent être réduits en enrichissant la modalité sensorielle plutôt qu'en multipliant les démonstrations. Pour les intégrateurs industriels, c'est un signal : les capteurs tactiles de nouvelle génération (GelSight, DIGIT, XELA et équivalents) commencent à justifier leur coût d'intégration par des gains de robustesse mesurables sur des gestes fins. Ce papier s'inscrit dans une dynamique plus large où les laboratoires académiques (MIT, Stanford, CMU notamment) cherchent à dépasser les politiques visuomotrices en incorporant des modalités sensorielles supplémentaires. Du côté industriel, les robots commerciaux déployés en manipulation, bras collaboratifs Franka, systèmes Figure ou Apptronik, restent majoritairement sans retour tactile intégré, ce qui creuse un écart entre la recherche et le hardware disponible. La prochaine étape naturelle pour cette équipe sera de tester la généralisation de l'approche sur d'autres tâches contact-rich et sur des capteurs tactiles moins onéreux, condition nécessaire pour une adoption industrielle réaliste.

UEImpact indirect : Franka (fabricant allemand de bras collaboratifs) est cité parmi les systèmes actuellement dépourvus de retour tactile intégré, ce qui illustre le fossé recherche/hardware que les constructeurs européens devront combler pour rester compétitifs sur la manipulation fine.

IA physiqueOpinion
1 source
CLAW : génération de mouvements corps entier composables et annotés en langage naturel
35arXiv cs.RO 

CLAW : génération de mouvements corps entier composables et annotés en langage naturel

Une équipe de chercheurs a publié CLAW (Composable Language-Annotated Whole-body Motion Generation), un pipeline open source conçu pour générer à grande échelle des données de mouvement annoté en langage naturel pour robots humanoïdes, appliqué ici au Unitree G1. Le système compose des primitives de mouvement paramétrées par six variables, type de déplacement, cap, vitesse, hauteur du bassin (pelvis height) et durée, et les exécute dans le simulateur MuJoCo pour produire des trajectoires physiquement cohérentes. Deux interfaces navigateur sont proposées : un mode clavier en temps réel pour l'exploration, et un éditeur de séquences en timeline pour la collecte de données en batch. En parallèle, un moteur de génération d'annotations basé sur des templates produit des descriptions en langage naturel à deux niveaux de granularité : segment individuel et trajectoire complète. Le code est disponible publiquement sur GitHub sous la référence arXiv:2604.11251. L'enjeu central est le goulot d'étranglement des données pour entraîner des contrôleurs whole-body conditionnés au langage (VLA, Vision-Language-Action). La capture de mouvement réelle est coûteuse, peu scalable et limitée en diversité ; les modèles génératifs text-to-motion existants produisent des sorties purement cinématiques, sans garantie de faisabilité physique, un écueil critique pour le déploiement réel. CLAW apporte une réponse intermédiaire : la simulation MuJoCo ancre les trajectoires dans la physique, tandis que la composition modulaire de primitives permet une diversité combinatoire élevée. C'est une approche sim-to-real pragmatique qui vise à réduire le fossé entre données d'entraînement et comportement robot en conditions réelles, sans le coût d'un studio de mocap. Le Unitree G1, robot humanoïde chinois positionné sur le segment accessible (prix catalogue autour de 16 000 USD), est une plateforme de recherche de plus en plus utilisée dans la communauté académique, notamment face aux plateformes fermées comme Figure 02 ou Apptronik Apollo. CLAW s'inscrit dans une dynamique plus large de démocratisation des pipelines de données pour la robotique humanoïde, aux côtés de travaux comme le dataset HumanoidBench ou les approches de Physical Animation de Berkeley. La mise à disposition publique du système est son principal atout différenciant : elle permet aux laboratoires sans ressources de mocap de constituer des jeux de données whole-body annotés pour leurs propres expériences de contrôle en langage. Les prochaines étapes attendues, non annoncées dans ce papier, concernent le transfert réel sur G1 et la validation des politiques entraînées sur ces données synthétiques.

UELes laboratoires européens de recherche en robotique humanoïde peuvent exploiter ce pipeline open source pour constituer des jeux de données whole-body annotés sans infrastructure de mocap coûteuse.

IA physiqueOpinion
1 source
Digit apprend le soulevé de terre
36IEEE Spectrum Robotics 

Digit apprend le soulevé de terre

Agility Robotics a publié cette semaine une démonstration de son robot humanoïde Digit soulevant une charge de 29,5 kg (65 livres) en deadlift complet, soit l'une des charges utiles les plus élevées jamais documentées pour ce châssis. L'entraînement de la politique de contrôle a été réalisé entièrement en simulation, en intégrant l'objet cible dans la boucle d'apprentissage afin de modéliser la distribution des charges, les forces de préhension et les variations du centre de masse de Digit lors du lever. La politique résultante se transfère au robot réel avec un équilibre dynamique maintenu tout au long du mouvement, sans ajustement manuel post-simulation. En parallèle, MagicLab Robotics a déployé un essaim mixte de chiens-robots et d'humanoïdes lors de la cérémonie d'ouverture du Jiangsu Super League, dans un environnement extérieur ouvert, revendiquant la coordination simultanée d'une flotte multi-catégories en conditions réelles. L'équipe de Harvard a présenté ses RAnts, un essaim de micro-robots fourmis sans contrôle centralisé capable de creuser et de construire des structures en ajustant deux paramètres seulement : la force de coopération et le taux de dépôt de matériau. Michigan Robotics a quant à elle montré un actionneur à microcombustion de 8 millimètres de diamètre capable de propulser des gouttelettes d'eau en 3 millisecondes, remettant en question l'hypothèse selon laquelle les actionneurs souples sont intrinsèquement lents. Gatlin Robotics a annoncé son premier contrat commercial sous modèle Robot-as-a-Service (RaaS), sans préciser le secteur d'activité ni le client. Le cas de Digit en deadlift est notable pour ce qu'il valide méthodologiquement : la capacité de transférer des politiques sim-to-real pour des tâches à forte sollicitation mécanique, où la coordination corps entier et la robustesse des actionneurs sont critiques. C'est un résultat concret pour les intégrateurs industriels qui évaluent les humanoïdes pour la manutention lourde, un segment jusqu'ici dominé par les bras industriels fixes. Le déploiement de MagicLab au Jiangsu Super League est présenté comme une preuve de maturité des systèmes multi-agents à l'échelle, mais il s'agit d'un spectacle chorégraphié : la coordination en environnement non structuré, avec aléas, reste à démontrer dans un contexte opérationnel. L'actionneur de Michigan Robotics remet en cause un a priori du secteur : que la souplesse implique lenteur. Un actionneur de 8 mm capable d'impulsions de 3 ms ouvre des perspectives pour la chirurgie robotique, la micro-assemblage ou les prothèses. Les RAnts de Harvard illustrent l'intérêt des architectures décentralisées pour la robotique collective en environnements dégradés, avec des applications potentielles dans la construction autonome ou la démantèlement de structures. Agility Robotics, rachetée par Agility en 2023 après une première commercialisation limitée de Digit chez Amazon, intensifie ses démonstrations de capacités en charge lourde pour se différencier face à Figure (Figure 03), Apptronik (Apollo) et Boston Dynamics (Atlas électrique). MagicLab est un acteur chinois encore peu documenté en dehors de l'Asie, positionnant ses systèmes multi-agents comme une alternative aux approches humanoïdes pures. LimX Dynamics, également présent cette semaine avec son robot TRON 1 pour la photographie autonome en terrains complexes, confirme la diversification des cas d'usage des robots quadrupèdes en Chine. Les prochaines grandes échéances du secteur sont ICRA 2026 à Vienne du 1er au 5 juin, puis RSS 2026 à Sydney en juillet, où plusieurs de ces travaux devraient être présentés dans leur version complète avec données et protocoles.

UELes intégrateurs industriels européens évaluant les humanoïdes pour la manutention lourde doivent surveiller la validation sim-to-real de Digit (29,5 kg), qui le positionne comme concurrent direct des bras fixes dans la logistique lourde.

HumanoïdesActu
1 source
La manipulation dextre des robots en discussion : épisode 152 du Robot Talk avec Rich Walker
37Robohub 

La manipulation dextre des robots en discussion : épisode 152 du Robot Talk avec Rich Walker

Shadow Robot Company, entreprise britannique spécialisée dans la manipulation dextre, est à nouveau sous les projecteurs avec la participation de son directeur Rich Walker au podcast Robot Talk (épisode 152). Rich Walker, présent dans la société bien avant sa formalisation en entreprise, a débuté en ingénierie logicielle et systèmes avant de basculer vers la direction. Il y pilote aujourd'hui les engagements de recherche, les projets de démonstration industrielle et le programme de politique publique de Shadow Robot. La dextérité robotique reste l'un des verrous techniques les plus durs du secteur : reproduire les 27 degrés de liberté de la main humaine avec la fiabilité et la force nécessaires à un usage industriel est un défi que peu d'acteurs ont résolu à l'échelle. Shadow Robot figure parmi les rares à proposer des mains robotiques commerciales pour la recherche et l'industrie, ce qui leur confère une position de référence dans les laboratoires internationaux et auprès d'intégrateurs cherchant à automatiser des tâches de manipulation fine. Walker siège également au conseil d'euRobotics, le lobby européen qui regroupe les PME du secteur, ce qui positionne Shadow Robot comme influenceur dans les politiques R&D européennes. Fondée à Londres, Shadow Robot a construit sa réputation sur des décennies de travail en manipulation humanoïde, bien avant que les humanoides complets ne dominent le débat. Dans un marché aujourd'hui concurrencé par des acteurs comme Agility Robotics, Figure ou Apptronik sur le segment des bras et effecteurs, Shadow Robot maintient un positionnement de niche à haute valeur technique. Cet épisode de podcast reste davantage un format de visibilité sectorielle qu'une annonce produit concrète.

UERich Walker siège au conseil d'euRobotics, positionnant Shadow Robot comme influenceur dans les politiques R&D européennes en manipulation dextre, mais sans annonce concrète impactant directement le marché FR/EU.

AutreActu
1 source
Boston Dynamics et Google DeepMind apprennent à Spot à raisonner
38IEEE Spectrum Robotics 

Boston Dynamics et Google DeepMind apprennent à Spot à raisonner

Boston Dynamics annonce l'intégration de Gemini Robotics-ER 1.6, le modèle de raisonnement incarné de Google DeepMind, dans son robot quadrupède Spot. Ce partenariat, rendu public en avril 2026, dote Spot de capacités de raisonnement autonome pour des missions d'inspection industrielle : détection de débris ou de fuites dangereuses, lecture de jauges et de regards de contrôle, et recours à des modèles vision-langage-action (VLA) lorsque la compréhension de l'environnement l'exige. Spot est aujourd'hui déployé à plusieurs milliers d'unités sur sites industriels, ce qui en fait l'une des rares plateformes à pattes ayant atteint une échelle commerciale réelle. Marco da Silva, vice-président et directeur général de Spot chez Boston Dynamics, parle de "réaction aux défis du monde réel de façon entièrement autonome", formulation prudente qui évite les superlatifs, mais qui reflète une ambition opérationnelle concrète. L'enjeu central de cette intégration est la réduction du fossé entre instruction humaine et exécution robot. Carolina Parada, responsable robotique chez Google DeepMind, résume le critère de réussite : "le système doit répondre comme un humain le ferait." Ce standard est plus exigeant qu'il n'y paraît. La vidéo de démonstration de Boston Dynamics l'illustre sans le vouloir : lorsqu'on demande à Spot de "recycler les canettes du salon", il saisit la canette de côté, ce qui serait problématique si elle contenait encore du liquide. Un humain éviterait instinctivement cette erreur en mobilisant des décennies d'expérience incarnée. Cet écart entre raisonnement déclaré et comportement effectif est précisément ce que DeepMind cherche à combler avec son benchmark ASIMOV, un corpus d'exemples en langage naturel décrivant ce qu'un robot ne devrait pas faire, ancré dans une logique de sécurité sémantique. La version actuelle de Spot n'utilise pas encore ces modèles pour la manipulation, mais les versions futures sont censées intégrer ce raisonnement sur la manière sûre de tenir les objets. Boston Dynamics dispose d'une longueur d'avance opérationnelle que peu de concurrents peuvent revendiquer : là où Figure, Agility Robotics ou Apptronik parlent encore de pilotes et de rampes de déploiement, Spot tourne en production dans des raffineries, des usines et des infrastructures critiques depuis plusieurs années. Le choix de Gemini Robotics-ER 1.6 comme couche de raisonnement haut niveau s'inscrit dans la stratégie de Google DeepMind de positionner ses modèles incarnés comme infrastructure pour l'industrie robotique, face aux approches concurrentes de Physical Intelligence (Pi-0), de NVIDIA (GR00T N2) ou de l'écosystème ROS2 open-source. Le vrai test ne sera pas la démo en salon, mais la fiabilité en environnement industriel bruité, sous contraintes de cycle et de disponibilité opérationnelle, des conditions que les benchmarks académiques ne capturent pas encore fidèlement.

UELes opérateurs industriels européens utilisant Spot (raffineries, infrastructures critiques) bénéficieront indirectement de ces capacités de raisonnement autonome, sans impact réglementaire ou stratégique direct pour la France ou l'UE.

IA physiqueOpinion
1 source