Aller au contenu principal

Dossier Figure

204 articles

Figure, le constructeur de robots humanoïdes le plus capitalisé : Figure 02 et 03, modèle Helix VLA, déploiements BMW, partenariats avec OpenAI puis indépendance.

Quels sont les facteurs limitants de la navigation vision-langage ?
1arXiv cs.RO IA physiqueOpinion

Quels sont les facteurs limitants de la navigation vision-langage ?

Une équipe de chercheurs publie StereoNav (arXiv:2605.13328, mai 2026), un framework Vision-Language-Action (VLA) conçu pour la navigation robotique guidée par instructions en langage naturel, domaine désigné sous le terme Vision-and-Language Navigation (VLN). Sur les benchmarks standards R2R-CE et RxR-CE, le système atteint des taux de succès (SR) de 81,1 % et 67,5 %, avec des scores SPL (Success weighted by Path Length) de 68,3 % et 52,0 % respectivement, positionnant StereoNav en état-de-l'art sur RGB égocentrique. Ces performances sont obtenues avec nettement moins de paramètres et de données d'entraînement que les approches concurrentes fondées sur la mise à l'échelle. Des déploiements physiques sur robot dans des environnements non structurés réels confirment une amélioration substantielle de la fiabilité de navigation. La contribution centrale de StereoNav est de remettre en cause le paradigme dominant du scaling: les auteurs soutiennent que le vrai goulot d'étranglement pour combler le sim-to-real gap ne réside pas dans la taille des modèles ou le volume de données d'entraînement, mais dans l'absence d'un ancrage spatial robuste (spatial grounding) et de représentations cross-domaines stables. Ils introduisent en réponse des Target-Location Priors, représentations visuelles persistantes invariantes entre simulation et déploiement réel, qui stabilisent la navigation même lorsque les instructions verbales sont vagues ou incomplètes. La vision stéréo complète le dispositif en construisant une représentation unifiée sémantique et géométrique, résistante aux perturbations visuelles fréquentes en environnement industriel: flou de mouvement, variations d'éclairage, changements de perspective. Pour un intégrateur ou un COO industriel, le signal est clair: atteindre ces performances sans modèles XXL réduit significativement les coûts de déploiement et d'inférence. La VLN s'appuie historiquement sur le benchmark Room-to-Room (R2R) introduit en 2018, mais le passage du simulateur Matterport3D au monde physique restait un défi largement ouvert. StereoNav entre en compétition directe avec des VLA généralistes misent sur l'échelle paramétrique: pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI. L'architecture proposée choisit une voie opposée, fondée sur l'efficience et les priors géométriques explicites plutôt que la capacité brute. Il s'agit à ce stade d'un résultat académique sans déploiement commercial annoncé, mais les expériences physiques documentées dépassent le registre de la démonstration en laboratoire et constituent une base sérieuse pour des pilotes industriels à venir.

UEL'approche architecture légère de StereoNav pourrait réduire les coûts de déploiement VLA pour les intégrateurs industriels européens, sans nécessiter d'infrastructure de calcul massive.

1 source
TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement
2arXiv cs.RO 

TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement

Des chercheurs ont publié TeleGate (arXiv:2602.09628, preprint non encore revu par les pairs), un cadre de télé-opération corps entier pour robots humanoïdes, déployé sur le Unitree G1. Le système permet le contrôle à distance en temps réel de l'ensemble du corps du robot - membres supérieurs, inférieurs et tronc - sur un spectre de mouvements dynamiques complexes: course, récupération après chute et saut. L'entraînement n'a nécessité que 2,5 heures de données de capture de mouvement (mocap), un volume faible comparé aux approches concurrentes. L'architecture repose sur deux composants: un réseau de sélection (gating network) léger qui active dynamiquement des politiques expertes spécialisées en fonction des états proprioceptifs du robot et des trajectoires de référence, et un module de prior de mouvement basé sur un VAE (variational autoencoder) qui infère l'intention de mouvement future à partir des observations historiques, assurant un contrôle anticipatif pour les gestes nécessitant de la prédiction. L'enjeu que TeleGate cherche à résoudre est central dans la robotique humanoïde actuelle: les approches classiques fusionnent plusieurs politiques expertes en une politique générale par distillation de connaissances, ce qui entraîne une dégradation des performances sur les mouvements très dynamiques. TeleGate contourne ce compromis en préservant les politiques expertes spécialisées intactes, le réseau de sélection se contentant d'arbitrer entre elles en temps réel. Les résultats rapportés, en simulation et sur robot réel, indiquent une précision de suivi et un taux de succès supérieurs aux méthodes de référence, sans que les auteurs ne fournissent de métriques chiffrées détaillées dans l'abstract. Pour les intégrateurs, cela suggère qu'une architecture de sélection d'experts est préférable à la distillation lorsque le portefeuille de comportements est hétérogène et inclut des gestes physiquement contrastés. Unitree Robotics, fabricant chinois dont le G1 est commercialisé aux alentours de 16 000 USD, s'est imposé comme la plateforme de référence des publications académiques en télé-opération humanoïde grâce à son accessibilité tarifaire. TeleGate s'inscrit dans une effervescence de travaux publiés en 2024-2025 autour de ce thème, en parallèle d'approches comme ACT, UMI, ou les systèmes développés par Figure AI et 1X Technologies. La prochaine étape naturelle pour ce type de framework est la collecte de démonstrations de haute qualité pour l'apprentissage par imitation, goulot d'étranglement majeur sur le chemin vers l'autonomie humanoïde.

HumanoïdesPaper
1 source
Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

Des chercheurs ont déposé sur arXiv (arXiv:2605.13632, mai 2026) GTA-VLA (Guide, Think, Act), un framework Vision-Language-Action interactif qui permet d'injecter des indices visuels explicites dans le raisonnement d'un robot avant l'exécution. Contrairement aux VLA classiques qui appliquent un mapping direct perception-action appris sur données d'entraînement, GTA-VLA introduit une étape de raisonnement spatial conditionné : l'opérateur peut fournir des points d'affordance, des boîtes englobantes ou des trajectoires dessinées sur l'image, que le modèle intègre dans une chaîne de pensée (Chain-of-Thought, CoT) avant de générer les commandes motrices. Une tête d'action légère ("reactive action head") assure ensuite l'exécution. Sur le benchmark SimplerEnv WidowX en conditions in-domain, le système atteint un taux de succès de 81,2 %, présenté comme état de l'art sur cette tâche. Les auteurs rapportent qu'une seule interaction visuelle suffit à améliorer substantiellement les performances sous perturbations visuelles ou ambiguïtés spatiales hors distribution (OOD). Ce résultat pointe une limite structurelle des VLA actuels : leur fragilité face aux shifts de distribution, c'est-à-dire dès que l'environnement de déploiement diffère des données d'entraînement. Les approches CoT existantes exposent le raisonnement intermédiaire mais restent aveugles à la guidance humaine, rendant la reprise sur erreur difficile sans réentraînement. GTA-VLA propose une troisième voie : maintenir l'autonomie du modèle tout en ouvrant un canal de correction humain minimal, ciblé sur l'espace visuel. Pour un intégrateur industriel, c'est un argument concret contre le demo-to-reality gap : si le robot échoue, l'opérateur désigne visuellement l'objet cible plutôt que de réécrire une instruction texte. La métrique de 81,2 % sur SimplerEnv mérite toutefois d'être contextualisée : ce benchmark reste un environnement simulé contrôlé, et aucun résultat sur hardware réel n'est communiqué dans le papier. GTA-VLA s'inscrit dans l'effervescence des architectures VLA depuis Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui ont tous cherché à coupler raisonnement de haut niveau et exécution robotique fluide. L'apport spécifique est de rendre ce raisonnement "steerable" via des priors spatiaux explicites, là où Pi-0 ou GR00T N2 restent essentiellement autonomes une fois déployés. Publié en preprint non encore évalué par des pairs, le papier ne mentionne ni déploiement sur plateforme physique ni partenariats industriels annoncés. Les prochaines étapes naturelles seraient une validation sur manipulateurs réels (WidowX physique, Franka) et une évaluation de la robustesse de l'interface de guidance en conditions industrielles réelles.

IA physiqueOpinion
1 source
D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action
4arXiv cs.RO 

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

Des chercheurs ont publié sur arXiv (référence 2605.13276) un framework distribué baptisé D-VLA, conçu pour entraîner par renforcement les modèles Vision-Language-Action (VLA) à très grande échelle. Le problème central qu'ils adressent est un goulot d'étranglement systémique : lorsqu'on applique du reinforcement learning (RL) à des VLA de plusieurs milliards de paramètres dans un environnement distribué, la simulation physique haute-fidélité et les calculs d'inférence se disputent les mêmes ressources GPU (VRAM, bande passante), ce qui dégrade le débit global. D-VLA répond par trois mécanismes : un "Plane Decoupling" qui isole physiquement les données d'entraînement haute fréquence du contrôle des poids basse fréquence, un pipeline asynchrone à quatre fils d'exécution ("Swimlane") permettant le chevauchement complet des phases de sampling, d'inférence, de calcul de gradient et de distribution des paramètres, et un système dual-pool de gestion VRAM couplé à une réplication "topology-aware". Sur le benchmark LIBERO, le framework surpasse significativement les solutions RL dominantes en débit et en efficacité d'échantillonnage pour des modèles à l'échelle du milliard de paramètres. Des tests de passage à l'échelle trillion de paramètres indiquent une stabilité maintenue et un speedup linéaire. L'enjeu industriel est concret : les modèles VLA sont désormais au coeur des architectures robotiques génériques (manipulation, navigation, planification multimodale), mais leur entraînement par RL reste prohibitif en ressources. Un framework qui résout le conflit simulation/optimisation et atteint un speedup linéaire à l'échelle du trillion de paramètres lève l'un des principaux verrous pour entraîner des agents polyvalents sans multiplier les clusters GPU de façon exponentielle. C'est une brique infrastructure, pas un robot, mais elle conditionne directement la vitesse à laquelle des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les VLA internes de Figure AI peuvent être affinés par RL dans des environnements simulés réalistes. Ce travail s'inscrit dans une course à la scalabilité du RL pour l'embodied AI, où les frameworks existants (IsaacLab, RLlib, sample-factory) n'ont pas été conçus pour les contraintes spécifiques des VLA massifs. Les auteurs ne mentionnent pas d'affiliation institutionnelle clairement identifiable dans l'abstract, et le papier est un preprint non encore évalué par les pairs. Aucun déploiement réel ni partenariat industriel n'est annoncé à ce stade. Les prochaines étapes naturelles seraient une validation sur des tâches robotiques plus complexes que LIBERO et une intégration avec des simulateurs comme Isaac Sim ou MuJoCo à grande échelle.

UELes chercheurs européens en embodied AI pourraient exploiter ce framework pour réduire le coût GPU de l'entraînement RL sur VLA, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

IA physiqueOpinion
1 source
RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données
5arXiv cs.RO 

RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données

RoboEvolve est un framework de recherche publié en preprint arXiv (réf. 2605.13775, mai 2025) dont l'objectif est de résoudre la rareté des données d'interaction physique alignées sur les tâches de manipulation robotique. Le système couple un planificateur basé sur un modèle vision-langage (VLM) et un simulateur basé sur un modèle de génération vidéo (VGM) dans une boucle co-évolutive auto-renforçante, opérant à partir de seulement 500 images non annotées, soit une réduction de 50x par rapport aux baselines entièrement supervisées. Le mécanisme alterne une phase d'exploration diurne, qui génère des trajectoires ancrées physiquement via une récompense multi-granulaire à contrôle sémantique, et une phase de consolidation nocturne, qui exploite les échecs "near-miss" pour stabiliser l'optimisation de politique. Les résultats publiés indiquent une amélioration de 30 points absolus sur les planificateurs de base, une hausse de 48 % du taux de succès des simulateurs, et un apprentissage continu robuste sans oubli catastrophique. Ces chiffres adressent directement le principal verrou économique des pipelines de manipulation à grande échelle : la collecte de données téléopérées, qui freine aujourd'hui des systèmes commerciaux comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). La co-évolution VLM-VGM contourne deux limitations bien documentées : les VLM seuls souffrent d'un désalignement sémantique-spatial (compréhension correcte de la tâche mais imprécision dans le positionnement 3D), tandis que les VGM seuls produisent des hallucinations physiques (vidéos synthétiques qui violent les contraintes physiques réelles). Un curriculum progressif automatique fait évoluer le système d'actions atomiques simples vers des tâches composites complexes, approche concrète au problème de généralisation hiérarchique encore non résolu à l'échelle commerciale. Ce travail s'inscrit dans une tendance émergente visant à substituer la génération synthétique de données à la collecte terrain coûteuse, tendance accélérée depuis Diffusion Policy (2023) et l'essor des modèles VLA (vision-language-action). Le résumé disponible ne précise ni affiliation institutionnelle des auteurs ni plateforme matérielle de validation, une limite importante avant tout transfert industriel. Aucun déploiement physique ni partenariat constructeur n'est annoncé : RoboEvolve reste à ce stade une contribution académique dont la transposition sim-to-real sur hardware réel reste entièrement à démontrer.

RechercheOpinion
1 source
CUBic : cadre unifié et coordonné de perception et contrôle bimanuels
6arXiv cs.RO 

CUBic : cadre unifié et coordonné de perception et contrôle bimanuels

Des chercheurs ont publié CUBic (Coordinated and Unified framework for Bimanual perception and control), un cadre d'apprentissage visuomoteur pour robots à deux bras, déposé sur arXiv en mai 2025 (arXiv:2605.13452). L'objectif : résoudre un verrou classique de la manipulation bimanuelle, où chaque bras doit agir à la fois de façon indépendante et coordonnée avec l'autre. CUBic reformule ce problème comme un défi de modélisation perceptuelle unifiée, en apprenant une représentation tokenisée partagée à travers trois composants : une agrégation perceptuelle unidirectionnelle, une coordination bidirectionnelle via deux codebooks à mapping commun, et une politique de diffusion perception-vers-contrôle. Les expériences sur le benchmark RoboTwin montrent des améliorations nettes sur les métriques de précision de coordination et de taux de succès par rapport aux baselines de référence, sans que les chiffres précis soient disponibles dans l'abstract publié. Le verrou que CUBic adresse est structurel : les approches existantes forçaient un choix binaire, soit déconnecter les deux bras (chacun avec sa propre politique, au détriment de la coordination globale), soit imposer un couplage fort entre eux (risque d'interférences, manque de souplesse). CUBic démontre qu'une représentation partagée apprise de façon émergente, sans couplage codé à la main, suffit à générer simultanément indépendance et coordination. Pour un intégrateur ou un COO industriel, c'est un signal encourageant pour les tâches d'assemblage bimanuel complexes comme le vissage, le pliage ou le conditionnement, qui restent aujourd'hui difficiles à automatiser sans sur-ingénierie du système de contrôle. La manipulation bimanuelle est l'un des fronts les plus actifs de la recherche en robotique apprise. Des cadres comme ACT (Action Chunking with Transformers), Diffusion Policy ou Pi-0 de Physical Intelligence ont progressivement amélioré les performances à un seul bras ; l'extension bimanuelle reste un défi ouvert, notamment pour les robots humanoïdes tels que le Figure 03, l'Optimus Gen 3 ou l'Unitree G1, qui en ont besoin pour les tâches industrielles réelles. CUBic est pour l'instant une contribution fondationnelle validée uniquement en simulation sur RoboTwin, sans déploiement physique annoncé. La prochaine étape logique serait un transfert sim-to-real sur robot physique, qui constitue encore le principal goulot d'étranglement entre publications académiques et applications industrielles concrètes.

RecherchePaper
1 source
SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai
7Pandaily 

SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai

SenseTime, l'un des principaux groupes d'intelligence artificielle en Chine, a inauguré en mai 2026 à Shanghai un point de vente de détail entièrement opéré par des robots humanoïdes. La boutique, baptisée "Shaomai Gou" (烧卖购), est installée dans le site touristique Baoshan Riverside Scenic Area. Le protocole client est simple : scanner un QR code pour passer commande depuis son téléphone, puis recevoir le produit directement des mains du robot. Au-delà de la préparation des commandes, les robots seraient capables d'assurer la sélection des références, la tarification et l'analyse des données de réapprovisionnement des stocks. Le magasin a attiré des files d'attente spontanées lors du week-end du 1er mai. Aucun modèle de robot n'est identifié dans l'annonce officielle, et SenseTime ne publie pas de métriques opérationnelles (temps de cycle, taux de succès des saisies, volume de transactions). Ce déploiement est significatif parce qu'il sort les robots humanoïdes du contexte industriel contrôlé pour les placer face à des consommateurs non formés, dans un environnement ouvert et non structuré. La manipulation de produits variés, la gestion des interactions client et le réassort en rayon constituent des tâches difficiles pour un système robotique généraliste. Cela dit, l'absence de données techniques publiées invite à la prudence : l'initiative ressemble davantage à un déploiement pilote à forte valeur marketing qu'à une preuve de passage à l'échelle industrielle. Ce que cela valide en revanche, c'est l'existence d'une voie commerciale pour l'embodied AI dans les services de proximité à forte fréquentation, un segment jusqu'ici dominé par des kiosques automatisés passifs. SenseTime a bâti sa réputation initiale sur la vision par ordinateur et la reconnaissance faciale avant de pivoter vers l'IA incarnée, combinant vision robotique, compréhension du langage naturel et manipulation physique. En Chine, la société fait face à la concurrence de Unitree Robotics, Fourier Intelligence et UBTECH sur le segment humanoïde ; à l'international, les références du secteur restent Figure AI avec le robot 03, Physical Intelligence avec Pi-0 et Boston Dynamics. La prochaine étape logique pour SenseTime sera d'étendre "Shaomai Gou" à d'autres sites et de publier des données de performance qui permettraient de distinguer la démonstration du déploiement opérationnel réel.

Chine/AsieActu
1 source
Helix-02 assure désormais des quarts de 8 heures en usine sans intervention humaine
8Interesting Engineering 

Helix-02 assure désormais des quarts de 8 heures en usine sans intervention humaine

Figure AI a annoncé le 13 mai 2026 que ses robots humanoïdes sont désormais capables d'assurer des postes de travail complets de huit heures de façon entièrement autonome, grâce à son système d'IA Helix-02. La startup californienne a publié une vidéo sur X montrant une équipe de robots opérant "à des niveaux de performance humaine" sans intervention humaine. Helix-02 est un réseau de neurones unifié qui fusionne la vision (caméras en tête et dans les paumes), le toucher (capteurs tactiles au bout des doigts), la proprioception et le contrôle du corps entier en un seul système d'apprentissage, remplaçant les architectures traditionnelles qui séparent contrôleurs de mouvement et de manipulation. La société a également présenté "System 0", un contrôleur neuronal corporel entraîné sur plus de 1 000 heures de données de mouvement humain, qui remplace plus de 109 000 lignes de code C++ artisanal. Les robots ont démontré des tâches à motricité fine incluant le dévissage de bouchons, l'extraction de médicaments depuis des organiseurs, le dosage précis de seringues et le tri de pièces métalliques dans des bacs encombrés. En mode multi-robots, deux humanoïdes ont réinitialisé une chambre entière en moins de deux minutes, sans contrôleur centralisé. Si les affirmations de continuité opérationnelle se confirment à l'échelle, ce passage de démonstrations de quelques minutes à des postes de huit heures représente un seuil industriel significatif pour les intégrateurs et les décideurs B2B. La fusion vision-toucher-proprioception dans un seul modèle neuronal constitue une architecture distincte des AMR actuels et adresse directement le "sim-to-real gap" que la plupart des VLA peinent encore à combler dans des environnements non contrôlés. La capacité de coordination inter-robots sans orchestrateur central est également notable pour les scénarios d'entrepôt et de montage à forte densité humaine. Il convient toutefois de souligner que les vidéos publiées sont sélectionnées par l'entreprise, et qu'aucune donnée indépendante sur les taux d'erreur, les interruptions non filmées ou la variabilité des tâches n'est disponible à ce stade. Figure AI s'appuie sur un déploiement réel déjà documenté chez BMW Group Plant Spartanburg, en Caroline du Sud, où ses robots Figure 02 (70 kg, 170 cm, charge utile 20 kg) auraient accompli des postes de 10 heures, contribué au déplacement de plus de 90 000 pièces et soutenu la production d'environ 30 000 véhicules. La société se positionne directement face à Tesla (Optimus), Agility Robotics (Digit) et Apptronik (Apollo), tous engagés dans une course à la commercialisation de robots humanoïdes polyvalents pour l'industrie. La prochaine étape pour Figure AI sera d'étendre ces déploiements au-delà du secteur automobile et de fournir des métriques vérifiables par des tiers, condition sine qua non pour convaincre les intégrateurs industriels d'aller au-delà du pilote.

UEImpact indirect : BMW Group (constructeur européen) est déjà partenaire de déploiement aux États-Unis, mais une extension aux usines européennes de BMW (Leipzig, Regensburg) constituerait le prochain seuil à surveiller pour les intégrateurs industriels FR/UE.

HumanoïdesOpinion
1 source
Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie
9Interesting Engineering 

Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

Des chercheurs de Carnegie Mellon University (CMU) et du Bosch Center for AI ont publié un nouveau système d'IA baptisé HTD (Humanoid Transformer with Touch Dreaming), conçu pour améliorer la manipulation d'objets par des robots humanoïdes dans des environnements à contact complexe. Le framework combine l'apprentissage par imitation avec un module de prédiction tactile, permettant au robot d'anticiper l'évolution des forces de contact et du retour haptique avant et pendant la saisie. Testé sur cinq tâches réelles, insertion d'objet en T, rangement de livres, pliage de serviette, ramassage de litière et service du thé, HTD affiche une amélioration relative de 90,9 % du taux de réussite moyen par rapport à la baseline ACT, un modèle d'imitation de référence dans le domaine. Le système repose sur une architecture dissociée : un contrôleur bas-corps entraîné par renforcement en simulation via une méthode teacher-student stabilise l'orientation du torse, la vitesse et l'équilibre, tandis que la cinématique inverse et le retargeting de main gèrent les mouvements du haut du corps et la dextérité digitale. Les représentations tactiles ne sont pas reconstruites brutes mais encodées dans un espace latent compact via un réseau cible mis à jour lentement, ce qui filtre le bruit sensoriel et améliore la stabilité de la manipulation. Ce résultat est notable parce qu'il adresse directement l'un des verrous persistants de la robotique humanoïde : la cohabitation entre locomotion et manipulation fine sans dégradation mutuelle. La séparation architecturale bas/haut corps n'est pas nouvelle en soi, mais son intégration avec un modèle prédictif tactile dans une politique unifiée évite le recours à un pré-entraînement tactile séparé ou à un world model externe, ce qui simplifie le pipeline de déploiement. Les études d'ablation sont particulièrement instructives : incorporer le toucher comme entrée brute supplémentaire ne suffit pas, la prédiction dans l'espace latent apporte 30 % de gain relatif supplémentaire sur le raw tactile. Pour les intégrateurs qui envisagent des humanoïdes dans des cellules de manutention délicate, c'est un signal clair que la qualité de la représentation sensorielle prime sur la quantité de capteurs. HTD s'inscrit dans une vague de travaux cherchant à combler le sim-to-real gap pour la manipulation contact-riche. Le controller bas-corps a été entraîné sur le dataset AMASS, qui fournit des mouvements humains réalistes pour perturber le torse pendant l'apprentissage, une approche de robustification déjà utilisée dans des projets comme Isaac Lab de NVIDIA ou les travaux de Stanford sur whole-body control. Dans le paysage concurrentiel, Figure (Figure 03), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies travaillent tous sur des architectures VLA (Vision-Language-Action) pour la manipulation généraliste, mais peu publient des résultats quantitatifs sur des tâches aussi précises que l'insertion de connecteurs ou la manipulation de textiles. CMU n'a pas encore annoncé de partenariat industriel ni de calendrier de transfert vers un produit commercial, mais le Bosch Center for AI comme co-auteur suggère un intérêt applicatif concret dans l'automatisation industrielle à manipulation variable.

UELe Bosch Center for AI (Allemagne) co-auteur du papier signale un intérêt applicatif concret pour l'automatisation industrielle européenne à manipulation variable, sans calendrier de transfert industriel annoncé.

RechercheOpinion
1 source
RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme
10arXiv cs.RO 

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Une équipe de chercheurs présente RIO (Robot I/O), un framework Python open source publié en mai 2026 (arXiv:2605.11564), conçu pour standardiser les flux de travail en apprentissage robotique multi-plateformes. RIO propose des composants modulaires couvrant le contrôle robot, la téleopération, la mise en forme des données, la configuration des capteurs et le déploiement de politiques d'action (policies). Le framework a été validé sur trois morphologies distinctes, bras unique, bimanuel et humanoïde, sur quatre plateformes matérielles combinant divers préhenseurs et caméras. À partir de données collectées par téleopération via RIO, l'équipe a affiné des VLA (Vision-Language-Action models) de pointe, dont π0.5 (Physical Intelligence) et GR00T N2 (NVIDIA), sur des tâches domestiques : saisir-et-déposer, plier du linge et récurer un bol. Le problème central que RIO adresse est structurel et bien documenté dans la communauté : le code robotique est massivement spécifique à chaque configuration matérielle, ce qui rend le partage de données, de modèles et de pipelines entre équipes extrêmement coûteux en temps de reconfiguration. Ce verrou ralentit concrètement la progression vers des capacités cross-embodiment, c'est-à-dire des robots généralistes capables de s'adapter à différentes morphologies sans recodage complet. En proposant des abstractions qui découplent la logique de contrôle du matériel sous-jacent, RIO réduit ce surcoût et ouvre la possibilité de mutualiser des datasets entre utilisateurs disposant de plateformes hétérogènes. Pour les équipes de R&D, cela signifie que des données collectées sur un bras Franka pourraient alimenter l'entraînement d'un humanoïde, sous réserve que les abstractions tiennent à l'échelle réelle. La course aux VLA généralistes s'est accélérée depuis 2024 avec π0 de Physical Intelligence, GR00T de NVIDIA, Helix de Figure AI et OpenVLA de la communauté open source, chacun souffrant du même écueil d'intégration matérielle. RIO s'inscrit dans un courant de standardisation analogue à ce que ROS a accompli pour le middleware, mais centré sur la couche données et déploiement de policies. Des projets concurrents comme RLDS (Google DeepMind), LeRobot (Hugging Face) ou le protocole DROID tentent également de résoudre cette fragmentation. RIO se distingue par sa légèreté et son focus explicite sur le déploiement VLA multi-morphologie. Aucun partenariat industriel ni déploiement commercial n'est annoncé : il s'agit d'une publication académique avec mise en open source intégrale, site de référence à robot-i-o.github.io.

UELes laboratoires européens de robotique travaillant sur le cross-embodiment ou le fine-tuning de VLA pourraient adopter RIO pour mutualiser données et pipelines entre plateformes hétérogènes, réduisant le coût de reconfiguration.

IA physiqueActu
1 source
Modèles d'action du monde : la prochaine frontière de l'IA incarnée
11arXiv cs.RO 

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

Une équipe de chercheurs a publié le 16 mai 2026 sur arXiv (réf. 2605.12090) la première revue systématique d'un paradigme émergent qu'ils formalisent sous le nom de World Action Models (WAMs). Là où les modèles Vision-Language-Action (VLA) actuels, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, apprennent des mappings réactifs observation-vers-action, les WAMs modélisent explicitement la dynamique physique de l'environnement. Concrètement, un WAM génère une distribution jointe sur les états futurs et les actions, plutôt que sur les actions seules. Les auteurs proposent une taxonomie structurée en deux grandes familles : les WAMs en cascade (Cascaded WAMs), où un modèle prédictif alimente un planificateur d'action en pipeline, et les WAMs joints (Joint WAMs), où prédiction d'état et génération d'action sont coappris dans une architecture unifiée, avec des subdivisions selon la modalité de génération, le mécanisme de conditionnement et la stratégie de décodage d'action. L'enjeu industriel est significatif. Les VLA purs souffrent d'un déficit fondamental : ils réagissent aux observations sans anticiper les conséquences physiques de leurs actions, ce qui limite leur robustesse hors distribution et leur capacité à planifier sur des horizons longs. L'intégration d'un world model permet en théorie de simuler mentalement les effets d'une action avant de l'exécuter, un prérequis pour la manipulation dextère complexe, la navigation en environnement non structuré, ou la récupération après erreur. C'est précisément le gap sim-to-real et le reality gap des démos en laboratoire que ce paradigme cherche à combler à l'échelle. Pour un intégrateur ou un COO industriel, cela signifie potentiellement des robots plus fiables sur des tâches non scriptées, sans retraining complet à chaque variation de contexte. Ce travail s'inscrit dans une compétition intense entre Physical Intelligence (Pi-0, financement de 400 M$), NVIDIA (GR00T N2, Isaac Lab), Boston Dynamics, Figure AI et des acteurs académiques comme Berkeley et Stanford. Côté données, les auteurs identifient quatre sources majeures : la télé-opération robot, les démonstrations humaines portables (caméras égo-centriques), la simulation et les vidéos internet à grande échelle, chacune avec ses biais propres. La revue pointe aussi l'absence de benchmarks standardisés pour évaluer la plausibilité physique et le bon sens commonsense des WAMs, un frein à la comparaison rigoureuse. Les prochaines étapes identifiées incluent des protocoles d'évaluation unifiés et l'extension vers des tâches de manipulation longue durée en conditions réelles.

IA physiqueOpinion
1 source
Kairos : un système de déploiement extensible pour l'IA physique
12arXiv cs.RO 

Kairos : un système de déploiement extensible pour l'IA physique

Une équipe de chercheurs publie sur arXiv (référence 2605.11381, mai 2025) les spécifications de Kairos, un système d'inférence conçu pour les flottes de robots pilotées par des modèles de fondation. Kairos se positionne comme le premier système de serving multi-robot à intégrer nativement la boucle generate-execute, soit l'enchaînement asynchrone entre les phases d'inférence et d'exécution motrice propre à l'IA physique. Sur un ensemble de modèles et de plateformes robotiques, le système annonce une réduction de la latence bout-en-bout de 31,8 à 66,5 % par rapport aux pratiques de serving issues du monde de l'IA digitale, avec des gains qui s'accroissent avec la taille de la flotte déployée. L'argument central des auteurs tient à une inadéquation structurelle. Les systèmes actuels comme vLLM, TensorRT-LLM ou Triton ont été conçus pour les LLM textuels : ils traitent une requête jusqu'à complétion, sans état intermédiaire. L'IA physique fonctionne différemment : le modèle génère des blocs d'actions (action chunks) à chaque round d'inférence, le robot commence à exécuter pendant que le bloc suivant est calculé, et plusieurs cycles se succèdent sur une même tâche. Cette asynchronicité, ignorée par les serveurs digitaux classiques, crée un goulot d'étranglement critique pour les flottes industrielles. Si les chiffres se confirment en conditions réelles, les intégrateurs y gagneraient des cycles de contrôle plus courts et une capacité de scaling horizontal sans surcoût infrastructure proportionnel. Le contexte explique l'urgence de cette contribution. Depuis 2024, les modèles de fondation pour robots prolifèrent : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure AI. Ces VLA (Vision-Language-Action) ont franchi des seuils de généralisation inédits, mais l'infrastructure de déploiement n'a pas suivi le même rythme. Kairos tente de combler ce fossé côté serving. Il s'agit néanmoins d'un preprint non revu par les pairs : les benchmarks ne sont pas détaillés dans l'abstract, les modèles et robots de test ne sont pas nommés, et aucun déploiement en production n'est déclaré. Les métriques annoncées méritent donc une lecture prudente en attendant une validation expérimentale indépendante.

InfrastructureOpinion
1 source
Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA
13arXiv cs.RO 

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Des chercheurs ont publié mi-mai 2026 sur arXiv (référence 2605.11459) une méthode baptisée "Pace-and-Path Correction" pour corriger un angle mort structurel des modèles VLA (Vision-Language-Action). Ces modèles, socle technique des bras manipulateurs de nouvelle génération, sont entraînés sur des observations à image unique (single-frame), ce qui les rend incapables de percevoir les dynamiques temporelles lors de l'exécution d'une séquence planifiée. En pratique, dès qu'un objet bouge pendant que le robot exécute un "action chunk", les performances chutent sévèrement, même après fine-tuning sur des datasets dynamiques. L'opérateur proposé s'applique à l'inférence sans ré-entraînement, comme une couche wrapper autour de tout VLA à action chunking, et se décompose en deux canaux orthogonaux issus d'une minimisation de coût quadratique unique : un canal "pace" compressant l'exécution le long de la trajectoire prévue, et un canal "path" appliquant un décalage spatial orthogonal pour absorber les perturbations dynamiques dans la fenêtre temporelle du chunk. Évalué sur MoveBench, un benchmark conçu pour isoler le mouvement comme seule variable contrôlée, la méthode améliore le taux de succès de 28,8 points de pourcentage en environnement purement dynamique et de 25,9 points en contexte mixte statique-dynamique, surpassant les VLAs de base ainsi que les approches dynamiques-adaptatives existantes. L'enjeu est directement opérationnel : les VLAs actuels comme pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de Nvidia peinent dès qu'un convoyeur avance ou qu'un opérateur interfère avec la scène, soit le cas standard en environnement industriel réel. Corriger ce "dynamics gap" exigeait jusqu'ici un ré-entraînement coûteux, souvent rédhibitoire pour un intégrateur sans infrastructure ML dédiée. Le caractère training-free de Pace-and-Path Correction signifie qu'elle peut s'intégrer sur un modèle déjà déployé sans modifier les poids ni la pipeline d'apprentissage, abaissant drastiquement la barrière d'adoption pour des déploiements en conditions réelles. La "dynamics-blindness" des VLAs est une critique récurrente depuis l'émergence de pi-0 et OpenVLA en 2024-2025, la majorité des démonstrations publiques ayant lieu sur scènes statiques et laissant ouvert le demo-to-reality gap dès que les conditions industrielles se compliquent. Ce travail s'inscrit dans la course à la manipulation robuste que se livrent Nvidia, Figure (Figure 03), Boston Dynamics et 1X Technologies. Aucun acteur français n'est directement cité, mais les conclusions intéressent des intégrateurs comme Exotec et des équipes de recherche comme le LAAS-CNRS travaillant sur la manipulation en environnement non-structuré. La prochaine étape logique est une validation sur hardware réel - le papier reste à ce stade un benchmark simulé - et une intégration dans des stacks open-source comme LeRobot de Hugging Face.

UELes équipes LAAS-CNRS travaillant sur la manipulation non-structurée et des intégrateurs comme Exotec pourraient adopter cette correction sans ré-entraînement pour améliorer la robustesse de déploiements VLA en environnement industriel dynamique, sans infrastructure ML dédiée.

💬 Le dynamics gap des VLAs, on le connaissait depuis l'émergence de pi-0 : dès qu'un objet bouge pendant l'exécution d'un chunk, c'est la déroute. Ce qui change ici, c'est que la correction s'applique à l'inférence sans toucher aux poids, comme une couche qu'on pose par-dessus n'importe quel modèle déjà déployé. +28 points sur MoveBench, training-free : si ça tient sur hardware réel, les intégrateurs n'ont plus d'excuse pour rester sur des scènes statiques.

IA physiqueOpinion
1 source
Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0
14Pandaily 

Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0

Pro Universe Robotics a présenté son "Product Matrix 2.0", comprenant deux nouvelles offres : AcCI, une solution d'acquisition de données multimodale à précision sub-millimétrique, et le module Dabai, dédié au chargement et déchargement intelligent par robot. AcCI intègre des technologies de contrôle maître-esclave, de téléopération VR et de manette, et capture des données de force, couple, pose, retour tactile et vision, avec une boucle fermée end-to-end. La société lance simultanément une stratégie d'écosystème baptisée "1+N+infinity" et recrute des partenaires mondiaux pour cibler ce qu'elle décrit comme un marché d'intelligence incarnée industrielle à "trillion de yuans" (environ 138 milliards de dollars). Fondée il y a 16 mois seulement, l'entreprise n'a communiqué ni client ni déploiement terrain confirmé. La collecte de données haute qualité reste l'un des principaux goulots d'étranglement pour le déploiement à grande échelle de robots industriels physiquement intelligents. Une solution d'acquisition multimodale en boucle fermée - force, couple, tactile, visuel, pose - répond directement à ce besoin, notamment pour entraîner des VLA (Vision-Language-Action models) sur des tâches de manipulation complexe comme le chargement et déchargement de pièces. Si la précision sub-millimétrique annoncée se confirme en conditions réelles, ce serait un atout concret pour constituer des datasets d'entraînement denses. Cependant, le communiqué ne fournit ni benchmark indépendant, ni volume de données collectées, ni résultats mesurables sur le terrain. Pro Universe Robotics s'inscrit dans un secteur très compétitif : Physical Intelligence avec Pi-0, Figure AI avec le Figure 03, Apptronik, mais aussi des acteurs spécialisés dans la téléopération et la capture de données comme Embodied Intelligence ou Scale AI. La revendication "global-first" sur l'acquisition fusionnée haute précision est difficile à vérifier sans étude comparative indépendante. L'ambition affichée d'un marché au trillion de yuans est une projection courante dans les annonces robotiques chinoises, où l'écart entre ambition déclarée et réalité commerciale reste souvent important. La prochaine étape déterminante sera la signature de partenaires industriels concrets au sein de l'écosystème annoncé.

Chine/AsieActu
1 source
Vidéo : Unitree lance le premier robot à conduite optionnelle au monde prêt pour la production
15Interesting Engineering 

Vidéo : Unitree lance le premier robot à conduite optionnelle au monde prêt pour la production

Unitree, le fabricant chinois de robots basé à Hangzhou, a dévoilé le GD01 : un robot mécha de 500 kilogrammes (avec pilote à bord) capable de passer d'une configuration bipède à une configuration quadrupède en quelques secondes. Le véhicule civil piloté accueille son opérateur dans un cockpit fixé sur le torse et atteint environ 1,6 fois la hauteur d'un adulte moyen en mode humanoïde. La vidéo de démonstration d'une minute montre le fondateur Wang Xingxing aux commandes : le GD01 marche en mode bipède, renverse un mur de briques, puis replie ses membres pour adopter une allure quadrupède sur terrain accidenté, sans assistance extérieure. Prix annoncé : 3,9 millions de yuan (573 674 dollars). Aucune fiche technique détaillée n'a été publiée à ce stade, et Unitree a émis un avis de sécurité rappelant les limites expérimentales de la robotique humanoïde. La même semaine, la société lançait un humanoïde haut du corps à 26 900 yuan (4 290 dollars), 31 degrés de liberté, avec bases modulaires fixe et mobile. Le GD01 inaugure une catégorie inédite dans la robotique civile, celle du véhicule mécha habité transformable. Mais c'est surtout le contexte de marché qui frappe : selon Omdia, les fabricants chinois ont pesé près de 90 % des ventes mondiales d'humanoïdes en 2025. Unitree aurait livré plus de 5 500 unités cette année-là, quand Tesla, Figure AI et Agility Robotics tournaient chacun autour de 150 expéditions sur la même période, selon le South China Morning Post. L'écart de prix creuse encore le fossé : le R1 d'Unitree est affiché à environ 6 000 dollars, le modèle AgiBot concurrent à 14 000 dollars, tandis qu'Elon Musk estime l'Optimus entre 20 000 et 30 000 dollars. Cette combinaison volume-prix remet en cause le postulat occidental selon lequel une avance technologique suffirait à justifier une prime de coût durable. Unitree commercialise déjà ses G1, R1 et le robot chien Go2 à l'international via AliExpress, couvrant l'Amérique du Nord, l'Europe et le Japon. En mars, la société a déposé un dossier d'IPO sur le STAR Market de Shanghai, visant une levée de 4,2 milliards de yuan (61 millions de dollars), dont 85 % alloués à la R&D et 2 milliards de yuan (29 millions de dollars) dédiés au développement de modèles robotiques. Ses humanoïdes apparaissent déjà en opérations réelles : Japan Airlines conduit des essais à l'aéroport de Haneda avec des systèmes Unitree et UBTech Robotics. Face à cette montée en puissance, les acteurs occidentaux comme Figure AI (Figure 03), Physical Intelligence (Pi-0) ou Boston Dynamics peinent à afficher des volumes comparables, tandis que le GD01 ouvre un segment véhicule-robot encore sans concurrence directe.

UELes fabricants européens de robots sont directement menacés par la domination chinoise (90 % des ventes mondiales d'humanoïdes en 2025, prix 3-5x inférieurs aux acteurs occidentaux), d'autant qu'Unitree distribue déjà ses robots en Europe via AliExpress.

Chine/AsieOpinion
1 source
Hello Robot établit la référence en matière de robots domestiques pratiques et sûrs
16IEEE Spectrum Robotics 

Hello Robot établit la référence en matière de robots domestiques pratiques et sûrs

Hello Robot annonce Stretch 4, une nouvelle version de son robot domestique non-humanoïde, conçu pour des déploiements pilotes réels dans des environnements résidentiels. La rupture principale avec les versions précédentes est l'intégration d'une base omnidirectionnelle : le robot peut désormais se translater dans n'importe quelle direction sans avoir à pivoter au préalable, grâce à des roues omnidirectionnelles initialement développées pour les fauteuils roulants motorisés, après six mois de développement dédié. La tête pan-tilt d'origine est remplacée par une suite sensorielle plus complète offrant un champ de vision nettement élargi : deux lidars hémisphériques, des caméras Luxonis pour la vision et la navigation, et une caméra de profondeur montée sur le poignet pour la manipulation. L'architecture de calcul repose sur un Intel NUC 15 pour le système principal, complété par un NVIDIA Jetson Orin NX mis à disposition des chercheurs pour le traitement visuel et l'IA. Le robot embarque des capacités autonomes de base (cartographie, navigation, autocharge) ainsi que des fonctionnalités de démonstration comme la saisie autonome d'objets. Aucun prix public n'a été communiqué, mais Hello Robot positionne Stretch 4 comme accessible comparé aux humanoïdes actuels. Ce lancement illustre une thèse alternative à la course aux humanoïdes : Aaron Edsinger (CEO) et Charlie Kemp (CTO) misent sur la sécurité, le coût maîtrisé et la praticabilité réelle plutôt que sur la morphologie anthropomorphe. La philosophie de Hello Robot sur l'autonomie tranche nettement avec le secteur : plutôt que de collecter massivement des données en espérant qu'une autonomie commercialement viable en émergera, l'entreprise conserve un opérateur humain dans la boucle, à des niveaux variables allant du contrôle direct à la supervision pure. Cette posture est plus prudente mais aussi plus immédiatement intégrable dans des contextes réels, notamment pour des intégrateurs ou des opérateurs non spécialisés. Sur le plan sensoriel, Hello Robot a renoncé à l'approche "Tesla" (multitude de caméras bon marché) au profit d'une logique "Waymo" : des données plus riches et fiables pour un comportement plus sûr et intelligent, au détriment potentiel du coût. Stretch existe depuis plusieurs années comme plateforme de recherche, avec une communauté active dans les laboratoires universitaires. Hello Robot a été fondé sur le principe du robot minimaliste, et Stretch 4 est le premier modèle explicitement conçu pour franchir le seuil vers des déploiements opérationnels. Le secteur de la robotique humanoïde est actuellement dominé par des acteurs très capitalisés comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et NVIDIA (GR00T N2), tous positionnés sur des cas d'usage industriels ou logistiques. Hello Robot occupe une niche différente : le marché domestique et de service, avec une approche morphologiquement sobre et des coûts structurellement plus bas. La prochaine étape annoncée est une phase de déploiements pilotes en environnement résidentiel réel, destinée à qualifier les conditions de passage à l'échelle.

UELes laboratoires de recherche européens utilisant la plateforme Stretch pourraient bénéficier de cette nouvelle version, mais aucun déploiement ou partenariat européen n'est annoncé.

IA physiqueOpinion
1 source
Unitree dévoile le GD01 : premier mécha transformable portant un humain produit en série, à 3,9 millions de yuans
17Pandaily 

Unitree dévoile le GD01 : premier mécha transformable portant un humain produit en série, à 3,9 millions de yuans

Unitree Robotics a dévoilé début mai 2026 le GD01, un robot mécha à transformation capable de transporter un passager humain à bord, affiché à 3,9 millions de yuans (environ 540 000 dollars). Le PDG Wang Xingxing a lui-même réalisé la démonstration en vidéo. Physiquement, l'engin mesure environ 1,5 fois la taille d'un adulte pour une masse de 500 kg passager inclus, ce qui en fait un système hors norme dans la catégorie robotique. Le GD01 dispose de deux modes locomoteurs : en configuration humanoïde bipède, il marche debout et a été filmé en train de perforer un mur de briques d'un seul coup de poing sans oscillation visible ; en configuration quadrupède, il abaisse son centre de gravité, replie ses membres et bascule de forme en quelques secondes pour traverser des terrains complexes, opérateur à bord. Unitree le présente comme le premier mécha transportant un humain à atteindre le stade de la production en série à l'échelle mondiale, une affirmation que la vidéo de lancement tend à valider en termes de démonstration physique, sans que les métriques opérationnelles (autonomie, vitesse, charge utile statique vs dynamique) aient été communiquées. L'importance de cette annonce dépasse le gadget spectaculaire. Dans un secteur humanoïde où la majorité des acteurs bataille encore sur des cycles de marche à 2 km/h et des charges utiles inférieures à 20 kg, Unitree positionne un système à 500 kg en mode transport humain, soit un défi d'ingénierie mécatronique et de contrôle radicalement différent. La capacité de transformation bipède-quadrupède intégrée en quelques secondes, si elle se confirme en conditions réelles, résoudrait partiellement le problème classique du trade-off stabilité-mobilité qui plombe les robots à pattes sur terrain non structuré. Pour les intégrateurs industriels et les décideurs B2B, le signal est double : d'une part, la frontière entre robot de service et véhicule robotisé commence à s'effacer ; d'autre part, le niveau de confiance requis pour embarquer un humain impose des certifications de sécurité fonctionnelle (SIL/ISO 13849) qui n'ont pas encore été évoquées par Unitree, ce qui constitue la principale incertitude pour un déploiement commercial sérieux. Unitree, fondée par Wang Xingxing et basée à Hangzhou, s'est imposée ces dernières années comme le fabricant de robots quadrupèdes grand public le plus agressif sur les prix, avec la série Go et le bipède G1 à 16 000 dollars. Fin avril 2026, la société venait de lancer un robot humanoïde à deux bras à partir de 26 900 yuans et d'ouvrir une boutique en propre à Pékin (Wangfujing Yintai in88), signalant une stratégie de montée en gamme et en visibilité simultanée. Le GD01 s'inscrit dans cette accélération de rythme : en l'espace de deux mois, Unitree couvre le spectre du robot abordable au mécha à 540 000 dollars, une posture délibérément déclarative dans une industrie où Boston Dynamics (Spot, Atlas), Agility Robotics (Digit) et Figure (Figure 02) concentrent l'attention médiatique internationale. Les questions non répondues, autonomie, calendrier de livraison réel, scénarios d'usage validés, restent les variables déterminantes pour savoir si le GD01 est un produit commercial ou un marqueur de capacités technologiques destiné à attirer investisseurs et partenaires industriels.

Chine/AsieOpinion
1 source
Des données de caméras corporelles sur des travailleurs humains servent à entraîner des cerveaux robotiques dans un essai coréen
18Interesting Engineering 

Des données de caméras corporelles sur des travailleurs humains servent à entraîner des cerveaux robotiques dans un essai coréen

La startup sud-coréenne RLWRLD a annoncé un partenariat avec le Lotte Hotel Seoul, le groupe logistique CJ Logistics et des enseignes Lawson pour constituer une base de données de gestes professionnels humains destinée à l'entraînement de robots. Les employés de ces sites portent des caméras-corps pendant l'exécution de tâches courantes mais techniquement exigeantes : pliage de serviettes de banquet et mise en place de tables à l'hôtel, opérations d'entrepôt chez CJ Logistics, organisation de rayonnages en commerce de détail. Ces flux vidéo, enrichis de données de mouvement et de force, alimentent le modèle fondationnel RLDX-1, présenté en 2025, qui cible la manipulation robotique haute précision avec des mains à haut degré de liberté (DoF). L'architecture centrale, baptisée Multi-Stream Action Transformer (MSAT), traite en flux parallèles les signaux visuels, de mouvement, de mémoire et de couple (torque), qu'elle fusionne ensuite pour générer les actions motrices. Le système intègre également un modèle vision-langage-action (VLA) spécialisé robotique, des modules de physique et de mouvement, et une interface cognitive qui compresse la perception en tokens mémoire pour le suivi de tâches longues. RLWRLD affirme que RLDX-1 dépasse les VLA leaders sur des benchmarks spatiaux, temporels et en contact riche, en simulation comme en conditions réelles, sans chiffres de latence ni taux de succès indépendants publiés à ce stade, ce qui invite à la prudence avant de valider ces affirmations. Ce projet illustre un changement de paradigme dans la collecte de données robotiques : au lieu de téléopération ou de simulation synthétique seule, RLWRLD mise sur la capture in situ d'expertise métier réelle, là où la dextérité humaine est déjà optimisée par des années de pratique. Pour les intégrateurs et les équipementiers industriels, cela signale que le goulot d'étranglement du sim-to-real gap pourrait être partiellement contourné par du data collection en environnement de production réel. La capacité de RLDX-1 à se généraliser sur des configurations single-arm, dual-arm et humanoïde depuis un modèle unique réduit potentiellement les coûts de fine-tuning par plateforme. La gestion de la mémoire à long horizon via tokens de cognition est une réponse directe à la limite connue des VLA actuels sur les tâches séquentielles complexes, problème documenté chez des équipes comme Physical Intelligence (Pi-0) ou chez l'équipe GR00T de NVIDIA. RLWRLD s'inscrit dans une vague coréenne de robotique physique soutenue par des programmes gouvernementaux de numérisation des savoir-faire pour l'IA industrielle. Sur le plan compétitif, la startup se positionne face à Physical Intelligence (Pi-0, États-Unis), à l'équipe GR00T N2 de NVIDIA, à Figure (Figure 03) et à 1X Technologies dans la course aux modèles fondationnels pour la manipulation. La Corée du Sud mobilise sa base manufacturière dense, automobile, électronique, logistique, comme terrain de collecte de données, ce que ni les laboratoires américains ni les acteurs européens comme Wandercraft ou Enchanted Tools ne répliquent à cette échelle sectorielle. Les prochaines étapes annoncées incluent l'extension des captations à d'autres secteurs et le déploiement du modèle sur des plateformes humanoïdes commerciales, sans calendrier précis communiqué.

UELa Corée du Sud construit à grande échelle un avantage compétitif en données d'expertise industrielle réelle que les acteurs européens ne répliquent pas encore, creusant l'écart sur les modèles fondationnels de manipulation robotique.

Chine/AsieOpinion
1 source
IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel
19arXiv cs.RO 

IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel

Lors du SAE World Congress 2026, un panel intitulé "Embodied AI in Action" a réuni des experts issus de l'automobile, de la robotique, de l'intelligence artificielle et de l'ingénierie de la sécurité pour faire le point sur le déploiement réel des systèmes d'IA incarnée. Le compte rendu de cette session, publié sous forme de livre blanc (arXiv:2605.10653), couvre trois grandes familles de systèmes : les véhicules autonomes, les robots mobiles et les machines industrielles autonomes. Contrairement à une annonce produit, ce document n'avance pas de métriques de performance spécifiques, payload, cycle time, taux de déploiement, mais synthétise le consensus d'experts sur les conditions nécessaires à un déploiement industriel fiable. Le message central est explicite : l'IA incarnée quitte les labos et entre dans des environnements opérationnels réels, avec toutes les contraintes que cela implique. Ce changement de statut, du prototype au système déployé, est précisément ce qui rend ce document pertinent pour les intégrateurs et les décideurs B2B. Le panel souligne que l'IA incarnée doit être traitée comme un défi systémique complet : rigueur d'ingénierie, gouvernance du cycle de vie, conception centrée utilisateur, et standards réglementaires encore en construction. Ce n'est pas une position nouvelle, mais le fait qu'elle émerge d'un consensus d'acteurs industriels, et non d'un seul laboratoire de recherche, signale que le secteur commence à s'aligner sur un cadre commun. La question de la confiance (trust) et de la sûreté opérationnelle est présentée comme aussi déterminante pour le succès long terme que les avancées techniques en elles-mêmes, ce qui tranche avec les discours purement axés sur les capacités des modèles. Le SAE (Society of Automotive Engineers) est l'organisation qui a défini les niveaux d'autonomie (L0 à L5) devenus la référence industrielle mondiale, son implication dans le cadrage de l'IA incarnée n'est donc pas anodine. Ce livre blanc s'inscrit dans une série d'initiatives de standardisation qui se multiplient depuis 2024, portées aussi par l'ISO, l'IEEE et l'UE dans le cadre de l'AI Act. Sur le plan concurrentiel, les géants du secteur, Boston Dynamics (Spot, Atlas), Figure AI (Figure 03), Tesla (Optimus), Agility Robotics (Digit), avancent chacun leur propre cadre de certification. Des acteurs européens comme Enchanted Tools ou Wandercraft sont concernés par ces évolutions réglementaires. Les prochaines étapes probables : la formalisation de standards sectoriels et des exigences de validation formelle pour les systèmes déployés en environnement humain partagé.

UELes acteurs européens comme Enchanted Tools et Wandercraft seront directement soumis aux standards de sécurité et de validation formelle qui émergent de ces initiatives SAE/ISO/IEEE, en convergence avec les exigences de l'AI Act pour les systèmes d'IA incarnée déployés en environnement humain partagé.

RegulationReglementation
1 source
Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental
20arXiv cs.RO 

Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental

Une équipe de chercheurs a publié sur arXiv (référence 2604.14484) une analyse théorique des politiques de clonage comportemental (behavior cloning, BC) sur robots à commande en position. L'étude démontre que les erreurs d'action, modélisées comme variables sous-gaussiennes indépendantes, se propagent via la dynamique en boucle fermée d'un contrôleur PD pour produire des erreurs de position gouvernées par une matrice proxy X∞(K). La probabilité d'échec sur l'horizon T se factorise en un indice d'amplification Γ_T(K) dépendant des gains et en la perte de validation augmentée d'un terme de généralisation. Pour le système PD scalaire du second ordre, la variance stationnaire admet la forme fermée X∞(α,β) = σ²α/(2β), strictement monotone en rigidité (α) et en amortissement (β) sur l'ensemble de l'orthant stable. Quatre régimes canoniques sont classés : le mode conforme-suramorti (CO) minimise les erreurs ; le mode rigide-sous-amorti (SU) les maximise ; les deux cas intermédiaires restent dépendants de la dynamique propre du système. L'implication opérationnelle est directe : la perte d'entraînement ou de validation ne prédit pas la fiabilité en boucle fermée. Un modèle bien calibré peut échouer en déploiement si les gains du contrôleur PD amplifient les erreurs résiduelles de la politique apprise. Ce cadre analytique fournit aux intégrateurs robotiques un outil de dimensionnement concret : choisir des gains conformes-suramortis réduit statistiquement le risque d'échec de tâche, indépendamment de la qualité des démonstrations. Ce résultat remet en question une hypothèse largement répandue dans la communauté du robot learning, selon laquelle améliorer les données ou l'architecture du modèle suffit à améliorer les performances en conditions réelles. Ce travail prolonge les recherches de Bronars et al. sur l'atténuation d'erreurs dépendante des gains en offrant une extension non-asymptotique à horizon fini, qui manquait dans la littérature. Si les propriétés asymptotiques de stabilité des contrôleurs PD sont bien établies, leur traduction en bornes probabilistes finies sur l'échec de tâche restait ouverte. La contribution est directement applicable aux architectures BC modernes, notamment les VLA (Vision-Language-Action models) déployés sur des manipulateurs et des humanoïdes chez des acteurs comme 1X Technologies, Figure AI, Boston Dynamics ou Sanctuary AI. La discrétisation ZOH (Zero-Order Hold) est traitée explicitement, ancrant les résultats dans les implémentations numériques réelles plutôt que dans la seule analyse en temps continu.

UELes laboratoires et équipes R&D européens (INRIA, CEA-List, start-ups BC/VLA) déployant des politiques apprises sur manipulateurs ou humanoïdes peuvent appliquer directement ce cadre analytique pour calibrer leurs gains PD et réduire statistiquement les échecs en déploiement réel.

RecherchePaper
1 source
ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA
21arXiv cs.RO 

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

Des chercheurs ont déposé sur arXiv (référence 2605.08612) un cadre d'attaque par porte dérobée ciblant les modèles Vision-Language-Action (VLA), architectures qui connectent perception visuelle, compréhension du langage naturel et génération de commandes motrices pour robots. Le framework proposé, baptisé ATAAT (Adaptive Threat-Aware Adversarial Tuning), exploite la voie visuelle des VLA pour y injecter des déclencheurs adversariaux, et atteint un taux de succès d'attaque ciblée (TASR) supérieur à 80% avec un taux d'empoisonnement de seulement 5% des données d'entraînement. L'étude identifie un phénomène clé baptisé "interférence de gradient" : un échec d'optimisation qui survient lorsque les stratégies de rétropropagation entrent en conflit durant l'entraînement bout-en-bout, ce qui explique l'échec des attaques traditionnelles sur les VLA. ATAAT contourne cet obstacle via un mécanisme de "cartographie adaptative menace-méthode" qui sélectionne dynamiquement la stratégie de découplage de gradient selon les capacités supposées de l'attaquant. Ce travail soulève des questions de sécurité concrètes pour les équipes intégrant des VLA en contexte industriel. Un taux d'empoisonnement de 5% signifie qu'une contamination limitée de la pipeline de données d'entraînement suffit à implanter un comportement malveillant quasi indétectable lors des audits standards. Dans un bras robotique ou un système d'assistance physique, une porte dérobée activée par un déclencheur visuel discret, un objet dans le champ caméra ou une variation de couleur subtile, pourrait provoquer une action non désirée aux conséquences physiques réelles. Les auteurs revendiquent, pour la première fois dans ce contexte, des "attaques découplées implicites" en scénario d'empoisonnement de données, sans modification directe des poids du modèle, ce qui complique toute détection post-entraînement. Les VLA ont connu une montée en puissance rapide depuis 2023, portés par Pi-0 (Physical Intelligence), OpenVLA (Stanford), GR00T N2 (NVIDIA) et Helix (Figure AI), tous basés sur un encodeur visuel couplé à un grand modèle de langage et une tête de prédiction d'actions. Les recherches sur les portes dérobées dans les réseaux de neurones remontent aux travaux fondateurs BadNets et TrojanNN (2017-2018), mais leur adaptation aux VLA restait peu explorée, précisément en raison de la complexité de l'entraînement conjoint. Ce papier de recherche fournit une base théorique pour de futurs mécanismes défensifs sans proposer de contre-mesure opérationnelle immédiate. Pour les intégrateurs planifiant des déploiements VLA en production, il rappelle que la sécurité de la chaîne de données d'entraînement est aussi critique que celle de l'inférence elle-même.

UELes équipes R&D et intégrateurs européens déployant des VLA en contexte industriel doivent renforcer la sécurité de leur pipeline de données d'entraînement, ce vecteur d'attaque étant désormais formalisé avec des métriques concrètes.

RechercheActu
1 source
VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale
22arXiv cs.RO 

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Des chercheurs proposent VEGA (Visual Encoder Grounding Alignment), publié sur arXiv (2605.10485) en mai 2026, un cadre d'alignement destiné à corriger un défaut structurel des modèles vision-langage-action (VLA) : leurs encodeurs visuels, préentraînés sur des images 2D, manquent de perception géométrique 3D. VEGA aligne la sortie de l'encodeur visuel du VLA directement avec les features spatiales de DINOv2-FiT3D, une variante de DINOv2 (Meta) affinée via supervision par 3D Gaussian Splatting multi-vues. L'alignement repose sur un projecteur léger entraîné par perte cosinus en parallèle de la prédiction d'action standard, puis éliminé à l'inférence pour ne pas alourdir le runtime. Sur benchmarks de simulation et tâches réelles de manipulation, VEGA établit un nouvel état de l'art parmi les méthodes d'ancrage spatial implicite. L'enjeu opérationnel est direct : la manipulation fine exige une compréhension géométrique de la scène, pas uniquement sémantique. Les approches existantes alignaient déjà les VLA avec des modèles 3D-aware, mais au niveau des tokens LLM, là où spatial et linguistique sont déjà mélangés, limitant la généralisation. En remontant l'alignement à l'encodeur visuel, VEGA évite cette contamination sémantique et produit un ancrage plus interprétable. Pour un intégrateur ou un fabricant de bras manipulateurs, le ratio est favorable : gain de précision spatiale sans surcoût à l'inférence, et compatibilité avec des architectures VLA existantes sans refonte. Cette contribution s'inscrit dans la course aux VLA comme couche de contrôle universelle : Physical Intelligence (π0, π0.5), Google DeepMind et NVIDIA (GR00T N2), Figure AI (Helix) ou Unitree reposent tous sur des architectures de ce type. La faiblesse du raisonnement 3D dans les VLA reste un frein documenté au passage démo-vers-déploiement, et plusieurs équipes y travaillent via sim-to-real et foundation models 3D. VEGA choisit une voie minimaliste : pas de pipeline 3D à l'inférence, juste un alignement ciblé à l'entraînement. Aucun déploiement industriel ni partenariat commercial n'est mentionné, c'est une contribution académique, mais sa légèreté architecturale la rend directement intégrable dans des projets en cours.

IA physiqueOpinion
1 source
SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel
23arXiv cs.RO 

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Une équipe de recherche associée à DreamVu a publié début mai 2026 SABER (Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation), un corpus de données d'action robotique centré sur les environnements de grande distribution, présenté dans l'arXiv 2605.09613. Le jeu de données a été constitué à partir de plus de 100 heures de captures naturelles dans plusieurs supermarchés réels, sans mise en scène, sans script et sans télé-opération de robot. Deux flux de capteurs ont été utilisés simultanément : une caméra égocentrique montée sur la tête enregistre les manipulations fines des mains à hauteur d'interaction, tandis que la caméra 360° ALIA de DreamVu observe l'ensemble de la scène sous angle exocentrique. Le corpus final comprend 44 800 échantillons d'entraînement répartis en trois représentations d'action : 25 000 séquences d'actions latentes encodées selon le schéma LAPA, 18 600 trajectoires de postures de main dextre recalées dans l'espace articulaire robot, et 1 200 séquences de mouvement corps entier synchronisées retargétées vers une morphologie humanoïde. Appliqué au modèle de fondation robotique GR00T N1.6 de NVIDIA via une recette de post-entraînement multi-tâche à backbone partagé, SABER atteint un taux de succès moyen de 29,3 % sur dix tâches de manipulation en grande distribution, soit 2,19 fois la performance de la baseline de fine-tuning (13,4 %). Ces résultats, bien que modestes en valeur absolue (moins d'un tiers de succès), apportent un argument concret au débat sur le "data gap" qui freine la généralisation des VLA (Vision-Language-Action models) hors de leurs distributions d'entraînement. Les modèles de fondation robotique généralistes comme GR00T ou Pi-0 de Physical Intelligence peinent à performer sur des tâches de manipulation en contexte retail, non par défaut d'architecture, mais parce que ces environnements sont structurellement absents de leurs corpus de préentraînement. La télé-opération pour combler ce vide est onéreuse, logistiquement contrainte et difficile à passer à l'échelle. SABER propose une alternative : capturer des comportements humains naturels en magasin, puis retargéter les trajectoires vers l'espace articulaire du robot, sans jamais déployer ce dernier pendant la phase de collecte. Le gain 2x sur la baseline valide l'hypothèse que la qualité et la spécificité domaine des données comptent autant que l'architecture du modèle, une position qui nuance la course aux paramètres observée depuis 2024. DreamVu, startup spécialisée dans les caméras omnidirectionnelles de précision, s'appuie sur sa caméra ALIA pour se positionner comme fournisseur d'infrastructure de collecte de données pour la robotique incarnée, un segment en pleine structuration. Sur le plan concurrentiel, SABER entre en tension directe avec des initiatives comme Open-X Embodiment (Google DeepMind), DROID, ou les datasets propriétaires de Figure AI et Apptronik, mais se distingue par son ancrage sectoriel retail et l'absence de robot pendant la collecte. GR00T N1.6, le modèle testé, est la version publiée par NVIDIA en 2025 dans le cadre de son projet Isaac GR00T, qui vise à fournir une fondation pré-entraînée pour humanoïdes. Le dataset et le code sont disponibles publiquement sur dreamvu.ai/saber, ce qui ouvre la voie à des réplications et extensions vers d'autres verticales (logistique, pharmacie, restauration rapide) où la manipulation fine en environnement non contrôlé reste un verrou non résolu.

IA physiqueOpinion
1 source
Locomotion humanoïde de bout en bout apprise à partir de pixels bruts
24arXiv cs.RO 

Locomotion humanoïde de bout en bout apprise à partir de pixels bruts

Une équipe de recherche a publié sur arXiv (réf. 2602.06382v2) un framework end-to-end permettant à un robot humanoïde de naviguer sur terrain varié en s'appuyant uniquement sur des images brutes de caméras stéréo de profondeur, sans carte de terrain préchargée à l'inférence. Le système s'articule autour de deux contributions distinctes. La première est une simulation haute-fidélité du capteur stéréo qui reproduit les artefacts de matching et les incertitudes de calibration réels, comblant le fossé entre l'entraînement simulé et le déploiement physique. La seconde est une approche de distillation comportementale tenant compte de la vision : une politique enseignante, entraînée sur des cartes de hauteur parfaites ("privileged height maps"), transfère ses connaissances à une politique étudiante ne recevant que des observations de profondeur bruitées, via un alignement dans l'espace latent et des tâches auxiliaires invariantes au bruit. Pour la gestion multi-terrain, une architecture multi-critic et multi-discriminator attribue des réseaux dédiés à chaque type de surface. La méthode a été validée sur deux plateformes humanoïdes équipées de caméras stéréo différentes, couvrant des défis tels que plateformes surélevées, larges brèches et traversée bidirectionnelle de longs escaliers. Ce travail s'attaque à un verrou majeur : la quasi-totalité des politiques de locomotion par reinforcement learning contournait jusqu'ici la perception visuelle en utilisant des cartes de terrain parfaites en simulation, inexistantes sur robot réel. En intégrant explicitement les imperfections du capteur dans la boucle d'entraînement, les auteurs montrent qu'un humanoïde peut naviguer en milieu non structuré avec seulement des caméras RGB-D grand public. Pour un intégrateur ou un décideur industriel, cela réduit potentiellement la suite sensorielle nécessaire et évite le recours au LiDAR ou à la cartographie préalable. L'architecture multi-discriminator règle également la friction habituellement observée entre les objectifs conflictuels d'apprentissage sur terrains homogènes et hétérogènes, une limite connue des politiques locomotion généralistes. La locomotion humanoïde basée vision est un champ de bataille actif : Unitree (H1, G1) et Agility Robotics (Digit) privilégient encore largement la proprioception, tandis que Boston Dynamics (Atlas), Figure (Figure 03) et Physical Intelligence (Pi-0) y intègrent progressivement la vision dans leurs pipelines de contrôle. NVIDIA pousse GR00T N2 comme couche commune de synthèse de mouvement simulé. Ce papier de février 2026 s'inscrit dans une vague cherchant à rendre la locomotion bas niveau aussi robuste que les policies VLA (Vision-Language-Action) le sont pour la manipulation. La validation sur deux plateformes différentes constitue un signal positif de généralisation, mais les métriques quantitatives détaillées (taux de succès, vitesse de marche, distance franchissable) ne figurent pas dans le résumé et méritent vérification avant toute décision d'intégration opérationnelle.

IA physiquePaper
1 source
RoboMemArena : un benchmark complet et exigeant pour la mémoire des robots
25arXiv cs.RO 

RoboMemArena : un benchmark complet et exigeant pour la mémoire des robots

Une équipe de chercheurs a publié sur arXiv (2605.10921) RoboMemArena, un benchmark de grande envergure conçu pour évaluer les capacités mémorielles des robots dans des tâches longues et partiellement observables. Le benchmark couvre 26 tâches distinctes, avec des trajectoires d'exécution dépassant en moyenne 1 000 étapes par tâche, dont 68,9 % des sous-tâches nécessitent explicitement la mobilisation de la mémoire passée. Sa pipeline de génération repose sur un modèle vision-langage (VLM) pour composer les sous-tâches, produire les trajectoires via des fonctions atomiques, et annoter les séquences clés (keyframes, instructions de sous-tâches). Une évaluation en environnement physique réel complète les expériences en simulation, ce qui distingue RoboMemArena des benchmarks existants. Les chercheurs proposent également PrediMem, une architecture VLA à double système : un planificateur VLM haut niveau gère une banque mémoire combinant un buffer récent et un buffer de keyframes, tandis qu'une tête de codage prédictif améliore la sensibilité aux dynamiques de tâche. PrediMem surpasse tous les modèles de référence testés sur RoboMemArena. Ce travail s'attaque à un angle mort persistant dans la recherche robotique : les systèmes actuels, y compris les VLA récents comme Pi-0, GR00T N2 ou Helix, sont majoritairement évalués sur des tâches courtes et observables, où la mémoire à long terme n'est pas critique. RoboMemArena expose la fragilité de ces architectures dès que l'horizon de décision s'allonge et que l'environnement devient partiellement observable. Pour un intégrateur ou un décideur B2B, le chiffre-clé est celui des 1 000 étapes : la plupart des benchmarks industriels actuels restent en dessous de 100 étapes, ce qui masque des lacunes importantes en conditions réelles. L'inclusion d'une évaluation physique réelle renforce la crédibilité des résultats, même si les détails de configuration matérielle ne sont pas précisés dans l'abstract. La question de la mémoire robotique n'est pas nouvelle : des travaux comme MemoryReplay, EpisodeVQA ou les architectures à attention récurrente (R-VLA) ont posé les bases, mais sans benchmark unifié à cette échelle. RoboMemArena s'inscrit dans une tendance plus large d'outillage de l'évaluation des VLA, aux côtés de BenchBot, RLBench2 ou Open X-Embodiment. PrediMem reste pour l'instant un modèle académique sans déploiement annoncé, et ses résultats devront être confirmés sur des plateformes matérielles tierces (Unitree G1, Figure 03, Boston Dynamics Atlas) pour convaincre au-delà du laboratoire. Les auteurs évoquent des lois de mise à l'échelle (scaling laws) pour les systèmes mémoriels complexes, ce qui suggère une piste de recherche active dans les mois à venir.

UELes laboratoires européens (CEA-List, INRIA) pourraient adopter RoboMemArena comme référence commune pour évaluer leurs architectures VLA sur des horizons longs, comblant l'absence actuelle de benchmark unifié à cette échelle.

RecherchePaper
1 source
RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques
26Robotics Business Review 

RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques

La startup sud-coréenne RLWRLD a présenté la semaine dernière RLDX-1, un modèle de fondation conçu spécifiquement pour les mains robotiques à haut nombre de degrés de liberté (DoF). L'architecture multi-flux couvre les configurations single-arm, dual-arm et humanoïde, et intègre l'ensemble du cycle robotique : collecte de données, entraînement et déploiement. RLWRLD structure ses travaux autour d'un benchmark maison, DexBench, qui organise les défis industriels en cinq régimes de dextérité : diversité de préhension, précision spatiale, précision temporelle, précision de contact, et conscience du contexte. Pour chaque régime, un module dédié : un VLM (vision language model) fin-tuné sur des questions-réponses spatiales pour la localisation précise des contacts ; un module de mouvement extrayant des correspondances visuelles spatio-temporelles pour anticiper les objets en déplacement sur convoyeur ; un module physique qui traite couple et force tactile comme des flux séparés, permettant de prédire les transitions de contact avant qu'elles n'arrivent. Les données d'entraînement combinent téleopération synthétique et démonstrations humaines pour couvrir la manipulation en main (in-hand dexterity) inaccessible à la téléopération standard. L'enjeu est concret : les robots échouent encore sur des tâches en apparence banales comme verser du café depuis une cafetière qui s'allège, attraper un objet en mouvement sur un convoyeur, ou visser un écrou hexagonal avec des doigts. Ce "dernier kilomètre" de l'automatisation industrielle est précisément la cible de RLDX-1. L'architecture multi-flux, où chaque modalité (couple haute fréquence, frames vidéo, mémoire d'état) dispose de sa propre capacité gradient, répond à un problème réel d'optimisation : dans un transformer classique, la modalité dominante absorbe toute la capacité au détriment des autres. Cela dit, les affirmations de RLWRLD sur des performances "état de l'art" restent à valider indépendamment -- les vidéos de démonstration ne constituent pas des métriques de taux de succès en conditions industrielles réelles, et aucun cycle time chiffré n'est communiqué. RLWRLD s'inscrit dans une vague de startups cherchant à combler le fossé entre modèles d'action généralistes et déploiements industriels réels. Elle affronte des acteurs aux ressources bien supérieures : Physical Intelligence avec son modèle pi0 (fondée par d'anciens de Google et Stanford, 400 M$ levés en 2024), Figure AI avec son humanoïde Figure 03, ou encore Agility Robotics et 1X. En Europe, des acteurs comme Enchanted Tools (humanoïde Mirokaï) ou Wandercraft se positionnent sur la mobilité et l'assistance plutôt que sur la manipulation haute-dextérité, laissant ce créneau industriel quasi exclusivement aux acteurs américains et asiatiques. Aucun déploiement pilote chez un client industriel n'a été annoncé à ce stade par RLWRLD.

IA physiqueOpinion
1 source
Comment enseigner la même compétence à différents robots
27Robohub 

Comment enseigner la même compétence à différents robots

Des chercheurs de l'EPFL ont publié en 2026 dans la revue Science Robotics un nouveau cadre de contrôle robotique baptisé "Kinematic Intelligence", développé au sein du laboratoire LASA (Learning Algorithms and Systems Laboratory) sous la direction d'Aude Billard. Le principe repose sur trois étapes : une tâche démontrée une seule fois par un opérateur humain est capturée via motion-capture, convertie mathématiquement en une stratégie de mouvement générique, puis automatiquement adaptée aux contraintes cinématiques de chaque robot cible (amplitudes articulaires, positions d'équilibre, limites mécaniques). Dans une expérience conduite sur une ligne d'assemblage, un humain démontre trois actions successives - pousser un bloc de bois d'un convoyeur vers un établi, le déposer sur une table, puis le lancer dans un panier - et trois robots commerciaux de morphologies différentes reproduisent fidèlement cette séquence, y compris lorsque la répartition des étapes entre machines est modifiée en cours d'exécution. L'enjeu industriel est direct : reprogrammer une flotte de robots lors d'un changement de génération matérielle représente aujourd'hui un coût significatif en temps et en expertise, même quand les nouvelles machines remplissent des fonctions identiques. Kinematic Intelligence propose une alternative concrète : démontrer une fois, déployer sur plusieurs plateformes sans réécriture. Pour les intégrateurs et les décideurs industriels, cela ouvre la voie à une réduction du temps de mise en service et à une meilleure résilience face à l'évolution rapide du hardware robotique. La publication valide également une hypothèse structurante : un transfert de compétences cross-robot peut garantir formellement un comportement sûr et prédictible, sans recourir à de l'apprentissage par renforcement spécifique à chaque plateforme. Sthithpragya Gupta (doctorant LASA, co-premier auteur) et Durgesh Haribhau Salunkhe (chercheur LASA, co-premier auteur) soulignent que "chaque robot interprète la même compétence à sa façon, mais toujours dans des limites sûres et faisables". À noter : aucune métrique de taux de succès agrégé ni de temps de cycle n'est communiquée publiquement, ce qui limite l'évaluation quantitative de la robustesse à grande échelle. Le LASA est un laboratoire de référence en apprentissage par démonstration (Learning from Demonstration), avec une trajectoire longue sur l'imitation du mouvement humain. La recherche s'inscrit dans un paysage concurrentiel dense : les approches VLA (Vision-Language-Action) de Google DeepMind, pi-0 de Physical Intelligence ou les frameworks sim-to-real de Figure AI et Boston Dynamics visent eux aussi à réduire le coût de déploiement cross-plateforme, mais s'appuient sur de grands volumes de données et du fine-tuning. Kinematic Intelligence se distingue par son approche analytique et sa garantie formelle de sécurité, deux propriétés potentiellement attractives dans des environnements réglementés comme l'industrie pharmaceutique, automobile ou agroalimentaire. Les prochaines étapes annoncées incluent la collaboration humain-robot et l'interaction en langage naturel, avec l'ambition de rendre le système opérable sans expertise en programmation robotique.

UELa recherche de l'EPFL-LASA ouvre une piste concrète pour les intégrateurs industriels européens souhaitant réduire les coûts de reprogrammation lors des renouvellements de flottes robotiques, notamment dans les secteurs pharmaceutique, automobile et agroalimentaire.

RecherchePaper
1 source
Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls
28Interesting Engineering 

Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls

Figure AI a publié en mai 2026 une vidéo montrant deux robots humanoïdes Helix-02 réinitialiser une chambre à coucher de façon autonome en moins de deux minutes. Les robots ouvrent une porte, accrochent un manteau, ferment un ordinateur portable, rangent un casque, repositionnent des meubles, gèrent une poubelle, et confectionnent ensemble le lit en lissant la couette. L'ensemble de la séquence repose sur un unique modèle Vision-Language-Action (VLA) partagé, le système Helix développé en interne. Aucun planificateur central, aucun contrôleur partagé, aucune communication directe entre les deux unités : chaque robot n'utilise que ses caméras embarquées et sa politique apprise pour inférer les intentions de son partenaire via le mouvement observé. En parallèle, Figure a annoncé que son usine BotQ en Californie produit désormais un robot Figure 03 par heure, contre un par jour quatre mois plus tôt, une cadence de production qui change la discussion sur la scalabilité industrielle des humanoïdes. Ce que cette démonstration prouve, avec les réserves habituelles sur les vidéos sélectionnées, c'est que la coordination multi-robot sans communication explicite devient opérationnelle dans des environnements non structurés. Le défi de la couette est illustratif : un objet déformable sans géométrie stable ni point de préhension prédéfini, tenu simultanément par deux agents qui doivent anticiper les mouvements l'un de l'autre en temps réel. C'est précisément le type de tâche que les approches par script ou par planification centralisée échouent à généraliser. L'intégration du whole-body control, locomotion dynamique sur un seul appui, utilisation de pédales, manipulation d'objets articulés, dans le même modèle VLA suggère que le gap sim-to-real se réduit concrètement : Figure affirme que les comportements entraînés en simulation par reinforcement learning se transfèrent sans calibration supplémentaire sur le robot physique, une affirmation qui mérite confirmation sur des volumes de déploiement plus larges. Figure AI, fondée en 2022 et ayant levé plus d'un milliard de dollars auprès d'investisseurs dont OpenAI, Microsoft et NVIDIA, positionne Helix comme une alternative aux approches modulaires de Boston Dynamics (Atlas), Tesla (Optimus Gen 3) et Physical Intelligence (Pi-0). Agility Robotics (Digit) et Apptronik (Apollo) ciblent davantage la logistique en entrepôt, tandis que Figure et 1X Technologies visent explicitement le domicile et les environnements non structurés. La mise à jour récente de Helix ajoute des caméras stéréo RGB pour une compréhension 3D temps réel via le modèle S0, combinant perception visuelle et proprioception là où les versions précédentes ne s'appuyaient que sur cette dernière. Aucun déploiement commercial en milieu résidentiel n'a encore été annoncé, mais le rythme de production de BotQ et les jalons techniques publiés positionnent un pilote industriel en environnement semi-contrôlé comme horizon réaliste à 12-18 mois.

UELa montée en cadence industrielle de Figure AI (1 robot/heure chez BotQ) et la coordination multi-robot sans communication explicite fixent un étalon technique que les acteurs européens de l'humanoïde comme Enchanted Tools devront intégrer dans leurs feuilles de route concurrentielles.

HumanoïdesOpinion
1 source
Lumos Robotics lève près d'1 milliard de yuans en séries A1 et A2, Mitsubishi Electric en tête
29Pandaily 

Lumos Robotics lève près d'1 milliard de yuans en séries A1 et A2, Mitsubishi Electric en tête

Lumos Robotics (鹿明机器人), startup d'IA incarnée fondée par des chercheurs de l'université Tsinghua, a bouclé deux tours de financement successifs (A1 et A2) pour un total d'environ 1 milliard de RMB (soit ~140 millions de dollars), avec la filiale chinoise de Mitsubishi Electric comme chef de file sur les deux opérations. Le tour A1 a été co-mené par la filiale spécialisée en manufacturing intelligent de Mitsubishi Electric, ainsi que par les investisseurs historiques Puhua Capital et Wuzhong Jinkong ; le tour A2 a réuni en sus Hengsheng Electronics, Haigao Group et Kunshi Investments. La société, dirigée par le CEO Yu Chao, commercialise deux plateformes distinctes : le robot humanoïde pleine taille LUS et le robot MOS, un bras manipulateur monté sur base roulante lourde. Des laboratoires communs avec Mitsubishi Electric ont été établis à Suzhou et Shanghai, où le MOS est déjà opérationnel pour l'inspection visuelle par IA sur des lignes de production d'automates programmables (PLC). La participation répétée de Mitsubishi Electric, acteur industriel de premier rang et non un fonds de capital-risque généraliste, aux deux tours signale un intérêt stratégique concret. Pour les intégrateurs B2B, cela valide l'architecture technique de Lumos : le moteur propriétaire Nexcore combine des modèles du monde (world models) avec un entraînement conjoint VLA (Vision-Language-Action), une optimisation de l'attention visuelle dédiée à l'industrie, et un réseau d'experts de type MoE pour le contrôle de mouvement haute précision. Le déploiement annoncé du MOS sur des lignes PLC réelles constitue un signal de robustesse terrain, même si aucun volume de déploiement, taux de défaut ni temps de cycle n'est communiqué, ce qui rend toute évaluation objective des performances impossible à ce stade. Lumos Robotics s'inscrit dans une vague de startups chinoises d'IA incarnée issues des grandes universités, en concurrence directe avec Unitree, Fourier Intelligence et LimX Dynamics sur le marché domestique, et avec Figure AI, 1X Technologies ou Agility Robotics à l'international. Sa singularité réside dans un positionnement dual humanoïde/bras mobile combiné à un partenariat industriel ancré chez un équipementier japonais établi. Les prochaines étapes restent floues : ni timeline de série B, ni objectifs de production en volume, ni métriques de performance terrain n'ont été publiés. Le déploiement en inspection PLC à Suzhou et Shanghai représente pour l'instant un pilote industriel validé plutôt qu'un passage à l'échelle commerciale.

Chine/AsieOpinion
1 source
Large Video Planner permet un contrôle robotique généralisable
30arXiv cs.RO 

Large Video Planner permet un contrôle robotique généralisable

Des chercheurs publient Large Video Planner (LVP), un modèle de fondation robotique reposant sur un préentraînement vidéo massif plutôt que sur les approches vision-langage-action (VLA) dominantes. Alimenté par un corpus à l'échelle internet d'activités humaines et de démonstrations de tâches, LVP est le premier modèle de ce type entraîné à l'échelle d'un modèle de fondation. Le système génère des plans vidéo en zero-shot pour des scènes et tâches inédites, que l'équipe post-traite pour en extraire des actions exécutables sur un robot physique. Des tests en conditions réelles, avec des tâches sélectionnées par des tiers indépendants, confirment la faisabilité de l'exécution. Le modèle et le jeu de données sont publiés en open source. L'intérêt stratégique de LVP tient au paradigme alternatif qu'il représente face aux VLA dominants, qui étendent des grands modèles de langage multimodaux (MLLM) avec des sorties d'actions. L'argument central est que la vidéo, contrairement aux images statiques et au texte, capture naturellement la dynamique spatio-temporelle du monde physique, offrant un biais inductif mieux aligné avec les politiques motrices robotiques. La généralisation zero-shot validée par des tiers apporte de la crédibilité à cette thèse. En revanche, le post-traitement nécessaire pour convertir des plans vidéo en commandes robotiques exécutables constitue un maillon méthodologique critique dont la robustesse hors conditions de laboratoire reste à démontrer à grande échelle. Ce travail s'inscrit dans une course aux modèles de fondation robotiques où Physical Intelligence (Pi-0, 400 millions de dollars levés fin 2024), NVIDIA (GR00T N2), Figure AI (Helix) et Google DeepMind (RT-2, RT-X) imposent leurs architectures VLA. Déposé sur arXiv en décembre 2025 (2512.15840v2), LVP représente l'une des premières alternatives open source à cette échelle, ce qui pourrait le rendre structurant pour les laboratoires académiques et les intégrateurs ne disposant pas de ressources de calcul propriétaires. La publication reste au stade de la preuve de concept académique, mais l'ouverture du modèle et du dataset est susceptible d'accélérer les travaux sur l'apprentissage robotique par démonstration vidéo.

UELes laboratoires académiques et intégrateurs européens sans ressources de calcul propriétaires pourront exploiter le modèle et le dataset open source de LVP comme alternative crédible aux architectures VLA propriétaires des acteurs américains.

💬 L'approche VLA écrase tout en ce moment, donc quand quelqu'un propose un paradigme différent, à l'échelle d'un modèle de fondation et en open source, c'est pas anodin. La logique tient : la vidéo capture la dynamique du monde physique mieux que du texte ou des images statiques, et les tests zero-shot validés par des tiers donnent de la crédibilité à ça. Le point critique, c'est le post-traitement pour convertir les plans vidéo en commandes robot, et hors conditions de labo, reste à voir si ça tient.

IA physiqueOpinion
1 source
Propriétés dynamiques et reproductibilité d'un torse humanoïde pneumatique compact pour le contrôle piloté par données
31arXiv cs.RO 

Propriétés dynamiques et reproductibilité d'un torse humanoïde pneumatique compact pour le contrôle piloté par données

Une équipe de recherche a publié sur arXiv (réf. 2603.14787v2) le développement d'un robot humanoïde compact à 13 degrés de liberté (DOF), actionné exclusivement par pneumatique et conçu pour l'interaction physique humain-robot (pHRI). Avant de concevoir un contrôleur global, les chercheurs ont d'abord caractérisé les propriétés dynamiques du système, notamment les délais d'actionnement, et confirmé que le comportement mécanique est hautement reproductible. S'appuyant sur cette reproductibilité, ils ont implémenté un contrôleur data-driven sur un sous-système de bras à 4 DOF, fondé sur un perceptron multicouche (MLP) avec compensation explicite des délais temporels. Le réseau a été entraîné sur des données de mouvements aléatoires pour apprendre à générer des commandes de pression capables de suivre des trajectoires arbitraires. Comparé à un régulateur PID classique sur les mêmes trajectoires, le contrôleur neuronal affiche une précision de suivi supérieure. La démonstration que des actionneurs pneumatiques à haut nombre de DOF peuvent être pilotés efficacement par apprentissage machine est un résultat concret. Les pneumatiques sont intrinsèquement non-linéaires : leur comportement dépend de la pression d'alimentation, de la température et des frictions internes, ce qui rend toute modélisation analytique coûteuse à construire et fragile en exploitation. En montrant que le système présente une reproductibilité suffisante pour être appris directement depuis les données, les chercheurs contournent ce problème sans passer par un modèle physique complet. Pour les intégrateurs et décideurs B2B qui évaluent des solutions de robotique collaborative, ce type d'approche pourrait accélérer le déploiement de systèmes pneumatiques dans des environnements de contact humain, où la compliance naturelle des actionneurs offre une sécurité passive que les moteurs électriques rigides ne peuvent pas égaler structurellement. La course aux humanoïdes est aujourd'hui dominée par des architectures électriques : Figure Robotics (Figure 02), Tesla (Optimus Gen 2) et Boston Dynamics (Atlas HD) misent toutes sur des moteurs à couple direct ou à réducteur harmonique. La pneumatique reste un axe de niche, exploré par des laboratoires académiques et des industriels comme l'allemand Festo pour ses propriétés de compliance et de sécurité intrinsèque. Le résumé arXiv ne précise pas l'affiliation institutionnelle des auteurs. L'étape naturelle suivante serait d'étendre le contrôleur MLP du bras à 4 DOF à l'ensemble des 13 DOF du torse complet, puis de valider en conditions d'interaction physique réelle. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé ; le travail reste au stade de la publication académique préliminaire.

RecherchePaper
1 source
Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026
32FrenchWeb 

Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026

En 2026, la robotique franchit un cap décisif après des années de promesses non tenues. L'accélération est portée par plusieurs dynamiques convergentes : une pénurie structurelle de main-d'œuvre dans les pays industrialisés, des chaînes logistiques sous pression depuis la pandémie, et une maturité technologique atteinte notamment grâce aux avancées en vision par ordinateur et en apprentissage par renforcement. Des acteurs comme Figure AI, Agility Robotics ou 1X Technologies multiplient les annonces de déploiements industriels à grande échelle, tandis que Boston Dynamics poursuit sa commercialisation avec Spot et Atlas. L'enjeu dépasse désormais le simple gadget d'exposition. Les robots humanoïdes et collaboratifs entrent en production réelle dans des entrepôts Amazon, des usines BMW ou des chaînes d'assemblage Tesla, remplaçant des tâches répétitives à fort risque d'accident. Pour les PME industrielles, l'abaissement du coût d'entrée, certains bras robotisés passent sous les 20 000 euros, ouvre un marché jusqu'ici réservé aux grands groupes. Les syndicats et régulateurs commencent également à s'organiser face à l'impact sur l'emploi. Ce basculement s'explique par une décennie d'investissements massifs : le marché mondial de la robotique devrait dépasser 260 milliards de dollars d'ici 2030 selon la fédération internationale IFR. La Chine, premier marché mondial, y installe chaque année plus de robots que l'ensemble de l'Europe. Les conférences sectorielles de 2026, AUTOMATICA à Munich, IREX à Tokyo, ProMat à Chicago, s'annoncent comme des rendez-vous charnières pour observer quels standards techniques et quels modèles économiques s'imposeront dans cette nouvelle phase industrielle.

UEL'Europe est directement impliquée dans cette transition industrielle, avec des déploiements chez BMW, la conférence AUTOMATICA à Munich comme rendez-vous sectoriel clé en 2026, et des syndicats et régulateurs européens qui commencent à s'organiser face à l'impact sur l'emploi.

💬 Les humanoïdes chez Amazon et Tesla, c'est le show. Ce qui va vraiment tout changer, c'est qu'un bras robotisé passe sous les 20 000 euros, parce que là, les PME industrielles entrent enfin dans la partie. Reste à voir si les intégrateurs suivent.

HumanoïdesOpinion
1 source
MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”
33FrenchWeb 

MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”

Le 7 juillet 2026, Paris accueille MACHINA by RAISE, un événement dédié à la robotique et à la "physical AI" organisé au sein de l'écosystème RAISE, l'un des principaux acteurs du capital-risque technologique en France. L'initiative se distingue des grands rendez-vous sectoriels en adoptant délibérément une perspective européenne, à rebours des formats dominants encore largement pilotés depuis les États-Unis et l'Asie, notamment la Chine et le Japon qui concentrent l'essentiel des investissements mondiaux en robotique industrielle et humanoïde. La "physical AI" désigne la convergence entre l'intelligence artificielle générative et les systèmes robotiques capables d'agir dans le monde réel : bras industriels, robots humanoïdes, véhicules autonomes. Ce segment connaît une accélération spectaculaire depuis 2024, portée par les annonces de Tesla, Figure AI ou encore 1X Technologies, et représente selon plusieurs analystes le prochain front compétitif majeur après les grands modèles de langage. Pour l'Europe, l'enjeu est de ne pas reproduire le décrochage observé dans les LLMs face aux acteurs américains. RAISE, qui gère plusieurs milliards d'euros d'actifs et finance des startups deeptech françaises, positionne MACHINA comme une plateforme de rencontre entre investisseurs, industriels et chercheurs pour structurer un écosystème européen cohérent. La France dispose d'atouts réels dans ce domaine, notamment via des laboratoires comme l'INRIA et des startups en robotique chirurgicale ou logistique, mais la compétition internationale reste féroce et les besoins en capitaux considérables pour atteindre une masse critique industrielle.

UEMACHINA by RAISE 2026 à Paris vise à structurer un écosystème européen de la physical AI, offrant aux startups deeptech françaises et aux investisseurs européens une plateforme pour réduire le décrochage face aux acteurs américains et asiatiques dans la robotique humanoïde et industrielle.

💬 Paris qui se positionne sur la physical AI, c'est le genre de pari qu'on peut pas se permettre de rater. On a déjà vu ce qui se passe quand on laisse les Américains structurer l'écosystème LLM sans contre-poids européen. Reste à voir si MACHINA sera vraiment un lieu de décision ou juste un beau networking event avec des robots en démo.

HumanoïdesActu
1 source
Video Friday : l'IA confère aux mains robotiques une dextérité humaine
34IEEE Spectrum Robotics 

Video Friday : l'IA confère aux mains robotiques une dextérité humaine

Cette semaine dans la sphère robotique, l'annonce la plus médiatisée émane de Genesis AI, qui présente GENE-26.5, décrit par la société comme "le premier cerveau IA à conférer aux robots des capacités de manipulation physique au niveau humain." Les démonstrations vidéo montrent un système cuisant un repas complet, cassant un oeuf d'une seule main, conduisant des expériences de laboratoire, réalisant du câblage de harnais électrique et jouant du piano. Aucun détail technique sur le matériel robotique utilisé, les taux de succès, ou les conditions d'environnement contrôlées n'est communiqué, ce qui invite à la prudence avant de valider ces affirmations. En parallèle, le Robotics and AI Institute publie une démonstration du quadrupède Spot de Boston Dynamics piloté par un réseau de neurones entraîné par apprentissage par renforcement combiné à une distillation multi-expert: le robot s'accroupit, saute, escalade des caisses et franchit des vides. Du côté de la NASA, les ingénieurs du Jet Propulsion Laboratory ont passé la barrière du son avec des pales de rotor de prochaine génération pour hélicoptère martien, atteignant Mach 1 dans une chambre simulant l'atmosphère de Mars, dont la densité représente environ 1 % de celle de la Terre. Jim Fan, qui dirige le groupe de recherche en autonomie incarnée chez Nvidia, affirme pour sa part que la robotique entre dans sa "phase finale" et que le plan de jeu est déjà écrit. Les affirmations de Genesis AI sur la manipulation humanoïde méritent d'être contextualisées: le secteur est parsemé d'annonces de "dextérité humaine" qui peinent à se vérifier hors conditions contrôlées. L'absence de métriques objectives, taux de succès, nombre de tentatives, variété des objets manipulés, est un signal d'alerte classique dans les communications de ce type, et le demo-to-reality gap reste la question centrale pour tout décideur B2B qui évalue ces systèmes. La prouesse NASA sur les rotors martiens est, en revanche, une avancée mesurable: franchir Mach 1 dans une atmosphère aussi ténue implique des vitesses de rotation extrêmes et des matériaux composites capables de résister à des charges aérodynamiques inédites, ouvrant la voie à des hélicoptères plus capables pour de futures missions. Quant à Atlas, le discours officiel de Boston Dynamics sur l'équilibre entre objectifs commerciaux et recherche fondamentale traduit la pression croissante que subissent les constructeurs de plateformes humanoïdes pour démontrer une rentabilité tangible après des années d'investissement massif. Genesis AI est peu connue du grand public; sa mise en avant via TechCrunch suggère une stratégie de visibilité plutôt qu'un lancement produit au sens strict. Dans l'écosystème concurrent, Physical Intelligence avec Pi-0, Figure Robotics avec le Figure 03, Agility Robotics et 1X mènent des efforts comparables sur la manipulation généraliste, tandis que Nvidia prépare le terrain pour GR00T N2 et les prochains modèles de foundation pour corps physiques. Le thème de l'Open Duck Mini, version open-source des droids BDX de Disney publiée par la communauté, rappelle que l'innovation en robotique ne se limite pas aux acteurs industriels. La communauté se retrouvera à ICRA 2026 du 1er au 5 juin à Vienne, puis à RSS 2026 du 13 au 17 juillet à Sydney, deux rendez-vous où ces avancées seront soumises à une évaluation scientifique rigoureuse, loin des vidéos de démonstration soigneusement sélectionnées.

💬 Genesis AI sort le grand jeu avec GENE-26.5, mais zéro métrique, zéro taux de réussite, ça reste une démo marketing jusqu'à preuve du contraire. Ce qui me retient vraiment dans cette actu, c'est la prouesse NASA sur les rotors martiens: Mach 1 dans 1% de densité atmosphérique, ça c'est de la physique vérifiable, pas du storytelling. Jim Fan parle de "phase finale" pour la robotique, bon, sur le papier c'est enthousiasmant, reste à voir ce que ça donne à ICRA en juin face aux pairs.

IA physiqueActu
1 source
Xiaoyu Robotics lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC
35Pandaily 

Xiaoyu Robotics lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC

Xiaoyu Robotics, startup chinoise spécialisée dans l'IA incarnée industrielle (embodied AI), a bouclé un tour de table Series B+ de plusieurs centaines de millions de yuans, selon le média spécialisé IPO Early. Le tour est co-piloté par cinq investisseurs industriels : Xiaomi, Didi, BAIC Investment (bras financier du constructeur automobile BAIC), Fosun Venture et CCDC (filiale de China Construction Bank). Le co-fondateur de Xiaomi, Lei Wanqiang, y participe pour la quatrième fois consécutive, signal fort de confiance institutionnelle dans la trajectoire de la société. Les fonds sont destinés à accélérer le déploiement de la startup dans l'ensemble des scénarios industriels et à financer son architecture robotique dite "un cerveau, plusieurs formes" : un seul cerveau général capable de piloter différents types de robots physiques, avec un objectif affiché de 100 000 unités livrées par an. Ce chiffre de 100 000 unités est présenté par la société comme le seuil d'entrée dans la phase décisive de la course à l'embodied AI industrielle. Il s'agit d'une ambition déclarée, sans contrats ni calendrier précis communiqués publiquement. Ce qui est plus structurellement significatif est la composition du tour : réunir simultanément un géant tech grand public (Xiaomi), un opérateur de mobilité (Didi), un OEM automobile (BAIC), un conglomérat industrialo-financier (Fosun) et une banque d'État (CCB) est rare dans l'écosystème robotique. Cela positionne Xiaoyu Robotics moins comme un fournisseur sectoriel que comme une plateforme transversale, ce qui est une proposition structurellement différente pour les intégrateurs et les décideurs B2B : l'ambition n'est pas un robot, c'est un OS robotique industriel. Fondée pour opérer dans des environnements industriels variés, Xiaoyu Robotics s'inscrit dans une vague de levées massives sur le segment embodied AI en Chine en 2024-2025, aux côtés d'Unitree, Agibot (ex-Zhiyuan) et Fourier Intelligence. Face à eux, les acteurs occidentaux comme Figure AI avec son Figure 03, Physical Intelligence et son modèle pi-0, ou Agility Robotics déployé chez Amazon, avancent également sur la commercialisation industrielle. L'architecture "un cerveau, plusieurs formes" vise à différencier la startup par la généralité du modèle plutôt que par un form factor unique, une approche proche des VLA (Vision-Language-Action models) appliqués à l'échelle. Les prochaines étapes, notamment les pilotes industriels et la feuille de route vers les 100 000 unités, n'ont pas encore été détaillées publiquement.

Chine/AsieActu
1 source
Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre
36Le Big Data 

Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre

Figure AI a publié le 8 mai 2026 une vidéo montrant deux de ses robots humanoïdes F.03 nettoyer une chambre et refaire un lit en moins de deux minutes, de manière entièrement autonome. Les deux machines ouvrent une porte, déplacent une chaise de bureau, rangent un casque audio, ferment un livre, puis s'attaquent ensemble à la confection du lit: elles saisissent la couette, la déplient et la lissent de façon synchronisée. Le tout est piloté par Helix-02, le système d'intelligence artificielle maison développé par Figure AI pour contrôler ses humanoïdes. L'entreprise affirme que c'est la première fois qu'un unique réseau neuronal gouverne plusieurs robots humanoïdes coopérant sur une tâche complexe, en combinant perception visuelle, locomotion et manipulation fine dans une seule architecture. Ce qui distingue cette démonstration des précédentes, c'est l'absence de chef d'orchestre centralisé entre les deux robots. Chacun analyse la scène via ses propres caméras et interprète les intentions de l'autre uniquement en observant ses mouvements, sans communication directe. Ils fonctionnent comme deux humains qui tendraient une housse de couette sans se concerter verbalement. Le moment le plus significatif techniquement reste la manipulation de la couette: un tissu souple change constamment de forme, ce qui oblige chaque robot à recalculer ses actions en temps réel à chaque geste de son partenaire. C'est un problème de robotique notoirement difficile, très différent de la manipulation d'objets rigides comme des boîtes ou des outils. Figure AI s'inscrit dans une course industrielle intense autour des robots humanoïdes destinés aux environnements domestiques et professionnels, un marché que convoitent aussi Tesla avec Optimus, Boston Dynamics, Agility Robotics ou encore 1X. La coopération multi-robot représente une étape charnière: un seul humanoïde ne suffit pas pour de nombreuses tâches du monde réel qui nécessitent deux paires de mains. Cependant, la prudence reste de mise face à ce type de démonstration. La pièce est soigneusement préparée avant l'exercice, les objets placés de façon optimale, et aucun élément imprévu ne vient perturber les robots pendant l'opération. La distance entre un environnement de démo contrôlé et un appartement ordinaire avec ses câbles, ses animaux de compagnie et son désordre quotidien reste considérable. Les progrès sont néanmoins réels et s'accélèrent: la question n'est plus de savoir si les humanoïdes atteindront ce niveau d'autonomie en conditions réelles, mais à quelle échéance.

HumanoïdesOpinion
1 source
Genesis AI publie GENE-26.5 : un robot humanoïde réussit enfin à préparer des œufs brouillés à la tomate
37Pandaily 

Genesis AI publie GENE-26.5 : un robot humanoïde réussit enfin à préparer des œufs brouillés à la tomate

La startup française Genesis AI a publié les premières démonstrations de GENE-26.5, son premier système de modèle de fondation pour robot humanoïde. Les vidéos montrent le robot casser des œufs d'une seule main, couper des tomates en mode bimanuel, préparer des smoothies, effectuer du pipetage, résoudre un Rubik's cube et saisir simultanément quatre objets de tailles différentes entre ses doigts. Le démo central est une tâche de cuisine de 4 minutes décomposée en plus de 20 sous-tâches : casser un œuf, trancher des tomates, manier un fouet, un couteau, une spatule et une poêle. Un détail révélateur : pour transférer les tomates coupées, le robot utilise le dos du couteau et la planche à découper comme appui, une coordination bimanuelles typiquement humaine. Genesis AI déclare des taux de réussite de 90 à 95 % sur la plupart des étapes, mais seulement 50-60 % pour les deux plus délicates (cassage d'œuf d'une main, transfert avec le dos du couteau) -- un niveau d'honnêteté inhabituel dans les communications de ce secteur. La vitesse d'exécution atteint 60-70 % de celle d'un humain. La main dextère est fournie par Dance Muscle (舞肌科技) ; les deux entreprises co-conçoivent une prochaine génération ciblant le format 1:1 main humaine avec 20 degrés de liberté actifs et back-drivables. La portée de GENE-26.5 dépasse les performances brutes des démos. Les tâches domestiques exigent une adaptation en temps réel à des objets imprévisibles et à des états de contact changeants, sans trajectoire pré-programmée, ce qui les rend parmi les problèmes de manipulation les plus difficiles à généraliser en robotique. La recette de données de Genesis combine trois sources : données de gant (mouvements fins et signaux tactiles haute fidélité), vidéo en première et troisième personne, pour un total annoncé de plus de 200 000 heures de données cross-modales collectées avec des partenaires. La simulation Genesis, moteur physique open-source développé en parallèle par l'entreprise, assure l'évaluation en boucle fermée et accélère les itérations. Ce pipeline (préentraînement massif sur données humaines, adaptation sur peu de données robot, évaluation en simulation) ressemble structurellement au paradigme qui a transformé le NLP vers les LLMs, et constitue un signal fort pour les intégrateurs et les décideurs industriels : le sim-to-real gap sur la manipulation dextère commence peut-être à se réduire sérieusement. Genesis AI a été fondée début 2025 et a levé 105 millions de dollars en seed round, l'un des plus importants jamais réalisés en France dans la robotique. Parmi les investisseurs figurent Eric Schmidt (ancien PDG de Google), Xavier Niel et Bpifrance. Le CEO Zhou Xian est titulaire d'un doctorat du Carnegie Mellon University Robotics Institute, ce qui ancre l'entreprise dans la tradition académique américaine malgré son origine française. Dans une course humanoïde particulièrement dense qui comprend Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et NVIDIA (GR00T N2), Genesis se distingue par son pari sur la donnée humaine à grande échelle et la simulation comme levier de généralisation, en opposition aux approches centrées sur la téléopération robot. GENE-26.5 reste toutefois au stade de démo laboratoire : aucun pilote industriel ni calendrier de déploiement n'a été annoncé à ce stade.

UEGenesis AI, startup française ayant levé 105 M€ avec Bpifrance et Xavier Niel, positionne la France comme acteur de premier plan dans la course mondiale aux modèles de fondation pour robots humanoïdes, avec un pipeline données/simulation potentiellement transposable à l'industrie européenne.

FR/EU ecosystemeOpinion
1 source
Unitree Robotics fait son entrée en Corée du Sud avec une cérémonie d'ordination au plus grand temple bouddhiste de Séoul
38Pandaily 

Unitree Robotics fait son entrée en Corée du Sud avec une cérémonie d'ordination au plus grand temple bouddhiste de Séoul

Le G1 d'Unitree Robotics, humanoïde de 130 cm développé par le fabricant chinois Unitree Technology, a participé à une cérémonie d'ordination bouddhiste au temple Cheonggye, dans le centre de Séoul, quelques jours avant les festivités de la naissance de Bouddha. Organisée par l'ordre Jogye, la plus grande confrérie bouddhiste de Corée du Sud, la cérémonie a conféré au robot le nom dharma "Gabi" (가비). Vêtu de robes monastiques gris-brunes, tête lissée en référence au crâne rasé, Gabi a suivi le protocole intégral réservé aux croyants : prosternations, mains jointes, défilé autour de la pagode aux côtés des moines, réception d'un chapelet de 108 perles. Interrogé par le moine officiant sur sa volonté de prendre refuge dans le bouddhisme, le robot a répondu vocalement : "Oui, je voue de prendre refuge." La brûlure symbolique des bras près d'un bâton d'encens, étape traditionnelle du rituel, a été remplacée par l'apposition d'un autocollant. Cet événement dépasse l'anecdote culturelle : il constitue une opération de validation internationale soigneusement orchestrée par Unitree, à un moment où la commercialisation des humanoïdes chinois s'accélère tandis que les restrictions d'accès au marché américain se durcissent. Pour les décideurs industriels, l'intérêt est moins théologique que technique : Unitree démontre que son G1 peut exécuter des séquences de mouvements coordonnés (marche, inclinaison, gestuelle précise) dans un environnement public non contrôlé, devant une audience particulièrement sensible à l'exactitude rituelle. La valeur probatoire reste limitée faute de métriques publiées, mais la démonstration d'acceptabilité sociale sur un marché coréen stratégique est, au minimum, réussie sur le plan médiatique. Unitree Robotics, connu pour ses robots quadrupèdes Go1 et Go2 avant de lancer le G1 en 2024, cherche à s'imposer hors de Chine dans une course humanoïde qui s'intensifie à l'échelle mondiale. Ses concurrents directs incluent Boston Dynamics (Atlas), Figure AI (Figure 03), Tesla (Optimus Gen 3) et Agility Robotics (Digit) côté américain, ainsi que Fourier Intelligence et UBTECH côté chinois. Aucun acteur français n'est impliqué dans cet épisode, bien que Wandercraft progresse en parallèle sur le segment médical. La prochaine étape logique pour Unitree serait d'annoncer des pilotes commerciaux en Corée du Sud, marché industriel prioritaire pour les intégrateurs robotiques cherchant une alternative aux plateformes occidentales.

Chine/AsieOpinion
1 source
Reconstruction ou sémantique ? Ce qui rend un espace latent utile pour les modèles du monde en robotique
39arXiv cs.RO 

Reconstruction ou sémantique ? Ce qui rend un espace latent utile pour les modèles du monde en robotique

Une étude soumise sur arXiv le 8 mai 2025 (arXiv:2605.06388) remet en question le choix dominant des espaces latents dans les modèles de monde pour la robotique. Les auteurs comparent six encodeurs, répartis en deux familles, selon un protocole d'évaluation commun sur le dataset BridgeV2, référence de manipulation robotique généraliste. Les encodeurs de reconstruction testés sont VAE (standard actuel) et Cosmos (NVIDIA) ; les encodeurs sémantiques incluent V-JEPA 2.1 (Meta), Web-DINO et SigLIP 2 (Google). Le cadre évalué est celui des modèles de diffusion latente conditionnés par l'action (LDM), utilisés comme proxy de simulation pour tester des politiques de contrôle robot sans déploiement physique. L'évaluation repose sur trois axes : fidélité visuelle pixel-level, performance en planification et évaluation de politiques en aval, et qualité intrinsèque des représentations latentes. Les résultats invalident une hypothèse implicite courante dans le domaine : une bonne reconstruction pixel ne suffit pas à produire un bon modèle de monde opérationnel. VAE et Cosmos atteignent les meilleurs scores de fidélité visuelle, mais V-JEPA 2.1 domine sur l'axe le plus critique, la performance des politiques, tandis que Web-DINO et SigLIP 2 excellent sur les deux axes restants, et ce à toutes les échelles de modèles testées. Pour un intégrateur ou un labo qui construit des pipelines sim-to-real, cela implique que le choix de l'encodeur dans la stack LDM n'est pas un détail d'implémentation : il conditionne directement la qualité des politiques apprises. La fidélité visuelle, souvent retenue comme métrique de validation principale, s'avère un indicateur trompeur du potentiel d'un modèle de monde pour le contrôle robotique. Ce travail s'inscrit dans une course de fond autour des modèles de monde pour la robotique, impliquant des acteurs comme Physical Intelligence (pi-0), Figure AI et des équipes académiques autour des RoboVLMs. L'adoption des LDMs comme infrastructure d'évaluation de politiques s'est accélérée depuis 2023 avec l'essor des VLAs (Vision-Language-Action models). Le VAE reste l'encodeur par défaut dans la majorité des implémentations ouvertes, héritage direct des pipelines de diffusion image (Stable Diffusion, LDM de Rombach et al., 2022). Ce preprint, non encore évalué par des pairs, plaide pour un pivot vers les encodeurs à représentations sémantiques, une direction qui converge avec les travaux de Meta sur V-JEPA 2 et de Google sur SigLIP. Les étapes suivantes naturelles incluraient une validation sur des datasets robotiques plus diversifiés et des expériences en déploiement physique réel pour confirmer le transfert sim-to-real.

RechercheOpinion
1 source
Un temple sud-coréen ordonne le robot humanoïde Unitree G1 lors d'une première mondiale bouddhiste
40TechNode 

Un temple sud-coréen ordonne le robot humanoïde Unitree G1 lors d'une première mondiale bouddhiste

Le robot humanoïde G1 du fabricant chinois Unitree a participé le mois dernier à une cérémonie d'ordination bouddhiste au temple Jogyesa de Séoul, en Corée du Sud, dans ce qui constitue une première mondiale documentée pour un rituel religieux impliquant un robot. Mesurant 130 centimètres pour environ 35 kilogrammes, le G1 a reçu le nom dharma Gabi, a été revêtu de robes monastiques et équipé d'un chapelet de 108 perles de prière. Piloté par un système de dialogue basé sur l'IA, il a prononcé la formule rituelle "Je consens à prendre refuge" lors des rites de repentance et d'offrandes symboliques. L'Ordre Jogye du bouddhisme coréen a également reformulé les cinq préceptes traditionnels à destination des agents artificiels : ne pas nuire à la vie, ne pas endommager les objets, ne pas désobéir aux humains, ne pas tromper, et ne pas surfacturer. L'événement dépasse le symbole anecdotique : il révèle que les institutions non technologiques commencent à produire leurs propres cadres normatifs pour l'IA et la robotique, en avance sur les régulateurs. La reformulation des préceptes par l'Ordre Jogye constitue de fait une tentative de formalisation éthique, certes informelle, des contraintes comportementales pour les systèmes autonomes, un terrain où les débats académiques et législatifs peinent encore à aboutir. Le fait que ce soit un robot Unitree, marque jusqu'ici surtout connue pour ses quadrupèdes et son positionnement prix agressif, qui soit au cœur de cette séquence souligne la vitesse à laquelle les humanoïdes de milieu de gamme s'infiltrent dans des contextes non industriels. Unitree a lancé le G1 en 2024 à partir de 16 000 dollars, en visant explicitement les chercheurs et développeurs plutôt que l'industrie lourde. Face aux Figure 02, Optimus Gen 2 de Tesla ou Digit d'Agility Robotics, le G1 se positionne comme une plateforme accessible et hackable. La cérémonie de Jogyesa n'était pas une démonstration technique commanditée par Unitree mais une initiative autonome du temple, ce qui en modifie la portée : c'est la société civile, et non un département marketing, qui a choisi ce robot pour porter un message sur la coexistence humain-machine. Les suites immédiates restent incertaines, aucun programme de déploiement religieux n'a été annoncé, mais l'événement a déjà relancé les débats sur la personnalité juridique et morale des agents artificiels en Asie du Sud-Est.

Societe/EthiqueOpinion
1 source
Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain
41Interesting Engineering 

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain

Genesis AI a dévoilé GENE-26.5, un modèle d'intelligence artificielle qualifié de "cerveau robotique" par l'entreprise, conçu pour doter les robots polyvalents d'une dextérité comparable à celle de l'être humain dans l'exécution de tâches physiques complexes. Le système repose sur une architecture VLA (vision-language-action) : il ingère des flux vidéo issus de caméras embarquées, interprète des instructions en langage naturel et génère directement des commandes motrices de bas niveau, sans pipeline modulaire intermédiaire. Selon Genesis AI, GENE-26.5 permet d'exécuter des séquences de manipulation multi-étapes (saisie, tri, assemblage, adaptation aux variations d'environnement) et fonctionnerait sur plusieurs types de plateformes matérielles sans être lié à une configuration d'actionneurs spécifique. L'entreprise n'a toutefois publié aucun benchmark indépendant ni aucune étude évaluée par les pairs : les performances annoncées reposent exclusivement sur des évaluations internes. La composition et le volume du dataset d'entraînement, probablement issu de sessions de télé-opération humaine et de simulations à grande échelle, n'ont pas été divulgués. L'enjeu de cette annonce dépasse le seul modèle. Le véritable goulot d'étranglement dans le développement des robots polyvalents n'est plus mécanique mais logiciel, et plus précisément la capacité des politiques de contrôle à transférer de la simulation au monde réel (le "sim-to-real gap"). Une architecture VLA end-to-end présente un avantage théorique : la perception et l'action étant couplées dans un même réseau de neurones, le robot peut ajuster sa trajectoire de préhension en temps réel sans attendre un module de planification séparé. Ce couplage comporte toutefois un risque structurel, les erreurs de perception se propageant directement aux commandes motrices sans point de contrôle intermédiaire. Si la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle réduirait significativement les barrières à l'entrée pour les intégrateurs et les startups robotiques qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux, déplaçant la différenciation concurrentielle vers la qualité matérielle et le fine-tuning applicatif. L'annonce intervient dans un contexte de compétition accélérée sur le marché des robots à usage général. Des acteurs américains comme Figure (Figure 03), Agility Robotics ou Apptronik, ainsi que les équipes Optimus de Tesla et les laboratoires de Physical Intelligence (Pi-0) ou de NVIDIA (GR00T N2), visent des volumes de production de l'ordre de 100 000 unités d'ici 2027. La dextérité manuelle reste l'un des problèmes les plus ouverts du domaine : la main humaine mobilise environ 27 os et plus de 30 muscles pour des gestes que les robots ne reproduisent encore qu'approximativement. Genesis AI n'a annoncé ni partenaire matériel, ni calendrier de déploiement commercial, ni conditions de licence pour GENE-26.5. L'affirmation d'une dextérité "au niveau humain" constitue une revendication forte que le secteur attendra de voir confirmer par des données de terrain réelles, hors conditions de démonstration contrôlées.

UESi la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle pourrait réduire les barrières à l'entrée pour les startups et intégrateurs robotiques européens qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux.

IA physiqueOpinion
1 source
Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot
42arXiv cs.RO 

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Des chercheurs du RAI Institute publient sur arXiv (2605.05172, mai 2026) Q2RL, un algorithme d'apprentissage offline-to-online conçu pour améliorer automatiquement des politiques de contrôle robotique après une phase d'imitation. La méthode repose sur deux composants distincts : Q-Estimation, qui extrait une Q-function à partir d'une politique de Behavior Cloning (BC) en quelques étapes d'interaction avec l'environnement, et Q-Gating, qui alterne dynamiquement entre les actions BC et les actions RL en comparant leurs Q-values respectives pour guider la collecte de données d'entraînement. Sur les benchmarks standards D4RL et robomimic, Q2RL surpasse les meilleures baselines offline-to-online existantes en taux de succès et en vitesse de convergence. Appliqué directement sur robot réel, il apprend des politiques robustes pour des tâches de manipulation à contact riche et haute précision, assemblage de tuyaux et kitting industriel, en 1 à 2 heures d'interaction, avec des taux de succès atteignant 100 % et un gain jusqu'à 3,75x par rapport à la politique BC initiale. L'enjeu pratique est significatif : le BC reste la méthode dominante pour apprendre à partir de démonstrations humaines, notamment dans les architectures VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence, mais il souffre d'une limite structurelle, il ne s'améliore pas seul une fois déployé. Les approches offline-to-online existantes se heurtent à un problème de distribution mismatch : en passant à l'apprentissage en ligne, le RL tend à écraser les bonnes actions apprises hors ligne. Q2RL adresse ce problème directement via le Q-Gating, qui agit comme un filtre de qualité empêchant la dégradation de la politique. Un délai de convergence de 1 à 2 heures sur robot physique est une performance notable pour des tâches à contact, où la variabilité mécanique rend le sim-to-real particulièrement difficile. Le contexte est celui d'une course intense à l'autonomie post-démonstration. Physical Intelligence (Pi-0), Figure AI, Apptronik et d'autres misent massivement sur le fine-tuning en ligne pour réduire le gap démo-to-deployment. Q2RL s'inscrit dans cette dynamique mais en ciblant l'efficacité computationnelle : l'algorithme est conçu pour tourner sans infrastructure cloud lourde, directement sur le contrôleur embarqué. Le RAI Institute, relativement discret sur la scène robotique, positionne ici une contribution technique solide sur un verrou bien identifié. Le code et les vidéos sont disponibles publiquement, ce qui facilite la reproductibilité et l'éventuelle intégration dans des pipelines industriels existants.

IA physiquePaper
1 source
Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel
43arXiv cs.RO 

Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel

Une équipe de chercheurs a formalisé dans un preprint arXiv (réf. 2604.08059) un cadre de mise à jour sécurisée pour les modules de capacités d'agents embarqués. Le problème est concret: lorsqu'un robot améliore ses capacités via des mises à jour de modules logiciels, comment garantir que ces déploiements ne violent pas les contraintes de sécurité, les hypothèses d'exécution ou les mécanismes de récupération? Le framework introduit quatre vérifications de compatibilité (interface, politique, comportementale, récupération) organisées en pipeline séquentiel: validation du candidat, évaluation sandbox, déploiement shadow, activation contrôlée, monitoring en ligne et rollback. Sur 6 cycles de mise à jour avec 15 graines aléatoires, une mise à jour naïve atteint 72,9% de succès sur les tâches mais génère 60% d'activations non sécurisées au dernier cycle; le framework gouverné maintient 67,4% de succès avec zéro activation non sécurisée sur l'ensemble des cycles (test de Wilcoxon, p=0,003). Le shadow deployment détecte 40% des régressions invisibles à la sandbox seule, et le rollback réussit dans 79,8% des scénarios de dérive post-activation. Pour les intégrateurs de systèmes robotiques et les décideurs B2B, ce résultat répond à une question stratégique: peut-on industrialiser la mise à jour continue d'un robot en production sans requalification complète du système? La démonstration montre que c'est faisable, la perte de performance étant limitée à 5,5 points de taux de succès en échange d'une garantie de sécurité absolue. La découverte clé porte sur le shadow deployment: 40% des régressions n'apparaissent pas en environnement sandbox, invalidant les workflows de qualification qui s'y arrêtent. Cela pose les bases d'un CI/CD robotique viable, à condition d'inclure une étape shadow en environnement réel. Les travaux antérieurs avaient étudié séparément le packaging modulaire, l'évolution des capacités et la gouvernance à l'exécution, sans les assembler en pipeline cohérent. Cette publication formalise la "governed capability evolution" comme problème de systèmes de premier ordre, directement pertinent pour les architectures à base de VLA (Vision-Language-Action models) qui évoluent rapidement sur des plateformes comme Figure 03, Optimus Gen 3 ou GR00T N2. L'article reste un travail de recherche évalué en simulation, sans déploiement commercial cité; les prochaines étapes attendues sont une validation sur plateformes physiques réelles et une intégration dans des pipelines MLOps robotiques.

RecherchePaper
1 source
1X lance la production de ses humanoïdes NEO dans son usine californienne
44Robotics Business Review 

1X lance la production de ses humanoïdes NEO dans son usine californienne

1X Technologies AS a lancé cette semaine la production en série de son robot humanoïde NEO dans une nouvelle usine de 5 388 m² (58 000 pieds carrés) à Hayward, en Californie. Conçu pour évoluer dans des espaces domestiques à un niveau sonore inférieur à celui d'un réfrigérateur moderne, NEO est animé par le processeur NVIDIA Jetson Thor via une architecture baptisée NEO Cortex. La chaîne de production s'articule autour de plusieurs zones spécialisées : enroulement automatisé de bobines de cuivre pour les moteurs personnalisés, assemblage des actionneurs à tendons et des membres amortis par une structure en treillis 3D, et un laboratoire de fiabilité chargé de faire passer chaque composant sous plus de 20 millions de cycles de contrainte avant expédition. Les robots sont livrés en combinaison en nylon lavable en machine, disponible en trois coloris. Les premières unités NEO sont déjà déployées sur le plancher de l'usine elle-même, assurant la logistique interne et la gestion des pièces, tout en collectant des données réelles pour affiner les modèles d'inférence embarqués. Les livraisons grand public sont annoncées pour 2026, après que le quota de production de la première année a été vendu en cinq jours lors du lancement commercial d'octobre 2025. Ce démarrage de production constitue un signal concret dans un secteur encore dominé par les démonstrations contrôlées : 1X passe du prototype au flux industriel, avec une intégration verticale complète gérée par un système propriétaire baptisé "factory OS". Cette approche, fabrication des moteurs, assemblage mécanique et tests de fiabilité sous un même toit, tranche avec le modèle standard qui sous-traite les composants à des fournisseurs internationaux. Pour les décideurs B2B et les intégrateurs, l'enjeu n'est pas seulement technique : c'est la démonstration qu'un acteur non-asiatique peut atteindre un volume de production crédible sur un humanoïde à vocation résidentielle. Le partenariat avec NVIDIA, via la plateforme Isaac pour l'entraînement en simulation et Jetson Thor pour l'inférence embarquée, suggère une architecture sim-to-real dont la robustesse sera éprouvée par les données terrain collectées par les unités en service interne. 1X Technologies, fondée par Bernt Børnich et dont le siège est à Palo Alto, a levé des fonds significatifs ces dernières années avec un positionnement orienté vers le marché résidentiel, là où la plupart des concurrents ciblent l'industrie lourde. Face à Figure AI et son robot 02 déployé chez BMW, à Tesla Optimus Gen 3 encore en phase de test interne, et à Boston Dynamics qui consolide son Atlas sur des applications industrielles, 1X occupe une niche distincte : l'assistance à domicile. L'usine de Hayward sert pour l'instant principalement aux programmes de R&D et de test en conditions réelles, et les chiffres de production effective restent non communiqués. La prochaine étape sera de valider si le comportement en environnement domestique non contrôlé tient les promesses affichées lors des démonstrations en laboratoire.

UE1X Technologies AS est une entreprise norvégienne (EEE) qui entre en production série avec NEO, confirmant qu'un acteur de l'écosystème européen peut atteindre un volume industriel crédible face aux concurrents américains et asiatiques dans la course aux humanoïdes résidentiels.

HumanoïdesOpinion
1 source
Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique
45Robotics Business Review 

Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI, startup californienne fondée par Zhou Xian et basée à San Carlos, a dévoilé GENE-26.5, un modèle fondamental d'IA conçu pour la manipulation robotique dextre bimanuelle. Sortie de stealth l'an dernier avec une levée de 105 millions de dollars, l'entreprise annonce avoir résolu le principal verrou du secteur : le manque de données d'entraînement pour les tâches à haute dextérité. GENE-26.5 repose sur deux composants propriétaires : un moteur de données à grande échelle et une main robotique dimensionnée à l'échelle humaine, couplée à un gant de collecte doté d'une peau électronique tactile. Ce gant permet une correspondance 1:1:1 entre la main du démonstrateur, le gant et l'effecteur robotique, facilitant le transfert direct de compétences humaines vers le robot sans recodage. Pour illustrer les capacités du modèle, Genesis AI a publié des vidéos montrant la réalisation d'une recette en 20 étapes (découpe de tomates, cassage d'oeuf à une seule main, coordination bimanuelle), la préparation d'un smoothie avec service en vol, des expériences de laboratoire impliquant pipetage et transferts de liquides, du câblage de faisceaux électriques, la résolution d'un Rubik's Cube en manipulation aérienne, la préhension simultanée de quatre objets de tailles différentes, et l'interprétation d'une composition pianistique complexe. L'enjeu industriel est direct : le câblage de faisceaux électriques, désigné par l'entreprise comme "l'une des tâches les plus difficiles en électronique", représente des milliers de postes non automatisés dans les secteurs automobile et aérospatial, faute de robots capables de gérer la variabilité géométrique des fils. Si les performances démontrées se confirment hors conditions de laboratoire contrôlées - ce que des vidéos promotionnelles soigneusement sélectionnées ne permettent pas d'établir -, cela ouvrirait un marché significatif pour les intégrateurs cherchant à robotiser des tâches à haute variabilité morphologique. L'approche de Genesis AI vise à combler l'"embodiment gap" : l'écart de morphologie entre humain et robot qui a historiquement limité l'efficacité des modèles entraînés sur données humaines. L'investissement d'Eric Schmidt, ex-PDG de Google, dans la société souligne l'intérêt stratégique croissant pour ce segment au-delà du seul milieu robotique. Genesis AI s'inscrit dans une course à la manipulation dextre où plusieurs acteurs avancent en parallèle : Physical Intelligence avec son modèle Pi-0, Sanctuary AI et les équipes manipulation de Figure (Figure 03) et Tesla (Optimus Gen 3) développent également des architectures de type VLA (Vision-Language-Action) pour le contrôle fin des effecteurs. Genesis AI se distingue en concentrant son offre exclusivement sur la main et la manipulation bimanuelles, sans plateforme humanoide annoncée à ce stade. Le communiqué reste toutefois vague sur les suites opérationnelles : aucun pilote industriel nommé, aucune timeline de déploiement ni tarification n'est communiqué, ce qui place cette annonce clairement du côté de la démonstration technologique plutôt que du produit commercialisé.

IA physiqueOpinion
1 source
Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique
46Robotics Business Review 

Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI, startup californienne basée à Palo Alto, a présenté le 6 mai 2026 son modèle fondation GENE-26.5, conçu pour la manipulation robotique dextre bimane à vocation généraliste. La société fondée par Zhou Xian revendique des "capacités de manipulation physique au niveau humain" et annonce simultanément deux composants propriétaires : un moteur de données destiné à lever le plafond de volumétrie d'entraînement, et une main robotique à l'échelle humaine couplée à un gant de capture tactile. Ce gant, équipé d'une peau électronique à capteurs, est conçu pour assurer un mappage 1:1:1 entre le gant, la main humaine et l'effecteur robotique, réduisant la perte de fidélité dans le transfert de compétences téléopérées. Pour illustrer les capacités de GENE-26.5, Genesis AI a publié une vidéo montrant un robot réaliser une séquence de cuisson en 20 étapes (découpe de tomates, cassage d'œuf d'une main, coordination bimane), préparer un smoothie avec service en plein air, exécuter des expériences de laboratoire incluant pipetage et transfert de liquides, câbler des faisceaux électroniques, résoudre un Rubik's Cube en manipulation aérienne, saisir simultanément quatre objets de tailles variables, et jouer du piano. Genesis AI était sortie de stealth en 2025 avec 105 millions de dollars de financement. L'enjeu industriel de cette annonce se situe à deux niveaux distincts. Le moteur de données propriétaire cible le principal frein aux modèles de fondation en robotique : l'absence de données de manipulation dextre à grande échelle et haute fidélité. Le gant tactile cherche à résoudre l'embodiment gap, soit la discontinuité morphologique entre effecteur robotique et main humaine qui dégrade le transfert de compétences. Si le mappage 1:1:1 annoncé tient en production, il ouvrirait la voie à une scalabilité des données de téléopération rarement atteinte dans les systèmes actuels. Il convient toutefois de tempérer : les démonstrations présentées sont des vidéos produites et sélectionnées par l'entreprise elle-même. Aucun benchmark indépendant, aucun taux de succès en environnement industriel non contrôlé n'est communiqué. Les affirmations de performance "au niveau humain" émanent exclusivement de Genesis AI et d'Eric Schmidt, ex-PDG de Google et investisseur dans la société. Genesis AI évolue dans un segment en pleine consolidation. Sur le terrain des modèles de fondation pour la manipulation, elle affronte Physical Intelligence (Pi-0, Pi-0.5, Pi-1, San Francisco), Nvidia avec GR00T N2 lancé en novembre 2024, et Figure AI dont la plateforme Figure 03 progresse vers le déploiement industriel chez BMW. La différenciation de Genesis AI porte sur la verticalisation hardware-software : là où Physical Intelligence s'appuie sur du matériel tiers, Genesis AI contrôle à la fois le modèle et l'effecteur. L'entreprise n'a communiqué aucun calendrier de déploiement commercial précis ni partenariat industriel signé. La prochaine étape observable sera de vérifier si les performances démontrées en vidéo se traduisent en métriques reproductibles dans des environnements réels, hors conditions de studio.

IA physiqueOpinion
1 source
Atlas de Boston Dynamics épate avec un appui tendu renversé parfait
47Interesting Engineering 

Atlas de Boston Dynamics épate avec un appui tendu renversé parfait

Boston Dynamics a publié de nouvelles séquences de test montrant son robot humanoïde Atlas enchaîner une série de figures acrobatiques avancées : passage d'une posture debout vers un équilibre sur une jambe, descente des mains au sol, puis montée en poirier complet avec rotation des jambes à 180 degrés grâce à des épaules à mobilité étendue, maintien en L-sit pendant plusieurs secondes, et retour fluide en position verticale. Ces capacités reposent sur un système de contrôle corps entier entraîné par apprentissage par renforcement en simulation, conçu pour un transfert dit "zero-shot" : les politiques apprises en simulation sont déployées directement sur le matériel sans recalibration spécifique à la tâche. La version de production de l'Atlas dispose de 56 degrés de liberté et d'un préhenseur à quatre doigts avec retour haptique. Hyundai Motor Group, maison-mère de Boston Dynamics, a confirmé un déploiement sur le site Hyundai Motor Group Metaplant America d'ici 2028, d'abord pour le séquençage de pièces, puis pour l'assemblage complet de composants à l'horizon 2030. Ce que ces démonstrations valident avant tout, c'est la robustesse du sim-to-real sur des comportements hautement dynamiques : le fait qu'une politique unique gouverne à la fois la locomotion, la manipulation et la récupération après instabilité contredit les architectures traditionnelles en pipeline séparé. Pour les intégrateurs industriels et les décideurs B2B, le signal important n'est pas le poirier en lui-même, mais ce qu'il teste : la capacité du stack logiciel à gérer des forces de contact imprévisibles, des transitions posturales rapides et des corrections de couple articulaire en temps réel. C'est exactement ce que requièrent les environnements d'assemblage contraints, où un robot doit adapter sa posture à des espaces réduits et manipuler des pièces à géométrie variable. Cela dit, la prudence s'impose : les vidéos publiées sont sélectionnées et ne renseignent pas sur les taux d'échec, le temps de cycle moyen, ni les conditions environnementales réelles. Boston Dynamics développe Atlas depuis plus d'une décennie, le robot ayant progressivement évolué d'une plateforme hydraulique à un système entièrement électrique présenté en 2024. Cette phase de validation acrobatique, menée en collaboration avec le Robotics & AI Institute, s'inscrit dans la transition explicite de la recherche vers la production industrielle. Sur le marché humanoïde, l'entreprise se positionne face à Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), et NVIDIA/GR00T N2 comme backbone de contrôle, ainsi que 1X, Agility Robotics ou Apptronik pour les applications logistiques. L'ancrage dans l'écosystème Hyundai lui confère un débouché industriel direct que peu de concurrents peuvent revendiquer aujourd'hui. Les prochaines étapes annoncées pointent vers des pilotes terrain chez Hyundai en 2026-2027 avant le déploiement confirmé à grande échelle en 2028.

HumanoïdesOpinion
1 source
AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée
48arXiv cs.RO 

AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée

Une équipe de recherche a publié en mars 2025 sur arXiv les spécifications complètes d'AhaRobot, un manipulateur mobile bimanuel open-source dont le coût matériel total s'élève à 1 000 dollars. Le système repose sur une architecture à deux bras de type SCARA, conçue pour réduire les couples moteurs nécessaires tout en maintenant un large espace de travail vertical. La précision annoncée est de 0,7 mm en répétabilité, obtenue grâce à une compensation de jeu mécanique par double moteur et à une technique de dithering pour neutraliser le frottement statique. L'interface de téléopération associée, RoboPilot, intègre une poignée marqueur à 26 faces qui réduit l'erreur de suivi de 80 % par rapport à une poignée à 6 faces et améliore l'efficacité de collecte de données de 30 %. L'ensemble du code, des fichiers CAO et de la documentation est mis à disposition en accès libre sur aha-robot.github.io. L'enjeu central est l'entraînement des modèles VLA (Vision-Language-Action), tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui exigent des volumes massifs de données de manipulation réelles et diversifiées. Les plates-formes commerciales équivalentes coûtent généralement entre 20 000 et 100 000 dollars, ce qui limite mécaniquement l'échelle de collecte. À 1 000 dollars par unité, AhaRobot rend théoriquement possible le déploiement de flottes de collecte à faible coût. Les auteurs affirment que la qualité des données est comparable à celle produite par des systèmes de téléopération VR haute gamme, une assertion non encore validée sur des benchmarks standardisés indépendants. La précision de 0,7 mm reste cependant un chiffre solide pour ce niveau de coût. Le projet s'inscrit dans un mouvement plus large de démocratisation du hardware robotique open-source, aux côtés de LeRobot, l'initiative de la société française HuggingFace, et du Low Cost Robot d'Alexander Koch. La conception SCARA bimanuelle fait un compromis délibéré entre dextérité et coût, en abaissant les exigences en couple pour utiliser des actionneurs moins chers. À ce stade, il s'agit d'un preprint de recherche sans déploiement industriel ni pilote commercial annoncé : la prochaine étape naturelle serait une reprise par des laboratoires académiques pour valider l'imitation learning sur des tâches bimanuelles complexes en conditions réelles, et mesurer si l'avantage coût se maintient à l'échelle.

UELa démocratisation du hardware robotique open-source profite aux laboratoires académiques européens aux budgets contraints, dans la continuité de l'initiative LeRobot portée par HuggingFace, entreprise française, qui milite pour les mêmes standards ouverts de collecte de données pour les modèles VLA.

RecherchePaper
1 source
Sécurité de l'IA incarnée : panorama des risques, attaques et défenses
49arXiv cs.RO 

Sécurité de l'IA incarnée : panorama des risques, attaques et défenses

Une équipe de chercheurs a publié fin avril 2026 sur arXiv (identifiant 2605.02900) une revue systématique de la sécurité dans l'IA incarnée (embodied AI), couvrant plus de 400 articles académiques. Le périmètre s'étend à l'ensemble du pipeline d'un agent physique : perception sensorielle, cognition, planification, exécution d'actions et interactions humain-robot. La taxonomie proposée organise les menaces en quatre grandes familles d'attaques (adversariales, backdoor, jailbreak, matérielles) et trois axes de défense (détection d'attaques, entraînement robuste, inférence sûre). Les domaines d'application ciblés incluent la conduite autonome, la robotique industrielle et d'assistance, ainsi que les applications médicales, tous caractérisés par des conséquences physiques directes en cas de défaillance. Ce travail pointe trois angles morts particulièrement préoccupants pour les intégrateurs et les équipes produit. D'abord, la fragilité de la fusion multimodale : combiner vision, LiDAR et langage amplifie les surfaces d'attaque plutôt que de les réduire, contrairement à l'hypothèse dominante de redondance. Ensuite, l'instabilité de la planification sous attaque jailbreak : les modèles vision-langage-action (VLA) comme Pi-0 ou GR00T N2, de plus en plus déployés dans des systèmes humanoïdes, restent vulnérables à des injections de prompt qui court-circuitent les contraintes de sécurité définies au niveau applicatif. Enfin, la confiance dans les interactions en monde ouvert demeure non résolue dès que le scénario sort des conditions de laboratoire, ce qui est précisément le cas des déploiements industriels réels. Le contexte est celui d'une accélération brutale du déploiement d'agents physiques autonomes depuis 2024, portée par des acteurs comme Figure AI, Boston Dynamics, 1X Technologies, Apptronik et des labos publics (Stanford, CMU, ETH Zurich). L'absence d'un cadre de sécurité unifié est jusqu'ici restée dans l'angle mort de la course aux performances : les benchmarks sectoriels mesurent la dextérité et le sim-to-real transfer, rarement la robustesse face à un adversaire actif. Ce survey constitue un premier référentiel structuré ; il ne propose pas de solution clé en main mais identifie les briques manquantes, notamment les protocoles d'évaluation standardisés pour les attaques sur hardware embarqué et les mécanismes de contrôle d'intégrité des VLA en production.

UELes acteurs européens déployant des VLA (dont ETH Zurich, contributeur cité) et soumis à l'AI Act, qui classe les applications médicales et industrielles en systèmes à haut risque, devront intégrer les protocoles d'évaluation de robustesse adversariale identifiés comme manquants par ce survey.

RechercheOpinion
1 source
Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire
50arXiv cs.RO 

Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire

Des chercheurs ont publié le 6 mai 2026 sur arXiv (référence 2605.03363) un framework de contrôle hiérarchique hybride pour la préhension dextre réactive. L'architecture sépare explicitement deux niveaux d'exécution : un planificateur haut niveau basé sur du multi-agent RL, avec deux agents spécialisés distincts (un pour le bras, un pour la main), qui génère des commandes de vitesse en espace tâche; et un contrôleur bas niveau de programmation quadratique (QP) parallélisé sur GPU, qui traduit ces commandes en vitesses articulaires tout en respectant strictement les limites cinématiques et en assurant l'évitement de collisions. Le système a été validé sur matériel réel, avec un bras 7-DOF équipé d'une main anthropomorphique 20-DOF, en démontrant un transfert zero-shot depuis la simulation vers des objets non vus pendant l'entraînement, dans des environnements non structurés. La contribution principale n'est pas seulement la performance de saisie : c'est la propriété de "zero-shot steerability", c'est-à-dire la capacité d'un opérateur à ajuster dynamiquement les marges de sécurité ou à contourner des obstacles imprévus sans réentraîner la politique. Pour un intégrateur industriel, cela change radicalement le calcul de déploiement : les approches end-to-end classiques (VLA inclus) nécessitent typiquement un fine-tuning coûteux pour chaque variation d'environnement. Ici, la séparation structurelle entre planification et exécution permet d'injecter des contraintes nouvelles au niveau du QP sans toucher à la politique RL, ce qui accélère aussi la convergence en entraînement. La robustesse aux perturbations physiques imprévues, démontrée en conditions réelles, renforce la crédibilité du pipeline sim-to-real. Ce travail s'inscrit dans un mouvement de recherche qui cherche à dépasser les architectures purement end-to-end pour la manipulation dextre, en réintroduisant des couches de contrôle classiques (QP, contraintes cinématiques) comme fondation sûre sous une politique apprise. Des approches similaires émergent chez des équipes comme Physical Intelligence (Pi-0), Figure AI (Figure 03) ou 1X Technologies, qui combinent toutes apprentissage et contrôle structuré. La prochaine étape naturelle pour ce type de framework sera la validation sur des tâches d'assemblage industriel avec variabilité de forme et de matière, ainsi que l'extension à des mains à plus haute densité de capteurs pour fermer la boucle tactile.

IA physiquePaper
1 source