Aller au contenu principal

Dossier Physical Intelligence — π0 — page 5

339 articles · page 5 sur 7

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation
201Pandaily Chine/AsieOpinion

Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation

Moore Threads et Guangyun Intelligence ont annoncé un partenariat stratégique, selon le média financier chinois IPO Zaozhidao. L'accord associe les GPU polyvalents de Moore Threads et son cluster de calcul intelligent Kua'e à la plateforme de simulation propriétaire de Guangyun Intelligence, articulée autour d'une approche intégrée "solve-measure-generate" (résolution, mesure, génération). L'objectif commun est de produire à grande échelle des données synthétiques haute-confiance pour le développement de l'IA incarnée (embodied AI). Aucun chiffre de volume de données, de puissance de calcul déployée ni de tarification n'a été communiqué dans l'annonce. Ce partenariat cible un verrou structurel de la robotique humanoïde : la rareté des données physiques réelles, leur coût de collecte, la couverture insuffisante des scénarios, et la difficulté à reproduire de façon stable des processus physiques complexes lors des campagnes de collecte sur robot réel. La synthèse de données de haute qualité s'impose comme voie de contournement, mais elle se heurte à des besoins en calcul en croissance exponentielle liés à l'explosion combinatoire du rendu. Le pipeline proposé, de la trajectoire réelle à la modélisation en simulation puis à l'augmentation de données, ambitionne notamment de résoudre la simulation physique de la préhension de corps souples (flexible body grasping), un défi technique clé pour les applications de manipulation industrielle. L'annonce s'inscrit dans la course chinoise à la souveraineté en IA physique. Moore Threads, fondé en 2020, positionne ses GPU comme alternative domestique aux puces Nvidia dans un contexte de restrictions américaines à l'exportation. Guangyun Intelligence se spécialise dans la simulation pour la robotique incarnée. Ce type de boucle fermée entre calcul souverain et production de données synthétiques robotiques trouve des équivalents directs dans l'écosystème occidental, notamment NVIDIA Isaac Sim, la plateforme open-source Genesis, ou les pipelines internes de Figure AI et Physical Intelligence. La portée réelle de ce partenariat reste à démontrer : l'annonce relève du cadre stratégique, sans déploiement documenté ni résultat public à ce stade.

1 source
BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux
202arXiv cs.RO 

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

Une équipe de chercheurs a publié sur arXiv en mai 2026 (arXiv:2605.08571) un cadre théorique baptisé BEACON -- acronyme de Best-Effort Adaptation for Cross-Domain Co-Training -- destiné à entraîner des politiques robotiques génératives lorsque les données dans le domaine cible sont rares. L'approche repose sur un mécanisme de pondération par importance : plutôt que de mélanger naïvement des démonstrations provenant de domaines sources abondants (simulation, autres environnements) avec un faible nombre de démonstrations réelles, BEACON apprend simultanément une politique visuomotrice basée sur la diffusion et des poids par échantillon source qui minimisent une fonction objectif garantissant la généralisation sur le domaine cible. Pour rendre cela praticable sur des séquences de haute dimension, les auteurs développent des estimateurs de divergence à l'échelle de l'instance, des mises à jour alternées stochastiques, et une extension multi-sources capable de pondérer des domaines sources hétérogènes. L'enjeu est directement lié au problème du sim-to-real gap, l'un des verrous principaux de la robotique de manipulation : collecter des démonstrations téléopérées dans le monde réel reste coûteux et lent, tandis que la simulation génère des données à bas coût mais au prix d'un écart de distribution souvent fatal au déploiement. BEACON montrerait, selon les auteurs, des gains de robustesse et d'efficacité de données par rapport à trois baselines majeures -- entraînement sur cibles seules, co-entraînement à ratio fixe, et alignement de features explicite -- dans des configurations sim-to-sim, sim-to-real et manipulation multi-sources. Le résultat le plus contre-intuitif est qu'en l'absence de tout objectif d'alignement explicite, BEACON produit néanmoins un alignement de représentations comme effet émergent de la pondération par divergence. Les auteurs ne fournissent pas de taux de réussite précis dans l'abstract, ce qui limite la comparaison directe avec des benchmarks publiés. Ce travail s'inscrit dans une vague de recherches sur le transfert de politiques entre domaines, portée notamment par des méthodes comme RoboAgent, DROID, ou les approches VLA (vision-language-action) de Physical Intelligence (Pi-0) et Google DeepMind (GR00T N2), qui cherchent elles aussi à tirer parti de données hétérogènes à grande échelle. Là où ces dernières misent sur des architectures généralistes entraînées sur des corpus massifs, BEACON propose un angle complémentaire et plus frugal : exploiter intelligemment des sources existantes sans disposer de millions de démonstrations. Le code et les expériences n'étant pas encore publics, il reste à confirmer si les résultats tiennent sur des tâches de manipulation réelle complexes hors du cadre contrôlé des évaluations présentées.

RechercheOpinion
1 source
BioProVLA-Agent : système multi-agents incarné avec VLA et raisonnement en boucle fermée en laboratoire biologique
203arXiv cs.RO 

BioProVLA-Agent : système multi-agents incarné avec VLA et raisonnement en boucle fermée en laboratoire biologique

Des chercheurs ont présenté en mai 2026 BioProVLA-Agent (arXiv:2605.07306), un système multi-agents conçu pour automatiser les manipulations en laboratoire biologique humide à coût maîtrisé. L'architecture combine trois modules : un agent LLM qui décompose les protocoles biologiques en sous-tâches vérifiables, un agent de vérification VLM-RAG (Vision-Language Model avec Retrieval-Augmented Generation) qui évalue l'état visuel de la scène entre chaque étape, et un agent VLA (Vision-Language-Action) qui exécute les gestes via une politique légère. Pour robustifier l'exécution face aux difficultés visuelles des labos humides (labware transparent, reflets, surexposition), les auteurs ont développé AugSmolVLA, une stratégie d'augmentation en ligne appliquée au modèle SmolVLA. Évalué sur 15 tâches atomiques (chargement de tubes, tri, vissage de bouchons, versage de liquides), 6 workflows composites et 3 tâches bimanuelles, AugSmolVLA surpasse les baselines ACT, X-VLA et SmolVLA original dans des conditions normales et de forte exposition lumineuse. Le point saillant n'est pas la performance brute mais la boucle fermée de vérification (closed-loop reasoning) : contrairement aux systèmes VLA classiques qui exécutent une instruction en one-shot, BioProVLA-Agent valide chaque sous-étape avant de progresser, ce qui adresse directement le "demo-to-reality gap" bien documenté en robotique manipulatrice. Pour les intégrateurs biotech et les COO de CRO, l'argument clé est l'accessibilité : le système s'appuie sur SmolVLA, un modèle léger open-source, plutôt que sur des LLM propriétaires massifs, réduisant la barrière à l'entrée pour les laboratoires académiques ou mid-size. Cela ouvre une voie crédible vers l'automatisation de tâches manuelles répétitives sans recourir à des équipements dédiés ou des interfaces robotiques propriétaires. Ce travail s'inscrit dans l'extension des modèles VLA, popularisés dans la robotique humanoïde (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA), vers des niches industrielles verticales comme la biologie. L'automatisation laboratoire est déjà dominée par Hamilton Robotics, Tecan et Beckman Coulter sur des workflows figés et des instruments dédiés ; BioProVLA-Agent vise le segment des labos non équipés de systèmes propriétaires. Aucun déploiement opérationnel ni partenariat industriel n'est annoncé : il s'agit d'une preuve de concept académique, évaluée uniquement sur un benchmark contrôlé, non encore validée en conditions de production réelles.

UELes laboratoires académiques et start-ups biotech européens pourraient s'appuyer sur cette approche open-source (SmolVLA) pour démarrer des projets d'automatisation de manipulations biologiques sans équipements propriétaires, mais aucun partenariat ni déploiement européen n'est annoncé.

IA physiqueOpinion
1 source
Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention
204arXiv cs.RO 

Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention

Des chercheurs ont déposé sur arXiv en mai 2026 (arXiv:2605.07560) une méthode visant à exploiter les démonstrations d'échec dans l'apprentissage par imitation pour la robotique. La quasi-totalité des politiques d'imitation sont actuellement entraînées exclusivement sur des démonstrations réussies, bien que la collecte humaine produise inévitablement une proportion significative d'échecs. La méthode proposée apprend des représentations latentes des divergences succès-échec et les intègre dans le mécanisme d'attention du réseau, permettant au système de sélectionner au moment de l'inférence un mode latent adapté à partir de l'observation initiale. Les auteurs introduisent également une métrique post-entraînement qui quantifie la divergence d'attention entre chaque démonstration d'échec et le corpus de succès, afin de filtrer automatiquement les échantillons d'échec réellement bénéfiques à l'apprentissage. L'enjeu est considérable pour les pipelines industriels de collecte de données robotiques : une fraction structurelle des démonstrations humaines sont des échecs, jusqu'ici systématiquement écartés ou nécessitant un traitement manuel coûteux. Les approches existantes pour exploiter ces données s'appuient généralement sur des mises à jour itératives de la politique via des rollouts autonomes, ce qui complique leur intégration stable et directe dans un pipeline de production. Cette méthode opère en revanche directement sur les données brutes collectées sans itérations supplémentaires, ce qui la rend potentiellement plus accessible pour des équipes travaillant en conditions réelles de déploiement. Les résultats en simulation montrent une amélioration des taux de succès par rapport à un entraînement basé uniquement sur des démonstrations réussies, et la métrique proposée identifie correctement les échantillons d'échec dont l'ajout est bénéfique. L'apprentissage par imitation est devenu un paradigme central en robotique manipulatrice, porté par des architectures comme ACT, Diffusion Policy ou pi-0 de Physical Intelligence, et la gestion des données hors-distribution reste un défi ouvert du domaine. Que faire des trajectoires partiellement réussies ou des démonstrations ambiguës constitue une question de recherche active, d'autant que les coûts de re-collecte sur robot physique sont prohibitifs à grande échelle. Ce travail s'inscrit dans ce courant sans rupture radicale : les résultats sont limités à la simulation et aucun déploiement sur hardware réel n'est mentionné dans le preprint, ce qui appelle une validation expérimentale indépendante. La prochaine étape naturelle sera la validation sur robots physiques en manipulation dextère, contexte où le taux d'échec lors de la collecte humaine est structurellement élevé et où le gain potentiel d'un tel filtrage automatique serait le plus significatif.

RecherchePaper
1 source
TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable
205arXiv cs.RO 

TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, langage naturel et génération d'actions motrices, butent sur un problème connu : leur incapacité à généraliser à des scènes ou des objets non vus à l'entraînement. Une équipe de chercheurs propose TriRelVLA (arXiv:2605.05714, mai 2026), une architecture qui remplace les représentations visuelles implicites des VLA actuels par une structure relationnelle triadique explicite articulée autour de trois pôles : l'objet manipulé, la main du robot, et la tâche à accomplir. En pratique, le système construit ces représentations triadiques depuis des entrées multimodales, les organise dans un graphe relationnel via un graph transformer, puis compresse la structure dans un espace goulot (bottleneck) avant de l'injecter dans le LLM pour la prédiction d'action. Les auteurs introduisent également un jeu de données robotiques en environnement réel pour le fine-tuning et rapportent des gains en généralisation inter-scènes, inter-objets et inter-tâches. L'enjeu pour les intégrateurs industriels est direct : un système de manipulation qui échoue dès que la lumière change ou qu'une nouvelle référence produit apparaît n'est pas déployable à l'échelle. En découplant la structure relationnelle action-pertinente de l'apparence visuelle brute, TriRelVLA vise à rendre les politiques de contrôle portables entre environnements et configurations. La compression en espace bottleneck force le modèle à abstraire plutôt qu'à mémoriser, une approche qui, si elle tient à l'échelle, réduirait significativement les coûts de redéploiement dans de nouveaux ateliers ou avec de nouvelles références produit. Ce travail s'inscrit dans une vague de recherches sur les représentations structurées pour VLA, après des approches qui objectifiaient le contenu visuel sans capturer les relations pertinentes pour l'action. Les concurrents directs incluent pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), RT-2 et sa suite chez Google DeepMind, et GR00T N2 de NVIDIA, qui partagent tous le même défaut de sensibilité visuelle que TriRelVLA cherche à corriger. Ce papier reste un preprint non relu par les pairs, et les gains en généralisation annoncés n'ont pas encore été reproduits de manière indépendante. La mise à disposition du jeu de données réel représente la prochaine étape clé pour que la communauté puisse valider ces résultats.

IA physiqueOpinion
1 source
Correspondance de flux action-à-action
206arXiv cs.RO 

Correspondance de flux action-à-action

Des chercheurs proposent dans un preprint arXiv (arXiv:2506.07322v2, mis à jour en 2026) une nouvelle architecture de politique robotique baptisée A2A (Action-to-Action Flow Matching), qui remplace le point de départ aléatoire habituel des modèles de diffusion par une initialisation ancrée dans l'action proprioceptive précédente du robot. Concrètement, au lieu de générer une trajectoire d'action à partir d'un bruit gaussien pur, A2A encode une séquence d'états proprioceptifs historiques (positions articulaires, vitesses, couples) dans un espace latent de haute dimension, et utilise ce vecteur comme point de départ du processus de flow matching. Le résultat le plus saillant : A2A produit des actions de haute qualité en une seule étape d'inférence, contre plusieurs dizaines d'étapes pour les politiques par diffusion standard, ce qui réduit drastiquement la latence au moment de l'exécution. Les auteurs rapportent également une meilleure robustesse aux perturbations visuelles (changements d'éclairage, objets parasites) et une généralisation supérieure à des configurations non vues durant l'entraînement. L'enjeu industriel est direct : la latence d'inférence est l'un des principaux verrous à l'adoption des politiques diffusion pour le contrôle temps-réel sur des manipulateurs ou des humanoïdes. Les architectures comme Diffusion Policy (Chi et al., 2023) ou Pi-0 de Physical Intelligence ont démontré une expressivité remarquable, mais leur coût computationnel par pas de contrôle reste prohibitif à haute fréquence. En ramenant l'inférence à un seul pas, A2A ouvre la voie à des boucles de contrôle plus rapides sans sacrifier la qualité des trajectoires, une contrainte particulièrement critique pour les tâches de manipulation dextre ou les robots mobiles en environnement dynamique. Le fait que la méthode tire parti de la continuité temporelle du mouvement, plutôt que de l'ignorer comme une condition statique, représente un changement de paradigme dans la modélisation des politiques robotiques. A2A s'inscrit dans la continuité des travaux sur le flow matching (Lipman et al., 2022), une alternative au processus de diffusion de Langevin qui permet des trajectoires plus droites dans l'espace latent et donc moins d'étapes d'intégration. Les politiques par diffusion pour la robotique ont émergé comme standard de facto entre 2023 et 2025, portées par des travaux comme ACT, Diffusion Policy et plus récemment GR00T N2 de NVIDIA ou Pi-0. A2A se positionne comme une optimisation d'inférence sur ce paradigme plutôt qu'une rupture architecturale. Les auteurs étendent également la méthode à la génération vidéo, suggérant une applicabilité au-delà du contrôle moteur pur. Le projet dispose d'un site public, mais aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'une contribution académique à valider sur des benchmarks plus larges avant toute intégration en production.

RechercheOpinion
1 source
Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde
207arXiv cs.RO 

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Des chercheurs présentent sur arXiv (2605.06222) une méthode d'exécution adaptative pour les World Action Models (WAMs), une famille d'architectures de manipulation robotique qui prédisent simultanément les observations visuelles futures et les séquences d'actions à exécuter. Le problème structurel de ces systèmes est qu'ils exécutent un nombre fixe d'actions prédites après chaque inférence, sans vérifier si le déroulé physique réel correspond à l'état "imaginé" par le modèle. Pour y remédier, les auteurs proposent FFDC (Future Forward Dynamics Causal Attention), un vérificateur léger qui croise en temps réel les actions prédites, la dynamique visuelle anticipée, les observations caméra actuelles et les instructions en langage naturel, pour décider si le plan reste valide ou s'il faut déclencher une nouvelle inférence plus tôt. Ce module est couplé à une stratégie d'entraînement baptisée Mixture-of-Horizon Training, conçue pour améliorer la couverture des trajectoires longues. Sur le benchmark RoboTwin, FFDC réduit le nombre de passes avant du modèle de 69,10 % et le temps d'exécution de 34,02 %, avec un taux de succès en hausse de 2,54 % par rapport à une baseline à chunk court. En conditions réelles, le gain atteint 35 % de succès supplémentaire, bien que le nombre d'essais et les tâches testées ne soient pas précisés dans ce préprint. L'apport principal est de résoudre un compromis structurel qui freine le déploiement industriel des robots manipulateurs : réinférer fréquemment est réactif mais coûteux en calcul, tandis qu'exécuter de longues séquences prédites est efficace mais aveugle aux imprévus. FFDC introduit une troisième voie, où la taille du chunk d'action devient une variable émergente pilotée par la cohérence entre imagination et réalité. Ce mécanisme est particulièrement critique pour les phases de contact riche, où un décalage millimétrique entre état prédit et état réel suffit à faire échouer une saisie, et représente une avancée concrète vers des WAMs opérationnels hors environnement contrôlé. Les WAMs s'inscrivent dans la dynamique plus large des modèles d'actions visuelles et langagières (VLAs), aux côtés de Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 et ses successeurs chez Google DeepMind. Leur spécificité est d'intégrer explicitement une prédiction de l'état visuel futur pour planifier à plus long horizon. Ce préprint, sans affiliation industrielle déclarée, n'est pas encore évalué par les pairs. La prochaine étape naturelle serait une validation sur des benchmarks standardisés plus larges et des pilotes en environnement industriel non structuré.

IA physiqueOpinion
1 source
Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain
208Interesting Engineering 

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain

Genesis AI a dévoilé GENE-26.5, un modèle d'intelligence artificielle qualifié de "cerveau robotique" par l'entreprise, conçu pour doter les robots polyvalents d'une dextérité comparable à celle de l'être humain dans l'exécution de tâches physiques complexes. Le système repose sur une architecture VLA (vision-language-action) : il ingère des flux vidéo issus de caméras embarquées, interprète des instructions en langage naturel et génère directement des commandes motrices de bas niveau, sans pipeline modulaire intermédiaire. Selon Genesis AI, GENE-26.5 permet d'exécuter des séquences de manipulation multi-étapes (saisie, tri, assemblage, adaptation aux variations d'environnement) et fonctionnerait sur plusieurs types de plateformes matérielles sans être lié à une configuration d'actionneurs spécifique. L'entreprise n'a toutefois publié aucun benchmark indépendant ni aucune étude évaluée par les pairs : les performances annoncées reposent exclusivement sur des évaluations internes. La composition et le volume du dataset d'entraînement, probablement issu de sessions de télé-opération humaine et de simulations à grande échelle, n'ont pas été divulgués. L'enjeu de cette annonce dépasse le seul modèle. Le véritable goulot d'étranglement dans le développement des robots polyvalents n'est plus mécanique mais logiciel, et plus précisément la capacité des politiques de contrôle à transférer de la simulation au monde réel (le "sim-to-real gap"). Une architecture VLA end-to-end présente un avantage théorique : la perception et l'action étant couplées dans un même réseau de neurones, le robot peut ajuster sa trajectoire de préhension en temps réel sans attendre un module de planification séparé. Ce couplage comporte toutefois un risque structurel, les erreurs de perception se propageant directement aux commandes motrices sans point de contrôle intermédiaire. Si la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle réduirait significativement les barrières à l'entrée pour les intégrateurs et les startups robotiques qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux, déplaçant la différenciation concurrentielle vers la qualité matérielle et le fine-tuning applicatif. L'annonce intervient dans un contexte de compétition accélérée sur le marché des robots à usage général. Des acteurs américains comme Figure (Figure 03), Agility Robotics ou Apptronik, ainsi que les équipes Optimus de Tesla et les laboratoires de Physical Intelligence (Pi-0) ou de NVIDIA (GR00T N2), visent des volumes de production de l'ordre de 100 000 unités d'ici 2027. La dextérité manuelle reste l'un des problèmes les plus ouverts du domaine : la main humaine mobilise environ 27 os et plus de 30 muscles pour des gestes que les robots ne reproduisent encore qu'approximativement. Genesis AI n'a annoncé ni partenaire matériel, ni calendrier de déploiement commercial, ni conditions de licence pour GENE-26.5. L'affirmation d'une dextérité "au niveau humain" constitue une revendication forte que le secteur attendra de voir confirmer par des données de terrain réelles, hors conditions de démonstration contrôlées.

UESi la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle pourrait réduire les barrières à l'entrée pour les startups et intégrateurs robotiques européens qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux.

IA physiqueOpinion
1 source
AnyPos : des actions automatisées indépendantes de la tâche pour la manipulation bimanuele
209arXiv cs.RO 

AnyPos : des actions automatisées indépendantes de la tâche pour la manipulation bimanuele

Une équipe de chercheurs a publié sur arXiv (référence 2507.12768) AnyPos, un pipeline d'apprentissage automatisé conçu pour la manipulation bimane généraliste. Le système repose sur un principe de modélisation dite "task-agnostic" : au lieu d'entraîner le robot sur des trajectoires liées à des tâches précises, AnyPos génère à grande échelle des paires image-action indépendantes couvrant l'ensemble de l'espace de travail atteignable. Ces données alimentent un apprentissage par dynamique inverse, combinant un décodeur directionnel et une séparation explicite entre les mouvements du bras et de l'effecteur terminal, pour stabiliser les prédictions en dehors de la distribution d'entraînement. Testée sur cinq tâches domestiques (actionner un micro-ondes, griller du pain, plier des vêtements, arroser des plantes, frotter des assiettes), l'approche améliore les taux de réussite de 30 à 40% par rapport aux baselines de référence, avec un gain de 51% en précision sur les évaluations test. Ce résultat pointe un problème structurel du secteur : la rareté des données de manipulation robotique et leur entanglement avec une plateforme ou une tâche spécifique. La plupart des politiques visuomotrices actuelles, qu'il s'agisse de VLA (vision-language-action models) ou de diffusion policies, nécessitent des données séquentielles coûteuses à collecter et quasiment non transférables entre robots. En découplant la modélisation de l'embodiment de l'apprentissage de politique de haut niveau, AnyPos propose une réutilisation des données d'action cross-tâches et cross-plateformes, sans modèle physique explicite ni simulation intensive. L'argument est directement dirigé contre le "sim-to-real gap" : les représentations sont ici apprises depuis des données réelles générées automatiquement à grande échelle, contournant les biais de simulation. L'approche rejoint une tendance récente consistant à séparer embodiment modeling et politique de haut niveau, visible chez Physical Intelligence (modèle pi0), Figure AI ou 1X Technologies. Elle se distingue par son refus de la télé-opération intensive ou de la simulation massive, préférant une exploration automatisée du workspace réel. Le pipeline est conçu pour se coupler à des modèles de politique existants, le positionnant potentiellement comme une couche de préentraînement réutilisable et échangeable. L'article ne mentionne ni déploiement industriel, ni partenariat commercial : AnyPos reste à ce stade une contribution de recherche académique, sans timeline de mise en production annoncée.

RechercheOpinion
1 source
Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé
210arXiv cs.RO 

Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé

Une équipe de chercheurs propose Adaptive Humanoid Control (AHC), un framework de contrôle locomoteur pour humanoïdes publié sur arXiv (2511.06371v3). Le problème de départ est structurel : les méthodes dominantes entraînent une politique séparée pour chaque compétence (se relever, marcher, courir, sauter), générant des contrôleurs rigides qui échouent dès que le terrain devient irrégulier. AHC y répond en deux phases : d'abord, plusieurs politiques primaires sont entraînées puis fusionnées par distillation multi-comportements en un contrôleur unique capable de commuter dynamiquement selon le contexte ; ensuite, un affinage par renforcement avec retours en ligne consolide l'adaptabilité sur terrains variés. Le système est validé en simulation et en conditions réelles sur le robot Unitree G1 d'Unitree Robotics. Pour les intégrateurs et les décideurs industriels, la promesse est concrète : un seul contrôleur couvrant l'ensemble des comportements locomoteurs réduit la complexité opérationnelle et supprime les transitions manuelles entre modes. Du côté de la recherche, le résultat le plus notable est que la distillation combinée à un fine-tuning par RL en ligne permet de réduire partiellement le sim-to-real gap sans ré-entraînement complet. La réserve à formuler : le papier ne publie pas de métriques quantitatives détaillées (taux de succès par terrain, fréquence de chute), ce qui rend difficile la comparaison objective avec d'autres approches. Le Unitree G1 (1,27 m, environ 35 kg, 16 000 dollars) est devenu depuis 2024 une plateforme de recherche de référence pour ce type de travaux. AHC s'inscrit dans une compétition internationale où Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure (Helix) et Boston Dynamics cherchent tous à produire des politiques locomotrices généralisables hors environnement contrôlé. L'approche par distillation multi-politiques rappelle les travaux de curriculum learning menés à Berkeley et CMU, et l'affinage par RL en ligne emprunte aux méthodologies RLHF adaptées à la robotique physique. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé ; le projet en est au stade de la démonstration académique.

RecherchePaper
1 source
Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique
211Robotics Business Review 

Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI, startup californienne fondée par Zhou Xian et basée à San Carlos, a dévoilé GENE-26.5, un modèle fondamental d'IA conçu pour la manipulation robotique dextre bimanuelle. Sortie de stealth l'an dernier avec une levée de 105 millions de dollars, l'entreprise annonce avoir résolu le principal verrou du secteur : le manque de données d'entraînement pour les tâches à haute dextérité. GENE-26.5 repose sur deux composants propriétaires : un moteur de données à grande échelle et une main robotique dimensionnée à l'échelle humaine, couplée à un gant de collecte doté d'une peau électronique tactile. Ce gant permet une correspondance 1:1:1 entre la main du démonstrateur, le gant et l'effecteur robotique, facilitant le transfert direct de compétences humaines vers le robot sans recodage. Pour illustrer les capacités du modèle, Genesis AI a publié des vidéos montrant la réalisation d'une recette en 20 étapes (découpe de tomates, cassage d'oeuf à une seule main, coordination bimanuelle), la préparation d'un smoothie avec service en vol, des expériences de laboratoire impliquant pipetage et transferts de liquides, du câblage de faisceaux électriques, la résolution d'un Rubik's Cube en manipulation aérienne, la préhension simultanée de quatre objets de tailles différentes, et l'interprétation d'une composition pianistique complexe. L'enjeu industriel est direct : le câblage de faisceaux électriques, désigné par l'entreprise comme "l'une des tâches les plus difficiles en électronique", représente des milliers de postes non automatisés dans les secteurs automobile et aérospatial, faute de robots capables de gérer la variabilité géométrique des fils. Si les performances démontrées se confirment hors conditions de laboratoire contrôlées - ce que des vidéos promotionnelles soigneusement sélectionnées ne permettent pas d'établir -, cela ouvrirait un marché significatif pour les intégrateurs cherchant à robotiser des tâches à haute variabilité morphologique. L'approche de Genesis AI vise à combler l'"embodiment gap" : l'écart de morphologie entre humain et robot qui a historiquement limité l'efficacité des modèles entraînés sur données humaines. L'investissement d'Eric Schmidt, ex-PDG de Google, dans la société souligne l'intérêt stratégique croissant pour ce segment au-delà du seul milieu robotique. Genesis AI s'inscrit dans une course à la manipulation dextre où plusieurs acteurs avancent en parallèle : Physical Intelligence avec son modèle Pi-0, Sanctuary AI et les équipes manipulation de Figure (Figure 03) et Tesla (Optimus Gen 3) développent également des architectures de type VLA (Vision-Language-Action) pour le contrôle fin des effecteurs. Genesis AI se distingue en concentrant son offre exclusivement sur la main et la manipulation bimanuelles, sans plateforme humanoide annoncée à ce stade. Le communiqué reste toutefois vague sur les suites opérationnelles : aucun pilote industriel nommé, aucune timeline de déploiement ni tarification n'est communiqué, ce qui place cette annonce clairement du côté de la démonstration technologique plutôt que du produit commercialisé.

IA physiqueOpinion
1 source
Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique
212Robotics Business Review 

Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI, startup californienne basée à Palo Alto, a présenté le 6 mai 2026 son modèle fondation GENE-26.5, conçu pour la manipulation robotique dextre bimane à vocation généraliste. La société fondée par Zhou Xian revendique des "capacités de manipulation physique au niveau humain" et annonce simultanément deux composants propriétaires : un moteur de données destiné à lever le plafond de volumétrie d'entraînement, et une main robotique à l'échelle humaine couplée à un gant de capture tactile. Ce gant, équipé d'une peau électronique à capteurs, est conçu pour assurer un mappage 1:1:1 entre le gant, la main humaine et l'effecteur robotique, réduisant la perte de fidélité dans le transfert de compétences téléopérées. Pour illustrer les capacités de GENE-26.5, Genesis AI a publié une vidéo montrant un robot réaliser une séquence de cuisson en 20 étapes (découpe de tomates, cassage d'œuf d'une main, coordination bimane), préparer un smoothie avec service en plein air, exécuter des expériences de laboratoire incluant pipetage et transfert de liquides, câbler des faisceaux électroniques, résoudre un Rubik's Cube en manipulation aérienne, saisir simultanément quatre objets de tailles variables, et jouer du piano. Genesis AI était sortie de stealth en 2025 avec 105 millions de dollars de financement. L'enjeu industriel de cette annonce se situe à deux niveaux distincts. Le moteur de données propriétaire cible le principal frein aux modèles de fondation en robotique : l'absence de données de manipulation dextre à grande échelle et haute fidélité. Le gant tactile cherche à résoudre l'embodiment gap, soit la discontinuité morphologique entre effecteur robotique et main humaine qui dégrade le transfert de compétences. Si le mappage 1:1:1 annoncé tient en production, il ouvrirait la voie à une scalabilité des données de téléopération rarement atteinte dans les systèmes actuels. Il convient toutefois de tempérer : les démonstrations présentées sont des vidéos produites et sélectionnées par l'entreprise elle-même. Aucun benchmark indépendant, aucun taux de succès en environnement industriel non contrôlé n'est communiqué. Les affirmations de performance "au niveau humain" émanent exclusivement de Genesis AI et d'Eric Schmidt, ex-PDG de Google et investisseur dans la société. Genesis AI évolue dans un segment en pleine consolidation. Sur le terrain des modèles de fondation pour la manipulation, elle affronte Physical Intelligence (Pi-0, Pi-0.5, Pi-1, San Francisco), Nvidia avec GR00T N2 lancé en novembre 2024, et Figure AI dont la plateforme Figure 03 progresse vers le déploiement industriel chez BMW. La différenciation de Genesis AI porte sur la verticalisation hardware-software : là où Physical Intelligence s'appuie sur du matériel tiers, Genesis AI contrôle à la fois le modèle et l'effecteur. L'entreprise n'a communiqué aucun calendrier de déploiement commercial précis ni partenariat industriel signé. La prochaine étape observable sera de vérifier si les performances démontrées en vidéo se traduisent en métriques reproductibles dans des environnements réels, hors conditions de studio.

IA physiqueOpinion
1 source
RLDX-1 : rapport technique
213arXiv cs.RO 

RLDX-1 : rapport technique

Un rapport technique déposé sur arXiv le 6 mai 2026 présente RLDX-1, une politique robotique généraliste conçue pour la manipulation dextre complexe. L'architecture centrale, baptisée Multi-Stream Action Transformer (MSAT), intègre des modalités hétérogènes via des flux spécialisés par modalité couplés à une attention croisée inter-modale (cross-modal joint self-attention). Cette conception cible trois lacunes persistantes des modèles Vision-Langage-Action (VLA) actuels : la conscience du mouvement (motion awareness), la prise de décision avec mémoire contextuelle, et l'intégration de retours sensoriels physiques. Le système combine cette architecture avec des choix de conception système : génération synthétique de données d'entraînement pour les scénarios de manipulation rares, procédures d'apprentissage spécialisées pour un geste proche du mouvement humain, et optimisations d'inférence pour le déploiement temps réel. Sur le benchmark ALLEX, conçu pour évaluer le contrôle de robots humanoïdes à haut degré de liberté (DoF) sous des exigences fonctionnelles variées, RLDX-1 atteint un taux de succès de 86,8 % contre environ 40 % pour π0.5 (Physical Intelligence) et GR00T N1.6 (NVIDIA), soit un écart de plus de 45 points. Ces résultats, obtenus à la fois en simulation et sur des tâches en environnement réel, indiquent que l'architecture MSAT surpasse les VLA de référence sur des tâches impliquant des contacts riches, des dynamiques rapides et des contraintes sensorimotrices multiples. C'est précisément sur ce segment -- la manipulation dextre en conditions réelles, pas en démonstration contrôlée -- que le fossé entre recherche et déploiement industriel reste le plus large, et que ces chiffres méritent une validation indépendante avant d'être pris au pied de la lettre. Les VLA ont connu une accélération marquée depuis 2024, portés par RT-2 (Google DeepMind), OpenVLA, puis la série π0/π0.5 de Physical Intelligence et la famille GR00T de NVIDIA. RLDX-1 s'inscrit dans cette dynamique en cherchant à dépasser le paradigme "versatilité générale" pour cibler des capacités fonctionnelles élargies sur des robots humanoïdes haute-DoF. Aucune affiliation institutionnelle ou entreprise n'est clairement identifiée dans l'abstract publié -- le rapport reste à ce stade un preprint non revu par les pairs, sans annonce de déploiement ni calendrier de commercialisation. Les étapes naturelles suivantes incluront une validation indépendante des benchmarks et une évaluation sur des plateformes humanoïdes commerciales comme celles de Figure, Unitree ou Agility Robotics.

IA physiqueOpinion
1 source
Préhension indépendante du point de vue par VLM et observations partielles
214arXiv cs.RO 

Préhension indépendante du point de vue par VLM et observations partielles

Des chercheurs ont publié sur arXiv (arXiv:2603.07866v2) un pipeline de saisie robotique guidé par le langage naturel, conçu pour fonctionner dans des environnements encombrés avec des observations partielles. Le système prend en entrée une commande textuelle en langage libre, localise l'objet cible dans l'image RGB via détection open-vocabulary et segmentation d'instance, puis extrait un nuage de points centré sur l'objet à partir de données RGB-D. Pour compenser les zones occultées, le pipeline applique une compensation de profondeur par back-projection et une complétion du nuage de points en deux étapes. Il génère ensuite des candidats de saisie à 6 degrés de liberté (6-DoF), les filtre pour éviter les collisions, et sélectionne la saisie finale via des heuristiques orientées sécurité tenant compte de l'accessibilité, de la faisabilité d'approche et des dégagements. Évalué sur un robot quadrupède équipé d'un bras manipulateur, le pipeline atteint un taux de succès global de 90 % (9 saisies sur 10) contre 30 % (3/10) pour la baseline dépendante du point de vue, sur deux scénarios de table encombrés. Ce résultat est notable parce qu'il adresse l'un des blocages les plus persistants du manipulation robotique mobile: l'occultation partielle. Les robots humanoïdes et quadrupèdes déployés en entrepôt ou en atelier ne disposent jamais d'une vue complète de la scène. Passer de 30 % à 90 % de succès en conditions réelles de désordre, sans recalibrage de vue, valide l'approche de complétion de nuage de points couplée à la détection open-vocabulary: le système n'a pas besoin de connaître l'objet à l'avance, il le trouve par description textuelle. C'est exactement le type de généralisation que cherchent les intégrateurs industriels pour éviter la reprogrammation à chaque nouveau SKU. Ce travail s'inscrit dans la vague des pipelines VLA (Vision-Language-Action) qui tentent de combler le fossé entre compréhension sémantique et exécution physique fiable. Des approches concurrentes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) visent également la saisie généraliste, mais depuis des plateformes humanoïdes à deux bras. Ici, l'accent est mis sur les robots quadrupèdes à bras unique, segment moins couvert commercialement mais pertinent pour inspection et logistique en terrain semi-structuré. Les auteurs ne mentionnent pas de déploiement industriel immédiat, il s'agit d'un résultat de laboratoire; les prochaines étapes probables incluent des tests sur davantage de catégories d'objets et une évaluation hors table, en environnement ouvert.

IA physiqueOpinion
1 source
BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes
215arXiv cs.RO 

BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes

Une équipe de chercheurs a publié le 6 mai 2026 BifrostUMI (arXiv:2605.03452), un framework de collecte de données sans robot dédié à l'entraînement de politiques visuomotrices full-body pour robots humanoïdes. Le principe : un opérateur humain équipé d'un casque VR léger réalise des démonstrations manuelles, capturées sous forme de trajectoires de points-clés (keypoints) épars, tandis que des caméras montées au niveau des poignets enregistrent simultanément les données visuelles. Ces données multimodales alimentent ensuite un réseau de politique haut niveau qui apprend à prédire les trajectoires futures conditionnées aux features visuelles observées. Un pipeline de retargeting traduit ensuite ces trajectoires sur la morphologie du robot cible, qui les exécute via un contrôleur corps entier (whole-body controller). L'efficacité du framework est validée sur deux scénarios expérimentaux distincts, sans que les auteurs ne précisent les benchmarks quantitatifs de performance (temps de cycle, taux de succès par tâche) dans le résumé disponible. L'enjeu est direct pour quiconque tente de scaler l'entraînement d'humanoïdes : la télé-opération robotique reste le goulot d'étranglement principal de la collecte de données. Elle exige un accès permanent au hardware, un opérateur qualifié, et génère un flux de données lent et coûteux. BifrostUMI découple complètement la phase de démonstration du robot physique, ce qui ouvre la possibilité de collecter des démonstrations en masse, avec n'importe quel opérateur humain, dans n'importe quel environnement, sans mobiliser la plateforme mécanique. C'est précisément le verrou que les acteurs du secteur cherchent à lever : Figure AI, Physical Intelligence (pi) ou Apptronik dépendent tous de pipelines de collecte lents et onéreux. Si le sim-to-real gap reste un défi ouvert, l'approche keypoint avec retargeting propose une voie alternative au full imitation learning vidéo, en s'appuyant sur une représentation compacte et plus robuste aux variations morphologiques entre démonstrateur et robot. BifrostUMI s'inscrit directement dans la lignée de l'Universal Manipulation Interface (UMI) développé par Stanford, qui avait montré qu'un graspeur instrumenté suffit à générer des démonstrations transférables. Les auteurs étendent ce paradigme au corps entier des humanoïdes, un saut de complexité significatif donné le nombre de degrés de liberté à contrôler. Sur le marché, Physical Intelligence mise sur Pi-0 et ses variantes pour des politiques générales entraînées sur données téléopérées, tandis que Boston Dynamics, Unitree et Fourier Intelligence investissent massivement en infrastructure de télé-op. BifrostUMI, en tant que preprint non encore évalué par les pairs, reste une preuve de concept académique, sans déploiement industriel annoncé ni timeline de commercialisation. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés (RoboSuite, DROID) et une validation sur plusieurs morphologies humanoïdes différentes.

IA physiqueOpinion
1 source
Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel
216Robotics Business Review 

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel

Tutor Intelligence a inauguré DF1, sa "Data Factory" installée dans une ancienne manufacture de Watertown, Massachusetts : un parc de 100 robots semi-humanoïdes bimanaux baptisés Sonny, destinés à collecter des données réelles pour entraîner son modèle vision-langage-action (VLA) Ti0. Fondée en 2021 par Josh Gruenstein (CEO) et Alon Kosowsky-Sachs (CTO) issus du MIT-CSAIL, la startup revendique avoir constitué la plus grande infrastructure de ce type aux États-Unis. Elle a levé 34 millions de dollars en Série A en décembre 2025, puis tenu une journée portes ouvertes en avril 2026. Entre 45 et 50 téléopérateurs distants au Mexique et aux Philippines pilotent les robots par téleopération proprioceptive pour leur enseigner des tâches de picking, kitting et préparation de commandes e-commerce. En évaluant simultanément le même comportement sur 100 unités, la détection d'anomalies s'effectue 100 fois plus vite qu'en opération solo : un cas limite normalement visible après 8 heures d'opération sur un robot unique devient détectable en 5 minutes de fonctionnement de la flotte. Une méthode de prétraitement baptisée "velocity normalization" standardise les profils de démonstration entre téléopérateurs pour homogénéiser le corpus d'entraînement. L'enjeu central est de s'affranchir de la dépendance à la simulation, un pari sur la donnée réelle là où la majorité des acteurs humanoïdes s'appuient encore sur des environnements synthétiques pour réduire leurs coûts de collecte. La thèse de Gruenstein est directe : sans équivalent robotique de Wikipédia, le transfert d'intelligence à l'échelle industrielle passe nécessairement par des humains enseignant des machines en conditions réelles. DF1 est conçue comme le premier maillon d'un cycle vertueux, déploiements commerciaux, données à l'échelle, amélioration continue de Ti0. Pour les intégrateurs et décideurs industriels, cette approche ouvre une trajectoire vers un modèle généraliste capable d'absorber de nouvelles tâches sans reprogrammation lourde, précisément le verrou économique du marché actuel. Les performances annoncées restent toutefois auto-déclarées, sans validation indépendante. Tutor Intelligence a émergé du MIT-CSAIL en 2021, avant l'essor commercial des VLA. La startup est membre de la première promotion du Physical AI Fellowship, programme co-animé par AWS, NVIDIA et MassRobotics, qui lui fournit ressources de calcul cloud et expertise technique. Dans un paysage concurrentiel où Physical Intelligence (pi0), Figure, Apptronik et Boston Dynamics développent chacun leurs propres stacks d'entraînement, Tutor se différencie en contrôlant à la fois le hardware d'entraînement (Sonny), la plateforme de téleopération et le modèle VLA, sans dépendre d'une simulation propriétaire. L'objectif déclaré est de lancer le premier déploiement commercial humanoïde généraliste, en alimentant la boucle de données depuis la production réelle pour piloter les itérations suivantes. Les conditions commerciales, les performances comparatives de Ti0 et les éventuels clients pilotes n'ont pas encore été communiqués.

IA physiqueOpinion
1 source
Décomposer et recomposer : inférer de nouvelles compétences robotiques à partir des capacités existantes
217arXiv cs.RO 

Décomposer et recomposer : inférer de nouvelles compétences robotiques à partir des capacités existantes

Une équipe de chercheurs a publié en mai 2025 sur arXiv (identifiant 2605.01448) un framework baptisé "Decompose and Recompose" visant à résoudre la généralisation inter-tâches en manipulation robotique en milieu ouvert. L'approche repose sur des paires compétence-action atomiques comme représentation intermédiaire : le système décompose des démonstrations de tâches connues en alignements interprétables, puis recompose ces compétences pour accomplir des tâches inconnues via un raisonnement compositionnel. Concrètement, la méthode construit une bibliothèque dynamique de démonstrations adaptative, fondée sur une récupération visuo-sémantique couplée aux séquences de compétences produites par un agent planificateur, complétée d'une bibliothèque statique sensible à la couverture pour combler les patterns manquants. Les expériences sont conduites sur le benchmark AGNOSTOS et en environnement réel, avec des résultats de généralisation zero-shot sur des tâches non présentées durant l'entraînement. La généralisation inter-tâches reste l'un des verrous fondamentaux pour déployer des robots manipulateurs polyvalents dans des environnements industriels non structurés. Les approches d'apprentissage en contexte existantes fournissent uniquement des séquences d'actions continues de bas niveau, conduisant les modèles à imiter superficiellement des trajectoires sans extraire de connaissances transférables. "Decompose and Recompose" introduit une couche d'abstraction explicite, les compétences atomiques, qui permet de raisonner sur la composition et l'ordonnancement des actions plutôt que de mémoriser des trajectoires. Pour les intégrateurs et décideurs industriels, cela ouvre une voie pour réduire le volume de démonstrations nécessaires lors du déploiement sur de nouvelles tâches, point de friction majeur dans l'industrialisation de la manipulation apprenante, sans nécessiter aucune mise à jour des paramètres du modèle. Cette recherche s'inscrit dans un courant actif d'apprentissage en contexte appliqué à la robotique, en contrepoint des approches fondées sur des modèles VLA (Vision-Language-Action) massivement entraînés comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les politiques embarquées de Figure et 1X Technologies. Là où ces systèmes misent sur des jeux de données d'entraînement volumineux, "Decompose and Recompose" parie sur le raisonnement compositionnel à l'inférence. Le benchmark AGNOSTOS est conçu spécifiquement pour évaluer la généralisation à des tâches non vues, offrant un cadre plus rigoureux que les benchmarks standards comme RLBench ou MetaWorld. Ce travail en est au stade de preprint, sans annonce de déploiement industriel ni de partenariat commercial associé.

RecherchePaper
1 source
Lucid-XR : un moteur de données en réalité étendue pour la manipulation robotique
218arXiv cs.RO 

Lucid-XR : un moteur de données en réalité étendue pour la manipulation robotique

Une équipe de chercheurs a présenté Lucid-XR, un moteur de données génératif pour produire des données d'entraînement synthétiques multimodales destinées aux robots réels. Publié début mai 2026 sur arXiv (référence 2605.00244), le système repose sur vuer, un environnement de simulation physique web qui s'exécute directement sur un casque de réalité étendue (XR), sans équipement spécialisé. Lucid-XR intègre simulation physique embarquée et retargeting de posture humain-vers-robot : un opérateur pilote un avatar virtuel dont les mouvements sont convertis en trajectoires exploitables par le robot cible. Ces données sont ensuite amplifiées par un pipeline de génération vidéo guidé par la physique, paramétrable via des instructions en langage naturel. Les auteurs démontrent un transfert zéro-shot de politiques visuelles vers des environnements réels non vus lors de l'entraînement, y compris des scènes encombrées et mal éclairées, sur des tâches de manipulation impliquant matières souples, particules non liées (sable, grains) et contacts rigides. Le résultat central est ce transfert zéro-shot : la politique entraînée exclusivement sur données synthétiques opère directement sur robot réel, sans fine-tuning en environnement physique. C'est précisément le "sim-to-real gap" qui bloque le déploiement industriel des politiques d'imitation depuis des années. En rendant la collecte accessible via un casque XR grand public et en augmentant automatiquement le volume de données par génération vidéo, Lucid-XR s'attaque simultanément aux deux goulots d'étranglement classiques des VLA (Vision-Language-Action models) : quantité et diversité des données. La manipulation de matières particulaires reste un cas notoirement difficile pour les approches classiques, ce qui rend ces démonstrations pertinentes, même si les vidéos sélectionnées publiées sur le site projet ne permettent pas d'évaluer le taux d'échec réel. Ce travail entre en concurrence directe avec les moteurs de données synthétiques existants : NVIDIA Isaac Lab pour la simulation, les jeux de données de téléopération massive de Physical Intelligence (Pi-0) ou Google DeepMind (GR00T N2, déployé chez Figure et Agility Robotics). Des initiatives ouvertes comme Open-X Embodiment misent sur la mutualisation de données réelles. La distinction de Lucid-XR est de parier sur l'accessibilité matérielle et l'augmentation par génération vidéo plutôt que sur des fermes de téléopération coûteuses. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication, qui reste pour l'instant une preuve de concept académique sans validation à l'échelle industrielle.

RechercheOpinion
1 source
Being-H0.7 : un modèle du monde-action en perspective égocentrique
219arXiv cs.RO 

Being-H0.7 : un modèle du monde-action en perspective égocentrique

Being-H0.7, un modèle de contrôle robotique publié sur arXiv début mai 2026 (référence 2605.00078), introduit une architecture dite "latent world-action model" pour les politiques robotiques généralisées. Le système repose sur une conception à double branche : une branche "prior" déployable en production, qui infère des états latents à partir de l'observation courante, et une branche "posterior" réservée à l'entraînement, qui enrichit ces états avec des embeddings issus d'observations futures. À l'inférence, seule la branche prior est active, sans génération de frames vidéo. Évalué sur six benchmarks de simulation standard et des tâches en environnement réel, Being-H0.7 atteint des performances à l'état de l'art ou comparables aux meilleurs modèles du moment. Le problème central que résout cette architecture est bien documenté dans la communauté VLA (Visual-Language-Action) : une supervision trop sparse sur les actions pousse les modèles à apprendre des correspondances raccourcies, sans représentation interne des dynamiques physiques, des contacts ni de la progression de la tâche. Les tentatives antérieures d'intégrer des world models au contrôle robotique passaient par la prédiction en espace pixel, ce qui multiplie le coût computationnel à l'entraînement et à l'inférence, et oblige le modèle à modéliser des détails visuels sans valeur pour la décision motrice. Being-H0.7 contourne ce goulot en imposant le raisonnement futur dans un espace latent compact, via des "latent queries" apprises intercalées entre le module de perception et la tête d'action. Le résultat est un modèle qui raisonne comme un world model pendant l'entraînement, mais se déploie avec la latence d'une politique VLA directe. Les VLA généralisés ont connu une accélération significative depuis 2023, portée par RT-2 (Google DeepMind), OpenVLA (UC Berkeley) et Pi-0 (Physical Intelligence). Sur le front des world models appliqués à la robotique, des approches comme Dreamer ou les travaux de NVIDIA autour de GR00T N2 ont exploré la prédiction de trajectoires, au prix d'une complexité d'inférence élevée. Being-H0.7, dont l'affiliation institutionnelle n'est pas précisée dans l'abstract, se positionne dans cet espace avec un compromis différent : intégrer la connaissance du futur sans jamais le générer. Le suffixe "H" suggère un ciblage humanoïde, mais l'absence de métriques opérationnelles détaillées dans la prépublication invite à attendre la version complète avant toute comparaison chiffrée définitive.

RechercheOpinion
1 source
Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes
220arXiv cs.RO 

Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes

Une équipe de chercheurs a déposé le 1er mai 2026 sur arXiv (référence 2605.00416) un cadre d'apprentissage par renforcement appelé Learning While Deploying (LWD), conçu pour améliorer en continu des politiques généralisées de type Vision-Language-Action (VLA) directement en conditions réelles. Le système a été validé sur une flotte de 16 robots à deux bras, engagés sur huit tâches de manipulation en environnement physique, dont le réassort sémantique de produits d'épicerie et des séquences longues de 3 à 5 minutes. Partant d'une politique VLA pré-entraînée hors ligne, LWD collecte les rollouts autonomes et les corrections humaines réalisés sur l'ensemble de la flotte, puis les intègre dans un cycle continu d'amélioration et de redéploiement. Techniquement, le framework combine le Distributional Implicit Value Learning (DIVL), pour une estimation de valeur robuste sur des données hétérogènes à récompense sparse, avec le Q-learning via Adjoint Matching (QAM), adapté aux générateurs d'actions de type flow-based. Au terme de l'accumulation d'expérience de flotte, la politique généraliste unique atteint un taux de succès moyen de 95 %, les gains les plus marqués étant observés sur les tâches longue durée. Ce résultat est significatif non parce qu'il affiche un chiffre élevé, mais parce qu'il démontre que l'écart entre données d'entraînement et déploiement réel peut être réduit par apprentissage continu in situ. Les politiques VLA, de plus en plus utilisées comme backbone généralisé en robotique manipulation, souffrent d'un problème bien identifié : les datasets de démonstration fixes ne capturent ni les variations de distribution rencontrées sur le terrain, ni les pannes rares, ni les corrections opérateur. LWD formalise un pipeline où ces signaux de terrain sont directement réintégrés dans la boucle d'entraînement, sans nécessiter une phase offline séparée. Pour un intégrateur ou un COO industriel, la promesse est concrète : une flotte déployée s'améliore d'elle-même à mesure qu'elle travaille, et les interventions humaines alimentent le modèle plutôt que d'être perdues. Cette publication s'inscrit dans une course active à la post-formation de politiques VLA pour la manipulation robotique. Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et les équipes de Figure AI ou 1X Technologies investissent tous dans des politiques généralisées robustes au transfert réel. Le point de différenciation de LWD est le paradigme fleet-scale : là où la majorité des travaux publiés portent sur un ou deux robots en laboratoire, les auteurs valident leur approche sur 16 unités en parallèle. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné dans le preprint, et les vidéos de démonstration n'ont pas été évaluées de manière indépendante, ce qui invite à traiter ces résultats comme une preuve de concept académique solide plutôt que comme une annonce produit.

RechercheOpinion
1 source
MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence
221arXiv cs.RO 

MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.00475) MSACT, une architecture de contrôle pour la manipulation fine bimanuale à faible latence. Construit sur ACT (Action Chunking with Transformers), le système ajoute un module d'attention spatiale multistage qui extrait des points d'attention 2D stables depuis un encodeur visuel ResNet pré-entraîné, utilisés comme modalité spatiale locale pour la prédiction d'actions. Un objectif d'alignement temporel auto-supervisé compare les séquences d'attention prédites aux caractéristiques visuelles des images futures, réduisant la dérive de localisation sans annotations de points clés. Les expériences ont été conduites sur la plateforme bimanuale ALOHA, en conditions simulées et réelles, en évaluant le taux de succès, la dérive d'attention, la latence d'inférence et la robustesse aux perturbations visuelles. MSACT s'attaque à un trilemme récurrent en robotique d'apprentissage : latence d'inférence basse, stabilité de localisation et efficacité en données sont rarement optimisées simultanément. Les politiques à diffusion (Diffusion Policy) gagnent en expressivité mais pâtissent d'une latence élevée due à l'échantillonnage itératif, incompatible avec le contrôle fin en temps réel. Les approches vision-langage-action (VLA) ou voxel offrent une meilleure généralisation géométrique mais exigent une puissance de calcul et une complexité système nettement supérieures. En greffant une supervision spatiale légère sur ACT, MSACT vise à rester déployable sur systèmes embarqués à ressources limitées. Les résultats annoncés montrent des améliorations en stabilité de localisation et en performance de tâche "dans les conditions testées", formulation prudente signalant que la généralisation reste à démontrer sur une gamme plus large de scénarios. ALOHA, banc de test bimanual développé initialement à Stanford et popularisé par les travaux ACT de Zhao et al. (2023), est devenu une référence académique pour la manipulation fine apprise par imitation. La dérive de localisation sous données limitées reste un obstacle concret au déploiement industriel de bras robotiques appris par démonstration, notamment en assemblage ou conditionnement de précision. Côté compétitif, Physical Intelligence (pi0), Figure AI et 1X Technologies misent sur des architectures VLA plus lourdes visant une généralisabilité plus large ; MSACT propose une voie complémentaire, plus légère, pour les contextes où la latence est critique. Ce preprint n'a pas encore été soumis à revue par les pairs, et aucun déploiement ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper
1 source
L'art de traverser le gouffre : quand une startup est-elle prête pour l'adoption par les entreprises ?
222Robotics Business Review 

L'art de traverser le gouffre : quand une startup est-elle prête pour l'adoption par les entreprises ?

Figure AI a annoncé avoir atteint un rythme de production d'un robot humanoïde par heure dans son usine BotQ, située dans la baie de San Francisco, soit une multiplication par 24 du débit en moins de 120 jours. La société revendique la livraison de plus de 350 unités de troisième génération (Figure 03), la fabrication de plus de 9 000 actionneurs et 500 packs batterie, avec 150 postes de travail en réseau et plus de 50 stations de contrôle qualité en ligne de production. En parallèle, Flex -- fabricant texan de composants électroniques -- a annoncé le déploiement de robots de Teradyne Robotics dans l'ensemble de ses sites de production mondiaux, en combinant les cobots Universal Robots (UR) et les AMR (robots mobiles autonomes) de Mobile Industrial Robot (MiR), deux filiales de Teradyne. Celle-ci a par ailleurs publié ses résultats du premier trimestre 2026 : 91 millions de dollars de chiffre d'affaires, quatrième trimestre consécutif de croissance après deux vagues de licenciements liées à des baisses de revenus en 2023 et 2024. Du côté des distinctions, l'association A3 a remis les prix Engelberger 2026 à Hiroshi Fujiwara, directeur exécutif de la Japan Robot Association (JARA) depuis 2009, et à Robert Little, cofondateur d'ATI Industrial Automation en 1989, qui a fait passer la société de 1 million à plus de 100 millions de dollars de revenus en devenant un acteur mondial des changeurs d'outils robotiques et des capteurs force/couple. Le chiffre de 24x de gain de débit chez Figure AI est spectaculaire, mais il convient de le lire avec précaution : la société communique sur des volumes de production, non sur des déploiements clients ou des contrats signés -- la distinction entre "fabriqué" et "opérationnel chez un client" reste floue dans ce communiqué. Cela dit, atteindre un robot par heure constitue un vrai seuil industriel si les données sont vérifiées, car la plupart des concurrents humanoïdes fonctionnent encore à l'échelle des dizaines d'unités annuelles. Le partenariat Flex/Teradyne est lui plus concret : Flex étant déjà fournisseur de composants pour UR, ce déploiement interne représente un signal fort de maturité opérationnelle des cobots et AMR dans des environnements de production à haute variabilité. C'est précisément la question que pose Neal Hansch, managing partner de Silicon Foundry et invité de l'épisode 242 du Robot Report Podcast : à quel moment un startup robotique est-il réellement prêt pour l'adoption entreprise, au-delà des démonstrations ? Figure AI a lancé ses premiers prototypes publics en 2023 et son Figure 02 en 2024, avec un financement total dépassant le milliard de dollars. Ses principaux concurrents sur le segment humanoïde incluent Tesla (Optimus Gen 3), Agility Robotics déployé chez Amazon, 1X Technologies, Apptronik, et Physical Intelligence (Pi-0, axé VLA), sans oublier Unitree et Fourier Intelligence côté asiatique. Teradyne, de son côté, cherche à repositionner UR et MiR comme infrastructure de "physical AI" face à la montée des solutions intégrées proposées par des acteurs comme Boston Dynamics (désormais sous Hyundai). La trajectoire de Robert Little chez ATI -- 40 ans d'expérience, croissance organique de 100x sur les end-effectors -- rappelle que les composants critiques de la chaîne robotique peuvent générer une valeur durable bien au-delà des intégrateurs systèmes.

UELe déploiement global de Universal Robots (UR) et MiR par Flex valide la maturité opérationnelle de ces deux marques danoises (filiales Teradyne) dans des environnements industriels à haute variabilité, renforçant leur position concurrentielle sur le marché européen des cobots et AMR face aux solutions intégrées émergentes.

HumanoïdesActu
1 source
ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs
223arXiv cs.RO 

ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs

Un framework de contrôle humanoïde baptisé ExoActor a été publié en preprint sur arXiv (2604.27711, avril 2026) par une équipe proposant d'utiliser la génération vidéo en vue tierce comme interface unifiée de commande robotique. Le principe : à partir d'une instruction textuelle et du contexte visuel de la scène, ExoActor génère une vidéo synthétique d'exécution plausible, extrait les cinématiques humaines correspondantes, puis les transmet à un contrôleur de mouvement généraliste pour produire une séquence comportementale exécutable. Le pipeline complet, implémenté de bout en bout, est évalué sur des scénarios inédits sans collecte additionnelle de données réelles. L'intérêt de l'approche réside dans la manière dont elle attaque un verrou central du contrôle humanoïde : modéliser des comportements riches en interactions entre le robot, son environnement et les objets manipulés, tout en capturant simultanément contexte spatial, dynamiques temporelles et intention de tâche. Plutôt qu'un VLA classique mappant directement observations vers actions, ExoActor intercale une représentation vidéo comme espace latent intermédiaire, dont la capacité de généralisation provient de grands modèles vidéo pré-entraînés à l'échelle. Si les résultats de généralisation sont confirmés sur des benchmarks indépendants, cela ouvrirait une alternative sérieuse à la collecte coûteuse de données de téléopération que supportent actuellement des acteurs comme Figure AI, Agility Robotics ou 1X Technologies. Cette publication s'inscrit dans un courant cherchant à court-circuiter les démonstrations réelles via des modèles génératifs. Elle dialogue avec Pi-0 de Physical Intelligence (diffusion sur flux d'actions), GR00T N2 de NVIDIA (entraîné sur données humaines synthétiques et réelles), ainsi qu'avec UniSim et IRASim qui utilisent la synthèse vidéo comme simulateur de politique. La spécificité d'ExoActor est l'usage explicite d'une perspective exocentrique, vue tierce personne, là où d'autres approches travaillent en vue égocentrique. Les auteurs reconnaissent les limitations actuelles, notamment la qualité de l'estimation de mouvement humain à partir de vidéo synthétique. Aucun déploiement industriel ni partenariat commercial n'est annoncé : ExoActor reste à ce stade une contribution académique.

IA physiqueOpinion
1 source
MotuBrain : un modèle du monde avancé pour le contrôle robotique
224arXiv cs.RO 

MotuBrain : un modèle du monde avancé pour le contrôle robotique

MotuBrain est un modèle génératif multimodal unifié pour le contrôle robotique, présenté dans un preprint arXiv (identifiant 2604.27792) publié en avril 2026. Le modèle adopte une formulation UniDiffuser couplée à une architecture Mixture-of-Transformers à trois flux, lui permettant de modéliser conjointement les séquences vidéo et les actions motrices au sein d'un même réseau. Un seul modèle supporte cinq modes d'inférence distincts : apprentissage de politique, modélisation du monde, génération vidéo, dynamique inverse, et prédiction conjointe vidéo-action. Il est conçu pour s'adapter à des données hétérogènes, incluant des vidéos sans annotations d'action et des données issues de plateformes robotiques différentes (cross-embodiment). Sur le plan de l'inférence, les auteurs annoncent un gain de vitesse supérieur à 50x par rapport à des architectures comparables, ouvrant la voie à un déploiement temps réel. L'approche s'attaque à une limitation structurelle bien documentée des VLA purs comme RT-2 ou OpenVLA : leur forte généralisation sémantique masque souvent une modélisation insuffisante des dynamiques physiques fines, ce qui génère des erreurs sur des tâches de manipulation précises. En intégrant la génération vidéo comme supervision implicite des dynamiques du monde, MotuBrain s'inscrit dans la tendance des World Action Models (WAMs), dont l'hypothèse centrale est que prédire ce qui va se passer visuellement améliore la qualité des actions produites. Le support cross-embodiment est particulièrement structurant pour les intégrateurs industriels, car il réduit le coût de réentraînement lors d'un changement de plateforme matérielle. Le speedup annoncé de 50x reste à confirmer sur des benchmarks publics, le preprint ne précisant pas les configurations matérielles de référence utilisées pour cette mesure. Ce travail s'inscrit dans une compétition dense autour des modèles fondationnels pour la robotique généraliste. Physical Intelligence a mis en production Pi-0 début 2025, NVIDIA a présenté GR00T N2 avec support multi-embodiment, et Google DeepMind avance sur ses modèles RT-X et GROOT. L'affiliation institutionnelle des auteurs de MotuBrain n'est pas précisée dans l'abstract du preprint. Comme pour tout travail soumis à arXiv sans revue par les pairs, l'absence d'expériences robotiques réelles documentées en détail invite à la prudence avant d'extrapoler les performances annoncées à un contexte de déploiement industriel.

RechercheOpinion
1 source
Un robot humanoïde chinois grandeur nature avec 18 000 capteurs maîtrise 115 degrés de liberté
225Interesting Engineering 

Un robot humanoïde chinois grandeur nature avec 18 000 capteurs maîtrise 115 degrés de liberté

Kinetix AI, une entreprise de recherche en IA basée à Shenzhen, a dévoilé KAI, un robot humanoïde de taille réelle mesurant 173 cm pour 70 kg. Le robot affiche 115 degrés de liberté (DoF) au total, dont 72 concentrés dans les mains, soit 36 DoF par main combinant 22 articulations actives à commande précise et 14 articulations passives jouant le rôle d'amortisseurs mécaniques. KAI peut se déplacer à 5 km/h, soulever jusqu'à 20 kg, et fonctionne 4 heures par charge grâce à une batterie semi-solide de 1,7 kWh. Sa peau tactile synthétique embarque 18 000 points de capteurs capables de détecter des forces à partir de 0,1 newton, permettant une manipulation haptic-aware en temps réel. Le prix annoncé est inférieur à 40 000 dollars, avec une production en série prévue pour fin 2026. Il s'agit pour l'instant d'une annonce avec démonstration vidéo, sans déploiement commercial confirmé. Le nombre de degrés de liberté des mains est la donnée qui retient l'attention des intégrateurs : la majorité des humanoïdes actuels en compétition (Figure 03, Tesla Optimus Gen 3, Agility Digit) plafonnent à 20-30 DoF manuels, rendant la préhension d'objets complexes ou fragiles difficile à fiabiliser. Les 36 DoF par main de KAI, couplés aux 18 000 capteurs tactiles, visent directement ce goulot d'étranglement. Si les performances annoncées se confirment hors conditions de labo, cela représente un argument sérieux pour les cas d'usage de tri, d'assemblage fin et d'interaction service. Le choix de la batterie semi-solide mérite également d'être noté : en réduisant le risque d'emballement thermique par rapport aux cellules Li-ion classiques, Kinetix adresse un frein réel au déploiement en environnement humain. La cible déclarée reste le service (retail, conciergerie, assistance domicile) et non l'industrie lourde, ce qui situe KAI dans la même catégorie commerciale que Sanctuary AI ou Apptronik. Kinetix AI est une structure relativement peu connue hors de Chine, opérant dans un écosystème humanoïde domestique qui comprend des acteurs déjà bien financés comme Unitree (G1, H1), DEEP Robotics et Fourier Intelligence. Pour entraîner KAI, la société a développé un dispositif portable baptisé KAI Halo, permettant à des opérateurs humains de générer des données d'entraînement lors de tâches quotidiennes via capture vidéo première personne, mouvements corporels et données spatiales. L'architecture d'intelligence repose sur un "World Model" à trois couches (base, action, évaluation) intégrant une simulation prédictive avant exécution de mouvement, approche cohérente avec les tendances actuelles en Physical AI (pi0 de Physical Intelligence, GR00T N2 de NVIDIA). La prochaine étape structurante sera la confirmation de pilotes industriels ou de partenariats distributeurs pour valider la transition du prototype vers le produit livrable.

Chine/AsieOpinion
1 source
STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique
226arXiv cs.RO 

STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique

Des chercheurs ont publié sur arXiv (arXiv:2604.26848) un nouveau modèle de politique robotique appelé STARRY, conçu pour améliorer la manipulation d'objets en intégrant un module de prédiction spatiotemporelle directement dans la boucle de génération d'actions. L'architecture repose sur un débruitage conjoint de latents spatiotemporels futurs et de séquences d'actions, complété par un mécanisme baptisé Geometry-Aware Selective Attention Modulation (GASAM), qui convertit la profondeur prédite et la géométrie de l'effecteur terminal en poids d'attention alignés sur les tokens d'action. Sur le benchmark RoboTwin 2.0, STARRY atteint 93,82 % de taux de succès moyen en configuration propre (Clean) et 93,30 % en configuration aléatoire (Randomized). En conditions réelles, le modèle améliore le taux de succès de 42,5 % à 70,8 % par rapport à π0.5, la politique de référence de Physical Intelligence. Ce résultat en conditions réelles mérite attention : le delta de +28,3 points sur π0.5 suggère que l'intégration explicite de la structure spatiotemporelle dans la politique, plutôt qu'en post-traitement, apporte un gain concret au-delà du benchmark simulé. Pour les intégrateurs et décideurs industriels, c'est un signal que le sim-to-real gap sur des tâches de manipulation précise reste un vrai verrou, et que les architectures VLA (Vision-Language-Action) classiques, sans modélisation de l'interaction future, plafonnent sur les scénarios à forte contrainte géométrique. La distinction entre prédire le monde et prédire ce qui est pertinent pour l'action semble être la clé ici, ce que STARRY formalise avec GASAM. STARRY s'inscrit dans une compétition dense autour des politiques VLA pour la manipulation : π0 et π0.5 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA, et les travaux issus des labos de Stanford, CMU ou Berkeley. Le benchmark RoboTwin 2.0, utilisé comme terrain d'évaluation principal, est un environnement de simulation récent orienté tâches bimanuelles. Il convient de noter que cette publication est un preprint arXiv, sans revue par les pairs à ce stade, et que les expériences réelles décrites semblent limitées en nombre de tâches et de contextes. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks plus diversifiés comme LIBERO ou Open X-Embodiment, et une validation à plus grande échelle en environnement industriel réel.

IA physiqueOpinion
1 source
Modélisation unifiée des actions dans un monde 4D à partir de vidéos avec débruitage asynchrone
227arXiv cs.RO 

Modélisation unifiée des actions dans un monde 4D à partir de vidéos avec débruitage asynchrone

Une équipe de recherche dépose sur arXiv (référence 2604.26694) X-WAM, un modèle de monde 4D unifié capable d'exécuter des actions robotiques en temps réel tout en générant simultanément des reconstructions vidéo haute fidélité et des cartes 3D de l'environnement futur. Contrairement à UWM et aux approches antérieures limitées à l'espace 2D en pixels, X-WAM prédit des flux RGB-D multi-caméras : une branche de prédiction de profondeur est greffée sur les derniers blocs d'un Diffusion Transformer vidéo pré-entraîné, une adaptation légère qui capitalise sur des priors visuels existants sans entraînement from scratch. La contribution technique centrale est l'Asynchronous Noise Sampling (ANS) : pendant l'inférence, les actions robotiques sont décodées en quelques étapes de débruitage pour respecter les contraintes de latence temps réel, tandis que la génération vidéo bénéficie du pipeline de débruitage complet. Pré-entraîné sur 5 800 heures de données robotiques, X-WAM atteint 79,2 % de taux de succès moyen sur le benchmark RoboCasa et 90,7 % sur RoboTwin 2.0, surpassant les méthodes existantes sur les métriques visuelles et géométriques de reconstruction. Le compromis non résolu entre richesse de modélisation du monde et latence d'exécution est le noeud central de ce travail. Les architectures VLA actuelles, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, génèrent des actions rapidement mais n'estiment pas la géométrie 3D de l'environnement ; à l'inverse, les modèles génératifs produisent des représentations spatiales riches mais peinent à décoder à la cadence exigée par le contrôle robotique temps réel. ANS prétend supprimer ce dilemme en allouant des budgets de débruitage asymétriques entre les deux sorties à l'inférence, tout en maintenant un alignement de distribution pendant l'entraînement pour éviter l'écart train/test. Si ces résultats tiennent en conditions réelles, ce design ouvrirait une voie architecturale directe pour la manipulation complexe en espace non structuré. X-WAM s'inscrit dans la vague de travaux visant à unifier perception, modélisation du monde et contrôle dans un seul réseau neuronal, une direction portée par Genie 2 de DeepMind, UniSim de Google et les recherches de World Labs. Le recours aux priors d'un modèle de diffusion vidéo pré-entraîné pour le grounding spatial est une stratégie partagée par plusieurs travaux récents sur le sim-to-real et les VLA de prochaine génération. Cela dit, l'article reste une prépublication arXiv sans revue par les pairs, et les benchmarks RoboCasa et RoboTwin 2.0 sont entièrement simulés : aucun déploiement sur robot physique n'est documenté. La validation sim-to-real constituera l'épreuve décisive, un écart qui a historiquement fait trébucher des systèmes très performants en environnement virtuel.

RechercheOpinion
1 source
Shengshu Technology lance Motubrain, son modèle monde-action
228Pandaily 

Shengshu Technology lance Motubrain, son modèle monde-action

La société chinoise Shengshu Technology a annoncé Motubrain, un modèle dit "monde-action" (world-action model) conçu comme cerveau unifié pour systèmes d'IA incarnée. L'architecture fusionne modélisation du monde et génération d'actions dans un cadre unique, avec pour ambition de couvrir l'adaptation cross-embodiment, la généralisation multi-tâches et l'exécution de séquences longues. Sur les benchmarks, Motubrain revendique la première place dans deux évaluations internationales : un score EWM de 63,77 sur WorldArena, et un score supérieur à 95 sur RoboTwin 2.0 en environnement aléatoire, ce qui en ferait le seul modèle à franchir ce seuil. En démonstration réelle, le système a été présenté sur des tâches comme la composition florale, le service de cocktails et la cuisine, en maintenant, selon l'entreprise, des performances cohérentes sur plusieurs plateformes robotiques distinctes. Shengshu annonce des partenariats avec plusieurs fabricants de robots pour accélérer le déploiement, sans préciser lesquels ni sur quels volumes. L'annonce s'inscrit dans une dynamique de fond : la convergence entre modèles de monde et modèles d'action est devenue l'un des paris stratégiques majeurs de la robotique généraliste. Là où les approches VLA (Vision-Language-Action) classiques séparent compréhension et génération de mouvement, Motubrain prétend les unifier, ce qui, si les résultats benchmark sont confirmés en conditions industrielles, changerait le calcul pour les intégrateurs : moins de pipelines à orchestrer, meilleure robustesse aux variations d'environnement. Le score RoboTwin 2.0 est particulièrement scruté car ce benchmark cible spécifiquement la manipulation bimanuele en environnement non structuré, un goulot d'étranglement persistant pour le déploiement en atelier. Il convient néanmoins de noter que les démonstrations vidéo publiées restent des cas sélectionnés, sans données de taux de succès sur cycles répétés ni de latence end-to-end, ce qui rend difficile une comparaison rigoureuse avec des systèmes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Shengshu Technology est actif dans l'espace de la génération vidéo et des modèles génératifs chinois depuis plusieurs années, mais Motubrain marque un pivot explicite vers l'IA incarnée. Sur le plan concurrentiel, le modèle se positionne face à Pi-0 (Physical Intelligence), Helix (Figure), RDT-1B (Tsinghua) et les initiatives en cours chez 1X et Agility. La Chine accélère significativement dans ce segment, avec des acteurs comme Unitree, AGIBOT et désormais Shengshu qui visent une commercialisation de modèles fondationnels pour robots plutôt que des robots clés en main. Les prochaines étapes annoncées concernent le déploiement chez des partenaires industriels non nommés, sans calendrier précis ni confirmation d'un accès public au modèle.

UELa montée en puissance des modèles fondationnels chinois pour la robotique incarnée intensifie la pression concurrentielle sur les acteurs européens du VLA et de l'IA physique, sans impact direct identifiable à ce stade.

IA physiqueOpinion
1 source
CodeGraphVLP : code comme planificateur et graphe sémantique d'état pour les modèles VLA non-markoviens
229arXiv cs.RO 

CodeGraphVLP : code comme planificateur et graphe sémantique d'état pour les modèles VLA non-markoviens

Une équipe de recherche a publié en avril 2026 sur arXiv (référence 2604.22238) un nouveau framework hiérarchique baptisé CodeGraphVLP, conçu pour résoudre une limitation structurelle des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique longue durée. Le système repose sur trois composants couplés : un graphe sémantique persistant qui maintient les entités et relations pertinentes à la tâche même sous observabilité partielle, un planificateur généré sous forme de code exécutable (d'où le préfixe "Code"), et un mécanisme de prompting visuo-linguistique guidé par la progression. Ce dernier construit des observations épurées, sans encombrement visuel parasite, pour focaliser l'exécuteur VLA sur les indices critiques. Les résultats sur des tâches non-markoviennes en environnement réel montrent une meilleure complétion que les baselines VLA standard et leurs variantes avec historique, avec une latence de planification significativement réduite par rapport aux approches qui intègrent un VLM directement dans la boucle de contrôle. L'enjeu technique est précis : les VLA actuels sont entraînés et déployés comme politiques à horizon court, sous hypothèse markovienne, autrement dit, la dernière observation suffit à raisonner sur l'action suivante. Cette hypothèse tient pour des gestes simples, mais s'effondre dès qu'une tâche exige de mémoriser des états antérieurs, d'interpréter des scènes occultées ou de distinguer des objets pertinents parmi du désordre visuel. CodeGraphVLP rompt avec cette contrainte en externalisant la mémoire dans un graphe symbolique et en confiant la planification à du code synthétisé plutôt qu'à des appels répétés à un grand modèle de langage, ce qui réduit la latence tout en maintenant une traçabilité explicite de la progression de la tâche. C'est un signal intéressant pour les intégrateurs industriels : la combinaison représentation symbolique + politique neuronale commence à produire des résultats mesurables sur du matériel réel, pas uniquement en simulation. Les VLA généralisés sont au coeur d'une compétition active en 2025-2026 : Physical Intelligence avec pi0, Google DeepMind avec RT-2 et ses successeurs, et des équipes académiques comme celles derrière OpenVLA. Le positionnement de CodeGraphVLP est distinct, il ne propose pas un nouveau modèle de fondation mais une architecture d'orchestration au-dessus de VLA existants, ce qui le rend potentiellement composable avec des modèles tiers. Les ablations publiées confirment la contribution individuelle de chaque module. La prochaine étape naturelle serait des tests sur des plateformes humanoïdes ou des bras industriels dans des environnements non contrôlés, domaine où l'hypothèse markovienne est la plus souvent violée.

IA physiqueOpinion
1 source
Un cadre d'apprentissage autonome en boucle fermée piloté par LLM pour robots confrontés à des tâches inédites en environnement ouvert
230arXiv cs.RO 

Un cadre d'apprentissage autonome en boucle fermée piloté par LLM pour robots confrontés à des tâches inédites en environnement ouvert

Une équipe de recherche a publié le 22 avril 2026 sur arXiv (référence 2604.22199) un framework d'apprentissage autonome en boucle fermée piloté par LLM, conçu pour permettre à des robots d'intégrer durablement de nouvelles compétences sans recourir indéfiniment à des modèles de langage externes. Le principe central : lorsqu'un robot rencontre une tâche absente de sa bibliothèque locale de méthodes, il déclenche un processus structuré dans lequel le LLM joue le rôle de raisonnement de haut niveau (analyse de tâche, sélection de modèle candidat, planification de collecte de données, organisation de la stratégie d'exécution). Le robot apprend ensuite à partir de sa propre exécution ou par observation active de comportements externes réussis, effectue un entraînement quasi-temps-réel, et consolide le résultat validé dans sa bibliothèque locale pour toute réutilisation future. Les résultats expérimentaux montrent une réduction du temps moyen d'exécution de 7,7772 s à 6,7779 s, et surtout une chute du nombre moyen d'appels LLM par tâche de 1,0 à 0,2 dans les scénarios de ré-exécution répétée -- soit 80 % de dépendance au LLM éliminée sur les tâches déjà apprises. L'intérêt industriel de cette approche est d'ordre économique autant que technique. Les architectures actuelles de robotique généraliste (VLA, agents LLM embarqués) génèrent des coûts d'inférence récurrents et des latences incompatibles avec des déploiements à l'échelle en environnement de production. En construisant un savoir local cumulatif à partir d'interactions réussies, ce framework agit comme un mécanisme de compilation implicite : les appels LLM coûteux disparaissent au fil des répétitions. C'est une réponse directe au reproche souvent adressé aux systèmes fondation : leur dépendance permanente au cloud pour des décisions qui devraient devenir réflexes. Ce travail s'inscrit dans une tendance de recherche active autour de l'adaptation continue des robots en monde ouvert, en concurrence avec des approches comme l'apprentissage few-shot en ligne (RT-2, OpenVLA) ou les architectures de mémoire hiérarchique explorées chez Physical Intelligence (pi0) et chez Figure AI. La distinction clé ici est la boucle fermée entre observation, entraînement local et pruning des dépendances externes, une piste encore peu exploitée à l'échelle réelle. Les auteurs ne citent pas de partenaire industriel ni de déploiement terrain : il s'agit pour l'heure d'une preuve de concept académique, dont la robustesse en environnement non contrôlé reste à démontrer.

RechercheOpinion
1 source
Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes
231arXiv cs.RO 

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes

Une équipe de chercheurs a soumis sur arXiv (ref. 2604.05673, v2, avril 2026) un cadre baptisé Rectified Schrödinger Bridge Matching (RSBM), visant à réduire drastiquement le coût d'inférence des politiques génératives de navigation visuelle. Les modèles basés sur la diffusion ou les ponts de Schrödinger (SB) capturent fidèlement les distributions d'actions multimodales mais exigent dix étapes d'intégration ou plus, incompatibles avec le contrôle robotique temps-réel. RSBM unifie les SB standard (ε=1, entropie maximale) et le transport optimal déterministe (ε→0, comme en Conditional Flow Matching) via un unique paramètre de régularisation entropique ε. Les auteurs démontrent que le champ de vitesse conditionnel conserve la même forme fonctionnelle sur tout le spectre ε (un seul réseau suffit pour toutes les intensités de régularisation) et que réduire ε diminue linéairement la variance du champ, stabilisant l'intégration ODE à pas larges. Résultat : 94 % de similarité cosinus et 92 % de taux de réussite en 3 étapes seulement, sans distillation ni entraînement multi-étapes. Ce résultat s'attaque directement au goulot d'étranglement des politiques VLA (Vision-Language-Action) en déploiement industriel. Les architectures de diffusion embarquées dans les robots manipulateurs et humanoïdes actuels (π0 de Physical Intelligence, GR00T N2 de NVIDIA) plafonnent leur fréquence de contrôle à cause du nombre d'étapes de dénoising requises. Passer de dix à trois étapes sans distillation, technique qui ajoute un cycle d'entraînement coûteux et instable, ouvre la voie à des politiques embarquables sur matériel edge standard sans GPU serveur dédié. Limite à noter : les expériences portent sur des benchmarks de navigation visuelle simulés ; le transfert sim-to-real n'est pas validé dans cette publication. RSBM s'inscrit dans la continuité de travaux sur l'accélération du sampling génératif : Rectified Flow (Liu et al., 2022), Consistency Models, et l'application des ponts de Schrödinger au contrôle robotique étudiée par des groupes à Stanford et CMU. Face au Conditional Flow Matching de Meta AI, rapide mais moins expressif face aux distributions fortement multimodales, RSBM revendique un équilibre théoriquement fondé entre vitesse et couverture multimodale. Aucune implémentation open-source ni déploiement hardware n'est annoncé à ce stade. Les suites probables incluent une validation sur tâches de manipulation réelles et une comparaison directe avec des méthodes de distillation rapide comme le Shortcut Model de Physical Intelligence.

RechercheOpinion
1 source
Apprendre l'apesanteur : imiter des mouvements non auto-stabilisants sur un robot humanoïde
232arXiv cs.RO 

Apprendre l'apesanteur : imiter des mouvements non auto-stabilisants sur un robot humanoïde

Une équipe de chercheurs propose dans un preprint arXiv (référence 2604.21351, avril 2026) une méthode baptisée Weightlessness Mechanism (WM), conçue pour permettre aux robots humanoïdes d'exécuter des mouvements dits non-autostabilisants (NSS, Non-Self-Stabilizing). Ces mouvements englobent des actions aussi banales que s'asseoir sur une chaise, s'allonger sur un lit ou s'appuyer contre un mur : contrairement à la locomotion bipède classique, le robot ne peut maintenir sa stabilité sans interagir physiquement avec l'environnement. Les expériences ont été menées en simulation et sur le robot humanoïde Unitree G1, sur trois tâches représentatives : s'asseoir sur des chaises de hauteurs variables, s'allonger sur des lits à différentes inclinaisons, et s'appuyer contre des murs via l'épaule ou le coude. La méthode est entraînée sur des démonstrations en action unique, sans fine-tuning spécifique à chaque tâche. L'apport technique central s'appuie sur une observation biomécanique : lors de mouvements NSS, les humains relâchent sélectivement certaines articulations pour laisser le contact passif avec l'environnement assurer la stabilité, un état que les auteurs qualifient de "weightless". Le WM formalise ce mécanisme en déterminant dynamiquement quelles articulations relâcher et dans quelle mesure, complété par une stratégie d'auto-étiquetage automatique de ces états dans les données d'entraînement. Pour les intégrateurs industriels qui déploient des humanoïdes dans des environnements réels, ce verrou est significatif : les pipelines actuels d'imitation learning combiné au reinforcement learning imposent généralement un suivi rigide de trajectoire sans modéliser les interactions physiques avec les surfaces, ce qui les rend inopérants dès que le robot doit s'appuyer sur quelque chose. Le contexte est celui d'un secteur en pleine accélération : Figure AI avec le Figure 03, Agility Robotics avec Digit, Boston Dynamics avec Atlas et 1X Technologies poussent tous leurs humanoïdes vers des déploiements en entrepôt ou en usine, mais les scénarios de contact-riche restent largement non résolus. Le Unitree G1, plateforme commerciale accessible, s'impose progressivement comme banc de test académique standard, ce qui accélère la reproductibilité des résultats. Il faut néanmoins souligner que ce travail est au stade de preprint non évalué par les pairs, et que les séquences vidéo accompagnant ce type de publication sont souvent sélectionnées favorablement : la robustesse réelle en conditions non supervisées reste à démontrer. Les suites naturelles seraient une intégration dans des politiques généralisées comme GR00T N2 de NVIDIA ou pi0 de Physical Intelligence, et une évaluation sur des scènes hors distribution.

IA physiquePaper
1 source
Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise
233arXiv cs.RO 

Méthode reproductible de sensibilisation à la robotique par interaction LLM : résultats d'un défi d'entreprise

Une équipe de chercheurs a conçu et testé une méthode de sensibilisation à la robotique en milieu industriel réel, en déployant un robot humanoïde contrôlé par un grand modèle de langage (LLM) lors d'un événement interne organisé par AD Ports Group aux Émirats arabes unis. Les employés du groupe portuaire, sans formation préalable en robotique, ont interagi avec le robot via des commandes vocales dans un environnement d'exercice inspiré de la logistique, structuré en équipes avec des rôles attribués. Au terme de l'activité, un questionnaire resté ouvert 16 jours a recueilli 102 réponses. La satisfaction globale atteint 8,46/10, l'intérêt déclaré pour la robotique et l'IA 4,47/5, et la compréhension des nouvelles formes de collaboration homme-robot 4,45/5. Les participants ayant interagi directement avec le robot ont évalué la naturalité de l'échange à 4,37/5 et la progression de la facilité d'interaction à 4,74/5. Les scores concernant la fiabilité et la prédictibilité du robot restent en revanche sensiblement plus bas, ce que les auteurs identifient comme un défi technique à adresser. Ce travail fournit l'une des rares mesures quantitatives issues d'un déploiement en organisation réelle, hors contexte laboratoire, sur l'efficacité des LLM comme interface d'entrée en robotique pour des non-spécialistes. Pour les décideurs industriels et les intégrateurs, il valide un format concret d'onboarding technique : une activité compétitive courte peut suffire à modifier la perception et l'appétence pour la robotique collaborative. La méthode est présentée comme réplicable, ce qui est significatif pour des groupes industriels cherchant à préparer leurs effectifs à des déploiements d'IA incarnée sans passer par une formation longue. L'exploration des LLM comme couche de contrôle en langage naturel pour les robots s'intensifie depuis 2023, portée notamment par des architectures comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), mais les preuves d'usage en conditions industrielles non contrôlées restent rares. AD Ports Group, opérateur de ports et de zones logistiques parmi les plus importants du Moyen-Orient, constitue un terrain d'expérimentation pertinent. L'étude ne précise pas le modèle de robot humanoïde utilisé ni l'architecture LLM sous-jacente, une limite notable pour qui voudrait reproduire l'approche. Les prochaines étapes annoncées portent sur l'amélioration de la fiabilité perçue et la réplication de la méthode dans d'autres contextes opérationnels industriels.

UELa méthodologie réplicable d'onboarding robotique par interaction LLM peut être directement adoptée par des groupes industriels français et européens pour préparer leurs effectifs aux déploiements de robots collaboratifs sans formation longue.

RecherchePaper
1 source
VTouch++ : jeu de données multimodal combinant vision et retour tactile pour la manipulation bimanuelle
234arXiv cs.RO 

VTouch++ : jeu de données multimodal combinant vision et retour tactile pour la manipulation bimanuelle

Des chercheurs ont publié VTOUCH, un nouveau jeu de données multimodal conçu pour améliorer la manipulation bimanuelles des robots, c'est-à-dire la capacité d'un robot à utiliser deux bras de manière coordonnée. Présenté sur arXiv (référence 2604.20444), ce dataset combine des capteurs tactiles basés sur la vision pour fournir des signaux d'interaction physique haute fidélité. Concrètement, ces capteurs permettent au robot de "sentir" les contacts et pressions lors de tâches complexes, comme assembler un objet ou manipuler des matériaux fragiles. La collecte des données s'appuie sur des pipelines automatisés couvrant des scénarios réels orientés par la demande, et l'organisation des tâches suit une structure matricielle pensée pour faciliter l'apprentissage systématique à grande échelle. La manipulation bimanualle reste l'un des défis les plus ardus de la robotique incarnée, notamment parce que les tâches à fort contact physique exigent une coordination fine et des retours sensoriels précis que les datasets existants ne capturent pas suffisamment. VTOUCH répond directement à ce manque en intégrant des signaux tactiles riches là où la plupart des jeux de données se limitent à la vision ou aux données proprioceptives. Les expériences quantitatives menées sur la récupération cross-modale, ainsi que les évaluations sur robots réels, confirment l'efficacité du dataset. Plus important encore, les chercheurs ont démontré que les politiques entraînées sur VTOUCH se généralisent à plusieurs types de robots et plusieurs types de tâches, ce qui en fait un outil potentiellement mutualisable à travers l'industrie. La robotique incarnée connaît une accélération notable depuis l'essor des grands modèles de langage et vision, des acteurs comme Google DeepMind, Figure AI ou Physical Intelligence investissant massivement dans des robots capables d'opérer dans des environnements non structurés. La manipulation bimanualle est un goulot d'étranglement reconnu : même les systèmes les plus avancés peinent à égaler la dextérité humaine dans des tâches d'assemblage ou de cuisine. VTOUCH s'inscrit dans une tendance plus large de constitution de datasets spécialisés de grande échelle, à l'image d'Open X-Embodiment, pour accélérer l'entraînement de politiques robotiques généralisables. La prochaine étape sera de voir si ce dataset est rendu public et adopté par la communauté au-delà du laboratoire d'origine.

HumanoïdesActu
1 source
ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits
235arXiv cs.RO 

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

ExpertGen est un framework de recherche publié sur arXiv (2603.15956) qui automatise l'apprentissage de politiques de manipulation robotique en simulation pour en faciliter le transfert vers du matériel réel. Le système initialise une politique de diffusion à partir de démonstrations imparfaites, générées par un grand modèle de langage ou fournies manuellement, puis applique du renforcement pour l'affiner sans jamais modifier les poids du modèle préentraîné. L'optimisation porte uniquement sur le bruit initial de la diffusion, ce qui maintient l'exploration dans des trajectoires cohérentes avec le comportement humain, même avec des récompenses binaires éparses. Sur les benchmarks publiés, ExpertGen atteint 90,5 % de succès sur des tâches d'assemblage industriel et 85 % sur des tâches de manipulation à long horizon, surpassant toutes les méthodes de référence testées. Le transfert sim-to-réel est validé par distillation DAgger : les politiques d'état apprises en simulation sont converties en politiques visuomotrices et déployées sur du matériel robotique physique. Ce résultat s'attaque directement au principal goulot d'étranglement du robot learning industriel : la collecte de données de qualité. La téléopération à grande échelle est coûteuse, lente et ne se généralise pas. ExpertGen propose une alternative crédible en utilisant des démonstrations imparfaites, y compris synthétiques, comme amorce, puis en laissant le renforcement corriger l'écart de qualité en simulation. Le fait de geler la politique de diffusion est une décision architecturale clé : elle évite le mode collapse typique du fine-tuning RL sur des politiques expressives, tout en permettant la convergence sans reward engineering manuel. Pour les intégrateurs industriels, c'est un signal concret que le sim-to-real gap sur des tâches d'assemblage n'est pas insurmontable, à condition de disposer d'un simulateur suffisamment fidèle. Ce travail s'inscrit dans la vague des politiques de diffusion pour la robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et prolongée par des systèmes comme pi-zero de Physical Intelligence ou les politiques dextères développées chez Google DeepMind et NVIDIA avec GR00T N2. ExpertGen reste pour l'instant un résultat académique : les métriques de succès sont issues de benchmarks de simulation contrôlés, et le déploiement réel mentionné dans le papier est préliminaire. Aucune timeline commerciale ni partenaire industriel ne sont annoncés. Les prochaines étapes logiques incluent des tests de robustesse à des variations de capteurs et d'environnement plus sévères, ainsi qu'une intégration éventuelle avec des politiques de fondation multimodales pour généraliser au-delà des tâches d'assemblage structurées.

RechercheOpinion
1 source
Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques
236arXiv cs.RO 

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

Des chercheurs ont publié sur arXiv (réf. 2604.19683) le Mask World Model (MWM), une architecture de world model pour l'apprentissage de politiques robotiques robustes. Contrairement aux approches dominantes qui entraînent des modèles génératifs sur de la vidéo RGB, MWM prédit l'évolution de masques sémantiques, des représentations géométriques des objets en scène, à l'aide d'une architecture de diffusion vidéo. Une tête de politique basée sur la diffusion est intégrée en aval pour un contrôle bout-en-bout. Évalué sur les benchmarks de simulation LIBERO et RLBench, MWM surpasse significativement les world models RGB de l'état de l'art. Un protocole de robustesse par élagage aléatoire de tokens et des expériences en conditions réelles confirment la résilience du modèle face à la perte partielle d'information visuelle. Le problème ciblé est structurel : les world models entraînés à prédire des pixels RGB mémorisent des corrélations parasites liées aux arrière-plans dynamiques, aux variations d'éclairage ou aux textures changeantes. Ces distracteurs produisent des politiques fragiles qui échouent hors distribution, phénomène central du "demo-to-real gap" qui freine le déploiement industriel des robots apprenants. En contraignant le modèle à opérer sur des masques géométriques plutôt que sur des pixels bruts, MWM impose un goulot d'information qui force la représentation interne à capturer ce qui importe réellement pour la manipulation : dynamiques physiques, relations de contact, géométrie des objets. C'est une contribution méthodologique notable dans le débat sur ce que les world models doivent apprendre pour être fiables à l'échelle opérationnelle. Les world models pour la robotique ont émergé comme paradigme dominant ces deux dernières années, portés par des architectures comme UniSim, Dreamer, ou les VLA récents de Physical Intelligence (pi-0), Google DeepMind (GR00T N2) et Figure Robotics, qui misent presque tous sur la fidélité de reconstruction RGB. MWM propose une alternative centrée sur l'abstraction géométrique, un positionnement distinct dans cet écosystème en pleine consolidation. Il convient de noter qu'il s'agit d'une prépublication non encore relue par des pairs, et que les expériences en conditions réelles restent limitées en échelle et en diversité de tâches. Les suites naturelles incluent une validation sur des manipulateurs industriels en environnement non contrôlé, étape que les auteurs n'ont pas encore franchie.

RechercheOpinion
1 source
PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique
237arXiv cs.RO 

PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique

PhysMem, un cadre mémoire présenté sur arXiv (identifiant 2502.20323, version 5 actualisée au printemps 2026), propose une approche permettant aux planificateurs robotiques basés sur des modèles vision-langage (VLM) d'acquérir des connaissances physiques au moment de l'exécution, sans modifier les paramètres du modèle. Le système enregistre les interactions, génère des hypothèses sur les propriétés physiques observées, les soumet à vérification par des gestes ciblés, puis n'intègre que les hypothèses validées pour guider les décisions futures. Évalué sur trois tâches de manipulation réelle et des benchmarks de simulation avec quatre architectures VLM distinctes, PhysMem atteint 76 % de succès sur une tâche contrôlée d'insertion de brique, contre 23 % pour une récupération directe d'expérience. Sur des sessions de déploiement de 30 minutes, les performances progressent de façon consistante au fil du temps. L'apport central de PhysMem réside dans la séparation entre récupération et vérification. Les approches classiques de mémoire épisodique supposent que les expériences passées s'appliquent directement à la situation courante, ce qui produit des échecs dès que les conditions physiques changent, même marginalement. PhysMem brise ce cycle en testant activement chaque hypothèse avant de l'exploiter, une propriété critique pour les environnements industriels où surfaces, matériaux et tolérances varient d'un poste à l'autre. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des robots capables de s'adapter à de nouveaux objets ou environnements sans cycle de réentraînement coûteux. L'écart de 53 points de pourcentage entre les deux modes illustre que le problème n'est pas la mémoire en soi, mais la rigidité de son application directe. Les VLM comme planificateurs robotiques ont été popularisés par des travaux comme SayCan (Google DeepMind), Code as Policies, ou plus récemment pi0 de Physical Intelligence, qui ont démontré une capacité de raisonnement abstrait sur les tâches. Leur limite persistante reste l'incapacité à modéliser les propriétés physiques spécifiques d'objets particuliers, un obstacle majeur à la généralisation hors laboratoire. PhysMem s'inscrit dans un mouvement plus large vers le test-time adaptation en robotique, distinct du fine-tuning classique et complémentaire des approches VLA (Vision-Language-Action). À noter: les résultats publiés portent sur des tâches de laboratoire contrôlées, et aucun déploiement industriel n'est annoncé à ce stade. Les suites logiques incluent des tests sur des horizons de déploiement plus longs et des tâches impliquant des objets déformables ou des matériaux à comportement incertain, là où les hypothèses physiques sont les plus difficiles à abstraire.

IA physiquePaper
1 source
Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne
238arXiv cs.RO 

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Une équipe de chercheurs publie sur arXiv (réf. 2604.03540, version 3) un cadre en deux étapes baptisé Drift-Based Policy Optimization (DBPO), conçu pour ramener les politiques génératives de manipulation robotique à une seule passe de réseau au moment de l'inférence. La première brique, la Drift-Based Policy (DBP), exploite des objectifs de "fixed-point drifting" pour internaliser le raffinement itératif directement dans les paramètres du modèle pendant l'entraînement, supprimant ainsi le besoin de débruitage multi-étapes à l'exécution. La seconde brique, DBPO, greffe sur ce backbone une interface stochastique compatible avec le renforcement en ligne, autorisant des mises à jour on-policy stables sans sacrifier la propriété de déploiement en une étape. Sur un robot bi-bras réel, le système atteint 105,2 Hz en boucle fermée, soit une fréquence comparable aux contrôleurs industriels classiques. Sur les benchmarks de manipulation, DBP égale ou dépasse les politiques de diffusion multi-étapes tout en réduisant le coût d'inférence jusqu'à un facteur 100 en nombre d'évaluations réseau (NFEs). Ce résultat touche directement l'un des verrous les plus concrets du déploiement de politiques diffusion en robotique : le coût computationnel à l'inférence. Les politiques de diffusion actuelles (Diffusion Policy, Chi et al., 2023) nécessitent typiquement 10 à 100 NFEs par action, ce qui les rend incompatibles avec du contrôle haute fréquence sans accélérateur dédié. Transférer ce coût vers l'entraînement plutôt que l'inférence change le profil économique du déploiement : un robot en production n'a plus besoin de GPU haut de gamme pour tourner en temps réel. Par ailleurs, coupler une politique one-step avec du renforcement en ligne ouvre la voie à une adaptation continue post-déploiement, hypothèse clé pour les environnements industriels non-structurés. Les politiques de diffusion pour la manipulation ont émergé comme référence de facto depuis 2022-2023, portées par des travaux comme Diffusion Policy ou les architectures VLA de Physical Intelligence (pi0) et d'autres. La course à réduire leur latence a produit plusieurs approches concurrentes : distillation de consistance (Consistency Policy), flow matching en une étape (comme dans certaines variantes de pi0-fast), ou encore les politiques à action chunking. DBPO s'inscrit dans cette compétition avec une approche qui revendique de préserver la modélisation multimodale tout en atteignant la vitesse des méthodes one-shot. Les prochaines étapes naturelles seraient un test à plus grande échelle de tâches et de morphologies robotiques, ainsi qu'une validation sur des plateformes humanoïdes telles que celles de Figure AI ou 1X Technologies, pour lesquelles la fréquence de contrôle est un critère de sécurité, pas seulement de performance.

UELes équipes de recherche et industriels européens en robotique manipulatrice pourraient réduire leurs besoins en accélérateurs GPU à l'inférence en adoptant cette approche, mais aucun acteur français ou européen n'est directement impliqué.

IA physiquePaper
1 source
Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues
239arXiv cs.RO 

Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues

En avril 2026, des chercheurs ont présenté sur arXiv (réf. 2604.19469) un framework de contrôle en admittance pour la manipulation robotique d'objets à masse inconnue, validé expérimentalement sur un bras UR5e de Universal Robots. Lorsque le centre de masse d'un objet saisi ne coïncide pas avec le point central outil (TCP), la charge génère un couple parasite au poignet, amplifié par l'inertie de l'objet pendant le déplacement. Sans compensation, ce couple est interprété par le contrôleur comme une force d'interaction extérieure, déclenchant des déviations de trajectoire, des erreurs de suivi et une précision de dépose dégradée. La solution exploite le capteur force-couple du poignet selon deux modes séquentiels : une excitation translationnelle sur trois axes atténue l'effet de la charge en transit sans raidir le robot, puis, après la saisie, le contrôleur estime successivement la masse de l'objet et l'offset de son centre de masse par rapport au TCP en analysant les mesures collectées lors du mouvement. Pour les intégrateurs industriels, ce travail cible un problème récurrent : adapter un cobot à des lignes à références multiples sans recalibration manuelle à chaque changement de produit. Les contrôleurs en admittance sont le standard de fait pour les applications collaboratives (ISO/TS 15066), mais leur sensibilité aux perturbations non modélisées au niveau du capteur de couple les rend fragiles sur des tâches d'empilage ou de palettisation à charges variables. La méthode démontre qu'il est possible de préserver la compliance mécanique, garante de la cohabitation humain-robot, tout en corrigeant activement les biais de charge, sans recours à l'apprentissage par renforcement. Les résultats expérimentaux indiquent des gains en transport et en précision de dépose par rapport à la commande non corrigée, bien que l'abstract ne fournisse pas de métriques quantitatives détaillées permettant d'évaluer l'ampleur réelle des améliorations. Le contrôle en admittance, formalisé par Neville Hogan au MIT dans les années 1980, est aujourd'hui intégré nativement dans les plateformes Universal Robots et Franka Robotics. Ce travail s'inscrit dans un courant concurrent des approches VLA (vision-language-action) portées par Physical Intelligence (pi-0) ou Google DeepMind, qui misent sur l'apprentissage massif plutôt que sur la modélisation analytique de la physique. L'avantage différenciant de cette approche est sa traçabilité pour la certification industrielle et l'absence totale de données d'entraînement. Les extensions naturelles incluent la prise en compte des couples en rotation et la validation sur des architectures multi-bras pour la manipulation coordonnée d'objets asymétriques.

UECette méthode de contrôle en admittance robuste aux charges inconnues est directement applicable aux cobots UR5e (Universal Robots, Danemark) et Franka (Allemagne) largement déployés dans l'industrie européenne, facilitant la conformité ISO/TS 15066 sur les lignes à références multiples sans recalibration manuelle.

RecherchePaper
1 source
XEmbodied : un modèle fondation aux indices géométriques et physiques renforcés pour les environnements incarnés à grande échelle
240arXiv cs.RO 

XEmbodied : un modèle fondation aux indices géométriques et physiques renforcés pour les environnements incarnés à grande échelle

Une équipe de chercheurs a publié fin avril 2026 sur arXiv (référence 2604.18484) les travaux sur XEmbodied, un modèle fondateur côté cloud conçu pour améliorer l'annotation et l'entraînement des modèles Vision-Langage-Action (VLA) dans des environnements complexes à grande échelle. L'approche repose sur deux composants techniques distincts : un adaptateur 3D structuré qui intègre une représentation géométrique native (grilles d'occupation, boîtes englobantes 3D) dans un modèle de langage visuel (VLM) existant, et un adaptateur image-embodied efficace qui distille des signaux physiques en tokens contextuels. L'entraînement combine un curriculum progressif par domaine et un post-entraînement par apprentissage par renforcement. Les résultats sont évalués sur 18 benchmarks publics couvrant le raisonnement spatial, la sémantique trafic, l'affordance embodied et la généralisation hors distribution. Ce travail cible un goulot d'étranglement concret dans la chaîne de développement des systèmes autonomes incarnés : les pipelines d'annotation actuels s'appuient sur des VLM génériques pré-entraînés uniquement sur des paires image-texte 2D, sans compréhension intrinsèque de la géométrie 3D ni des contraintes physiques. Pour un intégrateur ou un décideur industriel qui cherche à construire des datasets de qualité pour robots mobiles ou bras manipulateurs, XEmbodied positionne la compréhension géométrique non comme une entrée auxiliaire optionnelle, mais comme une capacité fondamentale du modèle. Cela représente un changement d'approche notable dans la manière de produire des annotations scalables pour l'embodied AI, un segment où la qualité des données d'entraînement reste le principal facteur limitant avant même l'architecture du VLA lui-même. XEmbodied s'inscrit dans une vague de travaux visant à combler le fossé entre les VLM généralistes (GPT-4V, LLaVA, Qwen-VL) et les exigences de l'embodied AI, où les modèles comme π0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA nécessitent des données d'entraînement spatialement cohérentes et physiquement plausibles. La contribution ici n'est pas un VLA en soi, mais une couche d'infrastructure cloud pour en produire de meilleurs. Aucun déploiement industriel ni partenariat commercial n'est mentionné dans l'article : il s'agit d'un travail académique, dont la valeur pratique dépendra de l'adoption par les équipes qui construisent ces pipelines d'annotation à l'échelle.

RechercheOpinion
1 source
2D ou 3D : qui gouverne la saillance dans les modèles VLA ? Un cadre d'élagage de tokens en trois étapes avec conscience de la saillance modale
241arXiv cs.RO 

2D ou 3D : qui gouverne la saillance dans les modèles VLA ? Un cadre d'élagage de tokens en trois étapes avec conscience de la saillance modale

Des chercheurs ont publié sur arXiv (référence 2604.09244, version 2, avril 2026) un article proposant un cadre d'élagage de tokens en trois étapes pour accélérer les modèles VLA (Vision-Language-Action) multi-modaux. Le constat de départ : les VLA de dernière génération ne se contentent plus d'entrées 2D classiques (images RGB) mais intègrent également des données 3D (nuages de points, profondeur), formant ce que les auteurs appellent des modèles MVLA (Multi-Visual-Modal VLA). Cette expansion modale améliore la perception spatiale des robots, mais elle multiplie le nombre de tokens traités à l'inférence, créant un goulot d'étranglement computationnel significatif. Le framework proposé introduit une analyse en trois phases qui capture les différences de saillance entre tokens 2D et 3D à chaque étape du traitement, puis applique un élagage ciblé selon ces différences. Les expériences rapportent un gain d'accélération allant jusqu'à 2,55x à l'inférence, avec une perte de précision minimale et un surcoût de traitement limité à 5,8%. Ce résultat est pertinent pour les équipes qui cherchent à déployer des VLA sur du matériel embarqué ou des robots opérant en temps réel. L'un des freins majeurs à la commercialisation des robots manipulateurs pilotés par VLA est précisément le coût computationnel de l'inférence : un gain de 2,55x sans dégradation significative des performances ouvre la voie à des cycles de décision plus courts sans nécessiter de GPU de datacenter. Il met aussi en lumière un angle mort des approches d'optimisation existantes : les méthodes d'élagage de tokens conçues pour des VLA 2D ne tiennent pas compte du fait que les tokens 3D et 2D n'ont pas la même importance selon le contexte et l'étape de traitement. Ignorer cette hétérogénéité conduit à des élagages sous-optimaux. Les modèles VLA sont devenus le paradigme dominant en robotique incarnée depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui ont tous deux popularisé l'architecture action-transformer multi-modal. La tendance à intégrer la modalité 3D s'est accélérée avec l'essor des capteurs LiDAR et RGB-D dans les environnements industriels. Ce travail s'inscrit dans une série d'efforts d'optimisation de l'inférence VLA, aux côtés de travaux comme FastV ou des approches de distillation, mais avec la spécificité de traiter explicitement la multi-modalité visuelle. Le code source n'est pas encore publié, ce qui limite pour l'instant la reproductibilité et l'adoption pratique ; les prochaines étapes annoncées concernent sa mise à disposition publique.

RechercheOpinion
1 source
AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA
242arXiv cs.RO 

AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17787) AnchorRefine, un framework hiérarchique conçu pour améliorer les modèles vision-langage-action (VLA) dans les tâches de manipulation robotique de précision. Le principe central repose sur une décomposition en deux niveaux : un planificateur d'ancres de trajectoire (anchor planner) qui génère un squelette de mouvement grossier, et un module de raffinement résiduel qui corrige les déviations en phase d'exécution pour améliorer la précision géométrique et de contact. Le système intègre également un mécanisme de raffinement de pince sensible aux transitions discrètes (decision-aware gripper refinement), conçu pour mieux capturer le caractère binaire et critique aux frontières du contrôle de préhension. Évalué sur les benchmarks LIBERO et CALVIN, ainsi que sur des tâches en robot réel, AnchorRefine affiche des gains allant jusqu'à 7,8 points de pourcentage en taux de succès en simulation et 18 points en conditions réelles, sur des backbones VLA à base de régression comme de diffusion. Le problème que cette architecture cherche à résoudre est structurel dans la conception actuelle des politiques VLA : lorsqu'une politique génère toutes les actions dans un espace unifié, les grands mouvements de transport dominent l'optimisation et noient les signaux correctifs de faible amplitude, pourtant critiques pour les tâches de précision comme l'assemblage, l'insertion ou la manipulation d'objets fragiles. En séparant explicitement la planification macroscopique de l'ajustement microscopique, AnchorRefine reproduit une structure proche de la motricité humaine, où la trajectoire globale et la correction locale sont des processus distincts. Le gain de 18 % en conditions réelles est significatif car il suggère une réduction effective du sim-to-real gap sur les tâches de contact, un verrou majeur pour la commercialisation des manipulateurs polyvalents. Ce travail s'inscrit dans une tendance de fond en robotique académique : l'hybridation entre planification à haut niveau (souvent guidée par le langage ou la vision) et contrôle fin en boucle fermée. Des approches comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) intègrent déjà des mécanismes proches, tandis que des labos comme celui de Chelsea Finn (Stanford) ou Sergey Levine (Berkeley) explorent la hiérarchie action depuis plusieurs années. AnchorRefine se distingue en proposant une solution modulaire compatible avec des backbones existants sans réentraîner l'ensemble du modèle, ce qui facilite potentiellement son intégration dans des pipelines VLA déjà déployés. Les auteurs ne mentionnent pas de partenariat industriel ni de timeline de déploiement, et les évaluations restent cantonnées à des benchmarks académiques, ce qui tempère les conclusions sur la robustesse en environnement non contrôlé.

RechercheOpinion
1 source
ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé
243arXiv cs.RO 

ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé

Des chercheurs ont publié le 22 avril 2026 sur arXiv un article présentant ReFineVLA, un cadre d'apprentissage conçu pour améliorer les capacités de raisonnement des modèles Vision-Language-Action (VLA) en robotique. L'approche repose sur deux étapes : un modèle enseignant expert génère d'abord des rationales de raisonnement pour enrichir les jeux de données robotiques existants, puis ces données augmentées servent à affiner des VLA pré-entraînés. Les auteurs évaluent leur méthode sur SimplerEnv, un environnement de simulation de manipulation, en testant deux plateformes robotiques distinctes : le bras WidowX et le Google Robot. ReFineVLA affiche un taux de succès supérieur à la deuxième meilleure méthode sur les deux benchmarks, selon les résultats rapportés. Aucun chiffre précis de marge de progression n'est fourni dans l'abstract. L'enjeu soulevé par ce travail est le fossé entre performance brute et raisonnement explicite dans les VLA actuels. Les modèles existants apprennent des mappings entrée-action fonctionnels mais omettent les étapes logiques intermédiaires, ce qui fragilise leur interprétabilité et leur généralisation sur des tâches longues et complexes. Pour les intégrateurs industriels, cette lacune est critique : un robot qui réussit une tâche sans pouvoir expliquer sa décision est difficile à valider, à certifier, ou à déboguer. ReFineVLA propose d'injecter du raisonnement structuré au moment du fine-tuning plutôt qu'en repensant l'architecture, ce qui est une approche pragmatique pour améliorer des modèles existants comme OpenVLA ou pi0 sans réentraînement complet. Ce travail s'inscrit dans une tendance récente visant à combler le gap entre LLMs raisonnants et politiques robotiques. Des approches comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA ont montré que les VLA pré-entraînés sur de larges corpus peuvent être adaptés à des domaines spécifiques. ReFineVLA pousse cette logique en ciblant explicitement le raisonnement comme vecteur de généralisation. Les évaluations restent cantonnées à la simulation, et la question du transfert sim-to-real n'est pas traitée dans cette version. Les prochaines étapes naturelles seraient une validation sur robot réel et une mesure de l'impact sur des tâches de manipulation longue séquence hors distribution.

IA physiqueOpinion
1 source
OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste
244arXiv cs.RO 

OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste

Des chercheurs ont publié le 24 avril 2026 OFlow, un framework destiné à améliorer la robustesse des modèles Vision-Language-Action (VLA) dans les tâches de manipulation robotique. L'approche, présentée dans un preprint arXiv (2604.17876), repose sur deux mécanismes combinés : un module de prédiction temporelle par flow matching, qui anticipe l'évolution de la scène avant d'agir, et une représentation centrée sur les objets pertinents pour la tâche, qui filtre les variations visuelles sans intérêt. Ces deux composants partagent un même espace latent sémantique, à partir duquel la génération des actions continues est conditionnée. Les évaluations couvrent quatre environnements de référence, LIBERO, LIBERO-Plus, MetaWorld et SimplerEnv, ainsi que des expériences en conditions réelles, et montrent des gains de robustesse et de taux de succès par rapport aux baselines VLA standards. Le verrou que tente de lever OFlow est bien identifié dans la communauté : les VLAs actuels raisonnent image par image, sans modèle explicite de ce qui va se passer ni de quels objets comptent vraiment. En séparant les cues visuels liés à la tâche des variations de fond (éclairage, texture, pose de la caméra), OFlow produit des représentations plus stables sous distribution shift, c'est-à-dire lorsque les conditions réelles diffèrent du training data. Pour les intégrateurs et les équipes de déploiement industriel, c'est un point critique : la fragilité des VLAs face aux écarts de conditions est l'un des principaux obstacles à leur passage en production. Les résultats sur SimplerEnv et les tâches réelles sont particulièrement scrutés, car ce benchmark est conçu pour tester explicitement ce gap sim-to-real. OFlow s'inscrit dans une vague de travaux cherchant à doter les VLAs d'une forme de planification implicite, après des modèles comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) qui misent sur des architectures diffusion ou flux pour la génération d'actions. L'originalité revendiquée ici est l'unification dans un espace latent commun, plutôt que d'ajouter des modules séparés. Il s'agit pour l'instant d'un preprint non relu par des pairs, et les benchmarks utilisés, LIBERO notamment, sont bien maîtrisés par la communauté mais n'impliquent pas de robots déployés en production. Les prochaines étapes naturelles seront la validation sur des plateformes hardware variées et une comparaison directe avec les approches concurrentes sur des scénarios industriels réels.

IA physiqueOpinion
1 source
Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement
245arXiv cs.RO 

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

Des chercheurs proposent un cadre de locomotion humanoid corps-entier combinant un modèle de diffusion entraîné sur des mouvements humains retargetés avec un tracker de mouvements par apprentissage par renforcement (RL), le tout déployé sur le robot Unitree G1. Le système génère en temps réel des trajectoires de référence adaptées au terrain, puis un module de suivi les exécute sur le robot complet, en s'appuyant uniquement sur la perception embarquée. Lors des tests matériels, le G1 a franchi avec succès des boîtes, des haies, des escaliers et des combinaisons de terrains mixtes, sans recourir à des capteurs externes ni à un calcul déporté. L'enjeu technique central que ce travail adresse est connu dans le secteur sous le nom de "lower-body dominance" : les approches RL classiques avec reward shaping tendent à produire une locomotion efficace mais raide, concentrée sur les jambes, au détriment de la coordination du buste et des bras. À l'inverse, l'imitation pure de mouvements de référence limite la capacité d'adaptation en ligne aux obstacles imprévus. Le couplage proposé -- générer à la volée la référence adaptée au terrain puis la tracker en boucle fermée -- représente une architecture crédible pour combler ce gap, même si les vidéos de démonstration présentées restent sélectionnées et ne constituent pas encore une validation sur terrain non contrôlé à large échelle. Le Unitree G1, commercialisé depuis 2024 à environ 16 000 dollars, est devenu un banc de test standard pour les laboratoires académiques en locomotion humanoid, au même titre que l'Atlas de Boston Dynamics pour les groupes industriels. Ce travail s'inscrit dans une vague de publications exploitant les modèles de diffusion pour la génération de mouvements robotiques, une tendance initiée notamment par les travaux sur pi0 (Physical Intelligence) et GR00T N2 (NVIDIA). Les auteurs annoncent des résultats quantitatifs montrant que la fine-tuning en boucle fermée améliore la généralisation ; la prochaine étape logique serait une validation sur des terrains non vus pendant l'entraînement et un déploiement en conditions industrielles réelles.

HumanoïdesPaper
1 source
Rewind-IL : détection des échecs en temps réel et réinitialisation d'état pour l'apprentissage par imitation
246arXiv cs.RO 

Rewind-IL : détection des échecs en temps réel et réinitialisation d'état pour l'apprentissage par imitation

Une équipe de chercheurs a publié Rewind-IL, un framework de surveillance en ligne conçu pour détecter les échecs d'exécution dans les politiques d'imitation learning à découpage d'actions (action-chunked policies) et y remédier sans nécessiter de données d'échec préalables. Le système repose sur deux mécanismes complémentaires : un détecteur d'anomalies baptisé TIDE (Temporal Inter-chunk Discrepancy Estimate), qui mesure l'incohérence temporelle entre segments d'actions successifs, et un mécanisme de "respawning" qui ramène le robot à un état intermédiaire sûr vérifié sémantiquement. En amont du déploiement, un modèle vision-langage (VLM) identifie des points de reprise dans les démonstrations d'entraînement, et l'encodeur de la politique gelée génère une base de données compacte d'empreintes de ces checkpoints. En ligne, Rewind-IL surveille la cohérence interne des chunks d'actions superposés et, dès détection d'une dérive, revient au dernier état validé avant de relancer l'inférence depuis un état propre. Les expériences couvrent des tâches de manipulation longue portée en environnement réel et simulé, avec transfert vers des politiques basées sur le flow matching. L'intérêt principal de Rewind-IL est qu'il est training-free : aucune donnée d'échec n'est nécessaire pour entraîner le détecteur, ce qui le distingue des moniteurs existants qui requièrent soit des exemples négatifs étiquetés, soit tolèrent mal les dérives bénignes de features. Le problème qu'il adresse est structurel dans les politiques action-chunked : une fois que l'exécution sort du manifold de démonstration, la politique continue de générer des actions localement plausibles mais globalement incohérentes, sans jamais récupérer. Rewind-IL casse ce cycle en combinant détection statistique (calibration par split conformal prediction pour contrôler le taux de fausses alarmes) et récupération sémantiquement ancrée plutôt que géométrique. C'est une approche pragmatique pour améliorer la fiabilité des robots en déploiement industriel, sans retraining ni ingénierie de données d'échec. L'imitation learning a connu un regain d'intérêt majeur avec l'émergence des politiques visuomotrices génératives, notamment ACT et Diffusion Policy, largement adoptées dans les labos académiques et par des acteurs comme Physical Intelligence (pi0) ou Figure AI. Ces politiques se heurtent toutefois à un "deployment gap" : les performances en démo ne se transposent pas toujours en conditions réelles sur des tâches longues. Rewind-IL s'inscrit dans une tendance croissante de travaux sur la robustesse runtime (aux côtés de méthodes comme DART ou les moniteurs basés sur l'incertitude), mais se distingue par son absence totale de supervision sur les échecs. Les auteurs indiquent que le code et les matériaux supplémentaires sont disponibles en ligne, mais aucun partenariat industriel ni déploiement terrain n'est annoncé à ce stade : il s'agit d'une contribution de recherche académique, pas d'un produit shipé.

RechercheOpinion
1 source
COVER : planification de mouvement en temps fixe avec cartes à couverture vérifiée en environnements semi-statiques
247arXiv cs.RO 

COVER : planification de mouvement en temps fixe avec cartes à couverture vérifiée en environnements semi-statiques

Des chercheurs ont publié sur arXiv (référence 2510.03875v2) un framework baptisé COVER (Coverage-VErified Roadmaps), conçu pour résoudre des requêtes de planification de mouvement dans un budget temps fixe, sur un manipulateur 7-DOF effectuant des tâches de pick-and-place dans des environnements de type table rase et étagères. Le principe repose sur des environnements dits semi-statiques : la majorité de l'espace de travail reste identique entre les tâches, tandis qu'un sous-ensemble d'obstacles change de position. COVER décompose l'espace des configurations possibles de chaque obstacle mobile de façon indépendante, construit des roadmaps (graphes de chemins) de façon incrémentale, et vérifie formellement la faisabilité de ces graphes dans chaque partition. Pour les régions vérifiées, la résolution d'une requête est garantie dans un temps borné. Les benchmarks montrent une couverture de l'espace-problème plus large et un taux de succès par requête supérieur aux approches antérieures, notamment face à des obstacles de tailles hétérogènes. L'enjeu industriel est direct : les planificateurs généralistes comme RRT ou ses variantes ne garantissent pas de temps de réponse borné, ce qui bloque leur usage dans les applications temps-réel (lignes d'assemblage, cellules de palettisation, cobots en cadence synchronisée). COVER apporte une garantie formelle de couverture, absente des travaux précédents, sans discrétiser les configurations d'obstacles en un ensemble fini prédéfini. C'est ce dernier point qui étend l'applicabilité aux scénarios industriels réels, où les positions d'obstacles varient continûment et ne tombent pas dans des cases prédéterminées. Pour un intégrateur, la différence est concrète : un planificateur qui "essaie" n'a pas la même valeur contractuelle qu'un planificateur qui "garantit" dans X millisecondes. La planification de mouvement certifiée dans des environnements changeants est un problème ouvert depuis des années, à la frontière entre la robotique manipulation et la vérification formelle. Les approches par probabilistic roadmaps (PRM) offrent performance mais pas de garanties ; les méthodes exactes sont trop coûteuses en temps de calcul pour être embarquées. COVER se positionne entre ces deux extrêmes en exploitant la structure semi-statique propre à la majorité des environnements industriels. Les concurrents implicites sont les planificateurs adaptatifs comme STOMP, TrajOpt, ou les approches d'apprentissage par imitation (pi-zero de Physical Intelligence, GR00T N2 de NVIDIA), qui résolvent la planification par inférence neuronale mais sans garantie formelle de complétude. La prochaine étape naturelle serait d'étendre COVER à des environnements avec obstacles dynamiques ou à des manipulateurs montés sur bases mobiles, ce que l'article ne couvre pas encore.

RecherchePaper
1 source
Transfert de compétences entre géométries différentes en une seule démonstration par décomposition en parties
248arXiv cs.RO 

Transfert de compétences entre géométries différentes en une seule démonstration par décomposition en parties

Des chercheurs ont publié le 20 avril 2026 (arXiv:2604.15455) une méthode permettant à un robot d'apprendre un geste à partir d'une seule démonstration, puis de le transférer à des objets de formes radicalement différentes, sans nouvel entraînement. L'approche repose sur une décomposition sémantique : plutôt que de comparer un objet entier à un autre, le système identifie les parties fonctionnelles pertinentes (poignée, bord, surface de contact) et transfère les points d'interaction entre les pièces homologues de l'objet de démonstration et de l'objet cible. Des modèles génératifs de formes à faible coût de données construisent automatiquement une fonction objectif qui optimise l'alignement de ces points sur les parties critiques pour l'exécution du skill. Les validations couvrent plusieurs skills et familles d'objets, en simulation et en environnement réel. Ce résultat est notable car il s'attaque directement au "demo-to-reality gap" géométrique : la majorité des systèmes actuels de transfert de skills, y compris ceux basés sur des Visual Language Action models (VLA), peinent dès que la forme de l'objet cible s'écarte significativement de celle vue lors de l'apprentissage. La décomposition en parties découple la variabilité de forme globale de la logique d'interaction locale, ce qui augmente mécaniquement le domaine de généralisation sans multiplier les données d'entraînement. Pour un intégrateur industriel ou un équipementier travaillant sur des lignes multi-références, c'est une piste concrète pour réduire le coût de re-programmation à chaque changement de référence produit. Le problème du transfert de skills en robotique est étudié depuis des années sous différents angles : apprentissage par démonstration (LfD), correspondances fonctionnelles entre objets, ou plus récemment les VLA pré-entraînés sur larges corpus vidéo (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA). Cette approche se positionne dans la lignée des travaux sur le raisonnement compositionnel, qui cherchent à représenter les objets non comme des blobs de points mais comme des assemblages de parties sémantiques, une direction explorée également par des groupes comme le MIT CSAIL et Stanford. Aucun partenariat industriel ni déploiement terrain n'est annoncé à ce stade : il s'agit d'une contribution académique, prometteuse mais encore à valider sur des skills complexes et des environnements fortement non structurés.

RechercheActu
1 source
Mémoire à long terme pour agents VLA dans l'exécution de tâches en environnement ouvert
249arXiv cs.RO 

Mémoire à long terme pour agents VLA dans l'exécution de tâches en environnement ouvert

Une équipe de chercheurs a publié le 22 avril 2026 sur arXiv (ref. 2504.15671) les résultats de ChemBot, un système robotique conçu pour automatiser des protocoles d'expérimentation chimique complexes en laboratoire. ChemBot repose sur une architecture à deux couches couplant un agent IA planificateur à un modèle Vision-Language-Action (VLA) baptisé Skill-VLA, capable de décomposer hiérarchiquement des tâches longues, typiquement des protocoles multi-étapes, puis de les exécuter sur des robots collaboratifs. Le système intègre une mémoire persistante à double niveau qui archive les trajectoires réussies sous forme d'assets réutilisables, et s'appuie sur un serveur Model Context Protocol (MCP) pour orchestrer les sous-agents et les outils. Un mécanisme d'inférence asynchrone basé sur la prédiction d'états futurs est également implémenté pour réduire les discontinuités de trajectoire, un défaut récurrent des VLA standards. Les expériences rapportées montrent des taux de succès et une précision opérationnelle supérieurs aux baselines VLA existantes sur des scénarios longs et multi-étapes. Ce travail adresse une limite structurelle bien documentée des modèles VLA : leur incapacité à capitaliser sur les expériences passées, ce qui force le système à recommencer par tâtonnements à chaque nouvelle session. En intégrant une mémoire persistante récupérable, ChemBot réduit concrètement le "trial-and-error gap" dans des environnements à longue horizon de planification, un problème critique pour l'automatisation de laboratoire où une erreur en milieu de protocole peut invalider toute une expérience. C'est également une démonstration applicative du sim-to-real dans un domaine non industriel, le laboratoire chimique, traditionnellement peu couvert par les benchmarks robotiques. Pour les intégrateurs B2B dans le pharma ou la recherche chimique, cela constitue un signal concret vers des robots de laboratoire autonomes capables de gérer des workflows non déterministes. Les modèles VLA ont connu une montée en puissance rapide depuis 2023 avec des travaux comme RT-2 (Google DeepMind), OpenVLA et Pi-0 (Physical Intelligence), mais la majorité des déploiements restent limités à des tâches courtes et répétitives. ChemBot se positionne dans le segment émergent des "long-horizon VLA", aux côtés de travaux comme SayCan ou des architectures hiérarchiques de Carnegie Mellon. Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'une publication académique avec validation sur robots collaboratifs en environnement contrôlé. Les prochaines étapes logiques incluent des tests sur des plateformes comme les robots Universal Robots ou Franka, et une intégration potentielle avec des systèmes LIMS existants dans les laboratoires pharmaceutiques.

RechercheOpinion
1 source
De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables
250arXiv cs.RO 

De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables

Une équipe de chercheurs a publié en avril 2026 sur arXiv (arXiv:2604.15805) un framework génératif baptisé "Digital Cousins", conçu pour transformer automatiquement des panoramas de scènes réelles en environnements de simulation haute fidélité, puis en générer des variantes sémantiques et géométriques diversifiées. Le système prend en entrée une image panoramique d'une pièce réelle, reconstruit une scène simulée cohérente, et applique des modifications contrôlées, repositionnement d'objets, changement de géométrie, substitution de matériaux, pour produire des "scènes cousines" statistiquement variées. Un module de raccordement multi-pièces permet de construire des environnements à grande échelle pour des tâches de navigation longue portée dans des layouts complexes. Les expériences montrent que scaler massivement la génération de données améliore significativement la généralisation à des scènes et objets non vus en entraînement. Ce travail s'attaque directement à l'un des goulots d'étranglement majeurs du robot learning : collecter des données réelles diversifiées est coûteux en temps, en assets physiques et en reconfiguration manuelle d'environnements. L'approche real-to-sim-to-real proposée ici offre aux intégrateurs et équipes R&D une voie pour démultiplier leur corpus d'entraînement sans mobiliser de ressources physiques supplémentaires. La corrélation sim-to-real mesurée dans les expériences valide la fidélité de la plateforme, un point crucial, car beaucoup de frameworks de simulation peinent à transférer en conditions réelles. Pour les décideurs B2B, cela signifie des cycles de développement potentiellement plus courts et une meilleure robustesse des politiques déployées face à la variabilité des environnements industriels. À noter que les métriques de généralisation sont présentées sur des benchmarks de manipulation et de navigation en intérieur ; leur tenue dans des contextes industriels contraints (entrepôts, lignes de production) reste à démontrer hors laboratoire. Le concept de "Digital Cousins" s'inscrit dans une vague de travaux visant à combler le sim-to-real gap, aux côtés d'approches comme Isaac Sim (NVIDIA), Habitat (Meta) ou Genesis (labo Carnegie Mellon). Ce qui différencie cette contribution est la chaîne génératrice bout-en-bout à partir de panoramas, une méthode plus accessible que la modélisation 3D manuelle traditionnelle. Les auteurs ne rattachent pas explicitement le framework à un robot ou un produit commercial, ce qui en fait pour l'instant un outil de recherche. Les prochaines étapes naturelles seraient une intégration avec des pipelines VLA (Vision-Language-Action) existants comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), et une validation sur des robots manipulateurs déployés en conditions semi-réelles.

RecherchePaper
1 source