Aller au contenu principal

Dossier NVIDIA Isaac & Cosmos

34 articles

La pile NVIDIA Isaac et les world models Cosmos : simulation, génération de données synthétiques, sim2real pour entraînement de politiques robotiques.

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action
1arXiv cs.RO IA physiqueOpinion

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

Des chercheurs ont publié sur arXiv (référence 2605.13276) un framework distribué baptisé D-VLA, conçu pour entraîner par renforcement les modèles Vision-Language-Action (VLA) à très grande échelle. Le problème central qu'ils adressent est un goulot d'étranglement systémique : lorsqu'on applique du reinforcement learning (RL) à des VLA de plusieurs milliards de paramètres dans un environnement distribué, la simulation physique haute-fidélité et les calculs d'inférence se disputent les mêmes ressources GPU (VRAM, bande passante), ce qui dégrade le débit global. D-VLA répond par trois mécanismes : un "Plane Decoupling" qui isole physiquement les données d'entraînement haute fréquence du contrôle des poids basse fréquence, un pipeline asynchrone à quatre fils d'exécution ("Swimlane") permettant le chevauchement complet des phases de sampling, d'inférence, de calcul de gradient et de distribution des paramètres, et un système dual-pool de gestion VRAM couplé à une réplication "topology-aware". Sur le benchmark LIBERO, le framework surpasse significativement les solutions RL dominantes en débit et en efficacité d'échantillonnage pour des modèles à l'échelle du milliard de paramètres. Des tests de passage à l'échelle trillion de paramètres indiquent une stabilité maintenue et un speedup linéaire. L'enjeu industriel est concret : les modèles VLA sont désormais au coeur des architectures robotiques génériques (manipulation, navigation, planification multimodale), mais leur entraînement par RL reste prohibitif en ressources. Un framework qui résout le conflit simulation/optimisation et atteint un speedup linéaire à l'échelle du trillion de paramètres lève l'un des principaux verrous pour entraîner des agents polyvalents sans multiplier les clusters GPU de façon exponentielle. C'est une brique infrastructure, pas un robot, mais elle conditionne directement la vitesse à laquelle des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les VLA internes de Figure AI peuvent être affinés par RL dans des environnements simulés réalistes. Ce travail s'inscrit dans une course à la scalabilité du RL pour l'embodied AI, où les frameworks existants (IsaacLab, RLlib, sample-factory) n'ont pas été conçus pour les contraintes spécifiques des VLA massifs. Les auteurs ne mentionnent pas d'affiliation institutionnelle clairement identifiable dans l'abstract, et le papier est un preprint non encore évalué par les pairs. Aucun déploiement réel ni partenariat industriel n'est annoncé à ce stade. Les prochaines étapes naturelles seraient une validation sur des tâches robotiques plus complexes que LIBERO et une intégration avec des simulateurs comme Isaac Sim ou MuJoCo à grande échelle.

UELes chercheurs européens en embodied AI pourraient exploiter ce framework pour réduire le coût GPU de l'entraînement RL sur VLA, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

1 source
Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie
2Interesting Engineering 

Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

Des chercheurs de Carnegie Mellon University (CMU) et du Bosch Center for AI ont publié un nouveau système d'IA baptisé HTD (Humanoid Transformer with Touch Dreaming), conçu pour améliorer la manipulation d'objets par des robots humanoïdes dans des environnements à contact complexe. Le framework combine l'apprentissage par imitation avec un module de prédiction tactile, permettant au robot d'anticiper l'évolution des forces de contact et du retour haptique avant et pendant la saisie. Testé sur cinq tâches réelles, insertion d'objet en T, rangement de livres, pliage de serviette, ramassage de litière et service du thé, HTD affiche une amélioration relative de 90,9 % du taux de réussite moyen par rapport à la baseline ACT, un modèle d'imitation de référence dans le domaine. Le système repose sur une architecture dissociée : un contrôleur bas-corps entraîné par renforcement en simulation via une méthode teacher-student stabilise l'orientation du torse, la vitesse et l'équilibre, tandis que la cinématique inverse et le retargeting de main gèrent les mouvements du haut du corps et la dextérité digitale. Les représentations tactiles ne sont pas reconstruites brutes mais encodées dans un espace latent compact via un réseau cible mis à jour lentement, ce qui filtre le bruit sensoriel et améliore la stabilité de la manipulation. Ce résultat est notable parce qu'il adresse directement l'un des verrous persistants de la robotique humanoïde : la cohabitation entre locomotion et manipulation fine sans dégradation mutuelle. La séparation architecturale bas/haut corps n'est pas nouvelle en soi, mais son intégration avec un modèle prédictif tactile dans une politique unifiée évite le recours à un pré-entraînement tactile séparé ou à un world model externe, ce qui simplifie le pipeline de déploiement. Les études d'ablation sont particulièrement instructives : incorporer le toucher comme entrée brute supplémentaire ne suffit pas, la prédiction dans l'espace latent apporte 30 % de gain relatif supplémentaire sur le raw tactile. Pour les intégrateurs qui envisagent des humanoïdes dans des cellules de manutention délicate, c'est un signal clair que la qualité de la représentation sensorielle prime sur la quantité de capteurs. HTD s'inscrit dans une vague de travaux cherchant à combler le sim-to-real gap pour la manipulation contact-riche. Le controller bas-corps a été entraîné sur le dataset AMASS, qui fournit des mouvements humains réalistes pour perturber le torse pendant l'apprentissage, une approche de robustification déjà utilisée dans des projets comme Isaac Lab de NVIDIA ou les travaux de Stanford sur whole-body control. Dans le paysage concurrentiel, Figure (Figure 03), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies travaillent tous sur des architectures VLA (Vision-Language-Action) pour la manipulation généraliste, mais peu publient des résultats quantitatifs sur des tâches aussi précises que l'insertion de connecteurs ou la manipulation de textiles. CMU n'a pas encore annoncé de partenariat industriel ni de calendrier de transfert vers un produit commercial, mais le Bosch Center for AI comme co-auteur suggère un intérêt applicatif concret dans l'automatisation industrielle à manipulation variable.

UELe Bosch Center for AI (Allemagne) co-auteur du papier signale un intérêt applicatif concret pour l'automatisation industrielle européenne à manipulation variable, sans calendrier de transfert industriel annoncé.

RechercheOpinion
1 source
Estimation de scènes encombrées prêtes pour la simulation par optimisation conjointe de forme et de pose intégrant la physique
3arXiv cs.RO 

Estimation de scènes encombrées prêtes pour la simulation par optimisation conjointe de forme et de pose intégrant la physique

Une équipe de chercheurs publie sur arXiv (réf. 2602.20150, v2, février 2026) SPARCS, un pipeline de reconstruction de scènes directement exploitables en simulation physique à partir d'observations réelles. Le système estime simultanément la forme géométrique et la pose de plusieurs objets rigides en interaction, dans des environnements encombrés comportant jusqu'à cinq objets représentés par 22 enveloppes convexes. Deux contributions techniques distinguent l'approche : un modèle de contact à différentiabilité de forme globale permettant l'optimisation conjointe géométrie-pose tout en modélisant les contacts inter-objets, et un solveur linéaire exploitant la sparsité structurée du Hessien Lagrangien augmenté, dont le coût de calcul croît favorablement avec la complexité de la scène. Le pipeline complet enchaîne initialisation par réseau de neurones, optimisation physique contrainte et raffinement différentiable des textures. L'intérêt industriel est direct : les pipelines d'apprentissage de politiques robotiques, qu'ils reposent sur l'imitation learning ou le reinforcement learning, sont freinés par la rareté de scènes simulées physiquement cohérentes. Générer automatiquement ces scènes à partir du réel réduit le fossé real-to-sim qui fragilise ensuite le transfert sim-to-real. Là où les méthodes existantes échouent dans les environnements denses (coût computationnel prohibitif, robustesse insuffisante, portée limitée à un seul objet), SPARCS traite plusieurs objets en contact simultané. Pour un intégrateur développant des systèmes de manipulation ou un laboratoire travaillant sur des robots humanoïdes, cela ouvre une voie crédible vers la génération automatique de données d'entraînement directement issues de scènes réelles. Le domaine real-to-sim est en forte expansion depuis 2023, principalement tiré par l'entraînement de modèles vision-action (VLA) comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les approches concurrentes telles que BundleSDF (Meta / University of Washington) privilégient la reconstruction 6-DoF d'objets inconnus, tandis que les méthodes NeRF et 3D Gaussian Splatting maximisent la fidélité visuelle sans garanties physiques. SPARCS se différencie par son orientation explicitement "simulation-ready" : les scènes produites sont directement injectables dans des simulateurs comme MuJoCo ou Isaac Sim. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication ; il s'agit d'une contribution académique sans produit commercial annoncé.

RecherchePaper
1 source
Contacts corps rigides lisses formulés comme un ReLCP : un problème de complémentarité linéaire généré récursivement
4arXiv cs.RO 

Contacts corps rigides lisses formulés comme un ReLCP : un problème de complémentarité linéaire généré récursivement

Des chercheurs publient sur arXiv (référence 2506.14097) une reformulation des méthodes de simulation de contact entre corps rigides lisses, en introduisant le concept de "Problème de Complémentarité Linéaire Récursivement Généré" (ReLCP). Là où les approches classiques discrétisent les surfaces en maillages ou en assemblages de sphères pour détecter les collisions, cette méthode opère directement sur la géométrie lisse sous-jacente. Concrètement, elle part d'un LCP mono-contrainte standard (dit SNSD, shared-normal signed-distance), puis augmente itérativement le système uniquement lorsque la mise à jour temporelle prédirait une interpénétration des surfaces réelles, limitant ainsi l'explosion combinatoire du nombre de contraintes actives. Les auteurs démontrent formellement que pour des corps strictement convexes et des pas de temps suffisamment petits, l'augmentation récursive se termine en un nombre fini d'itérations et produit une mise à jour de vitesse discrète unique. À la limite des petits pas de temps, la méthode se réduit au LCP SNSD classique. Les validations numériques portent sur des ellipsoïdes en collision, des suspensions denses d'ellipsoïdes, des colonies bactériennes en croissance, et des réseaux de cotte de mailles. L'enjeu pour les développeurs de simulateurs physiques est direct : les approches par proxy-surface souffrent d'un défaut bien documenté, améliorer la fidélité géométrique multiplie le nombre de contraintes et dégrade les performances de manière non linéaire. Le ReLCP contourne ce problème en n'activant des contraintes supplémentaires qu'à la demande, ce qui se traduit, selon les auteurs, par des réductions substantielles du nombre de contraintes actives et du temps de calcul, ainsi qu'une interpénétration bornée sans rugosité artificielle induite par la discrétisation. Pour les équipes travaillant sur la simulation de robots manipulant des objets convexes denses (granulats, composants d'assemblage), ou sur des systèmes biologiques computationnels, c'est une alternative concrète aux formulations de surfaces discrètes. Sur le plan du contexte, la simulation de contact par complémentarité est un champ de recherche actif depuis les travaux fondateurs des années 1990-2000 (Stewart, Trinkle, Anitescu), et reste centrale pour les moteurs physiques embarqués dans les simulateurs robotiques comme MuJoCo, Isaac Sim ou Bullet. La méthode s'inscrit dans une tendance plus large visant à exploiter directement la géométrie analytique (fonctions de distance signée, formes implicites) plutôt que des approximations discrètes. Aucune implémentation commerciale ni partenariat industriel n'est annoncé dans ce preprint : il s'agit d'un résultat théorique et numérique dont l'intégration dans des outils de simulation grand public reste à évaluer.

RecherchePaper
1 source
Modèles d'action du monde : la prochaine frontière de l'IA incarnée
5arXiv cs.RO 

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

Une équipe de chercheurs a publié le 16 mai 2026 sur arXiv (réf. 2605.12090) la première revue systématique d'un paradigme émergent qu'ils formalisent sous le nom de World Action Models (WAMs). Là où les modèles Vision-Language-Action (VLA) actuels, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, apprennent des mappings réactifs observation-vers-action, les WAMs modélisent explicitement la dynamique physique de l'environnement. Concrètement, un WAM génère une distribution jointe sur les états futurs et les actions, plutôt que sur les actions seules. Les auteurs proposent une taxonomie structurée en deux grandes familles : les WAMs en cascade (Cascaded WAMs), où un modèle prédictif alimente un planificateur d'action en pipeline, et les WAMs joints (Joint WAMs), où prédiction d'état et génération d'action sont coappris dans une architecture unifiée, avec des subdivisions selon la modalité de génération, le mécanisme de conditionnement et la stratégie de décodage d'action. L'enjeu industriel est significatif. Les VLA purs souffrent d'un déficit fondamental : ils réagissent aux observations sans anticiper les conséquences physiques de leurs actions, ce qui limite leur robustesse hors distribution et leur capacité à planifier sur des horizons longs. L'intégration d'un world model permet en théorie de simuler mentalement les effets d'une action avant de l'exécuter, un prérequis pour la manipulation dextère complexe, la navigation en environnement non structuré, ou la récupération après erreur. C'est précisément le gap sim-to-real et le reality gap des démos en laboratoire que ce paradigme cherche à combler à l'échelle. Pour un intégrateur ou un COO industriel, cela signifie potentiellement des robots plus fiables sur des tâches non scriptées, sans retraining complet à chaque variation de contexte. Ce travail s'inscrit dans une compétition intense entre Physical Intelligence (Pi-0, financement de 400 M$), NVIDIA (GR00T N2, Isaac Lab), Boston Dynamics, Figure AI et des acteurs académiques comme Berkeley et Stanford. Côté données, les auteurs identifient quatre sources majeures : la télé-opération robot, les démonstrations humaines portables (caméras égo-centriques), la simulation et les vidéos internet à grande échelle, chacune avec ses biais propres. La revue pointe aussi l'absence de benchmarks standardisés pour évaluer la plausibilité physique et le bon sens commonsense des WAMs, un frein à la comparaison rigoureuse. Les prochaines étapes identifiées incluent des protocoles d'évaluation unifiés et l'extension vers des tâches de manipulation longue durée en conditions réelles.

IA physiqueOpinion
1 source
Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation
6Pandaily 

Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation

Moore Threads et Guangyun Intelligence ont annoncé un partenariat stratégique, selon le média financier chinois IPO Zaozhidao. L'accord associe les GPU polyvalents de Moore Threads et son cluster de calcul intelligent Kua'e à la plateforme de simulation propriétaire de Guangyun Intelligence, articulée autour d'une approche intégrée "solve-measure-generate" (résolution, mesure, génération). L'objectif commun est de produire à grande échelle des données synthétiques haute-confiance pour le développement de l'IA incarnée (embodied AI). Aucun chiffre de volume de données, de puissance de calcul déployée ni de tarification n'a été communiqué dans l'annonce. Ce partenariat cible un verrou structurel de la robotique humanoïde : la rareté des données physiques réelles, leur coût de collecte, la couverture insuffisante des scénarios, et la difficulté à reproduire de façon stable des processus physiques complexes lors des campagnes de collecte sur robot réel. La synthèse de données de haute qualité s'impose comme voie de contournement, mais elle se heurte à des besoins en calcul en croissance exponentielle liés à l'explosion combinatoire du rendu. Le pipeline proposé, de la trajectoire réelle à la modélisation en simulation puis à l'augmentation de données, ambitionne notamment de résoudre la simulation physique de la préhension de corps souples (flexible body grasping), un défi technique clé pour les applications de manipulation industrielle. L'annonce s'inscrit dans la course chinoise à la souveraineté en IA physique. Moore Threads, fondé en 2020, positionne ses GPU comme alternative domestique aux puces Nvidia dans un contexte de restrictions américaines à l'exportation. Guangyun Intelligence se spécialise dans la simulation pour la robotique incarnée. Ce type de boucle fermée entre calcul souverain et production de données synthétiques robotiques trouve des équivalents directs dans l'écosystème occidental, notamment NVIDIA Isaac Sim, la plateforme open-source Genesis, ou les pipelines internes de Figure AI et Physical Intelligence. La portée réelle de ce partenariat reste à démontrer : l'annonce relève du cadre stratégique, sans déploiement documenté ni résultat public à ce stade.

Chine/AsieOpinion
1 source
IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite
7arXiv cs.RO 

IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite

Des chercheurs présentent SAGE (Sandbox-Abstracted Grounded Experience), un framework pour la navigation autonome de robots en environnement ouvert, publié en mai 2026 sur arXiv (2605.10118). Le constat de départ : les Vision-Language Models (VLMs) disposent de fortes capacités de raisonnement général, mais échouent en navigation embodied faute de données alignées vision-contrôle en monde réel. Les simulateurs photoréalistes (Habitat, Isaac Sim) offrent une alternative moins coûteuse, mais les politiques apprises peinent à se transférer vers des environnements physiques. SAGE résout ce problème en entraînant les agents dans des abstractions sémantiques contraintes par la physique plutôt que dans des décors photoréalistes, imitant le mécanisme de "simulation mentale" humain où l'on planifie dans le simplifié avant d'exécuter dans le réel. Le système fonctionne en trois phases : Genesis (génération d'environnements sémantiques variés), Evolution (apprentissage par renforcement avec un mécanisme d'écrêtage adaptatif asymétrique) et Navigation (transfert vers le contrôle robot réel). Sur le benchmark A-EQA (Embodied Question Answering), SAGE atteint 53,21 % de taux de succès LLM-Match, soit +9,7 points par rapport à la baseline. La validation inclut un déploiement préliminaire sur robot physique en environnement intérieur. Ce résultat valide une hypothèse contre-intuitive pour le secteur : réduire le réalisme visuel de la simulation peut améliorer le transfert sim-to-real plutôt que le compromettre. La majorité des frameworks actuels parient sur la fidélité photoréaliste pour combler le reality gap ; SAGE inverse ce paradigme. Pour les intégrateurs et décideurs industriels, la démarche ouvre une voie moins gourmande en compute et en données terrain pour déployer des agents de navigation autonome dans des espaces non structurés (entrepôts, hôpitaux, bureaux). Le mécanisme d'écrêtage adaptatif asymétrique de la phase Evolution représente également une contribution technique ciblée : il stabilise l'apprentissage par renforcement lorsque les distributions d'expériences sont déséquilibrées, un point de friction récurrent dans les pipelines de navigation embodied. La navigation embodied assistée par VLMs est en forte expansion depuis 2023, portée par des travaux comme NavGPT, EmbodiedGPT et les architectures VLA (Vision-Language-Action). Le reality gap y reste un obstacle structurel : les politiques entraînées sur des datasets de simulation (Gibson, Matterport3D) généralisent rarement aux environnements réels, contraignant les équipes à des campagnes de collecte terrain coûteuses. SAGE propose une troisième voie entre simulation photoréaliste et données terrain. La validation physique reste toutefois préliminaire et limitée à un contexte indoor, ce qui positionne encore ce travail dans la catégorie recherche académique expérimentale plutôt que produit déployable. Aucune comparaison directe avec des frameworks établis comme Habitat 3.0 ou Isaac Lab n'est fournie dans cette version initiale, ce qui compliquera le positionnement pour les équipes R&D souhaitant adopter SAGE sans reproduire les expériences de zéro.

IA physiqueActu
1 source
Modèle JODA : dynamique articulaire composable pour objets articulés
8arXiv cs.RO 

Modèle JODA : dynamique articulaire composable pour objets articulés

Une équipe de chercheurs a déposé en mai 2026 sur arXiv (arXiv:2605.09954) JODA, un cadre de modélisation des dynamiques d'articulation pour objets articulés (composable Joint Dynamics for Articulated Objects), destiné à combler l'absence de comportements mécaniques fins dans les simulateurs robotiques et les environnements d'IA incarnée. La méthode encode la dynamique d'un joint sous la forme d'un champ à trois canaux couvrant son degré de liberté : forces conservatives (ressorts, butées de fin de course), frottement sec (holding friction, detents, snap-latching) et amortissement (soft-close). Ces composantes sont instanciées par interpolation cubique par morceaux avec contraintes de forme (PCHIP), produisant une représentation compacte, interprétable et compatible avec la simulation différentiable. Pour inférer ces paramètres depuis des observations visuelles, JODA utilise un modèle vision-langage (VLM) qui propose des primitives dynamiques structurées, composées en un champ unifié, éditable manuellement ou affiné par descente de gradient. Le problème que JODA adresse est central en robotique de manipulation : le fossé simulation-réalité (sim-to-real gap). Les environnements comme MuJoCo, Isaac Sim ou Habitat modélisent la géométrie et la cinématique des objets articulés, mais ignorent les effets mécaniques de second ordre qui conditionnent le comportement tactile réel : résistance variable selon la position, crans d'arrêt, fermeture amortie, encliquetage. Pour un robot manipulant un tiroir de cuisine ou une vanne industrielle, ces dynamiques sont déterminantes. Une simulation plus fidèle devrait améliorer le transfert de politiques entraînées sur données synthétiques vers l'environnement physique, un enjeu clé pour les architectures VLA (Vision-Language-Action) en cours de déploiement à grande échelle. Les approches existantes ignorent généralement ces dynamiques ou s'appuient sur des paramètres scalaires fixes (raideur constante, amortissement linéaire), sans capturer ni la non-linéarité du frottement ni les comportements multi-stables. JODA se distingue par sa représentation paramétrique interprétable couplée à un pipeline d'inférence fondé sur un VLM, ouvrant la voie à une annotation semi-automatique d'actifs 3D à grande échelle. Le code et les assets d'exemple seront publiés uniquement à la parution de l'article, ce qui place JODA au stade de preprint sans validation externe à ce jour. La méthode s'inscrit dans une dynamique plus large d'enrichissement des simulateurs robotiques par des propriétés physiques extraites de données multimodales, un axe de recherche actif chez Google DeepMind, Meta FAIR et dans le domaine des jumeaux numériques industriels.

RecherchePaper
1 source
Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente
9arXiv cs.RO 

Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente

Une équipe de chercheurs publie Diff-CAST (Diffusion-guided Constraint-Aware Symmetric Tracking), un nouveau cadre de prior de mouvement pour la locomotion quadrupède biomimétique, déposé le 12 mai 2026 en preprint sur arXiv (2605.08804). La méthode substitue les modèles de diffusion aux discriminateurs GAN classiquement utilisés dans les pipelines combinant apprentissage par renforcement (RL) et imitation learning. L'architecture intègre deux composants : le SACC (Symmetric Augmented Command Conditioning), conçu pour corriger les dérives involontaires de cap lors de manœuvres complexes hors distribution, et un bloc de RL contraint (Constrained RL) chargé de garantir la conformité aux limites dynamiques des actionneurs lors du passage sur matériel physique, dans un schéma global baptisé Sim2Re. Le verrou que Diff-CAST cherche à lever est documenté dans la communauté : à mesure que les jeux de données de mouvement grossissent et se diversifient (sources multiples, données non curées), les discriminateurs GAN s'effondrent en mode collapse, incapables de modéliser des distributions multi-modales complexes. Les modèles de diffusion, dont la supériorité sur ce point est établie en génération d'images et de trajectoires, constituent une alternative logique. Si les expériences sur quadrupède réel confirment les résultats annoncés, cela ouvrirait la voie à un scaling massif de datasets hétérogènes sans perte de diversité comportementale, notamment pour des transitions fluides entre marche, trot et récupération. Il convient cependant de souligner que le papier est un preprint non évalué par les pairs, et que le gap sim-to-real reste à valider indépendamment. La locomotion quadrupède à base de RL est un domaine consolidé depuis les travaux d'ANYbotics sur ANYmal et du laboratoire Robotic Systems Lab d'ETH Zurich, prolongés par des équipes de Carnegie Mellon et Berkeley. Unitree (Go2, H1) et Boston Dynamics industrialisent ces méthodes, tandis que le secteur académique cherche à réduire la dépendance aux données de capture de mouvement coûteuses au profit de datasets non curés. Diff-CAST s'inscrit précisément dans cette tendance. Les prochaines étapes attendues sont la publication du code source, des benchmarks standardisés sur des plateformes comme Isaac Lab ou legged gym, et une validation multi-robots au-delà du quadrupède utilisé dans les expériences reportées.

RecherchePaper
1 source
AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents
10arXiv cs.RO 

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents

Une équipe de chercheurs a présenté AGILE (arXiv:2602.04672v3), un framework de reconstruction d'interactions dynamiques main-objet à partir de vidéos monoculaires, ciblant deux applications majeures : la collecte de données pour la manipulation dextère en robotique et la création de jumeaux numériques pour la simulation et la réalité virtuelle. La méthode s'attaque à deux verrous techniques qui paralysent les approches existantes : d'une part, le rendu neuronal classique produit sous forte occultation des géométries fragmentées, inutilisables directement en simulation physique ; d'autre part, l'initialisation par Structure-from-Motion (SfM) est notoriellement fragile sur des vidéos captées en conditions réelles. AGILE bascule du paradigme de reconstruction vers ce que les auteurs appellent une "génération agentique" : un Vision-Language Model (VLM) pilote un modèle génératif pour synthétiser un mesh objet complet, fermé (watertight) et texturé haute fidélité, sans dépendre du contenu vidéo occulté. Une stratégie dite "anchor-and-track" initialise la pose de l'objet sur une unique frame d'interaction via un modèle fondation, puis propage cette pose temporellement en exploitant la similarité visuelle entre l'asset généré et les frames vidéo. Une optimisation finale dite contact-aware intègre des contraintes sémantiques, géométriques et de stabilité d'interaction pour garantir la plausibilité physique. Sur les benchmarks HO3D, DexYCB et ARCTIC, AGILE surpasse les baselines en précision géométrique globale. L'intérêt industriel de cette approche réside dans la production d'assets directement exploitables en simulation, une propriété validée par les auteurs via du retargeting real-to-sim pour des applications robotiques. C'est précisément le point de friction qui freinait l'adoption des pipelines de reconstruction vidéo dans les boucles d'entraînement de politiques de manipulation : les meshes obtenus par NeRF ou reconstruction multi-vues classique nécessitaient un travail de remaillage manuel avant d'être injectables dans un moteur physique comme MuJoCo ou Isaac Sim. En contournant le SfM, AGILE devient également utilisable sur des données de terrain non contrôlées, ce qui ouvre la voie à la collecte passive de démos humaines à grande échelle, un prérequis pour les approches VLA (Vision-Language-Action) qui peinent encore à obtenir suffisamment de trajectoires dextères annotées. Le problème de la reconstruction main-objet est étudié depuis plusieurs années, avec des datasets de référence comme HO-3D (2020) et DexYCB (2021), et des méthodes basées sur les modèles paramétriques MANO pour la main. L'originalité d'AGILE est de déporter la reconstruction de l'objet vers une génération guidée, plutôt que de l'estimer directement depuis le signal vidéo dégradé. Les concurrents directs sont les méthodes NeRF-based adaptées aux scènes dynamiques (D-NeRF, HO-NeRF) et les pipelines SfM+MVS classiques, tous sensibles aux occultations. Du côté des acteurs industriels, cette direction intéresse directement les équipes travaillant sur la télé-opération et l'imitation learning pour bras robotiques dextères, notamment chez Dexterous Robotics, Physical Intelligence (Pi) ou les labos académiques proches de Figure et Apptronik. Le projet dispose d'une page dédiée (agile-hoi.github.io) ; aucun code ni dataset supplémentaire n'est annoncé à ce stade.

RecherchePaper
1 source
Exploiter les gradients analytiques dans l'apprentissage par renforcement à sécurité garantie
11arXiv cs.RO 

Exploiter les gradients analytiques dans l'apprentissage par renforcement à sécurité garantie

Une équipe de recherche présente dans un article soumis sur arXiv (identifiant 2506.01665) le premier mécanisme de protection efficace pour l'apprentissage par renforcement à gradients analytiques (AGB-RL, analytic gradient-based reinforcement learning). L'approche consiste à analyser les protections différentiables existantes, à les adapter via des reformulations de mappings et de gradients, puis à les intégrer dans un algorithme d'apprentissage de pointe couplé à une simulation différentiable. La méthode a été validée sur trois tâches de contrôle robotique, avec pour résultat un entraînement sous contraintes de sécurité sans dégradation mesurable des performances. Le verrou levé ici est non trivial : jusqu'à présent, les garanties de sécurité prouvables en RL ("provably safe RL") n'étaient disponibles que pour les méthodes d'apprentissage par échantillonnage (PPO, SAC, TD3 et consorts). Or l'AGB-RL, qui exploite les gradients analytiques fournis par les simulateurs différentiables, converge plus vite et avec moins d'interactions environnement, un avantage décisif pour les applications industrielles où les données réelles sont coûteuses. L'absence de protections compatibles avec ce paradigme forçait les équipes à choisir entre performance d'apprentissage et garanties formelles. Ce travail supprime ce compromis, et en intégrant les protections dès la phase d'entraînement simulé, il réduit structurellement le sim-to-real gap, une problématique centrale pour déployer des robots en environnements critiques (soins, industrie lourde, coopération humain-robot). Sur le plan du contexte, le domaine du "safe RL" s'appuie depuis plusieurs années sur deux grandes familles d'outils : les Control Barrier Functions (CBFs) et les mécanismes de shielding, tous deux conçus initialement pour les politiques stochastiques. Parallèlement, les simulateurs différentiables, Isaac Lab de NVIDIA, Brax de Google DeepMind, ou encore MuJoCo MJX, ont rendu l'AGB-RL accessible à grande échelle, creusant un écart méthodologique que ce papier comble. Les auteurs mettent les visuels à disposition sur timwalter.github.io/safe-agb-rl.github.io ; les prochaines étapes naturelles porteront sur la validation en conditions réelles et l'extension à des systèmes à haute dimensionnalité, là où les garanties formelles ont le plus de valeur opérationnelle.

RecherchePaper
1 source
DexSim2Real : transfert simulation-réel guidé par un modèle fondation pour la manipulation dextérique généralisable
12arXiv cs.RO 

DexSim2Real : transfert simulation-réel guidé par un modèle fondation pour la manipulation dextérique généralisable

DexSim2Real est un framework de recherche publié en preprint arXiv (arXiv:2605.05241, mai 2026) visant à réduire le "sim-to-real gap" pour la manipulation dextre -- l'écart de performance entre politiques entraînées en simulation et leur déploiement sur robots réels. L'architecture combine trois modules : FM-DR, qui utilise un modèle de vision-langage comme critique de réalisme visuel pour optimiser automatiquement les paramètres de simulation via l'algorithme CMA-ES ; TVCAP, une politique de contrôle fusionnant données tactiles et visuelles par mécanisme cross-attention pour un transfert zero-shot ; et PSC, un curriculum progressif basé sur la décomposition de tâches par LLM, conçu pour les tâches à fort contact. Évalué en aveugle sur six tâches de manipulation difficiles, le système affiche un taux de succès moyen en conditions réelles de 78,2%, avec un écart sim-to-real résiduel de 8,3% -- contre des performances inférieures revendiquées pour DrEureka et DeXtreme. Le sim-to-real gap est historiquement l'un des freins majeurs à la commercialisation de robots manipulateurs dextres. L'approche différenciante de DexSim2Real consiste à fermer la boucle d'optimisation des paramètres de simulation via un retour visuel direct d'un modèle fondation, là où les méthodes existantes comme DrEureka reposent sur des descriptions textuelles ou une randomisation conçue manuellement. Utiliser un VLM comme juge de réalisme pour guider la randomisation est une piste prometteuse -- mais les résultats restent des benchmarks de laboratoire non encore soumis à revue par les pairs ni validés en déploiement industriel. Les métriques annoncées (78,2% de succès, 8,3% de gap résiduel) devront être reproduites par des équipes indépendantes pour confirmer leur portée réelle. La manipulation dextre sim-to-real est un champ très concurrentiel depuis la démonstration Dactyl d'OpenAI en 2019, avec des acteurs majeurs comme NVIDIA (DrEureka, Isaac Lab) et Meta AI (DeXtreme) en première ligne. DexSim2Real se positionne en unifiant trois leviers -- randomisation guidée par fondation, fusion tactile-visuelle, curriculum adaptatif -- que les travaux antérieurs traitaient séparément. Aucun acteur européen n'est impliqué dans ce travail. Le code n'est pas encore public au moment du preprint ; les prochaines étapes naturelles seraient une soumission à CoRL, IROS ou RSS et, si les résultats se confirment, une ouverture du code pour permettre la reproductibilité.

RecherchePaper
1 source
Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation
13arXiv cs.RO 

Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation

Des chercheurs ont publié sur arXiv (référence 2508.17466v3) un framework de deep learning destiné à améliorer les capacités de préhension des robots quadrupèdes équipés d'un bras manipulateur, une configuration connue sous le nom de loco-manipulation. L'approche repose sur une méthodologie sim-to-real développée dans l'environnement de simulation Genesis, où des milliers d'interactions synthétiques ont été générées sur des objets courants pour produire des cartes annotées pixel par pixel de qualité de préhension. Ces données ont servi à entraîner un réseau de neurones convolutif inspiré de l'architecture U-Net, qui fusionne en entrée des flux multi-modaux issus de caméras embarquées : images RGB, cartes de profondeur, masques de segmentation et cartes de normales de surface. En sortie, le modèle produit une heatmap identifiant le point de préhension optimal. Le système complet a été validé sur un vrai robot quadrupède, qui a exécuté de façon autonome la séquence complète : navigation vers l'objet cible, perception, prédiction de la pose de préhension, puis saisie effective. Le principal intérêt de ce travail est de montrer qu'un pipeline sim-to-real bien conçu peut substituer la collecte de données physiques, historiquement le goulet d'étranglement du développement en manipulation robotique. Pour les intégrateurs et décideurs industriels, cela suggère qu'il devient possible de déployer des capacités de manipulation sur robots mobiles sans investissement massif en démonstrations réelles. Cela dit, l'abstract ne fournit aucun taux de succès quantifié, aucune comparaison avec une baseline, et aucun détail sur le nombre d'objets testés ou la robustesse aux variations d'éclairage et de pose : des lacunes habituelles dans les preprints mais qui freinent l'évaluation sérieuse de la transférabilité industrielle. Ce travail s'inscrit dans un champ académique très actif autour des robots quadrupèdes à bras, popularisé par des plateformes comme l'ANYmal de ANYbotics (Suisse) ou le Spot d'Boston Dynamics, tous deux cibles régulières de recherches en loco-manipulation. L'environnement Genesis, relativement récent, se positionne comme alternative à Isaac Sim (NVIDIA) et MuJoCo pour la génération de données synthétiques. L'architecture U-Net, initialement conçue pour la segmentation médicale, est ici réutilisée pour un problème de régression spatiale, une transposition qui gagne du terrain en robotique de manipulation. Ce papier, en version 3 de révision, reste un travail de recherche en laboratoire : aucun déploiement opérationnel ni partenariat industriel n'est mentionné.

UEImpact indirect limité : ANYbotics (Suisse) est citée comme plateforme cible type, mais le travail est un preprint académique sans affiliation institutionnelle européenne identifiée ni déploiement opérationnel.

RecherchePaper
1 source
Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples
14arXiv cs.RO 

Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples

Des chercheurs ont publié en mai 2026 une étude préliminaire (arXiv:2605.03290) sur les effets de la randomisation de domaine sensible au risque appliquée au contrôle prédictif par échantillonnage (SPC) dans des tâches à contacts physiques denses. La randomisation de domaine (DR) consiste à entraîner un planificateur sur des variantes aléatoires des paramètres physiques, masse, friction, rigidité, pour le rendre robuste aux erreurs de modélisation. Très utilisée en apprentissage par renforcement, elle restait quasiment inexploriée dans le SPC, où la qualité des trajectoires simulées est particulièrement sensible à l'incertitude. Les auteurs comparent trois stratégies d'agrégation de rollouts sous instances de modèles randomisés : moyenne, optimiste (meilleur cas) et pessimiste (pire cas), sur la tâche Push-T, un benchmark de manipulation où un robot pousse un objet en T vers une pose cible. Les résultats révèlent un effet inattendu : la DR ne se contente pas d'améliorer la robustesse aux erreurs de modèle, elle modifie structurellement le paysage de coût perçu par l'optimiseur d'échantillonnage. Selon le profil de risque retenu, le bassin d'attraction autour des actions produisant des contacts physiques est reconfiguré différemment, ce qui influe directement sur la propension de l'optimiseur à explorer ou à éviter les configurations de contact. Pour des applications industrielles, assemblage, manipulation fine ou tri, où les contacts sont inévitables, ce couplage entre incertitude de modèle et stratégie de risque est critique : un mauvais calibrage peut rendre le SPC soit trop conservateur, soit instable face aux contacts non planifiés. La DR a été systématisée dans les simulateurs physiques comme Isaac Sim de NVIDIA et popularisée par les travaux d'OpenAI sur la manipulation dextre (projet Dactyl, 2019). Le SPC, notamment via l'algorithme MPPI (Model Predictive Path Integral), connaît un regain d'intérêt pour la robotique temps réel, en locomotion et manipulation. Cette étude constitue un premier jalon formel à l'intersection des deux approches, jusqu'ici traitées séparément. Elle s'inscrit dans un contexte plus large où les modèles VLA (Vision-Language-Action) et les approches sim-to-real de Google DeepMind ou Physical Intelligence (Pi-0) cherchent à réduire l'écart entre simulation et réalité. Les auteurs ne publient que des résultats initiaux sur une tâche simple et ne proposent pas encore de généralisation ni de calendrier applicatif, ce qui limite la portée immédiate mais ouvre un axe de recherche prometteur pour le contrôle robuste aux contacts.

RecherchePaper
1 source
Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle
15Interesting Engineering 

Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle

La division Robotics d'Hexagon AB, basée à Zurich, et l'entreprise autrichienne Fill Maschinenbau ont annoncé un partenariat pour déployer le robot humanoïde AEON dans les ateliers de Fill à Gurten, en Autriche. Ce pilote cible des tâches de conduite de machines (machine tending), d'inspection et de support opérationnel dans des environnements de production à haute mixité. Point notable : AEON n'est pas un robot bipède, mais adopte une locomotion sur roues complétée par des bras de manipulation, une fusion de capteurs multimodale et une intelligence embarquée sur puce NVIDIA Jetson Orin. Présenté en juin 2025, il avait effectué son premier déploiement industriel en décembre 2025 à l'usine BMW Group de Leipzig, unique référence terrain disponible à ce jour. Ce partenariat met en avant une approche simulation-first que les intégrateurs suivent de près. Hexagon revendique une réduction des cycles d'entraînement de plusieurs mois à quelques semaines grâce à NVIDIA Isaac Sim et Isaac Lab, qui permettent d'acquérir navigation, locomotion et manipulation en environnement virtuel avant tout déploiement réel. Le robot utilise également NVIDIA Isaac GR00T et les outils Mimic pour apprendre à partir de démonstrations humaines et générer des données de mouvement synthétiques. Si ces gains se confirment en production, ils apporteraient une réponse partielle au problème du sim-to-real gap, considéré comme l'un des principaux obstacles à l'industrialisation des humanoïdes. Prudence néanmoins : les deux déploiements cités restent à des stades pilotes, sans métriques publiées sur des cycles de production continus. Hexagon AB est un groupe suédois spécialisé en métrologie et intelligence industrielle, dont la division Robotics à Zurich s'est positionnée sur le segment humanoïde après des acteurs comme Figure AI (accord BMW signé dès 2024 pour le Figure 02), Boston Dynamics ou Agility Robotics (Digit, déployé chez Amazon). Les données spatiales collectées par AEON sont remontées vers Hexagon Reality Cloud Studio via HxDR et intégrées à NVIDIA Omniverse pour générer des jumeaux numériques industriels en temps réel, un positionnement qui ancre l'offre davantage dans l'écosystème PLM et métrologie d'Hexagon que dans la robotique mobile pure. Les prochaines étapes incluent une migration vers la puce NVIDIA IGX Thor pour renforcer les garanties de sécurité collaborative. En Europe, cette initiative rejoint les travaux de Wandercraft sur l'humanoïde de réhabilitation médicale et ceux d'Enchanted Tools sur des plateformes à usage hospitalier, signe d'un écosystème continental qui monte progressivement en maturité industrielle.

UELe partenariat entre Hexagon AB (Suède/Zurich) et Fill Maschinenbau (Autriche) pour déployer AEON en usine illustre la montée en maturité industrielle de l'écosystème européen des robots humanoïdes, aux côtés de Wandercraft et Enchanted Tools.

FR/EU ecosystemeOpinion
1 source
Une approche rigoureuse pour générer des démonstrations synthétiques haute fidélité en apprentissage par imitation
16arXiv cs.RO 

Une approche rigoureuse pour générer des démonstrations synthétiques haute fidélité en apprentissage par imitation

Une équipe de chercheurs a publié fin avril 2025 sur arXiv (arXiv:2605.01232) un cadre de synthèse de données d'entraînement robotiques combinant le rendu 3D Gaussian Splatting (3DGS) et les Dynamic Movement Primitives (DMP). Le système part d'une seule démonstration experte et d'un scan multi-vues court pour reconstruire une scène 3DGS, puis retargete la trajectoire originale vers de nouvelles configurations d'objets et de points de vue via des DMPs, encodant ainsi la forme spatiale et le profil temporel du mouvement de façon paramétrique. Pour éviter les collisions dans des scènes encombrées sans représentation géométrique additionnelle, les auteurs introduisent une formulation analytique des DMPs opérant directement sur le champ de densité continu induit par la représentation 3DGS. L'approche a été évaluée sur le robot mobile manipulateur Spot de Boston Dynamics, sur trois tâches de manipulation à sensibilité croissante à la fidélité de trajectoire. Comparée à des pipelines basés sur des planificateurs échantillonnés ou l'optimisation de trajectoire, la méthode réduit l'écart moyen à la trajectoire experte et le taux de collisions, et améliore le taux de succès des politiques visuomotrices de type diffusion entraînées sur ces données. Le résultat principal contredit une intuition répandue en apprentissage par imitation : augmenter la diversité des démonstrations ne garantit pas de meilleures politiques si cette diversité efface la structure fine de la trajectoire experte. Pour des manipulations en contact, saisie contrainte ou assemblage précis, c'est précisément cette structure spatiale et temporelle qui conditionne le succès ; les planificateurs classiques l'éliminent en cherchant des chemins valides alternatifs, augmentant la variance des données sans en accroître la valeur informative. Intégrer la géométrie 3DGS directement dans les DMPs plutôt que d'utiliser un module de collision séparé simplifie le pipeline et évite les incohérences entre rendu et raisonnement géométrique, un problème récurrent dans les systèmes hybrides sim-to-real. Ce travail s'inscrit dans un courant de recherche actif depuis la popularisation du 3DGS en 2023, qui cherche à exploiter cette technique de représentation de scène pour générer à bas coût des données de supervision robotique, en alternative aux moteurs de simulation physique comme Isaac Sim ou MuJoCo qui exigent une modélisation manuelle intensive. Des approches parallèles comme RoboGSim ont exploré cet espace, mais en découplant rendu et planification de mouvement. Le système reste à ce stade un preprint arXiv, évalué sur un seul robot dans des scènes relativement délimitées ; sa généralisation à des plateformes à plus haute dextérité (bras 7 DOF, mains multi-doigts) et son couplage avec des fondations de politiques de type pi-0 ou GR00T N2 constituent les prochaines étapes naturelles à tester.

RecherchePaper
1 source
MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage
17arXiv cs.RO 

MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage

MiniVLA-Nav v1 est un dataset de simulation publié sur HuggingFace pour la navigation robotique conditionnée par le langage naturel, tâche désignée LCOA (Language-Conditioned Object Approach). Un robot différentiel NVIDIA Nova Carter reçoit une instruction courte et doit atteindre l'objet nommé en s'arrêtant à moins d'un mètre. Le dataset couvre 1 174 épisodes dans quatre scènes Isaac Sim photoréalistes (bureau, hôpital, entrepôt complet, entrepôt à étagères multiples), chacun annoté avec images RGB 640x640, cartes de profondeur métriques float32, masques de segmentation d'instance et labels d'action à 60 Hz (commandes continues v/omega et tokenisation 7x7 via contrôleur proportionnel visuel). Trois tiers de distance d'initialisation (1,5-3,5 m, 3,5-7,0 m, et lointain curatés) assurent la diversité des trajectoires, avec une corrélation Pearson r=0,94 entre distance de départ et longueur. Douze catégories d'objets et 30 templates (18 d'entraînement, 12 hors distribution) structurent cinq splits d'évaluation. La rareté de données annotées pour entraîner des modèles VLA (Vision-Language-Action) orientés navigation reste un frein reconnu dans la communauté. MiniVLA-Nav v1 y répond avec un benchmark à cinq axes : précision en distribution, robustesse aux paraphrases et généralisation hors distribution sur de nouvelles catégories. La tâche LCOA isole délibérément le grounding linguistique, c'est-à-dire la capacité à relier une instruction verbale à un objet physique, sans mélanger avec la planification globale de chemin. Les labels moteurs continus à 60 Hz offrent une supervision plus fine que la majorité des datasets de navigation verbale existants, souvent limités à des waypoints discrets. La compatibilité native avec l'écosystème Isaac Sim et la plateforme Nova Carter facilite un éventuel transfert sim-to-real vers des robots physiques en milieu industriel ou hospitalier. Ce travail s'inscrit dans la lignée de R2R et REVERIE pour la navigation à instruction verbale, mais avec un focus bas niveau peu commun. La publication, signée Ali Bustami et déposée sur arXiv en mai 2025 (2605.00397), ne présente pas encore de modèle baseline entraîné sur ces données, ce qui en limite la portée empirique immédiate : c'est un dataset, pas une preuve de performance. L'écosystème concurrent inclut Meta AI avec Habitat, Allen AI avec AI2-THOR et plusieurs benchmarks récents de Google DeepMind, mais aucun ne cible spécifiquement le LCOA avec commandes continues à 60 Hz sur plateforme NVIDIA. Le dataset est librement accessible sur HuggingFace (alibustami/miniVLA-Nav), en attente d'un modèle VLA de référence et d'expériences de transfert sim-to-real sur robot physique.

RechercheOpinion
1 source
Lucid-XR : un moteur de données en réalité étendue pour la manipulation robotique
18arXiv cs.RO 

Lucid-XR : un moteur de données en réalité étendue pour la manipulation robotique

Une équipe de chercheurs a présenté Lucid-XR, un moteur de données génératif pour produire des données d'entraînement synthétiques multimodales destinées aux robots réels. Publié début mai 2026 sur arXiv (référence 2605.00244), le système repose sur vuer, un environnement de simulation physique web qui s'exécute directement sur un casque de réalité étendue (XR), sans équipement spécialisé. Lucid-XR intègre simulation physique embarquée et retargeting de posture humain-vers-robot : un opérateur pilote un avatar virtuel dont les mouvements sont convertis en trajectoires exploitables par le robot cible. Ces données sont ensuite amplifiées par un pipeline de génération vidéo guidé par la physique, paramétrable via des instructions en langage naturel. Les auteurs démontrent un transfert zéro-shot de politiques visuelles vers des environnements réels non vus lors de l'entraînement, y compris des scènes encombrées et mal éclairées, sur des tâches de manipulation impliquant matières souples, particules non liées (sable, grains) et contacts rigides. Le résultat central est ce transfert zéro-shot : la politique entraînée exclusivement sur données synthétiques opère directement sur robot réel, sans fine-tuning en environnement physique. C'est précisément le "sim-to-real gap" qui bloque le déploiement industriel des politiques d'imitation depuis des années. En rendant la collecte accessible via un casque XR grand public et en augmentant automatiquement le volume de données par génération vidéo, Lucid-XR s'attaque simultanément aux deux goulots d'étranglement classiques des VLA (Vision-Language-Action models) : quantité et diversité des données. La manipulation de matières particulaires reste un cas notoirement difficile pour les approches classiques, ce qui rend ces démonstrations pertinentes, même si les vidéos sélectionnées publiées sur le site projet ne permettent pas d'évaluer le taux d'échec réel. Ce travail entre en concurrence directe avec les moteurs de données synthétiques existants : NVIDIA Isaac Lab pour la simulation, les jeux de données de téléopération massive de Physical Intelligence (Pi-0) ou Google DeepMind (GR00T N2, déployé chez Figure et Agility Robotics). Des initiatives ouvertes comme Open-X Embodiment misent sur la mutualisation de données réelles. La distinction de Lucid-XR est de parier sur l'accessibilité matérielle et l'augmentation par génération vidéo plutôt que sur des fermes de téléopération coûteuses. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication, qui reste pour l'instant une preuve de concept académique sans validation à l'échelle industrielle.

RechercheOpinion
1 source
RopeDreamer : modèle d'espace d'état récurrent cinématique pour la dynamique des objets linéaires déformables
19arXiv cs.RO 

RopeDreamer : modèle d'espace d'état récurrent cinématique pour la dynamique des objets linéaires déformables

Une équipe de chercheurs propose RopeDreamer, une architecture de dynamique latente pour la prédiction du comportement d'objets linéaires déformables (DLOs) tels que câbles, cordes ou tubes flexibles, publiée en préprint sur arXiv (identifiant 2604.28161). Le modèle combine un Recurrent State Space Model (RSSM) avec une représentation cinématique quaternionique : plutôt que d'encoder chaque noeud du DLO en coordonnées cartésiennes indépendantes, la structure est décrite comme une chaîne de rotations relatives, contraignant structurellement le réseau à des configurations physiquement valides et préservant la constance des longueurs de segment. Une architecture à double décodeur découple la reconstruction d'état de la prédiction future, forçant l'espace latent à capturer la physique de la déformation plutôt que de simples corrélations statistiques. Évalué sur un dataset simulé de trajectoires pick-and-place incluant des auto-intersections complexes, RopeDreamer affiche une réduction de 40,52 % de l'erreur de prédiction en boucle ouverte sur des horizons de 50 pas de temps, et réduit le temps d'inférence de 31,17 % par rapport à la baseline de référence. La manipulation de DLOs constitue un goulot d'étranglement industriel concret dans le câblage automobile (harnais), l'assemblage électronique et la chirurgie robotisée (sutures, cathéters). Les approches data-driven précédentes, basées sur des réseaux récurrents ou des graph neural networks, produisaient des déformations non physiques, notamment des étirements de segments et des intersections fantômes rendant la planification long terme peu fiable. L'encodage quaternionique de RopeDreamer adresse directement ces artefacts en opérant sur la variété des rotations plutôt que l'espace euclidien. La capacité à maintenir la cohérence topologique lors de croisements multiples ouvre la voie à des tâches comme le routage de câbles ou le nouage. Limite importante : toutes les évaluations sont réalisées en simulation uniquement, le sim-to-real gap restant un problème non adressé dans ce travail. La manipulation de DLOs est étudiée depuis les années 2000, d'abord avec des modèles mécaniques continus (éléments finis, modèles de Cosserat), avant que les approches data-driven s'imposent à partir de 2018, portées par des équipes à Berkeley, l'ETH Zürich et au MIT. Des simulateurs comme MuJoCo et Isaac Lab de NVIDIA intègrent désormais des primitives DLO, facilitant la génération de données d'entraînement à grande échelle. RopeDreamer se distingue par son emprunt à la cinématique de corps articulés, représentation standard en animation 3D et robotique humanoïde, une convergence méthodologique encore peu exploitée pour les objets souples. L'affiliation institutionnelle des auteurs n'est pas mentionnée dans le préprint disponible. Les prochaines étapes naturelles incluent une validation sur robot physique, un défi dans lequel des équipes européennes, notamment à l'INRIA et au CNRS, sont actives sur des problèmes adjacents de manipulation déformable.

UELes équipes INRIA et CNRS, actives sur la manipulation d'objets déformables, pourraient s'appuyer sur cette approche cinématique quaternionique pour leurs travaux en robotique chirurgicale et assemblage industriel, sous réserve d'une validation sim-to-real.

RecherchePaper
1 source
EvolvingAgent : un agent à curriculum auto-évolutif avec modèle du monde continu pour les tâches à long horizon
20arXiv cs.RO 

EvolvingAgent : un agent à curriculum auto-évolutif avec modèle du monde continu pour les tâches à long horizon

Une équipe de chercheurs propose EvolvingAgent, un agent incarné conçu pour accomplir des tâches à horizon long (Long-Horizon, LH) dans des mondes ouverts, sans intervention humaine. Publié sur arXiv (2502.05907, version 3), le système repose sur trois modules en boucle fermée : un planificateur de tâches piloté par les expériences accumulées, qui utilise un LLM pour décomposer une tâche complexe en sous-tâches exécutables ; un contrôleur d'actions guidé par un World Model (WM) continu, chargé de générer les actions de bas niveau et de mettre à jour automatiquement la base d'expériences multimodales via un mécanisme de vérification interne ; et un réflecteur fondé sur l'apprentissage par curriculum (Curriculum Learning, CL) en deux étapes, qui sélectionne les expériences pertinentes pour adapter le WM à chaque nouvelle tâche. Les expériences ont été conduites principalement sur Minecraft, environnement de référence pour les agents incarnés. Résultats revendiqués : +111,74 % de taux de succès moyen par rapport aux approches existantes, réduction d'un facteur supérieur à 6 des actions inefficaces, et généralisation à l'environnement Atari avec des performances comparables au niveau humain. L'apport central d'EvolvingAgent est de s'attaquer simultanément à deux limitations bien documentées dans la littérature : la dépendance aux curricula et données créés par l'humain, et l'oubli catastrophique lors de l'exposition à de nouvelles tâches. La boucle planificateur-contrôleur-réflecteur permet une mise à jour autonome des connaissances du monde sans réentraînement explicite. Pour les chercheurs en IA incarnée et les équipes travaillant sur des agents opérationnels en environnement dynamique (robotique industrielle, systèmes autonomes), cela représente un pas vers une adaptabilité continue sans supervision humaine permanente. Le gain de +111,74 % est néanmoins à contextualiser : il s'appuie sur Minecraft, un sandbox 3D simulé, et les vidéos ou démonstrations n'ont pas été publiées en open access à ce stade. Les travaux sur les agents LH en monde ouvert ont connu une accélération notable depuis Voyager (2023, Microsoft/UT Austin, GPT-4), DEPS, et les approches basées sur des planificateurs symboliques. EvolvingAgent s'inscrit dans ce courant en remplaçant la supervision humaine par une boucle d'auto-amélioration multimodale. Côté concurrent, des systèmes comme GROOT (vidéo-conditionné) ou les agents Minecraft basés sur MineRL continuent de servir de baseline. L'article reste à ce stade un preprint arXiv (v3, sans revue par les pairs confirmée), et aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seraient une validation sur des environnements physiques simulés (Isaac Sim, MuJoCo) ou des robots réels, pour mesurer le sim-to-real gap de l'approche.

RecherchePaper
1 source
Navigation omnidirectionnelle par vision : apprentissage par distillation enseignant-élève avec estimation de profondeur monoculaire
21arXiv cs.RO 

Navigation omnidirectionnelle par vision : apprentissage par distillation enseignant-élève avec estimation de profondeur monoculaire

Des chercheurs ont publié sur arXiv (2603.01999) un système de navigation omnidirectionnelle pour robots mobiles industriels fonctionnant sans LiDAR, en s'appuyant sur quatre caméras RGB et un modèle de profondeur monoculaire. L'architecture dite "enseignant-étudiant" entraîne d'abord une politique "enseignant" par renforcement (PPO) dans NVIDIA Isaac Lab, avec des observations LiDAR 2D privilégiées couvrant l'empreinte complète du robot. Cette politique distille ensuite son comportement vers une politique "étudiant" qui ne perçoit l'environnement qu'à travers des cartes de profondeur générées par une version fine-tunée de Depth Anything V2. L'ensemble du pipeline (estimation de profondeur, exécution de la politique, contrôle moteur) tourne entièrement sur un NVIDIA Jetson Orin AGX embarqué sur un DJI RoboMaster, sans aucun calcul externe. En simulation, l'étudiant atteint 82 à 96,5 % de taux de succès, contre 50 à 89 % pour l'enseignant LiDAR. Sur terrain réel, il le surpasse également face à des obstacles à géométrie complexe : structures en surplomb et objets ras-du-sol qui échappent au plan de balayage unique d'un capteur 2D. Ce résultat remet en cause un postulat industriel courant : que la navigation robuste en entrepôt ou en atelier nécessite obligatoirement un LiDAR 3D ou une caméra de profondeur dédiée. Le LiDAR 2D, standard des AMR déployés aujourd'hui chez MiR, Fetch ou Locus Robotics, ne capture qu'une tranche horizontale de l'environnement et ignore les rebords en surplomb, les jambes de table et les obstacles ras du sol. En montrant qu'une politique visuelle apprise surpasse son propre enseignant LiDAR sur ces cas critiques, les auteurs valident un transfert sim-to-real fonctionnel et ouvrent la voie à des plateformes AMR significativement moins coûteuses. L'inférence entièrement embarquée supprime par ailleurs toute dépendance cloud, point critique pour les intégrateurs industriels soumis à des contraintes de latence ou de connectivité. L'approche s'appuie sur Depth Anything V2, modèle fondational d'estimation de profondeur monoculaire publié en 2024 par ByteDance Research, et sur NVIDIA Isaac Lab, lancé la même année comme successeur d'Isaac Gym. La plateforme DJI RoboMaster, initialement conçue pour la compétition étudiante, sert ici de banc de test de recherche pour sa robustesse mécanique. Les travaux s'inscrivent dans la tendance de policy distillation explorée notamment par ETH Zurich (projet ANYmal) pour la locomotion quadrupède. Le gap entre ces résultats expérimentaux et un déploiement industriel certifié reste à combler : les expériences réelles présentées restent limitées en durée et en diversité d'environnements, et aucun pilote en conditions de production n'est annoncé à ce stade.

UELes intégrateurs AMR européens s'appuyant sur des plateformes LiDAR 2D, dont MiR (danois), peuvent anticiper une réduction potentielle des coûts capteurs grâce à cette approche vision-only embarquée, mais aucun déploiement en conditions industrielles réelles n'est encore annoncé.

IndustrielPaper
1 source
LeHome : un environnement de simulation pour la manipulation d'objets déformables en contexte domestique
22arXiv cs.RO 

LeHome : un environnement de simulation pour la manipulation d'objets déformables en contexte domestique

Des chercheurs ont publié LeHome, un environnement de simulation open-source consacré à la manipulation d'objets déformables en contexte domestique, accessible en préprint sur arXiv (2604.22363) et accompagné d'une page de démonstration. LeHome couvre un spectre large d'objets typiques des foyers, vêtements, aliments, textiles, avec une modélisation dynamique haute-fidélité destinée à reproduire les interactions complexes que les simulateurs existants peinent à rendre correctement. L'environnement supporte plusieurs morphologies robotiques et place explicitement les robots à faible coût au centre de sa conception, permettant d'évaluer des tâches ménagères de bout en bout sur du matériel à budget contraint. Le problème que tente de résoudre LeHome est structurant pour la robotique domestique : les objets déformables représentent une part massive des tâches quotidiennes (plier du linge, manipuler des aliments, ranger des textiles), mais leur simulation réaliste reste un angle mort des environnements dominants comme Isaac Sim, MuJoCo ou Gazebo. Sans simulation fiable de ces matériaux, le transfert sim-to-real, technique centrale dans l'entraînement des politiques modernes par renforcement ou imitation, produit des modèles qui s'effondrent dès qu'ils quittent les objets rigides. LeHome prétend combler ce fossé en proposant un banc de test scalable, ce qui pourrait accélérer le développement de politiques de manipulation généralistes pour l'environnement résidentiel. Le problème du "deformable gap" est documenté depuis plusieurs années : des projets comme DexDeform (Stanford), SoftGym ou PyBullet Cloth ont proposé des approches partielles, sans jamais couvrir l'ensemble des catégories domestiques avec un accent sur les plateformes accessibles. LeHome s'inscrit dans un mouvement plus large où des laboratoires ciblent explicitement le segment low-cost, Boston Dynamics, Figure ou 1X restant hors de portée de la plupart des équipes académiques. À ce stade, il s'agit d'un préprint sans validation industrielle ni déploiement annoncé : la crédibilité du projet dépendra de la capacité des auteurs à démontrer un transfert réel sur des plateformes concrètes telles que Low Cost Robot, SO-ARM ou des équivalents open-hardware.

UELes équipes académiques européennes travaillant sur la manipulation domestique pourraient adopter LeHome pour entraîner des politiques sur plateformes low-cost open-hardware, mais aucun impact institutionnel ou industriel direct n'est documenté à ce stade.

RecherchePaper
1 source
Estimation de la présence humaine par vision pour améliorer la sécurité et l'efficacité des AMR en entrepôt industriel
23arXiv cs.RO 

Estimation de la présence humaine par vision pour améliorer la sécurité et l'efficacité des AMR en entrepôt industriel

Des chercheurs ont publié sur arXiv (référence 2604.18627) un système temps réel permettant à un robot mobile autonome (AMR) d'estimer, via une unique caméra RGB, si un opérateur humain à proximité a conscience de sa présence. La méthode combine deux modules : un estimateur de pose humaine 3D ("3D pose lifting") qui reconstruit la position du corps dans l'espace, et un module d'estimation d'orientation de la tête qui calcule le cône de vision du travailleur. Si l'humain est orienté vers le robot et se trouve dans ce cône, le système le catégorise comme "conscient de l'AMR" ; dans le cas contraire, le robot adopte un comportement de précaution. L'ensemble du pipeline a été validé sur données synthétiques dans NVIDIA Isaac Sim, sans validation sur environnement physique réel annoncée à ce stade. L'intérêt industriel de cette approche réside dans l'inefficacité chronique des systèmes actuels : les AMRs déployés aujourd'hui traitent tout humain comme un obstacle dynamique générique, ce qui entraîne des ralentissements ou détours systématiques, même lorsque l'opérateur a clairement vu le robot et s'est écarté de sa trajectoire. En distinguant les travailleurs attentifs des travailleurs inattentifs, le système permettrait théoriquement d'augmenter les cadences opérationnelles sans dégrader la sécurité. Pour les intégrateurs et les COO industriels, c'est une piste concrète pour réduire les temps de cycle dans des environnements à forte densité humaine. La validation reste cependant limitée à des données simulées, ce qui laisse entier le problème du sim-to-real gap pour les cas limites : occlusions partielles, éclairage variable, postures atypiques. Ce travail s'inscrit dans un contexte de forte croissance des flottes AMR dans la logistique mondiale, porté par des acteurs comme MiR (acquis par Teradyne), Locus Robotics, Geek+, ou côté français Exotec dont les robots Skypod évoluent dans des allées partagées avec des opérateurs humains. Les approches concurrentes misent généralement sur des systèmes LIDAR multicouche ou des zones de sécurité paramétrables conformes à la norme ISO 3691-4, sans modélisation explicite de l'attention humaine. La prochaine étape naturelle serait une validation sur données réelles et une intégration dans une stack de navigation type ROS 2 Nav2, mais ni timeline ni partenariat industriel ne sont mentionnés dans ce preprint.

UEDirectement pertinent pour Exotec (Skypod) qui opère des flottes AMR en allées partagées avec des opérateurs, mais aucune collaboration ni validation sur environnement réel n'est annoncée à ce stade.

IndustrielPaper
1 source
Un robot humanoïde Nvidia tient un poste de 8 heures en usine Siemens à 60 bacs par heure
24Interesting Engineering 

Un robot humanoïde Nvidia tient un poste de 8 heures en usine Siemens à 60 bacs par heure

En janvier 2026, le robot humanoïde HMND 01 Alpha du startup britannique Humanoid a réalisé un déploiement de deux semaines dans l'usine électronique de Siemens à Erlangen, en Allemagne. Les résultats, annoncés à la Hannover Messe 2026 en partenariat avec Nvidia, ont dépassé tous les objectifs fixés : le robot à roues a opéré en continu pendant plus de huit heures, déplaçant 60 bacs de stockage par heure avec un taux de réussite supérieur à 90 %. Sa mission consistait à saisir des bacs, les transporter à travers l'usine et les déposer sur des convoyeurs aux points de transfert désignés pour les opérateurs humains, dans un environnement de production réel où ses performances avaient un impact direct sur les opérations. Stephan Schlauss, directeur mondial de la motion control chez Siemens, a qualifié l'usine d'Erlangen de "customer zero" : Siemens s'est volontairement positionné comme premier client payant et validateur de la technologie, avant de la proposer à d'autres industriels. Ce déploiement est significatif parce qu'il franchit la frontière entre démonstration contrôlée et production industrielle réelle. Le robot a travaillé aux côtés d'humains et de systèmes automatisés existants, coordonnant ses actions en temps réel avec des véhicules à guidage autonome et les systèmes de l'usine via la plateforme Siemens Xcelerator, qui a fourni des capacités de jumeau numérique, de perception par IA, d'interfaces PLC-robot et de gestion de flotte. C'est précisément ce niveau d'intégration enterprise qui distingue un vrai déploiement industriel d'une simple preuve de concept. Deepu Talla, vice-président robotique et edge AI chez Nvidia, a affirmé que ce déploiement ouvre la voie aux robots humanoïdes pour atteindre des objectifs de production réels sur des lignes actives. Humanoid, fondée en 2024 par Artem Sokolov et dont le siège est à Londres avec des bureaux à Boston et Vancouver, emploie plus de 200 ingénieurs issus d'Apple, Tesla, Google et Boston Dynamics. L'entreprise a développé le HMND 01 Alpha en environ sept mois, là où le cycle habituel dépasse 18 à 24 mois, grâce à une approche "simulation d'abord" utilisant Nvidia Isaac Lab pour l'apprentissage par renforcement et Nvidia Isaac Sim pour la validation virtuelle avant tout déploiement physique. La version bipède du robot dispose de 29 degrés de liberté et d'une suite complète de capteurs. Siemens et Humanoid présentent le déploiement d'Erlangen non comme une expérimentation isolée mais comme une architecture de référence reproductible par d'autres fabricants, dans un contexte où la pénurie de main-d'oeuvre dans l'industrie manufacturière et les contraintes de flexibilité rendent les lignes entièrement automatisées souvent inadaptées.

UEL'usine Siemens d'Erlangen (Allemagne) est positionnée comme architecture de référence reproductible pour les industriels européens confrontés à la pénurie de main-d'œuvre manufacturière.

💬 60 bacs par heure, 8 heures sans s'arrêter, en production réelle, pas dans un labo avec les caméras bien placées. Le positionnement de Siemens en "customer zero" dit tout : ils testent sur leur propre usine avant de revendre l'architecture à leurs clients industriels, c'est une stratégie commerciale autant qu'une validation technique. Sept mois de dev au lieu de deux ans grâce à la simulation, bon, faut confirmer ça sur 50 usines et pas une.

HumanoïdesOpinion
1 source
ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites
25arXiv cs.RO 

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

Des chercheurs ont publié ROBOGATE (arXiv:2603.22126), un framework open-source de validation pré-déploiement pour les politiques de manipulation robotique, conçu pour identifier les zones de défaillance avant mise en production industrielle. Le système repose sur un échantillonnage adaptatif en deux étapes dans un espace de paramètres à huit dimensions : une première phase par Latin Hypercube Sampling (LHS) couvre l'espace global, puis une seconde phase concentre l'effort sur la zone de transition critique entre 30 % et 70 % de taux de réussite, là où les échecs sont les plus révélateurs. Le tout est exécuté dans NVIDIA Isaac Sim avec le moteur physique Newton, sur quatre morphologies robotiques : Franka Panda (7-DOF), UR3e, UR5e et UR10e (tous 6-DOF). Au total, plus de 50 000 expériences ont été simulées, produisant un modèle de régression logistique avec une AUC de 0,780 et une équation analytique fermée de la frontière de défaillance. Le framework a également benchmarké huit politiques VLA, dont une version fine-tunée de NVIDIA GR00T N1.6 (3 milliards de paramètres), entraînée sur LIBERO-Spatial pendant 20 000 étapes. Le chiffre le plus frappant de l'étude est un écart de 97,65 points de pourcentage entre les environnements de simulation : le même checkpoint GR00T N1.6 atteint 97,65 % de réussite sur le benchmark LIBERO sous MuJoCo, mais tombe à 0 % sur les 68 scénarios industriels de ROBOGATE sous Isaac Sim. Ce résultat met en lumière un problème structurel du déploiement des VLA : les scores de benchmark en simulation ne prédisent pas le comportement dans un simulateur différent, a fortiori dans le monde réel. Pour les intégrateurs et les décideurs industriels, cela signifie qu'un modèle validé sur benchmark standard peut être totalement non opérationnel dans leur environnement cible. ROBOGATE propose une couche de validation intermédiaire, inspirée du paradigme que NVIDIA a formalisé pour le calcul quantique avec Ising, transposé ici à l'IA physique. Le gap sim-to-real reste l'un des verrous majeurs de la robotique manipulatrice apprise, et la plupart des acteurs du secteur, de Figure AI (Figure 03) à Physical Intelligence (Pi-0) en passant par Boston Dynamics ou les équipes internes de NVIDIA, travaillent à le réduire via des pipelines sim-to-real renforcés ou de la synthèse de données domain-randomisée. ROBOGATE ne prétend pas résoudre ce gap mais fournit un outil de diagnostic structuré : cartographier les frontières d'échec avant déploiement, ce qui est précisément ce qui manque dans les workflows industriels actuels. Le framework est publié en open-source, ce qui devrait faciliter son adoption par les équipes de validation, en particulier celles qui travaillent sur des cellules pick-and-place standardisées avec des bras industriels UR ou Franka. Les prochaines étapes naturelles seraient l'extension à des morphologies mobiles-manipulatrices et l'intégration dans des pipelines CI/CD robotiques, un domaine encore embryonnaire mais en progression rapide chez des acteurs comme Intrinsic (Alphabet) ou Covariant.

UELes équipes R&D européennes travaillant sur des cellules robotiques avec bras UR (Universal Robots, Danemark) ou Franka Panda peuvent adopter ce framework open-source pour structurer leur validation pré-déploiement et éviter des échecs coûteux en production.

IA physiqueActu
1 source
ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés
26arXiv cs.RO 

ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés

Des chercheurs ont publié sur arXiv (référence 2604.16405) un système d'évaluation baptisé ICAT, Incident-Case-Grounded Adaptive Testing, ciblant une lacune précise des modèles de monde vidéo-génératifs : leur capacité à prédire les risques physiques dans des contextes d'action incarnée. Ces modèles, utilisés comme simulateurs neuronaux pour la planification et l'apprentissage de politiques en robotique embarquée, sont soumis à des scénarios de risque construits à partir de rapports d'incidents réels et de manuels de sécurité. ICAT structure ces sources en mémoires de risques, puis les récupère et les compose pour générer des cas de test avec chaînes causales et étiquettes de sévérité. Les expériences menées sur un benchmark dérivé de cette méthode révèlent que les modèles de monde courants omettent fréquemment les mécanismes déclencheurs des situations dangereuses et mal-calibrent systématiquement le niveau de sévérité des conséquences. Ce résultat a des implications directes pour quiconque envisage d'utiliser des world models comme substrat d'entraînement ou de planification pour des systèmes robotiques en environnement réel. Un modèle qui minimise ou ignore les signaux de danger dans ses rollouts imaginés peut inculquer des préférences comportementales non sûres à la politique apprise, sans que l'ingénieur ne le détecte en phase de simulation. Le gap sim-to-real prend ici une dimension nouvelle : ce n'est plus seulement une question de fidélité physique (textures, friction, dynamique), mais de fiabilité dans la représentation des conséquences graves. Pour les intégrateurs qui s'appuient sur des VLA (Vision-Language-Action models) entraînés sur des trajectoires synthétiques, c'est un signal d'alerte concret sur l'absence de métriques de sécurité standardisées dans les pipelines d'évaluation actuels. Les modèles de monde vidéo-génératifs, dont UniSim, DreamerV3, ou les approches issues de Genie et GameNGen, ont connu un regain d'intérêt comme alternatives aux simulateurs physiques classiques (MuJoCo, Isaac Sim), notamment pour leur capacité à généraliser à partir de vidéos brutes. Mais leur évaluation reste dominée par des métriques visuelles (FID, FVD) peu corrélées à la sécurité opérationnelle. ICAT propose un protocole ancré dans les données d'incidents industriels, ce qui le différencie des benchmarks synthétiques existants. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade ; il s'agit d'une contribution académique, et la robustesse du benchmark lui-même reste à valider sur un périmètre de modèles plus large.

RechercheOpinion
1 source
Apprentissage rapide par simulation GPU pour la manipulation de matériaux déformables en quelques minutes
27arXiv cs.RO 

Apprentissage rapide par simulation GPU pour la manipulation de matériaux déformables en quelques minutes

Une équipe de chercheurs a publié fin avril 2026 FLASH (Fast Learning via GPU-Accelerated Simulation), un simulateur physique conçu nativement pour GPU, ciblant la manipulation d'objets déformables en contact riche. Le framework repose sur un solveur NCP (Nonlinear Complementarity Problem) qui impose simultanément les contraintes de contact et de déformation, redessiné de zéro pour exploiter le parallélisme fin des architectures GPU modernes, incluant la gestion optimisée des collisions et les layouts mémoire adaptés. Sur un seul RTX 5090, FLASH atteint plus de 3 millions de degrés de liberté simulés à 30 images par seconde. Des politiques entraînées exclusivement sur données synthétiques générées par FLASH, en quelques minutes d'entraînement, permettent un transfert sim-to-réel zéro-shot validé sur robots physiques pour des tâches de pliage de serviettes et de vêtements, sans aucune démonstration en conditions réelles. L'enjeu n'est pas anodin : la manipulation d'objets déformables représente l'un des derniers grands verrous du robot learning industriel. Les frameworks existants comme Isaac Sim (NVIDIA) excellent sur la cinématique rigide et la locomotion, mais les matériaux souples imposent des géométries en mutation continue, des milliers de vertices et des contraintes de contact instables qui rendent la simulation précise et rapide quasi incompatible. FLASH contourne ce problème non pas en portant un solveur SIMD classique sur GPU, mais en réécrivant entièrement le moteur physique autour des primitives GPU. Si les résultats de transfert annoncés se confirment hors des tâches de pliage sélectionnées dans le papier, les intégrateurs ciblant le textile, la logistique e-commerce ou la préparation alimentaire disposeraient d'un pipeline d'entraînement pratique sans collecte de données terrain. Le problème du sim-to-real gap pour le déformable est documenté depuis plus d'une décennie, sans solution généraliste convaincante. MuJoCo, Warp et Genesis ont chacun progressé sur la simulation souple, mais aucun n'avait démontré ce niveau de throughput combiné à un transfert zéro-shot sur manipulation contact-riche. FLASH s'inscrit dans une tendance lourde de 2025-2026 : repenser les moteurs physiques pour la scalabilité GPU plutôt que d'adapter des architectures CPU legacy. Les auteurs valident uniquement sur pliage de textile, ce qui laisse ouverte la question de généralisation à d'autres déformables (câbles, mousses, aliments). Aucune date de release publique du framework ni de partenariat industriel n'est mentionnée dans le preprint.

RecherchePaper
1 source
Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique
28arXiv cs.RO 

Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique

Une équipe de chercheurs a publié le 23 avril 2026 Web-Gewu (arXiv:2604.17050), une plateforme pédagogique de robotique conçue pour permettre l'entraînement par renforcement (RL) directement depuis un navigateur web, sans installation locale. L'architecture repose sur un modèle cloud-edge-client s'appuyant sur WebRTC : toute la simulation physique et l'entraînement RL sont déportés sur un nœud edge, tandis que le serveur cloud ne joue qu'un rôle de relais de signalisation léger. La communication entre l'apprenant et le nœud de calcul s'effectue en pair-à-pair (P2P), avec une latence bout-en-bout annoncée comme faible, sans que des chiffres précis soient fournis dans le préprint. Les apprenants visualisent en temps réel les courbes de récompense RL et interagissent avec plusieurs formes de robots simulés, le tout via un protocole de communication de commandes prédéfini. L'intérêt de cette approche est structurel : elle attaque directement les deux verrous qui freinent l'enseignement de la robotique incarnée à grande échelle. D'un côté, les solutions cloud centralisées existantes entraînent des coûts GPU et de bande passante prohibitifs pour un déploiement massif en contexte éducatif. De l'autre, le calcul purement local bute sur les limitations matérielles des apprenants, souvent sans GPU dédié. En déplaçant la charge vers un nœud edge mutualisé et en réduisant le cloud à un simple relais, Web-Gewu réduit significativement le coût marginal par apprenant. Pour les institutions qui cherchent à former des ingénieurs au RL appliqué à la robotique, c'est un argument concret, même si la robustesse à l'échelle reste à démontrer hors environnement de laboratoire. Ce travail s'inscrit dans une tendance plus large de démocratisation des outils de simulation robotique, portée notamment par des environnements comme Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google) ou encore Genesis, tous nécessitant des ressources locales ou des accès cloud coûteux. Web-Gewu se positionne dans un créneau différent, celui de la formation et de l'expérimentation accessible, plutôt que de la recherche haute performance. Le code source n'est pas encore public au moment de la soumission, et la plateforme reste au stade de prototype académique avec une instance de démonstration exposée à l'adresse IP indiquée dans le papier. Les prochaines étapes naturelles seraient une évaluation quantitative de la latence, une montée en charge sur plusieurs dizaines d'apprenants simultanés, et une ouverture du code pour permettre un déploiement institutionnel autonome.

RecherchePaper
1 source
ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets
29arXiv cs.RO 

ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets

ShapeGen, présenté dans un preprint arXiv (2604.15569) publié en avril 2026, propose une méthode de génération automatique de données d'entraînement pour les politiques de manipulation robotique. L'enjeu central est la généralisation intra-catégorie : un robot doit savoir saisir n'importe quelle tasse, bouteille ou outil, pas uniquement les objets vus pendant l'entraînement. La méthode opère en deux étapes. La première construit une bibliothèque de formes 3D (Shape Library) en apprenant des déformations spatiales (warpings) qui font correspondre des points fonctionnellement équivalents entre objets d'une même catégorie. La seconde étape, Function-Aware Generation, exploite cette bibliothèque pour produire automatiquement des démonstrations physiquement plausibles sur de nouveaux objets géométriquement variés, avec une annotation humaine minimale. Le pipeline est dit "simulator-free" : il génère des données directement en 3D, sans recourir à un moteur de simulation classique comme MuJoCo ou Isaac Sim. Des expériences en environnement réel valident l'amélioration de la généralisation des politiques ainsi entraînées. Le problème adressé est structurel dans le déploiement industriel des bras manipulateurs : collecter manuellement des corpus de démonstrations sur des centaines de variantes d'objets est coûteux en main-d'oeuvre et logistiquement difficile. ShapeGen automatise cette diversification morphologique, ce qui pourrait réduire significativement le coût de préparation des données pour des politiques visuomotrices (VLA, diffusion policies). Si les résultats réels se confirment à plus grande échelle, cela allège directement le goulot d'étranglement data dans le cycle de développement robotique, en particulier pour les intégrateurs qui doivent adapter des cellules à des référentiels produits variables. La claim "simulator-free" mérite cependant d'être nuancée : le pipeline repose sur des modèles 3D et des transformations géométriques qui constituent en eux-mêmes une forme de simulation implicite. Les benchmarks présentés restent limités en termes de diversité de tâches et d'objets testés. La généralisation intra-catégorie est un axe de recherche actif depuis plusieurs années, exploré notamment via des approches comme PointNet, Category-Level 6D Pose Estimation (Wang et al., 2019) ou les politiques basées sur des représentations implicites (NeRF, SDF). ShapeGen se positionne dans la lignée des travaux sur la génération de données synthétiques pour la manipulation, concurrençant des approches comme RoboGen ou MimicGen (NVIDIA), qui utilisent également la génération automatique pour diversifier les démos. Le projet est affilié à des auteurs du milieu académique (page projet hébergée sur GitHub personnel), sans affiliation industrielle explicite déclarée dans le preprint. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (RLBench, FurnitureBench) et une intégration dans des pipelines VLA existants pour mesurer le gain réel sur des tâches longue-distance.

IA physiqueActu
1 source
De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables
30arXiv cs.RO 

De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables

Une équipe de chercheurs a publié en avril 2026 sur arXiv (arXiv:2604.15805) un framework génératif baptisé "Digital Cousins", conçu pour transformer automatiquement des panoramas de scènes réelles en environnements de simulation haute fidélité, puis en générer des variantes sémantiques et géométriques diversifiées. Le système prend en entrée une image panoramique d'une pièce réelle, reconstruit une scène simulée cohérente, et applique des modifications contrôlées, repositionnement d'objets, changement de géométrie, substitution de matériaux, pour produire des "scènes cousines" statistiquement variées. Un module de raccordement multi-pièces permet de construire des environnements à grande échelle pour des tâches de navigation longue portée dans des layouts complexes. Les expériences montrent que scaler massivement la génération de données améliore significativement la généralisation à des scènes et objets non vus en entraînement. Ce travail s'attaque directement à l'un des goulots d'étranglement majeurs du robot learning : collecter des données réelles diversifiées est coûteux en temps, en assets physiques et en reconfiguration manuelle d'environnements. L'approche real-to-sim-to-real proposée ici offre aux intégrateurs et équipes R&D une voie pour démultiplier leur corpus d'entraînement sans mobiliser de ressources physiques supplémentaires. La corrélation sim-to-real mesurée dans les expériences valide la fidélité de la plateforme, un point crucial, car beaucoup de frameworks de simulation peinent à transférer en conditions réelles. Pour les décideurs B2B, cela signifie des cycles de développement potentiellement plus courts et une meilleure robustesse des politiques déployées face à la variabilité des environnements industriels. À noter que les métriques de généralisation sont présentées sur des benchmarks de manipulation et de navigation en intérieur ; leur tenue dans des contextes industriels contraints (entrepôts, lignes de production) reste à démontrer hors laboratoire. Le concept de "Digital Cousins" s'inscrit dans une vague de travaux visant à combler le sim-to-real gap, aux côtés d'approches comme Isaac Sim (NVIDIA), Habitat (Meta) ou Genesis (labo Carnegie Mellon). Ce qui différencie cette contribution est la chaîne génératrice bout-en-bout à partir de panoramas, une méthode plus accessible que la modélisation 3D manuelle traditionnelle. Les auteurs ne rattachent pas explicitement le framework à un robot ou un produit commercial, ce qui en fait pour l'instant un outil de recherche. Les prochaines étapes naturelles seraient une intégration avec des pipelines VLA (Vision-Language-Action) existants comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), et une validation sur des robots manipulateurs déployés en conditions semi-réelles.

RecherchePaper
1 source
Vidéo du vendredi : un robot humanoïde apprend à jouer au tennis face à des humains
31IEEE Spectrum AI 

Vidéo du vendredi : un robot humanoïde apprend à jouer au tennis face à des humains

Des chercheurs ont développé LATENT, un système permettant à un robot humanoïde d'apprendre des compétences de tennis dynamiques à partir de données de mouvement humain imparfaites. Par ailleurs, la startup Sharpa revendique être la première entreprise robotique à démontrer un robot épluchant une pomme avec deux mains dextres, grâce à leur architecture MoDE-VLA (Mixture of Dexterous Experts) fusionnant vision, langage, force et toucher. Ces avancées illustrent une semaine riche en démonstrations de manipulation bimanuelle de contact et de locomotion avancée, dont un robot UMV entraîné via NVIDIA Isaac Lab capable de sauter et de faire des pirouettes.

HumanoïdesActu
1 source