Aller au contenu principal
Demo-JEPA : architecture prédictive à enchâssement conjoint pour l'imitation inter-robots en une seule démonstration
IA physiquearXiv cs.RO4sem

Demo-JEPA : architecture prédictive à enchâssement conjoint pour l'imitation inter-robots en une seule démonstration

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie Demo-JEPA (arXiv:2605.20811, mai 2026), un cadre d'imitation robotique inter-morphologies fondé sur une architecture prédictive à représentation jointe (JEPA). L'approche s'attaque au problème du "cross-embodiment" : permettre à un robot d'apprendre depuis des démonstrations réalisées par un humain ou un robot aux cinématiques radicalement différentes. Plutôt que de copier les actions du démonstrateur, Demo-JEPA infère l'état cible que celui-ci cherchait à atteindre. Le système traduit des démonstrations visuelles brutes en trajectoires latentes futures dans un espace de représentation partagé ; l'agent cible planifie ensuite vers ces sous-objectifs via sa propre dynamique forward apprise par interaction. Les évaluations sur le benchmark RLBench et des tâches de manipulation réelles montrent que Demo-JEPA égale des planificateurs entraînés sur la même morphologie et généralise à des configurations inédites où les méthodes antérieures échouent.

L'impact pour les équipes de robotique est potentiellement significatif. Les approches d'imitation existantes requièrent soit un espace d'action commun, soit des heuristiques de retargeting cinématique, soit de larges corpus multi-morphologies cotraînés, comme ceux mobilisés par Physical Intelligence pour pi-0 ou par NVIDIA pour GR00T N2. Demo-JEPA ramène le problème à deux ingrédients : des vidéos de démonstration (humain ou autre robot) et l'expérience propre de l'agent cible. L'aspect "one-shot" revendiqué mérite une nuance : il s'agit d'une seule démonstration par tâche, pas d'un système zéro-shot sans calibration préalable. Reste que la capacité à généraliser à des morphologies non vues lors de l'entraînement représente un pas concret vers des pipelines plus flexibles, où un même corpus vidéo pourrait alimenter des flottes hétérogènes.

L'architecture JEPA est issue des travaux de Yann LeCun chez Meta : au lieu de prédire des pixels, elle prédit des représentations latentes compressées, ce qui la rend plus robuste aux détails visuels non pertinents pour la tâche. Dans le paysage du cross-embodiment, les approches dominantes sont actuellement la coformation à grande échelle (RDT-1B, OpenVLA) et le retargeting cinématique par heuristiques. Demo-JEPA propose une troisième voie, plus frugale en données supervisées. L'article demeure un preprint non validé par les pairs, sans partenariat industriel ni timeline de déploiement annoncés.

À lire aussi

DemoDiffusion : imitation humaine en une seule démonstration avec une politique de diffusion pré-entraînée
1arXiv cs.RO 

DemoDiffusion : imitation humaine en une seule démonstration avec une politique de diffusion pré-entraînée

DemoDiffusion est une méthode de robotique présentée dans un preprint arXiv (2506.20668) permettant à un robot manipulateur d'imiter une démonstration humaine unique, sans entraînement spécifique à la tâche ni données appariées humain-robot. Le pipeline repose sur deux étapes successives : d'abord, le mouvement de la main humaine est converti en trajectoire approximative pour l'effecteur terminal du robot par recalibrage cinématique (kinematic retargeting), produisant une motion en boucle ouverte. Ensuite, une politique de diffusion généraliste pré-entraînée (diffusion policy) corrige cette trajectoire pour qu'elle reste dans la distribution des actions robotiques plausibles, sans fine-tuning. Sur 8 tâches de manipulation variées en conditions réelles, DemoDiffusion atteint un taux de succès moyen de 83,8 %, contre 52,5 % pour le seul recalibrage cinématique et 13,8 % pour la politique généraliste utilisée sans guidance. La méthode réussit même sur des tâches où la politique généraliste échoue totalement. Ce résultat conteste une hypothèse structurante du secteur : l'idée que l'adaptation à de nouvelles tâches requiert soit des jeux de données appariées humain-robot coûteux à collecter, soit du reinforcement learning en ligne avec ses longs cycles d'entraînement. DemoDiffusion montre qu'une démonstration unique suffit, ce qui réduit drastiquement le coût d'intégration pour les intégrateurs industriels. L'écart entre 83,8 % et 52,5 % illustre concrètement que le recalibrage cinématique seul reste fragile hors de son domaine de calibration, et que la politique de diffusion joue un rôle correcteur décisif, une forme de sim-to-real soft sans réentraînement. Sur les tâches à 0 % pour la baseline, le gain est absolu. L'approche s'inscrit dans la vague des politiques de diffusion généralistes issues de travaux comme Diffusion Policy (Chi et al., 2023) et Pi-0 de Physical Intelligence, qui cherchent à capitaliser sur des modèles pré-entraînés pour éviter la spécialisation coûteuse par tâche. Les concurrents directs sur le segment "one-shot imitation" incluent des méthodes basées sur ACT, VIMA ou les VLA visuomoteurs (OpenVLA, RoboVLMs), qui exigent généralement plusieurs dizaines à centaines de démonstrations. DemoDiffusion reste au stade preprint sans déploiement industriel ni partenaire commercial annoncé ; les prochaines étapes naturelles seraient une évaluation sur manipulateurs commerciaux (UR, Franka Robotics) et des tâches impliquant contact forcé ou objets déformables.

UELes intégrateurs industriels européens (dont Franka Robotics, entreprise allemande citée comme cible d'évaluation future) pourraient bénéficier d'une réduction des coûts de collecte de données, mais aucun acteur français ou européen n'est impliqué dans ces travaux au stade preprint.

IA physiqueOpinion
1 source
VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique
2arXiv cs.RO 

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VILAS (arXiv 2605.02037) est une plateforme de manipulation robotique modulaire à faible coût conçue pour déployer des modèles vision-language-action (VLA) sur du matériel accessible. Le système associe un bras collaboratif Fairino FR5, un préhenseur électrique Jodell RG52-50 et un module de perception à deux caméras, coordonnés via une architecture ZMQ unifiant téleopération, collecte de données et exécution de politiques dans un pipeline unique. Pour saisir des objets fragiles sans capteur de force dédié, les auteurs ont développé une extension de préhenseur souple fondée sur le kirigami, une technique de découpe structurée qui induit une déformation contrôlée sous charge compressive, garantissant un contact doux et répétable. Trois modèles VLA ont été comparés sur cette plateforme : pi0 et pi0.5 de Physical Intelligence, et GR00T N1.6 de NVIDIA, chacun fine-tuné depuis des checkpoints publics sur un jeu de démonstrations identique collecté via le pipeline de téleopération. La tâche de validation retenue est la saisie de raisins, cas représentatif de la manipulation d'objets déformables et fragiles. Ce préprint de recherche démontre que des politiques VLA compétitives peuvent être entraînées et déployées sur du matériel grand public, sans infrastructure coûteuse ni retour d'effort. Pour les intégrateurs et les équipes de R&D à budget contraint, c'est un signal clair : le goulot d'étranglement n'est plus le hardware mais le pipeline de données et le fine-tuning. La comparaison des trois modèles dans des conditions strictement identiques (même bras, même dataset, même tâche) constitue un benchmark pratique rare, la littérature évaluant généralement les VLA sur des plateformes propriétaires difficilement reproductibles. Le fait que GR00T N1.6, conçu initialement pour les humanoïdes de NVIDIA, soit ici testé sur un cobot bas de gamme éclaire aussi la portabilité réelle de ces modèles généralistes, au-delà des démonstrations sur hardware maison. Ce travail s'inscrit dans le mouvement de démocratisation de la robotique apprenante porté notamment par LeRobot de Hugging Face ou les travaux autour d'ACT (Action Chunking with Transformers). Le Fairino FR5 se positionne dans la gamme des cobots abordables, face au Lite6 d'UFactory ou au CR5 de Dobot. Pi0 et pi0.5 sont issus de Physical Intelligence (Pi), startup californienne fondée en 2023 et financée entre autres par Bezos Expeditions, tandis que GR00T N1.6 est le modèle de fondation robotique de NVIDIA présenté en 2025 pour ses partenaires humanoïdes. Les suites naturelles de cette plateforme incluent l'extension à des tâches bi-manuelles, l'élargissement du catalogue d'objets, et potentiellement la publication du dataset de démonstrations pour faciliter la reproductibilité.

IA physiqueOpinion
1 source
PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration
3arXiv cs.RO 

PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration

Une équipe de chercheurs présente PGDG (Physically Grounded Data Generation), un cadre qui permet d'entraîner une politique de manipulation bimanuelles robuste à partir d'une seule démonstration humaine. Déposé sur arXiv en mai 2026 (réf. 2605.21710), le système attaque un problème structurant du behavior cloning : tout écart par rapport à la trajectoire apprise plonge le robot dans des états hors distribution, sans signal de récupération disponible dans les données d'entraînement. PGDG génère automatiquement, sans annotation humaine supplémentaire, un ensemble compact de trajectoires physiquement plausibles couvrant ces comportements de récupération manquants. Il alterne entre un échantillonneur ancré en physique et un curateur de données qui oriente progressivement l'exploration vers les modes sous-représentés, complété par un reétiquetage d'actions correctives sur les états risqués. Sur la tâche RotateBox-Pitch, manipulation bimanuelles par contact, le taux de succès passe de 38 % à 93 % en simulation et de 35 % à 82 % en transfert zéro-shot vers le robot réel. Appliqué au fine-tuning de GR00T, le modèle de fondation vision-langage-action de NVIDIA, la méthode améliore le taux de succès de 46 % à 77 %. Le résultat le plus notable pour les intégrateurs est le transfert zéro-shot : la politique entraînée exclusivement sur données synthétiques fonctionne directement sur le robot physique, sans adaptation terrain. Ce résultat valide empiriquement que la génération ancrée en physique peut combler le sim-to-real gap pour les tâches en contact, historiquement le talon d'Achille de la manipulation dextère. La compatibilité avec GR00T (un VLA) ouvre également une voie pour enrichir les modèles de fondation à faible coût de collecte : une démonstration unique remplace les centaines typiquement requises en téléopération, ce qui modifie le calcul économique pour tout projet de déploiement à grande variété de configurations. Ce travail s'inscrit dans la course à l'efficacité des données en robotique manipulatrice. L'augmentation spatiale classique, premier concurrent direct, est systématiquement surpassée sur les quatre tâches testées. Les approches alternatives misent soit sur la collecte massive comme ACT/ALOHA (des milliers de démonstrations), soit sur le pré-entraînement multi-tâche à grande échelle comme pi-0 de Physical Intelligence. PGDG se distingue par son paradigme "une démonstration suffit", potentiellement attractif dès que la diversité des pièces ou des configurations rend la collecte par tâche prohibitive. La validation reste pour l'instant en environnement laboratoire ; une évaluation sur des tâches industrielles réelles constituerait la prochaine étape logique.

💬 Une démo au lieu de mille, et le robot fonctionne directement sur le physique sans adaptation terrain. Le sim-to-real sur de la manipulation par contact, c'était le blocage structurel depuis des années, et là ils sortent 82% en zéro-shot sur le robot réel, c'est pas un résultat qu'on voit souvent. Reste à tenir hors labo.

IA physiqueOpinion
1 source
BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes
4arXiv cs.RO 

BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes

Une équipe de chercheurs a publié le 6 mai 2026 BifrostUMI (arXiv:2605.03452), un framework de collecte de données sans robot dédié à l'entraînement de politiques visuomotrices full-body pour robots humanoïdes. Le principe : un opérateur humain équipé d'un casque VR léger réalise des démonstrations manuelles, capturées sous forme de trajectoires de points-clés (keypoints) épars, tandis que des caméras montées au niveau des poignets enregistrent simultanément les données visuelles. Ces données multimodales alimentent ensuite un réseau de politique haut niveau qui apprend à prédire les trajectoires futures conditionnées aux features visuelles observées. Un pipeline de retargeting traduit ensuite ces trajectoires sur la morphologie du robot cible, qui les exécute via un contrôleur corps entier (whole-body controller). L'efficacité du framework est validée sur deux scénarios expérimentaux distincts, sans que les auteurs ne précisent les benchmarks quantitatifs de performance (temps de cycle, taux de succès par tâche) dans le résumé disponible. L'enjeu est direct pour quiconque tente de scaler l'entraînement d'humanoïdes : la télé-opération robotique reste le goulot d'étranglement principal de la collecte de données. Elle exige un accès permanent au hardware, un opérateur qualifié, et génère un flux de données lent et coûteux. BifrostUMI découple complètement la phase de démonstration du robot physique, ce qui ouvre la possibilité de collecter des démonstrations en masse, avec n'importe quel opérateur humain, dans n'importe quel environnement, sans mobiliser la plateforme mécanique. C'est précisément le verrou que les acteurs du secteur cherchent à lever : Figure AI, Physical Intelligence (pi) ou Apptronik dépendent tous de pipelines de collecte lents et onéreux. Si le sim-to-real gap reste un défi ouvert, l'approche keypoint avec retargeting propose une voie alternative au full imitation learning vidéo, en s'appuyant sur une représentation compacte et plus robuste aux variations morphologiques entre démonstrateur et robot. BifrostUMI s'inscrit directement dans la lignée de l'Universal Manipulation Interface (UMI) développé par Stanford, qui avait montré qu'un graspeur instrumenté suffit à générer des démonstrations transférables. Les auteurs étendent ce paradigme au corps entier des humanoïdes, un saut de complexité significatif donné le nombre de degrés de liberté à contrôler. Sur le marché, Physical Intelligence mise sur Pi-0 et ses variantes pour des politiques générales entraînées sur données téléopérées, tandis que Boston Dynamics, Unitree et Fourier Intelligence investissent massivement en infrastructure de télé-op. BifrostUMI, en tant que preprint non encore évalué par les pairs, reste une preuve de concept académique, sans déploiement industriel annoncé ni timeline de commercialisation. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés (RoboSuite, DROID) et une validation sur plusieurs morphologies humanoïdes différentes.

IA physiqueOpinion
1 source