Aller au contenu principal
Phantom : entraîner des robots sans robots, uniquement avec des vidéos humaines
RecherchearXiv cs.RO3sem

Phantom : entraîner des robots sans robots, uniquement avec des vidéos humaines

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié Phantom (arXiv:2503.00779), un framework d'entraînement de politiques de manipulation robotique n'utilisant aucune donnée robot : uniquement des vidéos de démonstrations humaines. Le pipeline extrait les trajectoires via estimation de pose des mains (hand pose estimation), efface le bras humain par inpainting, puis superpose un rendu 3D du robot cible pour produire des paires observation-action directement exploitables. Déployé en zero-shot sur matériel réel sans fine-tuning, le système atteint jusqu'à 92 % de taux de réussite sur des tâches de manipulation d'objets déformables, de balayage multi-objets et d'insertion de composants. Les politiques supportent l'exécution en boucle fermée (closed-loop) et généralisent à des environnements inédits non vus à l'entraînement.

L'enjeu est la scalabilité des données. La téléopération, méthode dominante chez Figure, 1X ou Physical Intelligence, exige du matériel disponible, des opérateurs qualifiés et des sessions d'enregistrement coûteuses. En substituant des vidéos humaines à ces démos, Phantom compresse drastiquement le coût d'acquisition du dataset. Si les taux de réussite annoncés se confirment en dehors des conditions contrôlées du laboratoire, cela représenterait un argument solide contre le "reality gap" classique entre simulation et déploiement industriel. La capacité à généraliser sans fine-tuning, point souvent problématique pour les modèles VLA (Visual Language Action), mérite toutefois une validation sur des environnements plus variés que ceux présentés dans le papier.

Le problème des données hors-robot n'est pas nouveau : DexMV, ACT et les travaux autour de GR00T N2 de NVIDIA ont exploré des voies comparables, et Physical Intelligence avec pi-0 a parié sur la diversité massive de données multi-embodiment. Les approches sim-to-real via IsaacLab ou Genesis constituent les concurrents méthodologiques directs, contournant le même obstacle par la simulation plutôt que par la vidéo humaine. Phantom se distingue par sa légèreté : pas de flotte de robots nécessaire pour constituer le dataset initial. Le travail reste à ce stade une preuve de concept académique, sans partenariat ni déploiement industriel annoncé. La prochaine étape attendue serait une validation sur des morphologies robotiques variées et des tâches à précision sub-millimétrique.

À lire aussi

Apprentissage robotique à partir de vidéos humaines : une synthèse
1arXiv cs.RO 

Apprentissage robotique à partir de vidéos humaines : une synthèse

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.27621) un état de l'art complet sur l'apprentissage des compétences robotiques à partir de vidéos humaines. Le papier recense les techniques permettant de transférer des habiletés gestuelles filmées vers des robots manipulateurs, en s'appuyant sur la masse de vidéos d'activités humaines disponibles en ligne. Les auteurs proposent une taxonomie hiérarchique structurée en trois axes : l'apprentissage orienté tâche (le robot déduit l'objectif), l'apprentissage orienté observation (alignement visuel entre humain et robot), et l'apprentissage orienté action (estimation directe des mouvements moteurs). Le survey couvre également les fondements de données, en analysant les principaux jeux de données de vidéos humaines existants ainsi que les schémas de génération vidéo synthétique. Une liste exhaustive des travaux référencés est disponible sur GitHub (IRMVLab/awesome-robot-learning-from-human-videos). Ce travail de synthèse arrive à un moment clé : le manque de données robotiques à grande échelle constitue aujourd'hui le principal goulot d'étranglement pour les systèmes d'IA incarnée généralistes. Les vidéos humaines représentent une ressource passive quasi illimitée, et leur exploitation pourrait contourner le coût exorbitant de la collecte de démonstrations téléopérées. Le papier analyse explicitement comment les différentes approches se comportent selon les paradigmes d'apprentissage (imitation, renforcement, diffusion) et les configurations de données, ce qui est directement utile pour des intégrateurs qui cherchent à choisir une architecture VLA (Vision-Language-Action) selon leur contrainte de données terrain. Le survey souligne aussi honnêtement les limitations du champ : le gap démo-réalité reste non résolu dans la plupart des pipelines, et les métriques de transfert restent hétérogènes d'un papier à l'autre. Ce type de survey émerge dans un contexte où plusieurs labos et startups misent sur le video-based learning comme levier de scalabilité : Physical Intelligence (pi-0), NVIDIA (GR00T N2), et Google DeepMind ont tous intégré des données humaines ou des vidéos internet dans leurs pipelines d'entraînement récents. Côté recherche académique, les travaux comme R3M, UniPi ou RoboAgent ont posé les jalons de cette approche ces deux dernières années. Ce survey offre donc une base de référence structurée pour les équipes qui entrent maintenant dans ce champ, avec des pistes de recherche ouvertes notamment sur la synchronisation temporelle corps-robot et la génération de données vidéo simulées pour la diversification des trajectoires.

UELes équipes de recherche françaises (CEA-List, INRIA) et les startups européennes travaillant sur des architectures VLA peuvent exploiter cette taxonomie structurée pour orienter leurs choix méthodologiques selon leurs contraintes de données terrain.

RecherchePaper
1 source
Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique
2arXiv cs.RO 

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Des chercheurs ont publié sur arXiv (réf. 2606.01951) un cadre d'apprentissage par imitation pour robots mobiles qui exploite des vidéos égocentrées tournées par des humains en train de marcher. Le principe : estimer le mouvement de la caméra à partir de ces séquences piétonnes, puis convertir ce flux en représentations d'actions compatibles avec des robots mobiles au sol. Un modèle VLA (Vision-Language-Action) est ensuite entraîné conjointement sur ces données dérivées de vidéos humaines et sur des trajectoires collectées directement par le robot. Les expériences portent sur une tâche de navigation avec recherche de fruits, où le robot doit localiser des objets cibles dans un environnement non structuré en suivant des instructions en langage naturel. L'intérêt de cette approche réside dans sa réponse au principal goulot d'étranglement de la robotique apprise : la collecte de données sur robot réel est coûteuse, lente, et difficilement scalable. Si recycler des vidéos égocentrées humaines pour l'apprentissage de tâches de manipulation existe déjà dans la littérature (notamment via des datasets comme EPIC-Kitchens ou des pipelines type ACT), l'étendre à la navigation mobile reste difficile car les changements de point de vue lors de la locomotion créent des discontinuités que les modèles de manipulation ne rencontrent pas. Les résultats montrent que l'entraînement conjoint dépasse les deux sources de données prises isolément, aussi bien en compréhension du langage qu'en robustesse de génération d'actions. Cela valide partiellement l'hypothèse que le sim-to-human-video-to-real peut fonctionner pour la navigation, sans simulation physique. Ce travail s'inscrit dans une course plus large à la scalabilité des données pour les VLA, où des acteurs comme Physical Intelligence (pi0), Google DeepMind (RT-2, GR00T N2 pour Nvidia) ou Boston Dynamics cherchent des pipelines moins dépendants de la téléopération humaine sur robot. La navigation mobile reste moins couverte que la manipulation dans cette littérature, et ce papier ouvre une voie de co-training à moindre coût. Les prochaines étapes naturelles seraient d'évaluer la généralisation à des environnements plus complexes, de mesurer le ratio optimal données humaines/données robot, et de tester sur des plateformes AMR commerciales. Le code et les datasets ne sont pas encore publiés au moment de la soumission arXiv.

RechercheOpinion
1 source
L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines
3arXiv cs.RO 

L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines

Une équipe de chercheurs a publié un cadre d'entraînement basé sur des actions latentes permettant de former des modèles VLA (Vision-Language-Action) généralistes à partir de vidéos égocentriques humaines non annotées, sous l'identifiant arXiv:2606.18955. L'architecture centrale, baptisée Hybrid Disentangled VQ-VAE, décompose les dynamiques de mouvement des arrière-plans environnementaux via des masques physiques et construit un codebook d'actions multi-embodiment. Pré-entraîné exclusivement sur des vidéos humaines sans étiquettes d'action, le modèle ne requiert que 50 trajectoires robotiques annotées pour s'adapter à un embodiment cible, contre des milliers généralement exigés par les approches concurrentes. Les résultats, validés en simulation et en environnement réel, affichent des performances comparables aux meilleurs modèles VLA entraînés sur des jeux de données massifs et entièrement annotés. Une stratégie de découplage intention-perception complète l'architecture : le backbone VLM prédit l'intention d'action tandis qu'un encodeur visuel gelé distinct fournit les caractéristiques propres à l'état courant à un module expert d'action, réduisant ainsi les hallucinations d'action. Ce travail s'attaque directement au principal goulot d'étranglement du domaine : la rareté des données robotiques avec annotations de haute fidélité. Les vidéos humaines égocentriques, abondantes sur internet et capturant une grande diversité environnementale, restaient jusqu'ici inexploitables dans les paradigmes d'entraînement classiques faute de labels d'action. Descendre à 50 trajectoires pour l'adaptation aval représente un changement d'ordre de grandeur pour les intégrateurs industriels qui n'ont ni la logistique ni le budget pour constituer des datasets robotiques à grande échelle. Le codebook cross-embodiment ouvre en outre la voie à des modèles fondamentaux transférables entre différentes morphologies de robots, ce qui répond à l'un des reproches récurrents faits aux approches VLA : leur faible généralisation inter-plateforme. Le contexte concurrentiel est dense. Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA visent tous à former des modèles VLA généralistes, mais s'appuient principalement sur des datasets robotiques annotés comme OpenX-Embodiment ou des jeux propriétaires. Des travaux antérieurs comme UniSim ou des approches de pré-entraînement sur vidéo internet avaient déjà exploré cette direction sans atteindre ce niveau de frugalité en données. Ce preprint arXiv reste à ce stade une contribution de recherche : pas de déploiement industriel annoncé, pas de partenariat déclaré. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une validation sur une palette plus large de morphologies robotiques réelles.

RechercheOpinion
1 source
ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active
4arXiv cs.RO 

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

Des chercheurs ont publié ActiveMimic (arXiv:2606.06194, juin 2026), un framework de pré-entraînement robotique qui exploite des vidéos égocentrées humaines captées par une simple caméra RGB portée sur le corps. La contribution technique centrale : plutôt que de traiter les mouvements de caméra comme du bruit, comme le font les pipelines standards, ActiveMimic récupère des trajectoires synchronisées de la caméra et du poignet depuis ce seul flux vidéo, puis modélise le déplacement de la caméra comme une "action de point de vue" à part entière. Le framework apprend ainsi simultanément la perception active et la manipulation à partir de vidéos humaines capturées en conditions réelles, avant d'être adapté à un robot cible via fine-tuning. Sur plusieurs tâches de manipulation impliquant des degrés variés de perception active, les expériences en conditions réelles montrent qu'ActiveMimic surpasse les baselines pré-entraînées sur vidéo humaine classique et atteint les performances des modèles pré-entraînés sur données robotiques. Ce résultat est notable car la vidéo égocentrée humaine est disponible à grande échelle sans nécessiter de robot, mais les modèles qui en étaient issus sous-performaient systématiquement face à ceux entraînés sur données robotiques. ActiveMimic identifie le signal manquant : la perception active, soit le comportement naturel par lequel un humain repositionne continuellement son point de vue pendant une manipulation. Ce mécanisme, invisible pour les pipelines qui traitent la motion de caméra comme artefact, s'avère être le facteur clé pour extraire la valeur de ces vidéos. Les expériences indiquent en outre que la capacité de perception active émerge du pré-entraînement sur vidéo humaine et non du fine-tuning robot-spécifique, ce qui suggère une transférabilité potentielle à d'autres architectures et morphologies. Ce travail s'inscrit dans une compétition dense autour des modèles vision-action (VLA) pour la manipulation robotique généraliste. Physical Intelligence avec Pi-0, Google DeepMind avec RT-2, et les équipes de Figure AI exploitent des architectures VLA pré-entraînées, mais s'appuient majoritairement sur des données de téléopération robotique, coûteuses et lentes à collecter. Si l'approche d'ActiveMimic se confirme sur des benchmarks indépendants et des environnements non contrôlés, elle pourrait réduire significativement ce goulot d'étranglement en substituant une partie des données robotiques par de la vidéo humaine abondante. Les prochaines étapes naturelles incluent la validation industrielle, l'extension à des morphologies variées, et l'évaluation de la scalabilité avec des volumes de vidéo égocentrée plus importants.

RechercheOpinion
1 source