Aller au contenu principal
HumanEgo : apprentissage robotique zéro-shot à partir de quelques minutes de vidéos égocentrées
IA physiquearXiv cs.RO3sem

HumanEgo : apprentissage robotique zéro-shot à partir de quelques minutes de vidéos égocentrées

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 27 mai 2026 sur arXiv (2605.24934) HumanEgo, un framework permettant d'entraîner un robot à manipuler des objets en lui montrant uniquement des vidéos egocentrées filmées par un humain, sans aucune donnée robot, sans télé-opération, et sans recollecte hardware. Avec seulement 30 minutes de vidéos humaines par tâche, le système atteint 92,5 % de taux de succès moyen sur quatre tâches de manipulation en conditions réelles. Avec 15 minutes de vidéos, ce score descend à 75 %, ce qui reste compétitif. Comparé à une collecte de données robot par télé-opération sur le même budget temps, HumanEgo surpasse cette baseline de 41 points de pourcentage. Le transfert est dit zero-shot : une politique entraînée sur des vidéos humaines s'exécute directement sur des robots, caméras et environnements non vus pendant l'entraînement.

L'enjeu central que HumanEgo adresse est le "embodiment gap" : la différence d'apparence visuelle et de cinématique entre une main humaine et un effecteur robot rend l'imitation directe peu fiable. Le framework contourne ce problème en extrayant une représentation intermédiaire dite "entity-level" des interactions main-objet, puis en entraînant une politique par flow matching enrichie d'objectifs auxiliaires denses qui exploitent chaque frame de chaque trajectoire. Cela signifie que la collecte de données peut être confiée à n'importe quel humain avec une caméra egocentric (type GoPro ou lunettes), réduisant drastiquement le coût et le temps de déploiement dans un contexte industriel ou logistique. Pour les intégrateurs robotiques, c'est un levier potentiel majeur : les goulots d'étranglement liés à la télé-opération spécialisée ou aux bras de démo pourraient être contournés.

HumanEgo s'inscrit dans un corpus de travaux récents cherchant à exploiter des données "in the wild" pour généraliser les politiques robot, aux côtés d'approches comme ACT, Diffusion Policy, ou pi-0 de Physical Intelligence. Contrairement à ces dernières, qui restent dépendantes de données robot, HumanEgo pousse plus loin la séparation entre collecte humaine et exécution robot. Le paper ne mentionne pas de partenaires industriels ni de timeline de déploiement commercial ; il s'agit d'une publication académique. Les prochaines questions ouvertes sont la robustesse sur des tâches à plus haute complexité gestuelle et la scalabilité au-delà de quatre tâches contrôlées.

Impact France/UE

Impact indirect : les intégrateurs robotiques européens pourraient bénéficier d'une réduction drastique des coûts de collecte de données si le framework est libéré en open-source, sans acteur EU impliqué à ce stade.

À lire aussi

Apprendre une politique robotique généralisable à partir de vidéos de démonstration humaine
1arXiv cs.RO 

Apprendre une politique robotique généralisable à partir de vidéos de démonstration humaine

Des chercheurs présentent dans un preprint arXiv (2505.20795, soumis en mai 2025) un framework en deux étapes permettant à un robot d'apprendre une nouvelle tâche de manipulation en regardant simplement une vidéo de démonstration humaine, sans collecter de données de téléopération ni effectuer de fine-tuning du modèle. Le système repose d'abord sur un modèle de génération vidéo entraîné par cross-prediction sur un dataset mixte humain-robot, pour construire une représentation latente commune aux deux modalités. Ensuite, une perte contrastive prototypique ("prototypical contrastive loss") aligne cet espace de représentation avec un espace d'action partagé entre humain et robot. À l'inférence, une vidéo de démonstration humaine sert directement de prompt : le robot exécute la tâche correspondante sans aucune adaptation. Les validations portent sur des tâches de manipulation dextre en environnement réel. L'enjeu industriel est direct : la collecte de données de téléopération reste le goulot d'étranglement majeur du robot learning, coûteuse, lente, dépendante d'opérateurs qualifiés. Si l'approche tient à l'échelle, elle réduirait drastiquement le coût d'onboarding d'une nouvelle tâche, passant de plusieurs heures de collecte à quelques secondes de vidéo. C'est précisément le type de capacité qui intéresse les intégrateurs industriels et les startups d'AMR cherchant à déployer des politiques généralisables sans retraining continu. Cela dit, le papier reste un preprint académique : les résultats portent sur un nombre limité de tâches de manipulation, et l'absence de métriques comparatives détaillées (nombre de démonstrations, taux de succès absolu, diversité des saisies) rend l'évaluation de la robustesse difficile à ce stade. La question du "demonstration gap" humain-robot est travaillée depuis plusieurs années, notamment via les travaux sur les video-language-action models (VLA) et des approches comme ACT ou Diffusion Policy chez des labos comme Stanford, CMU, ou encore Physical Intelligence (Pi-0). L'originalité ici réside dans le découplage explicite entre représentation et action via la cross-prediction, plutôt que l'alignement direct de trajectoires. Des acteurs comme 1X, Sanctuary AI ou Figure (avec son modèle Helix) explorent des pistes similaires côté industriel. La prochaine étape logique pour cette ligne de recherche est la généralisation à des objets non vus et à des scènes plus encombrées, deux conditions qui font souvent échouer les approches zero-shot en déploiement réel.

IA physiqueOpinion
1 source
HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures
2arXiv cs.RO 

HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures

Des chercheurs ont publié HumanNet, un corpus vidéo d'un million d'heures centré sur les activités humaines, conçu pour alimenter l'apprentissage de l'intelligence embodied à grande échelle. Disponible sous forme de preprint arXiv (2605.06747), le dataset couvre des perspectives à la fois à la première et à la troisième personne, et capture des interactions fines avec des objets, l'utilisation d'outils, et des comportements de longue durée dans des environnements réels variés. Au-delà de la vidéo brute, HumanNet fournit des annotations centrées sur l'interaction : légendes textuelles, descriptions de mouvement, et signaux liés aux mains et au corps. L'expérience clé de validation compare deux configurations d'entraînement continu à partir du modèle Qwen VLM : 1 000 heures de vidéo égocentrique tirées de HumanNet surpassent 100 heures de données issues de robots réels (Magic Cobot) sur un ensemble fixe de données de validation. Ce résultat, s'il se confirme à plus grande échelle, remet en cause un dogme du secteur : l'idée que les modèles VLA (Vision-Language-Action) nécessitent impérativement des données collectées sur des robots physiques pour progresser. La collecte de données robot est coûteuse, lente, et difficile à diversifier, ce qui constitue l'un des principaux goulots d'étranglement dans la course aux systèmes généralistes. HumanNet propose un chemin alternatif : exploiter la vidéo humaine comme substitut scalable et économique, en transférant des représentations motrices et interactives vers les systèmes robotiques. Il faut toutefois nuancer l'ambition de la démonstration : la validation présentée se limite à une seule ablation contrôlée sur un sous-ensemble de tâches, et aucun résultat en déploiement réel sur des robots n'est encore disponible. Ce projet s'inscrit dans une compétition plus large pour constituer des datasets à grande échelle pour l'embodied AI. Des corpus comme Ego4D (Meta, 3 500 heures), Epic-Kitchens ou Something-Something ont posé des jalons, mais aucun n'atteignait le million d'heures ni ne proposait ce niveau d'annotation motion-aware. Côté modèles, les concurrents directs incluent pi-0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind et Helix de Figure AI, tous confrontés au même problème de rareté des données robot. HumanNet ne s'accompagne d'aucune annonce commerciale ni de timeline de déploiement industriel ; il s'agit pour l'instant d'une contribution de recherche qui devra être validée dans des contextes robotiques réels avant de modifier les pratiques des intégrateurs.

💬 1000 heures de vidéo humaine qui surpassent 100 heures de données robot réel, c'est le genre de résultat qui fait mal au dogme du secteur. Si ça se confirme, ça change tout sur le goulot d'étranglement de la robotique généraliste : la collecte de données robot est un cauchemar logistique et financier, et là on parle de le contourner avec du YouTube. Bon, une ablation sur un sous-ensemble de tâches, c'est pas encore la preuve en déploiement, mais l'idée est là.

IA physiqueOpinion
1 source
Imiter ce qui fonctionne : apprentissage de politiques modulaires filtré par simulation depuis des vidéos humaines
3arXiv cs.RO 

Imiter ce qui fonctionne : apprentissage de politiques modulaires filtré par simulation depuis des vidéos humaines

Des chercheurs publient sur arXiv (2602.13197v2) un cadre d'apprentissage baptisé PSI (Perceive-Simulate-Imitate), conçu pour entraîner un robot à des tâches de manipulation à partir de vidéos humaines, sans aucune donnée robot. La cible est la manipulation préhensile, c'est-à-dire les tâches combinant une phase de saisie d'objet et des mouvements post-saisie (vissage, transfert, assemblage). PSI adopte une architecture modulaire : un générateur de saisies dédiées produit des prises stables, tandis que la composante imitation extrait les trajectoires post-saisie directement depuis les vidéos. Entre les deux s'intercale une étape de filtrage en simulation, qui attribue à chaque saisie candidate un label de compatibilité avec la tâche aval, permettant d'entraîner via apprentissage supervisé un module de saisie orienté vers l'objectif final. Les expériences en conditions réelles confirment des performances significativement plus robustes que l'usage naïf d'un générateur de saisies standard, sans que des métriques chiffrées précises (taux de succès, nombre d'objets testés) ne soient détaillées dans l'abstract. L'enjeu est structurant pour l'industrie : les vidéos humaines représentent un gisement de données quasi-illimité comparé aux démonstrations téléopérées, coûteuses à collecter à grande échelle. Le problème identifié par les auteurs est que les saisies arbitrairement stables ne sont pas forcément compatibles avec la tâche en aval, un robot peut tenir correctement un outil tout en l'orientant de façon à rendre impossible l'opération suivante. PSI tranche ce nœud en injectant du jugement simulé avant l'imitation, ce qui le distingue des pipelines naïfs de transfert vidéo-vers-robot. Pour un intégrateur ou une équipe R&D souhaitant élargir le catalogue de tâches d'un robot sans multiplier les sessions de téléopération, la proposition est directement lisible. Ce travail s'inscrit dans le courant de l'imitation depuis des vidéos in-the-wild (dans la lignée de Vid2Robot, DIME ou des travaux récents sur les Visual Language Actions), qui cherche à contourner le goulot d'étranglement de la collecte de données robotiques. La spécificité de PSI tient à son découplage explicite entre qualité de saisie et qualité de trajectoire, médiatisé par la simulation. Côté concurrent, des approches comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent davantage sur des architectures unifiées entraînées sur des corpus massifs mixtes. Aucun partenaire industriel ni déploiement n'est annoncé : il s'agit d'un résultat académique dont la généralisation à un large éventail d'objets et de morphologies de mains reste à démontrer.

IA physiquePaper
1 source
CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines
4arXiv cs.RO 

CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines

Des chercheurs ont soumis sur arXiv (2601.04061v2, janvier 2026) un framework appelé CLAP, pour Contrastive Latent Action Pretraining, conçu pour entraîner des modèles Vision-Language-Action (VLA) généralistes à partir de vidéos humaines non étiquetées. Le pipeline repose sur deux étapes: un module Act-VAE construit d'abord un vocabulaire d'actions exécutables à partir de trajectoires robotiques existantes, puis un apprentissage contrastif aligne les transitions visuelles extraites de vidéos humaines sur ce vocabulaire latent, pseudo-étiquetant ainsi ces vidéos sans collecte téléopérée supplémentaire. Sur cette base, CLAP-NTP est entraîné comme VLA autorégressif combinant démonstrations robotiques réelles et vidéos humaines étiquetées. Pour le déploiement, CLAP-RF ajoute une tête à flux rectifié (Rectified Flow) permettant la prédiction de chunks d'actions continus à faible latence, couplée à une régularisation dite Knowledge Matching qui préserve les connaissances sémantiques préentraînées lors du fine-tuning sur domaine cible. L'obstacle central des VLA généralistes reste la rareté des données robotiques étiquetées face à l'abondance de vidéos humaines disponibles en ligne. Les approches antérieures de type Latent Action Models tentaient d'exploiter ces vidéos mais encodaient du bruit visuel plutôt que des compétences de manipulation réelles, un problème qualifié d'enchevêtrement visuel (visual entanglement). CLAP contourne cette limitation en ancrant l'espace latent sur des trajectoires physiquement fondées via l'apprentissage contrastif, sans reconstruire l'apparence. Pour les intégrateurs industriels, la promesse concrète est de réduire le coût de collecte téléopérée, estimé à plusieurs milliers de dollars par heure, tout en améliorant la généralisation à de nouveaux objets sans démonstrations robotiques exhaustives. Les résultats expérimentaux rapportés montrent de bonnes performances face aux baselines comparatives, mais la validation externe reste à confirmer. Le domaine des VLA est en pleine effervescence depuis l'émergence de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et Helix (Figure AI), tous confrontés à la même pénurie de données étiquetées exploitables. Google DeepMind a exploré des voies similaires avec des travaux comme UniSim. CLAP se distingue en proposant une approche plus physiquement ancrée que les méthodes purement génératives ou reconstructrices. Ce preprint n'a pas encore été évalué par les pairs et n'annonce aucun déploiement en production. Les prochaines étapes naturelles seraient une validation sur un éventail plus large de plateformes robotiques ainsi qu'une comparaison systématique avec les Diffusion Policies, méthodes actuellement dominantes sur les benchmarks Open X-Embodiment.

IA physiqueActu
1 source