Aller au contenu principal
DuoBench : un benchmark reproductible pour la manipulation bimanuelles en simulation et dans le monde réel
FR/EU ecosystemearXiv cs.RO1sem

DuoBench : un benchmark reproductible pour la manipulation bimanuelles en simulation et dans le monde réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en juin 2026 DuoBench, un cadre de benchmarking dédié à la manipulation bimanuelle, conçu pour la plateforme FR3 Duo de Franka Robotics. Le benchmark comprend onze tâches réparties en quatre catégories de coordination, implémentées en simulation et partiellement reproduites en environnement réel grâce à des protocoles reproductibles incluant des composants imprimables en 3D. Les auteurs ont constitué des jeux de données de télé-opération humaine pour l'ensemble des onze tâches, et proposent un schéma d'évaluation par étapes (stage-based evaluation) permettant une analyse sémantique fine des modes d'échec, au-delà du simple critère binaire succès/échec. Plusieurs politiques d'apprentissage par imitation à deux bras ainsi que des politiques VLA (vision-language-action) ont été évaluées en simulation et sur matériel réel.

Les résultats sont sans ambiguïté : les politiques actuelles, y compris les approches VLA considérées comme l'état de l'art, restent insuffisantes pour la manipulation bimanuelle. Les échecs se concentrent sur trois axes : les phases d'interaction initiale, l'exécution parallèle des deux bras, et le transfert simulation-réel (sim-to-real). Ce dernier point est particulièrement significatif : malgré les progrès récents sur le gap sim-to-real pour la manipulation à un bras, DuoBench révèle que la coordination bimanuelle pose des défis supplémentaires non résolus. Pour les équipes R&D et les intégrateurs industriels, ce benchmark fournit un outil diagnostique structuré pour identifier précisément où les politiques échouent, une lacune que les frameworks existants comme RLBench ou LIBERO, conçus pour les systèmes à un seul bras, ne comblaient pas.

La manipulation bimanuelle est un prérequis pour de nombreuses tâches complexes en industrie (assemblage, conditionnement, manipulation d'objets déformables), ce qui explique l'intérêt croissant du secteur pour les plateformes à deux bras. Le FR3 Duo de Franka Robotics est l'une des rares plateformes de recherche standardisées pour ce segment. Dans la course aux capacités bimanuelles, des acteurs comme Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses robots humanoïdes ont annoncé des performances prometteuses, mais les benchmarks publics rigoureux permettant de les comparer restent rares. DuoBench, dont le code, les jeux de données et les vidéos sont disponibles sur duobench.github.io, ambitionne de combler ce manque avec un protocole reproductible que tout laboratoire peut répliquer à faible coût grâce aux assets imprimables en 3D.

Impact France/UE

Franka Robotics (Allemagne) est la plateforme centrale de DuoBench, offrant aux laboratoires et équipes R&D européens un benchmark standardisé et reproductible pour évaluer leurs politiques bimanuelle, y compris les approches VLA, sans disposer de ressources matérielles coûteuses.

À lire aussi

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation
1arXiv cs.RO 

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation

Une équipe de chercheurs a publié TAVIS, un environnement d'évaluation standardisé pour comparer les approches de vision active en apprentissage par imitation, soit la capacité d'une politique robotique à contrôler son propre regard pendant une tâche de manipulation. Le benchmark comprend deux suites : TAVIS-Head (5 tâches avec caméra sur cardan pan/tilt pour la recherche globale de scène) et TAVIS-Hands (3 tâches avec caméras de poignet pour gérer les occlusions locales). Il est construit sur IsaacLab et s'appuie sur deux embodiments de torse humanoïde : le GR1T2 de Fourier Intelligence et le Reachy2 de Pollen Robotics (Bordeaux). Environ 2 200 épisodes de démonstrations téléopérées sont publiés en format LeRobot v3.0 sur HuggingFace, avec Diffusion Policy et π₀ (Physical Intelligence) comme baselines. Trois résultats principaux ressortent : la vision active améliore les performances, mais de façon conditionnelle à la tâche ; les politiques multi-tâches se dégradent nettement sous distribution shift contrôlé ; et l'imitation seule produit un regard anticipatoire dont les temps de préemption médians, mesurés par la métrique GALT (Gaze-Action Lead Time), sont comparables à ceux du téléopérateur humain de référence. Jusqu'ici, plusieurs groupes avaient démontré indépendamment les bénéfices de la vision active en 2024-2025, sans base commune de comparaison. TAVIS comble ce vide avec trois primitives reproductibles : un protocole comparatif caméra mobile/caméra fixe sur des démonstrations identiques, la métrique GALT issue des sciences cognitives et de l'HRI (Human-Robot Interaction), et des splits procéduraux in-distribution/out-of-distribution. Le constat que les gains sont task-conditional invalide l'hypothèse naïve qu'ajouter des degrés de liberté à la caméra améliore systématiquement les performances, nuance décisive pour les intégrateurs industriels. La fragilité sous distribution shift constitue un signal d'alarme concret pour tout déploiement hors simulation. La vision active en manipulation connaît un regain d'intérêt depuis 2024, porté par les progrès des VLA (Vision-Language-Action models) et la disponibilisation de robots humanoïdes à têtes articulées. Le choix de Reachy2 comme plateforme de référence est notable : Pollen Robotics, startup bordelaise fondée en 2016, est l'un des rares acteurs européens dont le robot open-source figure dans des benchmarks académiques internationaux, face aux concurrents américains (Figure, Agility) et asiatiques (Fourier, Unitree). Les prochaines étapes naturelles incluent l'évaluation de politiques VLA récentes comme GR00T N2 ou OpenVLA sur TAVIS, ainsi que le transfert sim-to-real, que le papier ne couvre pas encore.

UEPollen Robotics (Bordeaux) est l'une des deux seules plateformes de référence du benchmark TAVIS, ce qui ancre un acteur français open-source au cœur d'une infrastructure d'évaluation académique internationale pour les politiques VLA.

FR/EU ecosystemePaper
1 source
UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI
2arXiv cs.RO 

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

Une équipe de recherche a déposé le 10 juin 2026 le preprint arXiv 2606.10382 décrivant UMI-Bench 1.0, présenté comme le premier benchmark entièrement dédié à l'évaluation en conditions réelles de politiques de manipulation robotique entraînées via l'Universal Manipulation Interface (UMI). Le benchmark cible la manipulation d'objets sur table (tabletop manipulation) et couvre l'intégralité de la chaîne de validation : collecte de données, réinitialisation de scène entre essais, exécution de politique, journalisation des résultats et analyse par facteurs de tâche. Il opère en mode "local-first", c'est-à-dire que les évaluations tournent directement sur robot réel, sans couche de simulation intermédiaire. L'UMI couple observations depuis une caméra montée au poignet, représentation des actions, collecte de démonstrations humaines et déploiement physique, une architecture dont les performances dépendent de la cohérence de chaque maillon. Ce benchmark répond à un problème structurel de l'apprentissage par imitation : l'absence de protocole standardisé conduit chaque équipe à évaluer ses politiques dans des conditions non comparables, ce qui rend la littérature difficile à arbitrer pour un intégrateur ou un décideur industriel. En rendant le processus reproductible et auditable, UMI-Bench permet de mesurer concrètement dans quelle mesure une politique entraînée sur des démonstrations généralise à des configurations physiques inédites, ce que les chercheurs appellent la sim-to-real (ici demo-to-real) generalization. C'est un enjeu central pour les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models), dont les performances en démonstration sélectionnée restent difficiles à quantifier sans infrastructure de test commune. L'UMI a été introduit en 2023-2024 par Cheng Chi et al. (Columbia University) comme interface portable de collecte de démonstrations : un opérateur guide un gripper équipé d'une caméra et d'un module de localisation, et les trajectoires servent directement à entraîner des politiques. Le paysage concurrent des benchmarks comprend LIBERO, DROID et le framework LeRobot de Hugging Face, qui proposent leurs propres protocoles mais sans calibration spécifique pour le pipeline UMI. L'étape logique suivante serait l'intégration de modèles fondationnels comme pi-0 (Physical Intelligence) ou OpenVLA dans ce protocole de référence, et l'extension à des tâches multi-étapes.

RecherchePaper
1 source
ATOM-Bench : un benchmark réel pour les compétences atomiques et la généralisation compositionnelle dans les politiques de manipulation
3arXiv cs.RO 

ATOM-Bench : un benchmark réel pour les compétences atomiques et la généralisation compositionnelle dans les politiques de manipulation

Une équipe de chercheurs a publié ATOM-Bench, un benchmark de terrain conçu pour évaluer les politiques de manipulation robotique sur deux dimensions distinctes : l'acquisition de compétences atomiques et la généralisation compositionnelle. Le dispositif décompose la manipulation sur table en "atomes moteurs" (précision de préhension, trajectoire du poignet, force de contact) et en "atomes d'instruction" (comptage, filtrage logique, ancrage sémantique). Il comprend 30 tâches atomiques et 24 tâches compositionnelles inédites, testées sur des configurations bras unique et bras double. Les auteurs ont collecté 3 000 démonstrations humaines pour le fine-tuning et effectué 2 700 rollouts physiques sur cinq politiques de manipulation représentatives. Les métriques introduites, l'Atomic Score (AS) et le Compositional Failure Share (CFS), permettent d'isoler la source d'un échec : exécution moteur défaillante, mauvais ancrage instruction, ou incapacité à recombiner des compétences acquises. Les résultats remettent en cause un postulat courant dans le secteur : que des politiques performantes sur des tâches atomiques généralisent naturellement à des tâches compositionnelles. Ce n'est pas le cas. Malgré des scores atomiques corrects sur l'ancrage d'instructions simples, les modèles testés échouent systématiquement sur le comptage, le filtrage logique et les atomes moteurs fins. Plus significatif encore, une bonne performance atomique ne prédit pas fiablement la réussite sur les tâches compositionnelles hors distribution. Pour un intégrateur ou un décideur industriel, cela signifie que les benchmarks classiques sur tâches démontrées surestiment largement la robustesse opérationnelle des politiques dites "généralistes". ATOM-Bench s'inscrit dans un contexte où les politiques VLA (Vision-Language-Action) comme pi0 (Physical Intelligence), Octo, ou OpenVLA sont présentées comme des fondations universelles pour le contrôle robotique. Ce cadre d'évaluation comble l'absence de protocole standardisé pour tester la composabilité des compétences, un angle mort identifié depuis les travaux sur l'abstraction hiérarchique en RL. Les données de démonstration et les rollouts d'évaluation sont publiés en open access pour permettre une comparaison reproductible entre équipes. La prochaine étape logique serait d'intégrer ATOM-Bench comme protocole de validation dans les pipelines de fine-tuning des acteurs du secteur, notamment pour qualifier des déploiements réels en environnement industriel non contrôlé.

UELes laboratoires et intégrateurs européens travaillant sur des politiques de manipulation robotique peuvent adopter ATOM-Bench comme protocole de validation open-access pour qualifier la robustesse réelle de leurs systèmes avant déploiement industriel.

RecherchePaper
1 source
WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles
4arXiv cs.RO 

WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles

Une équipe de recherche a publié sur arXiv (ref. 2606.18097) WireCraft, un benchmark de simulation dédié à la manipulation industrielle d'objets linéaires déformables (DLO), typiquement les câbles et faisceaux électriques omniprésents dans les lignes d'assemblage. Le benchmark couvre trois familles de tâches représentatives du câblage industriel réel : l'insertion de connecteurs, le routage de clips et la mise en place de goulottes (channel seating). Il intègre deux modèles physiques complémentaires pour simuler le comportement des câbles, l'un articulé et l'autre véritablement déformable, et les trajectoires de référence proviennent à la fois de la simulation et d'un bras UR5 physique. Les auteurs ont évalué trois familles de politiques de contrôle : apprentissage par renforcement (RL), apprentissage par imitation (IL) et politiques vision-langage-action (VLA). Sous conditions de RL avec état privilégié (accès direct aux variables d'état internes de la simulation), chaque famille de tâches est résolue avec un taux de succès supérieur à 82 %, confirmant que les tâches sont bien posées et non artificiellement impossibles. Ces résultats exposent un écart critique entre manipulation sous état privilégié et manipulation guidée uniquement par la vision, un problème central pour tout intégrateur cherchant à déployer des cellules robotisées sur des opérations de câblage. Le vrai verrou identifié par WireCraft n'est pas la phase d'approche, mais la transition entre atteindre un connecteur et exécuter l'alignement en contact riche, où les politiques visuelles (RL vision, IL et VLA) échouent de façon significative. Cela contredit implicitement plusieurs narratifs optimistes autour des VLA polyvalents : malgré des performances impressionnantes sur des objets rigides, ces architectures peinent dès que la géométrie est déformable et que le retour d'état est limité à la perception visuelle. Pour un COO industriel ou un intégrateur, le message est pragmatique : les câbles ne sont pas encore un problème résolu, même en simulation propre avec des benchmarks bien construits. Le manque de benchmarks partagés et reproductibles pour les DLO freine depuis longtemps la comparaison objective des approches dans ce domaine. Les benchmarks existants sont généralement liés à du matériel propriétaire ou traitent des objets déformables génériques sans les contraintes de fixation propres au câblage industriel. WireCraft comble cette lacune avec des assets configurables en difficulté et des protocoles d'évaluation communs. Le code, les données et les outils seront mis en open source après acceptation de l'article. Côté concurrence, des acteurs comme OpenAI (avec ses travaux sur la manipulation déformable) ou des laboratoires comme Physical Intelligence (pi) avec Pi-0 poussent également sur la manipulation généraliste, mais aucun benchmark industriel câble de ce type n'était encore disponible publiquement. La prochaine étape naturelle sera le sim-to-real transfer systématique : WireCraft pose les rails, mais la question de savoir quelle architecture franchira le gap reste entièrement ouverte.

RecherchePaper
1 source