Aller au contenu principal
Préhension dextérique sans vision par apprentissage tactile Real2Sim2Real
RecherchearXiv cs.RO1sem

Préhension dextérique sans vision par apprentissage tactile Real2Sim2Real

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 sur arXiv (réf. 2606.11767) un framework Real2Sim2Real pour la saisie aveugle par main dextre, sans aucune entrée visuelle, en s'appuyant exclusivement sur des capteurs tactiles distribués. Déployé sur une LEAP Hand quatre-doigts équipée de capteurs tactiles sur chaque phalange, le système atteint 27 % de taux de succès en conditions réelles sur 20 objets (10 vus à l'entraînement, 10 inédits), sans démonstration humaine ni caméra. L'architecture combine trois composants : un pipeline de calibration Real2Sim construisant un simulateur jumeau numérique fidèle aux signaux tactiles physiques ; un encodeur tactile layout-aware intégrant la géométrie des capteurs via préentraînement auto-supervisé, pour compenser la faible expressivité des signaux épars ; et une Diffusion Policy agrégant les trajectoires réussies d'experts en apprentissage par renforcement, spécialisés par objet dans le simulateur calibré.

Le 27 % de taux de succès reste modeste opérationnellement, mais l'enjeu réel est la fermeture du tactile sim-to-real gap, l'un des obstacles les plus tenaces à la généralisation des mains dextres hors laboratoire. La plupart des systèmes antérieurs substituent la vision au toucher ou se limitent à des capteurs de force simples. Ici, la calibration contact-level du simulateur permet d'entraîner des politiques qui transfèrent sur le hardware sans fine-tuning en monde réel, résultat que les ablations confirment sur la cohérence des événements de contact sim-à-hardware. Pour un intégrateur ou un responsable industriel, c'est une preuve de concept que la manipulation en environnement occlus ou non éclairé devient accessible via simulation, sans collecter de données réelles coûteuses.

Ce travail s'inscrit dans un écosystème en rapide structuration autour de la manipulation tactile dextre. La LEAP Hand, développée à Carnegie Mellon et commercialisée à bas coût pour la recherche, est devenu un banc de test de référence dans ce domaine. La Diffusion Policy, popularisée par Columbia University dès 2023, continue de s'imposer comme backbone standard pour l'imitation learning dextre. L'écosystème de capteurs reste fragmenté entre XELA Robotics, GelSight et diverses peaux tactiles propriétaires. Aucun partenaire industriel ni déploiement en production n'est annoncé, positionnant clairement ce preprint comme contribution académique ; les prochaines étapes probables passent par une taxonomie d'objets plus large et une densité de capteurs accrue pour dépasser ce premier seuil de 27 %.

Dans nos dossiers

À lire aussi

HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique
1arXiv cs.RO 

HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique

Une équipe de chercheurs a publié HT-Bench, un benchmark à grande échelle destiné à évaluer les représentations tactiles main entière dans la manipulation robotique dextre, avec un dataset de 10 millions de trames RGB et 7,8 millions de trames tactiles collectées sur 226 tâches distinctes. La publication (arXiv:2606.19161, juin 2026) propose une approche centrée sur la vision égocentrique couplée à des capteurs tactiles couvrant l'intégralité de la main robotique. Le benchmark structure l'évaluation autour de quatre tâches : récupération de similarité tactile fine, inpainting de trames masquées, synthèse vision-vers-tactile, et prédiction multimodale de trames tactiles. En parallèle, les auteurs introduisent HandTouch, un encodeur vision-tactile à quantification vectorielle (VQ), entraîné selon trois phases progressives : spatiale, cross-modale et temporelle. Les gains quantitatifs de HandTouch sur HT-Bench sont nets : le Recall@5 en récupération de similarité tactile passe de 74,65 % à 85,23 %, l'erreur quadratique moyenne (RMSE) en inpainting chute de 0,022 à 0,010, et le score cIoU hors-distribution (OOD) en synthèse vision-tactile progresse de 0,628 à 0,705. Pour l'industrie robotique, cela valide une hypothèse structurante : coupler vision égocentrique et retour tactile main entière constitue une base d'apprentissage généralisable, sans exiger des capteurs ou des embodiments standardisés. C'est un signal concret pour les intégrateurs et équipes R&D travaillant sur la manipulation dextre en environnements non structurés, où percevoir l'état d'une prise sans vision directe reste un verrou majeur. Le domaine du tactile en robotique souffre depuis longtemps d'une fragmentation des formats de capteurs et des protocoles, rendant les comparaisons entre travaux difficiles. HT-Bench s'inscrit dans une dynamique de benchmarking qui émerge en 2025-2026, aux côtés d'initiatives comme RoboSet, DROID ou LIBERO pour la manipulation généraliste. Des laboratoires comme le CMU Robotics Institute et le MIT CSAIL, ainsi que des entreprises comme Sanctuary AI, explorent des approches similaires de fusion tactile-visuelle. Aucun acteur européen n'est directement cité dans ce travail, mais des startups comme Enchanted Tools ou Wandercraft, actives sur la manipulation avancée, pourraient tirer parti d'un tel benchmark pour standardiser leurs évaluations internes. L'étape suivante logique serait l'intégration de HandTouch dans des pipelines VLA (Vision-Language-Action), où le retour tactile reste aujourd'hui largement absent.

RecherchePaper
1 source
ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile
2arXiv cs.RO 

ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile

Une équipe de chercheurs a publié en juin 2025 ViTacFormer, une architecture d'apprentissage de représentations multi-modales pour la manipulation dextre robotique. Le système couple un encodeur cross-attention fusionnant vision haute résolution et données tactiles avec une tête de prédiction autoregressive des signaux de contact futurs, entraîné selon un curriculum progressif allant des tâches simples aux plus complexes. La représentation apprise pilote un module d'imitation learning pour des mains anthropomorphes multi-doigts. Sur des benchmarks réels en laboratoire, ViTacFormer dépasse les systèmes état de l'art précédents d'environ 50 %, enchaîne jusqu'à 11 étapes séquentielles sans intervention humaine et maintient une opération continue de 2,5 minutes sur des tâches de manipulation de précision. L'architecture répond à un verrou concret de la manipulation fine : les occlusions visuelles rendent la vision seule insuffisante lorsque la main cache l'objet, un problème que les capteurs tactiles résolvent mais que peu de systèmes intègrent de façon apprenante. La prédiction anticipée des contacts plutôt que leur simple détection réactive réduit la latence de contrôle, décisive pour les gestes de précision. La capacité à enchaîner 11 sous-tâches ouvre une voie pour l'assemblage multi-étapes industriel, où les robots classiques nécessitent actuellement une programmation explicite à chaque étape. Ces résultats restent cependant des benchmarks de laboratoire contrôlés ; la distance avec un déploiement en ligne de production réelle, où la variabilité des pièces et la robustesse du capteur tactile dans le temps sont critiques, demeure entière. ViTacFormer s'inscrit dans une vague de travaux combinant modèles VLA (Vision-Language-Action) et retour haptique, explorée également par Google DeepMind (Robotic Transformer), Physical Intelligence (Pi-0) et des startups comme Dexterous AI. Côté matériel, la dépendance aux mains anthropomorphes multi-doigts reste un frein à la commercialisation : Shadow Robot (UK) et Inspire-Robots (CN) dominent ce segment, mais à des coûts et avec une fiabilité mécanique qui limitent encore les déploiements industriels à grande échelle. Le travail est publié sous forme de preprint arXiv (arXiv:2506.15953), sans code ni dataset public annoncé à ce stade ; la transition vers des résultats reproductibles et des pilotes hors laboratoire constitue l'étape critique à surveiller.

RechercheOpinion
1 source
Apprentissage sim-vers-réel zéro-shot pour robots : étude de préhension réactive par main dextérique
3arXiv cs.RO 

Apprentissage sim-vers-réel zéro-shot pour robots : étude de préhension réactive par main dextérique

Une équipe de chercheurs a déposé en mai 2026 (arXiv:2605.09789) une méthode permettant le transfert zéro-shot de politiques de manipulation dextère depuis la simulation vers le robot physique, sans aucun fine-tuning sur données réelles. L'approche, baptisée Domain-Randomized Instance Set (DRIS), modifie la randomisation de domaine (DR) classique en propageant simultanément un ensemble d'instances physiques randomisées plutôt qu'une instance unique par épisode d'entraînement. Validée sur une tâche de rattrapage réactif d'objets en chute, la méthode obtient un transfert fiable avec seulement une dizaine d'instances simultanées. L'effecteur utilisé est délibérément contraignant : une plaque plate sans bords ni surface courbe, qui n'assure aucune stabilisation passive de l'objet capturé, à l'inverse des pinces ou surfaces enveloppantes couramment utilisées dans les benchmarks de rattrapage. Le sim-to-real gap reste l'un des principaux freins à l'industrialisation des robots manipulateurs apprenants. La DR classique, omniprésente dans les pipelines d'entraînement sur simulateurs comme IsaacGym ou MuJoCo, n'expose la politique qu'à une seule configuration physique par épisode, sous-échantillonnant ainsi la variabilité dynamique réelle. DRIS comble ce déficit en forçant la politique à optimiser simultanément sur plusieurs scénarios physiques plausibles, produisant selon l'analyse théorique des auteurs des politiques intrinsèquement plus robustes. Pour les intégrateurs, le bénéfice est direct : l'élimination du fine-tuning sur robot physique supprime un goulot d'étranglement coûteux, souvent plusieurs semaines de collecte de données en cellule réelle, qui freine aujourd'hui le déploiement de solutions de manipulation apprise en production. La manipulation dextère zéro-shot est un objectif de longue date dans la communauté robotique. DRIS s'inscrit dans la continuité de la randomisation adaptative, dont l'ADR d'OpenAI, popularisée avec le projet Dactyl en 2019, reste la référence historique. Elle se positionne comme orthogonale aux approches Visual-Language-Action (VLA) récentes comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui réduisent le gap via la généralisation sémantique plutôt que physique, et pourrait s'intégrer dans ces pipelines. Les auteurs ne précisent pas de timeline pour des validations sur des tâches plus complexes comme l'assemblage ou la manipulation in-hand, deux domaines où le zéro-shot sim-to-real demeure un problème ouvert.

RechercheOpinion
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
4arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source