Aller au contenu principal
TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation
FR/EU ecosystemearXiv cs.RO3j

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié TAVIS, un environnement d'évaluation standardisé pour comparer les approches de vision active en apprentissage par imitation, soit la capacité d'une politique robotique à contrôler son propre regard pendant une tâche de manipulation. Le benchmark comprend deux suites : TAVIS-Head (5 tâches avec caméra sur cardan pan/tilt pour la recherche globale de scène) et TAVIS-Hands (3 tâches avec caméras de poignet pour gérer les occlusions locales). Il est construit sur IsaacLab et s'appuie sur deux embodiments de torse humanoïde : le GR1T2 de Fourier Intelligence et le Reachy2 de Pollen Robotics (Bordeaux). Environ 2 200 épisodes de démonstrations téléopérées sont publiés en format LeRobot v3.0 sur HuggingFace, avec Diffusion Policy et π₀ (Physical Intelligence) comme baselines. Trois résultats principaux ressortent : la vision active améliore les performances, mais de façon conditionnelle à la tâche ; les politiques multi-tâches se dégradent nettement sous distribution shift contrôlé ; et l'imitation seule produit un regard anticipatoire dont les temps de préemption médians, mesurés par la métrique GALT (Gaze-Action Lead Time), sont comparables à ceux du téléopérateur humain de référence.

Jusqu'ici, plusieurs groupes avaient démontré indépendamment les bénéfices de la vision active en 2024-2025, sans base commune de comparaison. TAVIS comble ce vide avec trois primitives reproductibles : un protocole comparatif caméra mobile/caméra fixe sur des démonstrations identiques, la métrique GALT issue des sciences cognitives et de l'HRI (Human-Robot Interaction), et des splits procéduraux in-distribution/out-of-distribution. Le constat que les gains sont task-conditional invalide l'hypothèse naïve qu'ajouter des degrés de liberté à la caméra améliore systématiquement les performances, nuance décisive pour les intégrateurs industriels. La fragilité sous distribution shift constitue un signal d'alarme concret pour tout déploiement hors simulation.

La vision active en manipulation connaît un regain d'intérêt depuis 2024, porté par les progrès des VLA (Vision-Language-Action models) et la disponibilisation de robots humanoïdes à têtes articulées. Le choix de Reachy2 comme plateforme de référence est notable : Pollen Robotics, startup bordelaise fondée en 2016, est l'un des rares acteurs européens dont le robot open-source figure dans des benchmarks académiques internationaux, face aux concurrents américains (Figure, Agility) et asiatiques (Fourier, Unitree). Les prochaines étapes naturelles incluent l'évaluation de politiques VLA récentes comme GR00T N2 ou OpenVLA sur TAVIS, ainsi que le transfert sim-to-real, que le papier ne couvre pas encore.

Impact France/UE

Pollen Robotics (Bordeaux) est l'une des deux seules plateformes de référence du benchmark TAVIS, ce qui ancre un acteur français open-source au cœur d'une infrastructure d'évaluation académique internationale pour les politiques VLA.

À lire aussi

Benchmark exclusivement proprioceptif pour l'estimation d'état des quadrupèdes : ATE, RPE et compromis entre filtres et lisseurs
1arXiv cs.RO 

Benchmark exclusivement proprioceptif pour l'estimation d'état des quadrupèdes : ATE, RPE et compromis entre filtres et lisseurs

Une équipe du laboratoire DLS (Dynamic Legged Systems) de l'IIT (Istituto Italiano di Tecnologia) publie un benchmark comparatif de trois estimateurs d'état proprioceptifs pour robots quadrupèdes : MUSE, le filtre de Kalman étendu invariant (IEKF) et le lisseur invariant (IS). L'évaluation est conduite sur la séquence CYN-1 du GrandTour Dataset, avec trois métriques : l'ATE (Absolute Trajectory Error, précision long terme), la RPE translationnelle et rotationnelle (Relative Pose Error, précision court terme), et le temps de calcul par mise à jour sur un stack matériel et logiciel fixe. Les résultats montrent que les RPE restent comparables entre les trois approches, mais IEKF et IS surpassent MUSE sur l'ATE. Le temps de calcul diffère significativement, exposant des compromis précision-latence concrets selon la méthode choisie. L'ensemble du code d'évaluation est publié en open-source sur GitHub (iit-DLSLab/stateestimationbenchmark) pour une reproductibilité complète. L'estimation d'état proprioceptive, c'est-à-dire sans capteurs extéroceptifs comme lidars ou caméras, est critique pour les quadrupèdes opérant en milieux dégradés ou occludés. Ce travail fournit aux intégrateurs et ingénieurs robotique des critères de sélection concrets : si l'application tolère une latence plus élevée, IS ou IEKF offrent une meilleure cohérence de trajectoire à long terme ; si la contrainte est temps-réel strict, le compromis bascule vers MUSE. La publication du code complet renforce la valeur de l'étude : les équipes peuvent reproduire les benchmarks sur leur propre matériel, ce qui reste rare dans la littérature robotique comparative, où les affirmations de performance sont souvent difficiles à vérifier indépendamment. L'IIT-DLSLab est historiquement actif sur la locomotion dynamique (plateforme HyQ, puis travaux sur des robots de classe Spot), et ce benchmark s'inscrit dans un effort plus large de standardisation de l'évaluation des estimateurs d'état pour robots à pattes via le GrandTour Dataset. IEKF est un classique de l'estimation sur groupes de Lie, IS en est une extension offline à lissage, tandis que MUSE représente une approche plus récente. Des travaux concurrents existent chez ETH Zurich (ANYmal) et Carnegie Mellon, mais peu publient des benchmarks comparatifs indépendants à ce niveau de rigueur méthodologique. La prochaine étape naturelle serait d'élargir l'évaluation à d'autres séquences du GrandTour Dataset, notamment sur des terrains non structurés, pour tester la généralisation des conclusions.

UEL'IIT-DLSLab publie un benchmark open-source reproductible pour l'estimation d'état proprioceptive des quadrupèdes, offrant aux équipes européennes des critères de sélection concrets (précision long terme vs latence temps-réel) et un code directement réutilisable sur leur propre matériel.

FR/EU ecosystemePaper
1 source
AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action
2arXiv cs.RO 

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

Des chercheurs de l'INSAIT (Institute for Computer Science, Artificial Intelligence and Technology, Sofia, Bulgarie) ont publié début 2026 AR-VLA, une architecture de politique robotique qui remplace les têtes d'action à base de blocs (chunk-based) par un expert d'action autorégressif autonome. Contrairement aux modèles VLA existants, qu'ils soient réactifs ou basés sur la diffusion, qui réinitialisent leur contexte temporel à chaque nouvelle observation, AR-VLA maintient une mémoire longue durée et génère les actions comme une séquence causale continue. Le système intègre un mécanisme de re-ancrage (re-anchoring) pour synchroniser les modalités asynchrones vision-langage-action, compensant mathématiquement le délai entre une perception lente (quelques Hz) et un contrôle moteur rapide (centaines de Hz). Les expériences couvrent des tâches de manipulation en simulation et sur robots réels, où AR-VLA atteint ou dépasse les taux de succès des VLA réactifs de l'état de l'art tout en produisant des trajectoires sensiblement plus lisses. L'enjeu central est le découplage entre raisonnement perceptif lent et contrôle moteur rapide, un problème structurel des architectures VLA actuelles. En traitant les actions comme une séquence autorégressive avec historique persistant plutôt que comme un bloc prédit à chaque nouvelle trame, AR-VLA rend la politique intrinsèquement consciente du contexte : elle sait ce qu'elle vient d'exécuter, pas seulement ce qu'elle observe à l'instant T. Pour les équipes robotiques et les intégrateurs, cette architecture autorise un préentraînement modulaire de la syntaxe cinématique indépendamment du backbone de perception, réduisant potentiellement les coûts de développement de politiques spécialistes ou généralistes. La cohérence spatio-temporelle accrue réduit également les oscillations et les reprises de mouvement, deux facteurs critiques en déploiement industriel. L'INSAIT, fondé en 2022 à Sofia avec le soutien de Google, Microsoft et de l'EPFL, s'est imposé rapidement comme un pôle de recherche en IA en Europe centrale. AR-VLA s'inscrit dans une compétition ouverte sur l'architecture des politiques robot-généralistes, où Physical Intelligence (pi-0, pi-0.5), NVIDIA (GR00T N2), Google DeepMind et des startups comme Figure (Helix) ou 1X défendent des approches concurrentes. L'approche par diffusion, popularisée notamment par pi-0 et Diffusion Policy, constitue l'alternative dominante aux VLA réactifs ; AR-VLA la défie directement en montrant qu'un modèle autorégressif pur peut produire des trajectoires plus cohérentes sans recourir à des processus de débruitage itératifs. AR-VLA demeure pour l'instant un preprint arXiv (2603.10126v2), sans annonce de déploiement industriel ni de commercialisation. Le code et les vidéos de démonstration sont disponibles sur arvla.insait.ai.

UEL'INSAIT (Sofia, Bulgarie), soutenu par Google, Microsoft et l'EPFL, positionne l'UE comme acteur de recherche crédible dans la course aux architectures VLA généralistes ; le code est disponible et testable par les équipes robotiques européennes.

FR/EU ecosystemeOpinion
1 source
QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés
3arXiv cs.RO 

QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés

Des chercheurs de l'ISIR (Institut des Systèmes Intelligents et de Robotique, Sorbonne Université/CNRS) publient sur arXiv en avril 2026 une méthode baptisée QDTraj, destinée à générer automatiquement des primitives de trajectoires diversifiées pour la manipulation d'objets articulés par des robots domestiques. L'approche repose sur des algorithmes Quality-Diversity (QD) couplés à une exploration par récompense sparse. Évaluée sur 30 articulations du dataset PartNetMobility, QDTraj produit en moyenne 704 trajectoires distinctes par tâche, contre un ratio au moins 5 fois inférieur pour les méthodes concurrentes testées sur des tâches d'activation de charnières (hinge) et de glissières (slider). La méthode a été validée d'abord en simulation, puis déployée en conditions réelles sur robot physique. Le code est rendu public sur le site de l'ISIR. La diversité des trajectoires n'est pas un détail académique : en environnement réel, un robot qui ne dispose que d'une seule séquence motrice pour ouvrir un tiroir échoue dès que cette trajectoire est bloquée par un obstacle ou une contrainte dynamique imprévue. QDTraj adresse directement ce verrou en dotant le robot d'un répertoire de solutions alternatives sélectionnables au runtime selon les contraintes du moment. La validation sim-to-real apporte un crédit concret à l'approche, au-delà de la démonstration en simulation. L'utilisation des algorithmes QD, issus de la robotique évolutionnaire (famille MAP-Elites), est un signe de maturité méthodologique : ces approches explorent des espaces de solutions larges sans converger prématurément vers un optimum local, contrairement aux méthodes par gradient classiques. L'ISIR est l'un des laboratoires de référence en robotique française, avec une longue tradition en planification de mouvement et manipulation dextre. Ce travail s'inscrit dans un contexte où les approches dominantes, imitation learning ou reinforcement learning standard, produisent généralement des politiques à trajectoire unique, fragiles hors distribution. Les modèles VLA (Vision-Language-Action), très suivis en 2025-2026 chez Physical Intelligence (pi0), Google DeepMind ou Boston Dynamics, abordent le problème différemment en conditionnant les actions sur le langage, sans garantir la diversité bas niveau que QDTraj cible explicitement. La méthode se positionne donc comme une couche de planification complémentaire, en amont des politiques haut niveau. Les extensions naturelles concerneraient les objets déformables et l'intégration dans des architectures de contrôle hiérarchique pour robots manipulateurs polyvalents.

UEL'ISIR (Sorbonne/CNRS) publie en open source une méthode de planification de trajectoires qui comble un verrou concret de la manipulation robotique, avec un bénéfice direct pour les équipes de R&D françaises et européennes travaillant sur les robots manipulateurs.

💬 Un robot qui n'a qu'une seule trajectoire pour ouvrir un tiroir, c'est un robot qui échoue dès qu'un obstacle se met en travers. QDTraj répond à ça en générant 700+ alternatives exploitables au runtime, avec des algorithmes QD qui explorent des espaces de solutions larges sans converger trop vite vers un optimum unique (contrairement au RL classique). Reste à voir comment ça s'articule avec des VLA au-dessus, mais comme brique de planification bas niveau, c'est du concret qui sort de l'ISIR.

FR/EU ecosystemePaper
1 source
Une peau électronique étirable permet à une main robotique de ressentir le toucher et la pression
4Interesting Engineering 

Une peau électronique étirable permet à une main robotique de ressentir le toucher et la pression

Des chercheurs de l'Université de Turku (Finlande) ont développé une peau électronique étirable, transparente et conductrice, intégrée à une main robotique pour lui conférer une sensibilité au toucher. L'équipe, dirigée par le professeur assistant Vipul Sharma en génie des matériaux, s'est inspirée de l'architecture de structures biologiques comme les feuilles d'arbres pour concevoir un substrat à la fois flexible, respirant et conducteur, combinaison rare dans les matériaux électroniques conventionnels. Des capteurs de pression embarqués dans cette peau répondent au contact et génèrent un retour haptique sur la main instrumentée. La même université développe en parallèle, via Anastasia Koivikko en génie de l'automatisation, des robots à structure souple pour la santé et l'industrie, actionnables par air comprimé, électricité ou fluide, capables d'opérer en espace confiné ou en environnement dangereux, centrales nucléaires et opérations de sauvetage souterraines comprises. Aucune métrique de résolution sensorielle ni calendrier de commercialisation n'est avancé : il s'agit à ce stade d'une preuve de concept en laboratoire. La combinaison de flexibilité mécanique et de perception tactile constitue un verrou pour des marchés à fort impact : prothèses capables de distinguer pression, température et humidité, robots chirurgicaux interagissant en sécurité avec des tissus humains, bras industriels manipulant des objets fragiles en boucle sensorielle fermée. Pour les intégrateurs, la capacité à conformer la peau sur des surfaces courbes comme les doigts ou les membres artificiels sans perte de performance représente un avantage concret sur les capteurs rigides qui équipent la majorité des effecteurs actuels. L'utilisation de biomasse finlandaise issue du bois local comme substrat biosourcé vise à réduire la dépendance aux approvisionnements asiatiques en matériaux d'électronique, enjeu de souveraineté industrielle croissant pour les équipementiers européens sous pression réglementaire. Sur le plan compétitif, la recherche en e-skin mobilise des groupes de référence comme celui de Zhenan Bao à Stanford et plusieurs équipes européennes à l'EPFL et au KIT de Karlsruhe. Des acteurs commerciaux tels que Pressure Profile Systems ou Tekscan proposent déjà des capteurs tactiles flexibles pour la robotique industrielle, mais les substrats biosourcés transparents restent peu exploités commercialement. L'équipe de Turku, positionnée dans l'espace UE, n'annonce ni partenaire industriel ni prototype pré-série. Les suites logiques incluent des tests d'endurance mécanique sous cycles de flexion répétés, la caractérisation précise de la résolution spatiale des capteurs, et un rapprochement potentiel avec des fabricants de prothèses ou des acteurs de la robotique médicale.

UEL'Université de Turku (Finlande, UE) développe un substrat biosourcé issu de biomasse finlandaise locale, réduisant la dépendance européenne aux approvisionnements asiatiques en matériaux électroniques et ouvrant des perspectives pour les fabricants de prothèses et robots médicaux européens.

FR/EU ecosystemePaper
1 source