TAVIS : un benchmark pour la vision active égocentrique…

Benchmark exclusivement proprioceptif pour l'estimation d'état des quadrupèdes : ATE, RPE et compromis entre filtres et lisseurs

55

1arXiv cs.RO

Benchmark exclusivement proprioceptif pour l'estimation d'état des quadrupèdes : ATE, RPE et compromis entre filtres et lisseurs

Une équipe du laboratoire DLS (Dynamic Legged Systems) de l'IIT (Istituto Italiano di Tecnologia) publie un benchmark comparatif de trois estimateurs d'état proprioceptifs pour robots quadrupèdes : MUSE, le filtre de Kalman étendu invariant (IEKF) et le lisseur invariant (IS). L'évaluation est conduite sur la séquence CYN-1 du GrandTour Dataset, avec trois métriques : l'ATE (Absolute Trajectory Error, précision long terme), la RPE translationnelle et rotationnelle (Relative Pose Error, précision court terme), et le temps de calcul par mise à jour sur un stack matériel et logiciel fixe. Les résultats montrent que les RPE restent comparables entre les trois approches, mais IEKF et IS surpassent MUSE sur l'ATE. Le temps de calcul diffère significativement, exposant des compromis précision-latence concrets selon la méthode choisie. L'ensemble du code d'évaluation est publié en open-source sur GitHub (iit-DLSLab/stateestimationbenchmark) pour une reproductibilité complète. L'estimation d'état proprioceptive, c'est-à-dire sans capteurs extéroceptifs comme lidars ou caméras, est critique pour les quadrupèdes opérant en milieux dégradés ou occludés. Ce travail fournit aux intégrateurs et ingénieurs robotique des critères de sélection concrets : si l'application tolère une latence plus élevée, IS ou IEKF offrent une meilleure cohérence de trajectoire à long terme ; si la contrainte est temps-réel strict, le compromis bascule vers MUSE. La publication du code complet renforce la valeur de l'étude : les équipes peuvent reproduire les benchmarks sur leur propre matériel, ce qui reste rare dans la littérature robotique comparative, où les affirmations de performance sont souvent difficiles à vérifier indépendamment. L'IIT-DLSLab est historiquement actif sur la locomotion dynamique (plateforme HyQ, puis travaux sur des robots de classe Spot), et ce benchmark s'inscrit dans un effort plus large de standardisation de l'évaluation des estimateurs d'état pour robots à pattes via le GrandTour Dataset. IEKF est un classique de l'estimation sur groupes de Lie, IS en est une extension offline à lissage, tandis que MUSE représente une approche plus récente. Des travaux concurrents existent chez ETH Zurich (ANYmal) et Carnegie Mellon, mais peu publient des benchmarks comparatifs indépendants à ce niveau de rigueur méthodologique. La prochaine étape naturelle serait d'élargir l'évaluation à d'autres séquences du GrandTour Dataset, notamment sur des terrains non structurés, pour tester la généralisation des conclusions.

UEL'IIT-DLSLab publie un benchmark open-source reproductible pour l'estimation d'état proprioceptive des quadrupèdes, offrant aux équipes européennes des critères de sélection concrets (précision long terme vs latence temps-réel) et un code directement réutilisable sur leur propre matériel.

FR/EU ecosystemePaper

1 source

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

52

2arXiv cs.RO

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

Des chercheurs de l'INSAIT (Institute for Computer Science, Artificial Intelligence and Technology, Sofia, Bulgarie) ont publié début 2026 AR-VLA, une architecture de politique robotique qui remplace les têtes d'action à base de blocs (chunk-based) par un expert d'action autorégressif autonome. Contrairement aux modèles VLA existants, qu'ils soient réactifs ou basés sur la diffusion, qui réinitialisent leur contexte temporel à chaque nouvelle observation, AR-VLA maintient une mémoire longue durée et génère les actions comme une séquence causale continue. Le système intègre un mécanisme de re-ancrage (re-anchoring) pour synchroniser les modalités asynchrones vision-langage-action, compensant mathématiquement le délai entre une perception lente (quelques Hz) et un contrôle moteur rapide (centaines de Hz). Les expériences couvrent des tâches de manipulation en simulation et sur robots réels, où AR-VLA atteint ou dépasse les taux de succès des VLA réactifs de l'état de l'art tout en produisant des trajectoires sensiblement plus lisses. L'enjeu central est le découplage entre raisonnement perceptif lent et contrôle moteur rapide, un problème structurel des architectures VLA actuelles. En traitant les actions comme une séquence autorégressive avec historique persistant plutôt que comme un bloc prédit à chaque nouvelle trame, AR-VLA rend la politique intrinsèquement consciente du contexte : elle sait ce qu'elle vient d'exécuter, pas seulement ce qu'elle observe à l'instant T. Pour les équipes robotiques et les intégrateurs, cette architecture autorise un préentraînement modulaire de la syntaxe cinématique indépendamment du backbone de perception, réduisant potentiellement les coûts de développement de politiques spécialistes ou généralistes. La cohérence spatio-temporelle accrue réduit également les oscillations et les reprises de mouvement, deux facteurs critiques en déploiement industriel. L'INSAIT, fondé en 2022 à Sofia avec le soutien de Google, Microsoft et de l'EPFL, s'est imposé rapidement comme un pôle de recherche en IA en Europe centrale. AR-VLA s'inscrit dans une compétition ouverte sur l'architecture des politiques robot-généralistes, où Physical Intelligence (pi-0, pi-0.5), NVIDIA (GR00T N2), Google DeepMind et des startups comme Figure (Helix) ou 1X défendent des approches concurrentes. L'approche par diffusion, popularisée notamment par pi-0 et Diffusion Policy, constitue l'alternative dominante aux VLA réactifs ; AR-VLA la défie directement en montrant qu'un modèle autorégressif pur peut produire des trajectoires plus cohérentes sans recourir à des processus de débruitage itératifs. AR-VLA demeure pour l'instant un preprint arXiv (2603.10126v2), sans annonce de déploiement industriel ni de commercialisation. Le code et les vidéos de démonstration sont disponibles sur arvla.insait.ai.

UEL'INSAIT (Sofia, Bulgarie), soutenu par Google, Microsoft et l'EPFL, positionne l'UE comme acteur de recherche crédible dans la course aux architectures VLA généralistes ; le code est disponible et testable par les équipes robotiques européennes.

FR/EU ecosystemeOpinion

1 source

QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés

54

3arXiv cs.RO

QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés

Des chercheurs de l'ISIR (Institut des Systèmes Intelligents et de Robotique, Sorbonne Université/CNRS) publient sur arXiv en avril 2026 une méthode baptisée QDTraj, destinée à générer automatiquement des primitives de trajectoires diversifiées pour la manipulation d'objets articulés par des robots domestiques. L'approche repose sur des algorithmes Quality-Diversity (QD) couplés à une exploration par récompense sparse. Évaluée sur 30 articulations du dataset PartNetMobility, QDTraj produit en moyenne 704 trajectoires distinctes par tâche, contre un ratio au moins 5 fois inférieur pour les méthodes concurrentes testées sur des tâches d'activation de charnières (hinge) et de glissières (slider). La méthode a été validée d'abord en simulation, puis déployée en conditions réelles sur robot physique. Le code est rendu public sur le site de l'ISIR. La diversité des trajectoires n'est pas un détail académique : en environnement réel, un robot qui ne dispose que d'une seule séquence motrice pour ouvrir un tiroir échoue dès que cette trajectoire est bloquée par un obstacle ou une contrainte dynamique imprévue. QDTraj adresse directement ce verrou en dotant le robot d'un répertoire de solutions alternatives sélectionnables au runtime selon les contraintes du moment. La validation sim-to-real apporte un crédit concret à l'approche, au-delà de la démonstration en simulation. L'utilisation des algorithmes QD, issus de la robotique évolutionnaire (famille MAP-Elites), est un signe de maturité méthodologique : ces approches explorent des espaces de solutions larges sans converger prématurément vers un optimum local, contrairement aux méthodes par gradient classiques. L'ISIR est l'un des laboratoires de référence en robotique française, avec une longue tradition en planification de mouvement et manipulation dextre. Ce travail s'inscrit dans un contexte où les approches dominantes, imitation learning ou reinforcement learning standard, produisent généralement des politiques à trajectoire unique, fragiles hors distribution. Les modèles VLA (Vision-Language-Action), très suivis en 2025-2026 chez Physical Intelligence (pi0), Google DeepMind ou Boston Dynamics, abordent le problème différemment en conditionnant les actions sur le langage, sans garantir la diversité bas niveau que QDTraj cible explicitement. La méthode se positionne donc comme une couche de planification complémentaire, en amont des politiques haut niveau. Les extensions naturelles concerneraient les objets déformables et l'intégration dans des architectures de contrôle hiérarchique pour robots manipulateurs polyvalents.

UEL'ISIR (Sorbonne/CNRS) publie en open source une méthode de planification de trajectoires qui comble un verrou concret de la manipulation robotique, avec un bénéfice direct pour les équipes de R&D françaises et européennes travaillant sur les robots manipulateurs.

💬 Un robot qui n'a qu'une seule trajectoire pour ouvrir un tiroir, c'est un robot qui échoue dès qu'un obstacle se met en travers. QDTraj répond à ça en générant 700+ alternatives exploitables au runtime, avec des algorithmes QD qui explorent des espaces de solutions larges sans converger trop vite vers un optimum unique (contrairement au RL classique). Reste à voir comment ça s'articule avec des VLA au-dessus, mais comme brique de planification bas niveau, c'est du concret qui sort de l'ISIR.

FR/EU ecosystemePaper

1 source

Une peau électronique étirable permet à une main robotique de ressentir le toucher et la pression

39

4Interesting Engineering

Une peau électronique étirable permet à une main robotique de ressentir le toucher et la pression

Des chercheurs de l'Université de Turku (Finlande) ont développé une peau électronique étirable, transparente et conductrice, intégrée à une main robotique pour lui conférer une sensibilité au toucher. L'équipe, dirigée par le professeur assistant Vipul Sharma en génie des matériaux, s'est inspirée de l'architecture de structures biologiques comme les feuilles d'arbres pour concevoir un substrat à la fois flexible, respirant et conducteur, combinaison rare dans les matériaux électroniques conventionnels. Des capteurs de pression embarqués dans cette peau répondent au contact et génèrent un retour haptique sur la main instrumentée. La même université développe en parallèle, via Anastasia Koivikko en génie de l'automatisation, des robots à structure souple pour la santé et l'industrie, actionnables par air comprimé, électricité ou fluide, capables d'opérer en espace confiné ou en environnement dangereux, centrales nucléaires et opérations de sauvetage souterraines comprises. Aucune métrique de résolution sensorielle ni calendrier de commercialisation n'est avancé : il s'agit à ce stade d'une preuve de concept en laboratoire. La combinaison de flexibilité mécanique et de perception tactile constitue un verrou pour des marchés à fort impact : prothèses capables de distinguer pression, température et humidité, robots chirurgicaux interagissant en sécurité avec des tissus humains, bras industriels manipulant des objets fragiles en boucle sensorielle fermée. Pour les intégrateurs, la capacité à conformer la peau sur des surfaces courbes comme les doigts ou les membres artificiels sans perte de performance représente un avantage concret sur les capteurs rigides qui équipent la majorité des effecteurs actuels. L'utilisation de biomasse finlandaise issue du bois local comme substrat biosourcé vise à réduire la dépendance aux approvisionnements asiatiques en matériaux d'électronique, enjeu de souveraineté industrielle croissant pour les équipementiers européens sous pression réglementaire. Sur le plan compétitif, la recherche en e-skin mobilise des groupes de référence comme celui de Zhenan Bao à Stanford et plusieurs équipes européennes à l'EPFL et au KIT de Karlsruhe. Des acteurs commerciaux tels que Pressure Profile Systems ou Tekscan proposent déjà des capteurs tactiles flexibles pour la robotique industrielle, mais les substrats biosourcés transparents restent peu exploités commercialement. L'équipe de Turku, positionnée dans l'espace UE, n'annonce ni partenaire industriel ni prototype pré-série. Les suites logiques incluent des tests d'endurance mécanique sous cycles de flexion répétés, la caractérisation précise de la résolution spatiale des capteurs, et un rapprochement potentiel avec des fabricants de prothèses ou des acteurs de la robotique médicale.

UEL'Université de Turku (Finlande, UE) développe un substrat biosourcé issu de biomasse finlandaise locale, réduisant la dépendance européenne aux approvisionnements asiatiques en matériaux électroniques et ouvrant des perspectives pour les fabricants de prothèses et robots médicaux européens.

FR/EU ecosystemePaper

1 source

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation

À lire aussi

Benchmark exclusivement proprioceptif pour l'estimation d'état des quadrupèdes : ATE, RPE et compromis entre filtres et lisseurs

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés

Une peau électronique étirable permet à une main robotique de ressentir le toucher et la pression