FR/EU ecosystemearXiv cs.RO2sem

QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE Take éditorial

Des chercheurs de l'ISIR (Institut des Systèmes Intelligents et de Robotique, Sorbonne Université/CNRS) publient sur arXiv en avril 2026 une méthode baptisée QDTraj, destinée à générer automatiquement des primitives de trajectoires diversifiées pour la manipulation d'objets articulés par des robots domestiques. L'approche repose sur des algorithmes Quality-Diversity (QD) couplés à une exploration par récompense sparse. Évaluée sur 30 articulations du dataset PartNetMobility, QDTraj produit en moyenne 704 trajectoires distinctes par tâche, contre un ratio au moins 5 fois inférieur pour les méthodes concurrentes testées sur des tâches d'activation de charnières (hinge) et de glissières (slider). La méthode a été validée d'abord en simulation, puis déployée en conditions réelles sur robot physique. Le code est rendu public sur le site de l'ISIR.

La diversité des trajectoires n'est pas un détail académique : en environnement réel, un robot qui ne dispose que d'une seule séquence motrice pour ouvrir un tiroir échoue dès que cette trajectoire est bloquée par un obstacle ou une contrainte dynamique imprévue. QDTraj adresse directement ce verrou en dotant le robot d'un répertoire de solutions alternatives sélectionnables au runtime selon les contraintes du moment. La validation sim-to-real apporte un crédit concret à l'approche, au-delà de la démonstration en simulation. L'utilisation des algorithmes QD, issus de la robotique évolutionnaire (famille MAP-Elites), est un signe de maturité méthodologique : ces approches explorent des espaces de solutions larges sans converger prématurément vers un optimum local, contrairement aux méthodes par gradient classiques.

L'ISIR est l'un des laboratoires de référence en robotique française, avec une longue tradition en planification de mouvement et manipulation dextre. Ce travail s'inscrit dans un contexte où les approches dominantes, imitation learning ou reinforcement learning standard, produisent généralement des politiques à trajectoire unique, fragiles hors distribution. Les modèles VLA (Vision-Language-Action), très suivis en 2025-2026 chez Physical Intelligence (pi0), Google DeepMind ou Boston Dynamics, abordent le problème différemment en conditionnant les actions sur le langage, sans garantir la diversité bas niveau que QDTraj cible explicitement. La méthode se positionne donc comme une couche de planification complémentaire, en amont des politiques haut niveau. Les extensions naturelles concerneraient les objets déformables et l'intégration dans des architectures de contrôle hiérarchique pour robots manipulateurs polyvalents.

Impact France/UE

L'ISIR (Sorbonne/CNRS) publie en open source une méthode de planification de trajectoires qui comble un verrou concret de la manipulation robotique, avec un bénéfice direct pour les équipes de R&D françaises et européennes travaillant sur les robots manipulateurs.

💬 Le point de vue du dev

Un robot qui n'a qu'une seule trajectoire pour ouvrir un tiroir, c'est un robot qui échoue dès qu'un obstacle se met en travers. QDTraj répond à ça en générant 700+ alternatives exploitables au runtime, avec des algorithmes QD qui explorent des espaces de solutions larges sans converger trop vite vers un optimum unique (contrairement au RL classique). Reste à voir comment ça s'articule avec des VLA au-dessus, mais comme brique de planification bas niveau, c'est du concret qui sort de l'ISIR.

Dans nos dossiers

Boston Dynamics Physical Intelligence — π0 Manipulation robotique arXiv cs.RO

À lire aussi

1Robotics & Automation News

Festo présente une pince robotique à base d'IA pour la manipulation de produits variés

Festo, l'équipementier allemand spécialisé en automatisation industrielle, a annoncé le lancement de GripperAI, un logiciel universel basé sur l'intelligence artificielle destiné à piloter des préhenseurs robotiques dans des environnements multi-produits. La solution cible un problème récurrent sur les lignes de production mixtes : lorsqu'une cellule robotisée doit saisir des produits de formes et de tailles variables, l'approche traditionnelle impose une reprogrammation manuelle, une intégration applicative spécifique et le recours à des systèmes de vision 3D coûteux. GripperAI se positionne comme une couche logicielle capable d'absorber cette variabilité sans redéveloppement à chaque référence. L'enjeu industriel est direct : le coût et la durée d'intégration sont aujourd'hui l'un des principaux freins au déploiement de cellules robotisées dans les environnements à forte diversité de SKU, logistique, agroalimentaire, manufacturier léger. Si GripperAI tient sa promesse de réduire la dépendance aux caméras 3D dédiées et à la programmation cas par cas, il pourrait abaisser significativement le seuil d'entrée pour les intégrateurs. Il convient de noter que Festo ne publie pas encore de métriques de cycle ou de taux de succès de préhension dans le communiqué disponible, ce qui rend toute évaluation de performance prématurée à ce stade. Festo est historiquement connu pour ses actionneurs pneumatiques et ses solutions bioinspirées (BionicCobot, Bionic Flying Fox), mais s'oriente depuis plusieurs années vers des briques logicielles pour robot-as-a-service. Sur ce segment des préhenseurs universels pilotés par IA, la concurrence est déjà positionnée : Robai, Righthand Robotics (racheté par BD), ainsi que des solutions vision-first comme Osaro ou CapSen Robotics. La prochaine étape pour Festo sera de démontrer GripperAI sur des configurations réelles en production, avec des données de performance publiées et des références clients vérifiables.

UEFesto étant un équipementier européen (allemand) très présent sur les lignes françaises et européennes, GripperAI pourrait réduire les coûts d'intégration pour les intégrateurs et industriels EU opérant en environnements multi-SKU, sous réserve de métriques de performance vérifiables.

FR/EU ecosystemeOpinion

1 source

2arXiv cs.RO

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

Des chercheurs de l'INSAIT (Institute for Computer Science, Artificial Intelligence and Technology, Sofia, Bulgarie) ont publié début 2026 AR-VLA, une architecture de politique robotique qui remplace les têtes d'action à base de blocs (chunk-based) par un expert d'action autorégressif autonome. Contrairement aux modèles VLA existants, qu'ils soient réactifs ou basés sur la diffusion, qui réinitialisent leur contexte temporel à chaque nouvelle observation, AR-VLA maintient une mémoire longue durée et génère les actions comme une séquence causale continue. Le système intègre un mécanisme de re-ancrage (re-anchoring) pour synchroniser les modalités asynchrones vision-langage-action, compensant mathématiquement le délai entre une perception lente (quelques Hz) et un contrôle moteur rapide (centaines de Hz). Les expériences couvrent des tâches de manipulation en simulation et sur robots réels, où AR-VLA atteint ou dépasse les taux de succès des VLA réactifs de l'état de l'art tout en produisant des trajectoires sensiblement plus lisses. L'enjeu central est le découplage entre raisonnement perceptif lent et contrôle moteur rapide, un problème structurel des architectures VLA actuelles. En traitant les actions comme une séquence autorégressive avec historique persistant plutôt que comme un bloc prédit à chaque nouvelle trame, AR-VLA rend la politique intrinsèquement consciente du contexte : elle sait ce qu'elle vient d'exécuter, pas seulement ce qu'elle observe à l'instant T. Pour les équipes robotiques et les intégrateurs, cette architecture autorise un préentraînement modulaire de la syntaxe cinématique indépendamment du backbone de perception, réduisant potentiellement les coûts de développement de politiques spécialistes ou généralistes. La cohérence spatio-temporelle accrue réduit également les oscillations et les reprises de mouvement, deux facteurs critiques en déploiement industriel. L'INSAIT, fondé en 2022 à Sofia avec le soutien de Google, Microsoft et de l'EPFL, s'est imposé rapidement comme un pôle de recherche en IA en Europe centrale. AR-VLA s'inscrit dans une compétition ouverte sur l'architecture des politiques robot-généralistes, où Physical Intelligence (pi-0, pi-0.5), NVIDIA (GR00T N2), Google DeepMind et des startups comme Figure (Helix) ou 1X défendent des approches concurrentes. L'approche par diffusion, popularisée notamment par pi-0 et Diffusion Policy, constitue l'alternative dominante aux VLA réactifs ; AR-VLA la défie directement en montrant qu'un modèle autorégressif pur peut produire des trajectoires plus cohérentes sans recourir à des processus de débruitage itératifs. AR-VLA demeure pour l'instant un preprint arXiv (2603.10126v2), sans annonce de déploiement industriel ni de commercialisation. Le code et les vidéos de démonstration sont disponibles sur arvla.insait.ai.

UEL'INSAIT (Sofia, Bulgarie), soutenu par Google, Microsoft et l'EPFL, positionne l'UE comme acteur de recherche crédible dans la course aux architectures VLA généralistes ; le code est disponible et testable par les équipes robotiques européennes.

FR/EU ecosystemeOpinion

1 source

3Interesting Engineering

Une peau électronique étirable permet à une main robotique de ressentir le toucher et la pression

Des chercheurs de l'Université de Turku (Finlande) ont développé une peau électronique étirable, transparente et conductrice, intégrée à une main robotique pour lui conférer une sensibilité au toucher. L'équipe, dirigée par le professeur assistant Vipul Sharma en génie des matériaux, s'est inspirée de l'architecture de structures biologiques comme les feuilles d'arbres pour concevoir un substrat à la fois flexible, respirant et conducteur, combinaison rare dans les matériaux électroniques conventionnels. Des capteurs de pression embarqués dans cette peau répondent au contact et génèrent un retour haptique sur la main instrumentée. La même université développe en parallèle, via Anastasia Koivikko en génie de l'automatisation, des robots à structure souple pour la santé et l'industrie, actionnables par air comprimé, électricité ou fluide, capables d'opérer en espace confiné ou en environnement dangereux, centrales nucléaires et opérations de sauvetage souterraines comprises. Aucune métrique de résolution sensorielle ni calendrier de commercialisation n'est avancé : il s'agit à ce stade d'une preuve de concept en laboratoire. La combinaison de flexibilité mécanique et de perception tactile constitue un verrou pour des marchés à fort impact : prothèses capables de distinguer pression, température et humidité, robots chirurgicaux interagissant en sécurité avec des tissus humains, bras industriels manipulant des objets fragiles en boucle sensorielle fermée. Pour les intégrateurs, la capacité à conformer la peau sur des surfaces courbes comme les doigts ou les membres artificiels sans perte de performance représente un avantage concret sur les capteurs rigides qui équipent la majorité des effecteurs actuels. L'utilisation de biomasse finlandaise issue du bois local comme substrat biosourcé vise à réduire la dépendance aux approvisionnements asiatiques en matériaux d'électronique, enjeu de souveraineté industrielle croissant pour les équipementiers européens sous pression réglementaire. Sur le plan compétitif, la recherche en e-skin mobilise des groupes de référence comme celui de Zhenan Bao à Stanford et plusieurs équipes européennes à l'EPFL et au KIT de Karlsruhe. Des acteurs commerciaux tels que Pressure Profile Systems ou Tekscan proposent déjà des capteurs tactiles flexibles pour la robotique industrielle, mais les substrats biosourcés transparents restent peu exploités commercialement. L'équipe de Turku, positionnée dans l'espace UE, n'annonce ni partenaire industriel ni prototype pré-série. Les suites logiques incluent des tests d'endurance mécanique sous cycles de flexion répétés, la caractérisation précise de la résolution spatiale des capteurs, et un rapprochement potentiel avec des fabricants de prothèses ou des acteurs de la robotique médicale.

UEL'Université de Turku (Finlande, UE) développe un substrat biosourcé issu de biomasse finlandaise locale, réduisant la dépendance européenne aux approvisionnements asiatiques en matériaux électroniques et ouvrant des perspectives pour les fabricants de prothèses et robots médicaux européens.

FR/EU ecosystemePaper

1 source

4arXiv cs.RO

ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets

ShapeGen, présenté dans un preprint arXiv (2604.15569) publié en avril 2026, propose une méthode de génération automatique de données d'entraînement pour les politiques de manipulation robotique. L'enjeu central est la généralisation intra-catégorie : un robot doit savoir saisir n'importe quelle tasse, bouteille ou outil, pas uniquement les objets vus pendant l'entraînement. La méthode opère en deux étapes. La première construit une bibliothèque de formes 3D (Shape Library) en apprenant des déformations spatiales (warpings) qui font correspondre des points fonctionnellement équivalents entre objets d'une même catégorie. La seconde étape, Function-Aware Generation, exploite cette bibliothèque pour produire automatiquement des démonstrations physiquement plausibles sur de nouveaux objets géométriquement variés, avec une annotation humaine minimale. Le pipeline est dit "simulator-free" : il génère des données directement en 3D, sans recourir à un moteur de simulation classique comme MuJoCo ou Isaac Sim. Des expériences en environnement réel valident l'amélioration de la généralisation des politiques ainsi entraînées. Le problème adressé est structurel dans le déploiement industriel des bras manipulateurs : collecter manuellement des corpus de démonstrations sur des centaines de variantes d'objets est coûteux en main-d'oeuvre et logistiquement difficile. ShapeGen automatise cette diversification morphologique, ce qui pourrait réduire significativement le coût de préparation des données pour des politiques visuomotrices (VLA, diffusion policies). Si les résultats réels se confirment à plus grande échelle, cela allège directement le goulot d'étranglement data dans le cycle de développement robotique, en particulier pour les intégrateurs qui doivent adapter des cellules à des référentiels produits variables. La claim "simulator-free" mérite cependant d'être nuancée : le pipeline repose sur des modèles 3D et des transformations géométriques qui constituent en eux-mêmes une forme de simulation implicite. Les benchmarks présentés restent limités en termes de diversité de tâches et d'objets testés. La généralisation intra-catégorie est un axe de recherche actif depuis plusieurs années, exploré notamment via des approches comme PointNet, Category-Level 6D Pose Estimation (Wang et al., 2019) ou les politiques basées sur des représentations implicites (NeRF, SDF). ShapeGen se positionne dans la lignée des travaux sur la génération de données synthétiques pour la manipulation, concurrençant des approches comme RoboGen ou MimicGen (NVIDIA), qui utilisent également la génération automatique pour diversifier les démos. Le projet est affilié à des auteurs du milieu académique (page projet hébergée sur GitHub personnel), sans affiliation industrielle explicite déclarée dans le preprint. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (RLBench, FurnitureBench) et une intégration dans des pipelines VLA existants pour mesurer le gain réel sur des tâches longue-distance.

IA physiqueActu

1 source