Aller au contenu principal
Contrôle robuste aux distributions via l'inférence de Stein pour la manipulation au contact
RecherchearXiv cs.RO4sem

Contrôle robuste aux distributions via l'inférence de Stein pour la manipulation au contact

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv (référence 2605.19029) une méthode de contrôle robuste pour la manipulation robotique en contact riche, domaine couvrant la saisie, l'assemblage et l'insertion précise d'objets. Le travail formalise le problème comme une optimisation de contrôle robuste aux distributions (distributionally robust control), résolue via l'inférence variationnelle de Stein, une technique probabiliste déterministe issue du machine learning bayésien. Les contrôleurs qui en résultent modélisent explicitement l'incertitude paramétrique liée aux contacts, sans nécessiter les volumes massifs de données d'entraînement qu'exigent les approches data-driven modernes. Les résultats expérimentaux rapportés indiquent une robustesse améliorée jusqu'à un facteur 3 par rapport aux méthodes classiques à base de modèles, sur une gamme de tâches avec incertitude paramétrique large. Ce chiffre est à nuancer : il provient des propres benchmarks des auteurs, sans validation indépendante.

La manipulation en contact riche reste l'un des goulots d'étranglement critiques pour le déploiement de robots industriels polyvalents. Les approches VLA (Vision-Language-Action models), comme pi-0 de Physical Intelligence, offrent une flexibilité remarquable mais se dégradent fortement lorsque les données d'entraînement sont rares, ce qui limite leur adoption dans des environnements industriels où les jeux de données sont difficiles à constituer. Les contrôleurs classiques à base de modèles, à l'inverse, sont computationnellement efficaces mais peinent à représenter l'incertitude task-sensitive, c'est-à-dire celle qui impacte réellement la performance sur une tâche précise. L'approche proposée tente de combler ce fossé en injectant une modélisation probabiliste flexible dans le cadre déterministe des contrôleurs classiques, un compromis potentiellement attractif pour les intégrateurs industriels cherchant fiabilité sans pipeline de données massif.

Ce travail s'inscrit dans une tendance académique cherchant à réconcilier le model-based engineering (Boston Dynamics, ABB) et les learned policies (Physical Intelligence avec pi-0, Google DeepMind avec ses architectures GR00T-style). L'inférence variationnelle de Stein, popularisée par Liu et Wang en 2016, est ici adaptée au contrôle optimal, ce qui représente une contribution méthodologique notable. Le résumé disponible ne mentionne ni déploiements réels ni partenaires industriels, signalant clairement un stade de recherche fondamentale, probablement conduite en simulation ou sur bancs d'essai de laboratoire. Une validation sur des plateformes hardware standardisées comme les bras Franka Emika ou UR10, dont les propriétés de contact sont bien documentées, constituerait la prochaine étape logique avant toute perspective d'industrialisation.

À lire aussi

Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues
1arXiv cs.RO 

Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues

En avril 2026, des chercheurs ont présenté sur arXiv (réf. 2604.19469) un framework de contrôle en admittance pour la manipulation robotique d'objets à masse inconnue, validé expérimentalement sur un bras UR5e de Universal Robots. Lorsque le centre de masse d'un objet saisi ne coïncide pas avec le point central outil (TCP), la charge génère un couple parasite au poignet, amplifié par l'inertie de l'objet pendant le déplacement. Sans compensation, ce couple est interprété par le contrôleur comme une force d'interaction extérieure, déclenchant des déviations de trajectoire, des erreurs de suivi et une précision de dépose dégradée. La solution exploite le capteur force-couple du poignet selon deux modes séquentiels : une excitation translationnelle sur trois axes atténue l'effet de la charge en transit sans raidir le robot, puis, après la saisie, le contrôleur estime successivement la masse de l'objet et l'offset de son centre de masse par rapport au TCP en analysant les mesures collectées lors du mouvement. Pour les intégrateurs industriels, ce travail cible un problème récurrent : adapter un cobot à des lignes à références multiples sans recalibration manuelle à chaque changement de produit. Les contrôleurs en admittance sont le standard de fait pour les applications collaboratives (ISO/TS 15066), mais leur sensibilité aux perturbations non modélisées au niveau du capteur de couple les rend fragiles sur des tâches d'empilage ou de palettisation à charges variables. La méthode démontre qu'il est possible de préserver la compliance mécanique, garante de la cohabitation humain-robot, tout en corrigeant activement les biais de charge, sans recours à l'apprentissage par renforcement. Les résultats expérimentaux indiquent des gains en transport et en précision de dépose par rapport à la commande non corrigée, bien que l'abstract ne fournisse pas de métriques quantitatives détaillées permettant d'évaluer l'ampleur réelle des améliorations. Le contrôle en admittance, formalisé par Neville Hogan au MIT dans les années 1980, est aujourd'hui intégré nativement dans les plateformes Universal Robots et Franka Robotics. Ce travail s'inscrit dans un courant concurrent des approches VLA (vision-language-action) portées par Physical Intelligence (pi-0) ou Google DeepMind, qui misent sur l'apprentissage massif plutôt que sur la modélisation analytique de la physique. L'avantage différenciant de cette approche est sa traçabilité pour la certification industrielle et l'absence totale de données d'entraînement. Les extensions naturelles incluent la prise en compte des couples en rotation et la validation sur des architectures multi-bras pour la manipulation coordonnée d'objets asymétriques.

UECette méthode de contrôle en admittance robuste aux charges inconnues est directement applicable aux cobots UR5e (Universal Robots, Danemark) et Franka (Allemagne) largement déployés dans l'industrie européenne, facilitant la conformité ISO/TS 15066 sur les lignes à références multiples sans recalibration manuelle.

RecherchePaper
1 source
VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts
2arXiv cs.RO 

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts

Des chercheurs ont présenté VE2VF (Vision-Enabled to Vision-Free), un cadre d'apprentissage par renforcement (RL) pour la manipulation robotique en contact riche, publié en préprint sur arXiv (2605.29564). La méthode repose sur une distillation enseignant-élève conduite intégralement sur robot réel, sans simulation ni randomisation de domaine. Un module "enseignant" équipé de vision apprend d'abord la tâche, puis transfère sa politique à un "élève" n'utilisant que la pose, le twist et le wrench (position/orientation, vitesse et couple de force), sans aucun flux caméra. Sur le benchmark NIST d'assemblage, référence standardisée pour les tâches d'insertion de précision, le système atteint 95 % de taux de succès global après environ 50 minutes d'entraînement sur 3 tâches représentatives, et généralise à 8 variantes non vues lors de l'entraînement. Un fine-tuning par distillation permet d'atteindre 100 % de succès sur la variante la plus difficile. Ce résultat adresse un problème structurel en robotique industrielle: les politiques basées sur la vision surapprennent les conditions d'éclairage et de fond vues à l'entraînement, ce qui fragilise leur déploiement en environnement de production variable. En éliminant la vision à l'inférence tout en l'exploitant pendant l'apprentissage, VE2VF produit des politiques robustes aux perturbations visuelles sans coût supplémentaire en données. Plus significatif encore: atteindre cette généralisation en moins d'une heure d'entraînement réel suggère qu'on peut contourner le sim-to-real gap sans simulateur haute-fidélité ni dataset synthétique massif. Pour les intégrateurs déployant des cellules d'assemblage de précision, la combinaison rapidité d'adaptation et robustesse proprioceptive est directement actionnable. Le benchmark NIST Assembly Task Board est utilisé depuis plusieurs années comme terrain de comparaison inter-équipes en manipulation de précision, ce qui confère à ces résultats une lisibilité relative face aux travaux antérieurs. Les approches concurrentes combinent généralement simulation, randomisation de domaine et larges volumes de données synthétiques avant transfert sur robot réel. VE2VF se positionne comme une alternative ancrée dans le réel, avec une boucle human-in-the-loop permettant de superviser l'apprentissage en cours de session. Il s'agit à ce stade d'un préprint de recherche, non d'un système en production ni d'un produit commercialisé. Les suites naturelles incluent des tests sur d'autres plateformes matérielles et des tâches industrielles plus complexes, ainsi qu'une confrontation directe avec les approches de type VLA (Vision-Language-Action) qui ciblent elles aussi la généralisation en manipulation contact-riche à grande échelle.

RecherchePaper
1 source
SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations
3arXiv cs.RO 

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations

Des chercheurs ont présenté SID (Sliding into Distribution), un cadre structuré pour la manipulation robotique capable de généraliser à partir de seulement deux démonstrations humaines. Évalué sur six tâches réelles variées (saisies, manipulations d'objets), SID atteint environ 90 % de taux de succès dans des configurations hors-distribution (OOD), c'est-à-dire avec des poses d'objets, des points de vue ou des conditions d'éclairage non vus lors de l'entraînement. La dégradation reste inférieure à 10 % en présence de distracteurs visuels ou de perturbations physiques externes. Le système s'appuie sur deux composants clés : un champ de mouvement centré sur l'objet, appris depuis des démonstrations "canonicalisées" (normalisées en pose), et une politique d'exécution égocentrique légère entraînée par flow matching conditionné, complétée par une augmentation de données par reprojection de nuage de points cinématiquement cohérente. L'intérêt de SID tient à sa frugalité en données : là où les politiques visuomotrices end-to-end standard (type ACT, Diffusion Policy) réclament des dizaines à centaines de démonstrations, SID opère à deux. C'est un signal fort pour les intégrateurs industriels qui peinent à collecter des données en volume sur cellule réelle. Le mécanisme de correction distributional est particulièrement notable : le champ de mouvement génère de larges corrections quand le robot s'écarte de la trajectoire démontrée, puis s'annule naturellement à l'approche de la zone fiable, avant de passer la main à la politique locale. Ce découplage explicite entre récupération hors-distribution et exécution fine constitue une alternative architecturale aux approches purement régressives. Les résultats suggèrent que le "sim-to-real gap" n'est pas le seul problème à résoudre : gérer le glissement distributional en ligne, sans recollecte de données, est un levier sous-exploité. Cette publication s'inscrit dans une vague de travaux sur la manipulation à faible donnée qui cherchent à dépasser les limites des transformeurs d'actions (ACT, π0 de Physical Intelligence, GR00T N2 de NVIDIA) en introduisant des structures géométriques explicites plutôt que de tout apprendre de bout en bout. Le flow matching, popularisé ces deux dernières années comme alternative plus stable à la diffusion pour la génération de trajectoires, est ici combiné à une représentation canonique de l'objet, une approche qui rappelle les travaux sur les réseaux de catégorie neurale (NCF) ou les politiques basées sur des keypoints. Le papier ne mentionne pas de partenaires industriels ni de timeline de déploiement, et reste pour l'instant au stade de preuve de concept académique sur banc réel. Les prochaines étapes naturelles seraient une extension à des objets déformables et une validation sur des bras commerciaux (Franka, xArm) dans des environnements moins contrôlés que le labo.

RecherchePaper
1 source
CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche
4arXiv cs.RO 

CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche

Une équipe de chercheurs propose CoRAL (Contact-Rich Adaptive LLM-based control), un framework publié en preprint sur arXiv (2605.02600) en mai 2025, conçu pour résoudre l'une des limites persistantes des grands modèles de langage appliqués à la robotique : la manipulation en contact riche, c'est-à-dire les tâches nécessitant des interactions physiques précises et réactives. L'architecture repose sur un découplage strict entre raisonnement de haut niveau et exécution de bas niveau. Contrairement aux approches VLA (Vision-Language-Action) qui emploient le modèle comme contrôleur direct, CoRAL utilise le LLM comme concepteur de fonctions de coût pour un planificateur par échantillonnage (MPPI, Model Predictive Path Integral). Un VLM fournit des priors sémantiques sur les paramètres physiques de l'environnement - masse et friction - affinés en temps réel par identification de système en ligne, tandis qu'une mémoire par récupération permet de réutiliser des stratégies validées sur des tâches récurrentes. Sur des scénarios incluant le retournement d'objets contre des murs via des contacts extrinsèques, CoRAL affiche un taux de succès supérieur de plus de 50 % en moyenne aux baselines VLA testées, sur des tâches jamais vues en entraînement, aussi bien en simulation que sur hardware réel. L'intérêt principal pour les intégrateurs réside dans la résilience au gap sim-to-real : en adaptant dynamiquement sa représentation des paramètres physiques lors des premières interactions, le système corrige en vol ses erreurs stratégiques sans nécessiter de re-entraînement. La séparation raisonnement/exécution garantit en outre une stabilité temps réel, le LLM étant par nature trop lent pour s'insérer dans une boucle de contrôle réactif. C'est un argument concret contre les VLA pures, qui peinent précisément sur les tâches à fort contact car leurs politiques apprises ne s'adaptent pas aux incertitudes physiques non vues. Le gain de 50 % mérite cependant d'être pondéré : les baselines exactes et le périmètre précis des tâches de test ne sont pas détaillés dans le résumé, et ce travail reste un preprint non relu par les pairs. CoRAL s'inscrit dans un champ de recherche actif qui cherche à hybrider planification symbolique et modèles de fondation pour dépasser les limites des VLA comme Pi-0 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA. Ces modèles ont montré des capacités convaincantes sur des tâches de manipulation standards mais buttent sur les contacts complexes et les environnements non vus. Le planificateur MPPI est une méthode stochastique éprouvée en robotique, ce qui ancre CoRAL dans un socle technique solide plutôt que dans une approche purement émergente. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade - la prochaine étape naturelle serait une validation sur un spectre plus large de tâches industrielles, comme l'assemblage ou la manipulation d'objets déformables, pour mesurer la généralisation réelle de l'approche.

RecherchePaper
1 source