Aller au contenu principal
Commande prédictive par intégrale de chemin informée par objets pour la manipulation robotique sans préhension
RecherchearXiv cs.RO2sem

Commande prédictive par intégrale de chemin informée par objets pour la manipulation robotique sans préhension

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont présenté une formulation hiérarchique du contrôle MPPI (Model Predictive Path Integral) appliquée à la manipulation non-préhensile, c'est-à-dire au déplacement d'objets par poussée sans saisie physique. Publiée sur arXiv (référence 2605.30778), la méthode décompose le problème en deux niveaux : un premier plan est calculé en supposant que l'objet peut être actionné directement, puis cette trajectoire sert de référence pour résoudre le problème couplé robot-objet. Les expériences ont été conduites sur un bras xArm6 à 6 degrés de liberté de UFactory, avec pour tâche de pousser un objet vers une cible tout en contournant des obstacles statiques. En simulation, la méthode augmente le taux de succès de 40 % et accélère la fréquence de contrôle de 26 % par rapport à un MPPI standard. Sur matériel réel, le gain de succès atteint 20 % pour un coût de calcul comparable.

Cette décomposition hiérarchique répond à un problème fondamental de la planification à long horizon : l'espace de recherche conjoint robot-objet est trop vaste pour être exploré efficacement dans des délais temps-réel. En résolvant d'abord un sous-problème centré sur l'objet, l'algorithme oriente l'échantillonnage stochastique vers des régions prometteuses, réduisant le gaspillage computationnel sans nécessiter de hardware spécialisé. Pour un intégrateur industriel, cela signifie que des tâches impliquant poussées ou réorientations sans préhension deviennent planifiables en temps réel sur des cellules robotiques standard, un verrou qui limitait jusqu'ici l'automatisation de nombreuses opérations de manutention.

Le MPPI est une méthode de contrôle prédictif par échantillonnage stochastique introduite par Theodorou et Williams à Georgia Tech, et popularisée en robotique par NVIDIA via ses environnements de simulation. La manipulation non-préhensile reste un domaine actif, avec des contributions récentes de MIT CSAIL, ETH Zurich et Stanford sur la gestion des contacts discontinus. Ce travail reste à ce stade un preprint non évalué par les pairs, et les benchmarks se limitent à des scénarios de poussée en espace plan avec obstacles statiques : des configurations plus complexes, obstacles dynamiques ou objets déformables, n'ont pas été testés.

À lire aussi

Compréhension vidéo découplée centrée sur les objets pour la génération de commandes de manipulation robotique
1arXiv cs.RO 

Compréhension vidéo découplée centrée sur les objets pour la génération de commandes de manipulation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.16470) un framework de compréhension vidéo orienté objets, conçu pour traduire automatiquement des démonstrations gestuelles en commandes exécutables par un bras robotique, sans passer par une syntaxe de programmation classique. La méthode combine des modules TSM (Temporal Shift Module) pour la classification spatio-temporelle d'actions avec un algorithme original de sélection d'objets qui identifie, dans chaque séquence, les objets fonctionnellement pertinents via trois critères : classification de rôle par trajectoire, détection de flou, et minimisation de chevauchements. Les objets retenus sont ensuite analysés par des VLMs (Vision-Language Models) pour la reconnaissance de catégorie et la généralisation zero-shot. Évalué sur une version modifiée du benchmark Something-Something V2, le système atteint 86,79 % de précision en classification d'actions, un score BLEU-4 de 0,337 sur des objets connus et 0,261 sur des objets inédits, soit des gains respectifs de +80,2 % et +143,9 % face au meilleur baseline spécialisé. Sur METEOR et CIDEr, les gains montent à +157,9 % et +171,7 % pour les objets inconnus. Ce résultat est notable pour deux raisons distinctes. D'abord, la généralisation sur des objets non vus durant l'entraînement, qui est précisément le point de rupture habituel des systèmes task-specific : un robot industriel déployé dans un environnement variable ne peut pas être ré-entraîné pour chaque référence produit. Ensuite, l'architecture modulaire découplée (reconnaissance d'action d'un côté, identification d'objet de l'autre) facilite la maintenance et le débogage en production, à l'inverse des architectures bout-en-bout opaques. Sur le papier, ce type de système pourrait réduire la dépendance à la téléopération manuelle pour constituer des datasets de manipulation, un coût majeur pour les déploiements à grande échelle. Il s'agit ici d'un preprint académique, pas d'un produit validé en environnement réel : les métriques sont mesurées sur un benchmark vidéo, pas sur un robot physique, ce qui laisse entier le sim-to-real gap. Le benchmark Something-Something V2 reste un cadre contrôlé, éloigné du désordre d'un atelier de production. Ce travail s'inscrit dans un mouvement plus large de recherche sur les VLA (Vision-Language-Action models), où des acteurs comme Physical Intelligence (pi), Google DeepMind ou le MIT tentent de résoudre exactement ce problème : faire apprendre un robot par observation vidéo plutôt que par démonstration manuelle coûteuse. La prochaine étape naturelle serait une validation sur hardware réel avec un bras collaboratif standard (UR, Franka), ce que le papier ne documente pas encore.

RechercheOpinion
1 source
IMPACT : apprentissage d'une commande prédictive à modèle interne pour la manipulation robotique en force
2arXiv cs.RO 

IMPACT : apprentissage d'une commande prédictive à modèle interne pour la manipulation robotique en force

Une équipe de recherche a publié le 12 juin 2026 sur arXiv (référence 2606.10818) IMPACT, un framework d'apprentissage pour la manipulation robotique dite "forceful", c'est-à-dire impliquant des interactions physiques avec l'environnement : utilisation d'outils de masses variables, transport d'objets lourds, nettoyage de surface par contact prolongé. L'architecture découple le problème en deux blocs distincts : un planificateur de tâche de haut niveau, et un contrôleur prédictif basé sur un modèle interne (internal-model predictive control). Les expériences sont menées à la fois en simulation et sur robot réel, avec évaluation sur des objets non vus lors de l'entraînement. Les auteurs ne publient pas encore les métriques quantitatives précises dans l'abstract arXiv disponible, ce qui limite l'analyse indépendante à ce stade. Le verrou technique adressé est réel et sous-estimé dans les pipelines d'imitation learning actuels. Deux stratégies dominent aujourd'hui : la première laisse les forces émerger implicitement via les erreurs de suivi d'un contrôleur d'impédance, ce qui casse la généralisation dès que la masse de l'objet change ; la seconde commande explicitement les efforts via capteur force/couple ou capteur tactile au poignet, ce qui fonctionne mais alourdit l'intégration matérielle et fragilise les déploiements industriels. IMPACT propose une troisième voie en apprenant un modèle interne de la dynamique de contact, permettant au contrôleur prédictif d'anticiper les forces sans capteur dédié ni dégradation de généralisation. Les gains annoncés en taux de succès, sécurité et efficacité énergétique sont cohérents avec l'approche, mais restent à valider sur des benchmarks standardisés comme DROID ou RoboAgent. Ce travail s'inscrit dans un courant actif qui cherche à marier l'apprentissage par imitation avec les garanties du contrôle prédictif (MPC), après des travaux fondateurs comme ILC, DMP, et plus récemment les architectures VLA de type pi0 (Physical Intelligence) ou RoboDiff. Le problème de la manipulation forcée reste un angle mort des démos grand public, qui privilégient les tâches de pick-and-place sur objets légers. Les concurrents directs incluent les approches sim-to-real de CMU (DexVIP, ACT), d'ETH Zurich (ANYmal) et les travaux de Boston Dynamics Research sur la manipulation lourde. Côté européen, aucun acteur n'est directement cité, mais les travaux de Wandercraft et Enchanted Tools sur la dynamique de contact pourraient bénéficier de ce type de framework. La prochaine étape naturelle serait une validation sur manipulateurs industriels (UR, Franka) en conditions de production réelle.

RecherchePaper
1 source
DART : commande prédictive augmentée par apprentissage pour la manipulation bi-bras non préhensile
3arXiv cs.RO 

DART : commande prédictive augmentée par apprentissage pour la manipulation bi-bras non préhensile

Des chercheurs ont publié sur arXiv (référence 2604.17833) les travaux autour de DART, un framework bimanuel conçu pour la manipulation non préhensile d'objets posés sur un plateau. L'approche repose sur un contrôleur prédictif non linéaire (MPC) couplé à un contrôleur d'impédance par optimisation, permettant de déplacer des objets sur le plateau sans les saisir directement. Le système évalue trois stratégies de modélisation de la dynamique plateau-objet : un modèle analytique physique, un modèle par régression en ligne adaptatif en temps réel, et un modèle de dynamique entraîné par apprentissage par renforcement (RL), ce dernier offrant une meilleure généralisation sur des objets aux propriétés variées. Les évaluations ont été réalisées en simulation sur des objets de masses, géométries et coefficients de friction différents. Les auteurs revendiquent que DART constitue le premier framework dédié à ce type de tâche en configuration bimanuelle. L'intérêt technique de DART réside dans la comparaison rigoureuse des trois approches de modélisation sur des métriques concrètes : temps de stabilisation, erreur en régime permanent, effort de contrôle et généralisation. Ce benchmark interne est utile pour les équipes d'intégration robotique qui doivent choisir entre modèles physiques (précis mais rigides), adaptation en ligne (réactive mais computationnellement coûteuse) et RL (flexible mais plus difficile à certifier). L'association MPC et contrôleur d'impédance est une piste crédible pour la manipulation d'objets fragiles ou instables, un verrou important en robotique de service. Toutefois, la validation reste strictement en simulation : le passage au réel implique des défis de perception, de latence et de calibration que le papier ne traite pas encore. Ce travail s'inscrit dans un intérêt croissant pour la robotique de service en hôtellerie et restauration, où des acteurs comme Bear Robotics (Servi), Keenon Robotics ou encore Enchanted Tools (Miroki, développé en France) positionnent leurs plateformes sur des tâches de transport et de service en salle. Les approches dominantes jusqu'ici privilégient la navigation autonome avec préhension classique ; la manipulation non préhensile sur plateau reste peu explorée à l'échelle produit. La prochaine étape naturelle pour DART serait une validation sur plateforme physique, avec des bras commerciaux type Franka Research 3 ou Universal Robots, avant d'envisager une intégration dans un robot mobile de service.

UEEnchanted Tools (Miroki, France) est cité comme acteur du service robotique susceptible de bénéficier de ce type de manipulation non préhensile sur plateau, mais le travail reste en simulation sans transfert réel annoncé.

RecherchePaper
1 source
STORM : représentation par slots centrée objet et sensible à la tâche pour la manipulation robotique
4arXiv cs.RO 

STORM : représentation par slots centrée objet et sensible à la tâche pour la manipulation robotique

Des chercheurs ont publié STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), un module d'adaptation léger conçu pour augmenter les modèles visuels de fondation figés avec des représentations centrées sur les objets. Plutôt que de réentraîner de grands backbones visuels, coûteux en calcul et en données étiquetées, STORM insère un ensemble restreint de "slots", des vecteurs appris qui capturent chaque objet de la scène de manière distincte. L'entraînement se déroule en deux phases : un préentraînement visuo-sémantique qui stabilise les slots via des embeddings de langage, puis une adaptation conjointe avec la politique de manipulation. Les expériences, menées sur des benchmarks de découverte d'objets et des tâches de manipulation simulée, montrent des gains de robustesse face aux distracteurs visuels et une meilleure performance de contrôle par rapport à l'utilisation directe des features figées ou à l'entraînement end-to-end de représentations object-centriques. L'enjeu est structurel pour la robotique de manipulation. Les modèles visuels de fondation comme DINOv2 ou SigLIP fournissent des features perceptuelles puissantes, mais leurs représentations denses traitent la scène comme une grille de pixels sans distinguer explicitement les objets. Pour une tâche du type "saisir la boîte rouge parmi plusieurs objets", cette absence de structure oblige le réseau de politique à apprendre lui-même la décomposition de la scène, ce qui nuit à la généralisation hors distribution. STORM contourne ce problème sans toucher au backbone. Le résultat valide l'hypothèse que l'adaptation multi-phase (stabilisation sémantique d'abord, alignement tâche ensuite) évite la dégénérescence des slots, phénomène où plusieurs slots capturent le même objet ou des régions non pertinentes pour la tâche. La ligne de recherche sur les représentations object-centriques remonte à Slot Attention (Locatello et al., 2020, DeepMind) et à MONet. L'originalité de STORM est d'ancrer ces slots dans la sémantique linguistique et de les greffer sur des fondations pré-entraînées plutôt que de repartir de zéro. Dans un écosystème où les VLA (Vision-Language-Action models) comme pi0 de Physical Intelligence ou OpenVLA cherchent à intégrer langage et action de bout en bout, STORM propose une alternative modulaire et économe. Les résultats restent limités à la simulation, ce qui laisse entière la question du sim-to-real gap. Les prochaines étapes logiques incluent la validation sur robots physiques et le test face à des perturbations visuelles plus agressives que les benchmarks actuels.

RecherchePaper
1 source