Aller au contenu principal
Rainbow Deep Q-Learning intégrant la cinématique pour l'insertion coopérative de robots parallèles Delta et 3-RRS
RecherchearXiv cs.RO5sem

Rainbow Deep Q-Learning intégrant la cinématique pour l'insertion coopérative de robots parallèles Delta et 3-RRS

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent dans un preprint arXiv (arXiv:2605.11697) un cadre combinant un robot parallèle Delta et un manipulateur 3-RRS (liaisons Rotoïde-Rotoïde-Sphérique) pour réaliser coopérativement une tâche d'insertion cheville-dans-trou (peg-in-hole), étalon classique de l'assemblage de précision. L'espace contrôlable couvre 6 degrés de liberté : trois translations assurées par le Delta, deux rotations et une translation verticale par le 3-RRS, pour un espace de tâche effectivement pentadimensionnel (l'insertion étant invariante à la rotation axiale). Le problème est formulé comme un processus de décision markovien à vecteur d'état de dimension 12 et 12 actions discrètes. L'algorithme retenu est un Rainbow DQN -- intégrant double Q-learning, architecture duale, rejeu à priorité, retours multi-étapes, couches linéaires bruitées et tête de valeur distributionnelle -- entraîné selon un curriculum en deux phases. Les résultats, obtenus exclusivement en simulateur cinématique haute-fidélité, montrent une convergence stable et des insertions fiables, surpassant un DQN classique et un planificateur par échantillonnage.

La contribution centrale n'est pas algorithmique mais architecturale : une étape d'optimisation géométrique précède tout entraînement et ajuste la cinématique du 3-RRS pour maximiser l'espace de travail sans singularité et améliorer le conditionnement de la chaîne. Ce co-design élargit la région sûre d'exploration de la politique RL, réduit les violations de contraintes cinématiques et accélère la convergence. Ce principe -- optimiser la géométrie mécanique avant l'apprentissage plutôt que déléguer cette contrainte à la fonction de récompense -- est directement applicable aux intégrateurs travaillant avec des manipulateurs à espace de travail contraint ou à singularités critiques.

Les robots parallèles Delta, introduits par Reymond Clavel en 1985 et largement déployés en pick-and-place agroalimentaire et pharmaceutique, sont réputés pour leur rigidité mais pénalisés par un espace de travail réduit. Les architectures 3-RRS partagent ces caractéristiques. Le Rainbow DQN, proposé par DeepMind en 2017, agrège six améliorations du DQN original de 2015 ; son application aux architectures parallèles coopératives reste peu documentée dans la littérature. Ce travail demeure une contribution de recherche en simulation : le franchissement du fossé sim-to-réel n'est pas traité, aucun déploiement sur hardware physique n'est annoncé, et les auteurs n'indiquent pas d'affiliation industrielle.

Dans nos dossiers

À lire aussi

Cinématique inverse intégrant actionneurs et limites articulaires pour robots redondants commandés en couple
1arXiv cs.RO 

Cinématique inverse intégrant actionneurs et limites articulaires pour robots redondants commandés en couple

Une équipe de recherche propose, dans un preprint arXiv (2605.31436) publié fin mai 2026, une méthode de cinématique inverse (IK) adaptée aux robots redondants commandés en couple, sous contraintes de butées articulaires. Le point de départ est un constat souvent ignoré dans les pipelines classiques : lorsqu'un contrôleur opère au niveau du couple (torque-level controller) plutôt qu'à celui de la vitesse, la commande de vitesse articulaire émise par le module IK n'est pas exécutée telle quelle. Un petit résidu de tâche commandé ne se traduit donc pas forcément par un mouvement effectif. La méthode reformule le problème comme un programme quadratique convexe dont la variable de décision est la vitesse articulaire "requise" plutôt que simplement "commandée". Les contraintes de butées sont imposées via des bornes de style Control Barrier Function (CBF), tandis que la tâche cartésienne est gérée par une variable de relâchement pénalisée. La redondance est résolue par un objectif de compatibilité avec le contrôleur aval, qui tient compte de la cohérence avec la commande précédente et de la capacité en couple de chaque actionneur. Les expériences sont conduites sur un exosquelette de membre supérieur à sept degrés de liberté, contrôlé par décomposition virtuelle (VDC). Le problème adressé est concret pour quiconque déploie des robots à commande en couple : les méthodes IK standard (pseudo-inverse jacobienne, QP de préservation de tâche) supposent implicitement que les vitesses commandées sont suivies fidèlement, ce qui n'est vrai qu'en commande en vitesse pure. En commande en couple, le contrôleur peut saturer, filtrer ou modifier la trajectoire articulaire, rendant les sorties IK classiques sous-optimales voire contre-productives. Les résultats montrent une réduction des commandes poussant les butées articulaires, des vitesses requises bornées dans la plage admissible, et un comportement de tâche réalisé amélioré, sans modifier le contrôleur aval. Pour les intégrateurs d'exosquelettes ou de robots collaboratifs torque-contrôlés, cela offre une couche IK intermédiaire drop-in, indépendante du contrôleur bas niveau. La cinématique inverse pour robots redondants est un problème canonique en robotique, avec des décennies de littérature autour de la pseudo-inverse de Jacobi et des QP sous contraintes. L'essor des robots à commande en couple, privilégiés pour la sécurité en interaction humain-robot, a mis en évidence la limite des pipelines IK hérités. L'utilisation des CBF pour la gestion des contraintes articulaires s'inscrit dans une tendance de recherche active depuis 2015, popularisée notamment par les travaux de l'École des Mines et de Georgia Tech. Du côté industriel, les applications directes concernent les exosquelettes de rééducation (Wandercraft en France avec l'Atalante, Ekso Bionics aux États-Unis) et les bras robotiques collaboratifs à sept axes (Franka, Kuka iiwa). Le travail reste un preprint non encore évalué par les pairs ; aucun déploiement ou partenariat industriel n'est annoncé à ce stade.

UELa méthode est directement applicable à Wandercraft (Atalante, France) et aux intégrateurs de cobots européens sur bras à commande en couple (Kuka iiwa), offrant une couche IK intermédiaire drop-in sans modifier le contrôleur bas niveau.

RecherchePaper
1 source
Suivi de main par vision pour la manipulation robotique via cinématique inverse
2arXiv cs.RO 

Suivi de main par vision pour la manipulation robotique via cinématique inverse

Des chercheurs ont publié sur arXiv (réf. 2603.11383) une pipeline de télé-opération bas coût pour bras manipulateurs, baptisée hand-shadowing : une caméra RGB-D égocentrique montée sur des lunettes imprimées en 3D capte les mains de l'opérateur, MediaPipe Hands en extrait 21 points de repère par main, la profondeur les projette dans l'espace 3D, et un algorithme de cinématique inverse à moindres carrés atténués (damped least-squares IK) génère les commandes articulaires du robot SO-ARM101 (5 degrés de liberté + 1 préhenseur). Les actions sont d'abord validées dans un simulateur physique avant d'être rejouées sur le robot réel. Sur un benchmark structuré pick-and-place (grille 5 cases, 10 saisies par case, 3 runs indépendants), la pipeline atteint un taux de succès de 86,7 % ± 4,2 %, avec une erreur IK moyenne de 36,4 mm et une réduction du jerk de 57 à 68 % grâce à un lissage par moyenne mobile exponentielle (EMA). En environnements non structurés réels (supermarché, pharmacie), ce taux chute à 9,3 %, principalement à cause de l'occultation des mains par les objets environnants. Ce résultat illustre avec brutalité le reality gap qui sépare les conditions de laboratoire du déploiement industriel : une marge de 77 points entre les deux contextes n'est pas un détail d'intégration, c'est un défi de fond pour toute approche marker-free analytique. La comparaison directe avec quatre politiques VLA entraînées sur données leader-follower (ACT, SmolVLA, pi_0.5 de Physical Intelligence et GR00T N1.5 de NVIDIA) est méthodologiquement utile : elle positionne cette approche de retargeting pur face aux modèles appris, et quantifie l'écart sans se limiter à la démonstration sélective. Pour un COO ou un intégrateur, le message est clair : le bas coût matériel (lunettes imprimées, caméra grand public) ne compense pas encore l'insuffisance de robustesse à l'occlusion. La télé-opération reste un goulot d'étranglement majeur pour la collecte de données d'entraînement robotique, et les systèmes leader-follower filaires ou magnétiques restent chers et contraignants. Ce travail s'inscrit dans une vague de recherche qui cherche à démocratiser la capture de démonstrations avec du matériel grand public, aux côtés d'approches comme UMI (Columbia) ou AnyTeleop. Pour contourner la faiblesse de MediaPipe face à l'occlusion, les auteurs intègrent WiLoR comme détecteur alternatif et obtiennent 8 % de gain en taux de détection, une amélioration modeste qui confirme que le problème reste ouvert. La prochaine étape logique serait d'ajouter une gestion multi-vues ou un suivi temporel robuste pour traiter les environnements encombrés, conditions précisément où la télé-opération sans marqueur aurait le plus de valeur.

RecherchePaper
1 source
Commande prédictive par intégrale de chemin informée par objets pour la manipulation robotique sans préhension
3arXiv cs.RO 

Commande prédictive par intégrale de chemin informée par objets pour la manipulation robotique sans préhension

Des chercheurs ont présenté une formulation hiérarchique du contrôle MPPI (Model Predictive Path Integral) appliquée à la manipulation non-préhensile, c'est-à-dire au déplacement d'objets par poussée sans saisie physique. Publiée sur arXiv (référence 2605.30778), la méthode décompose le problème en deux niveaux : un premier plan est calculé en supposant que l'objet peut être actionné directement, puis cette trajectoire sert de référence pour résoudre le problème couplé robot-objet. Les expériences ont été conduites sur un bras xArm6 à 6 degrés de liberté de UFactory, avec pour tâche de pousser un objet vers une cible tout en contournant des obstacles statiques. En simulation, la méthode augmente le taux de succès de 40 % et accélère la fréquence de contrôle de 26 % par rapport à un MPPI standard. Sur matériel réel, le gain de succès atteint 20 % pour un coût de calcul comparable. Cette décomposition hiérarchique répond à un problème fondamental de la planification à long horizon : l'espace de recherche conjoint robot-objet est trop vaste pour être exploré efficacement dans des délais temps-réel. En résolvant d'abord un sous-problème centré sur l'objet, l'algorithme oriente l'échantillonnage stochastique vers des régions prometteuses, réduisant le gaspillage computationnel sans nécessiter de hardware spécialisé. Pour un intégrateur industriel, cela signifie que des tâches impliquant poussées ou réorientations sans préhension deviennent planifiables en temps réel sur des cellules robotiques standard, un verrou qui limitait jusqu'ici l'automatisation de nombreuses opérations de manutention. Le MPPI est une méthode de contrôle prédictif par échantillonnage stochastique introduite par Theodorou et Williams à Georgia Tech, et popularisée en robotique par NVIDIA via ses environnements de simulation. La manipulation non-préhensile reste un domaine actif, avec des contributions récentes de MIT CSAIL, ETH Zurich et Stanford sur la gestion des contacts discontinus. Ce travail reste à ce stade un preprint non évalué par les pairs, et les benchmarks se limitent à des scénarios de poussée en espace plan avec obstacles statiques : des configurations plus complexes, obstacles dynamiques ou objets déformables, n'ont pas été testés.

RecherchePaper
1 source
Génération itérative et compositionnelle de données pour le contrôle de robots
4arXiv cs.RO 

Génération itérative et compositionnelle de données pour le contrôle de robots

Une équipe de chercheurs propose, dans un article arXiv (2512.10891, cinquième révision), un modèle génératif appelé "semantic compositional diffusion transformer" pour produire des données d'entraînement en manipulation robotique. Le principe central consiste à décomposer chaque transition dans l'espace d'état en quatre composantes distinctes, propres au robot, aux objets manipulés, aux obstacles, et à l'objectif de la tâche, dont les interactions sont apprises via des mécanismes d'attention. Entraîné sur un sous-ensemble limité de combinaisons de tâches, le modèle génère en inférence zéro-shot des transitions synthétiques de haute qualité pour des configurations jamais vues : nouveaux objets, nouveaux environnements, nouvelles associations robot-tâche. Un processus d'auto-amélioration itératif complète l'approche : les données synthétiques générées sont validées par apprentissage par renforcement hors-ligne (offline RL), puis réintégrées dans les rounds d'entraînement suivants. Au terme de ce cycle, le système résout la quasi-totalité des tâches de test non vues lors de l'entraînement. L'enjeu industriel est direct : collecter des démonstrations robotiques réelles pour couvrir l'espace combinatoire de toutes les tâches possibles en environnement multi-objets, multi-robots, multi-sites est économiquement prohibitif. Ce travail démontre qu'une structure compositionnelle apprise permet de briser cette malédiction combinatoire, sans démonstrations exhaustives. La boucle génération-validation-réentraînement est particulièrement notable : elle réduit le risque classique de drift sim-to-real en filtrant les transitions synthétiques non viables avant qu'elles ne contaminent le pipeline de policy learning. Les résultats surpassent significativement les baselines monolithiques et les approches compositionnelles à règles fixes (hard-coded), ce qui suggère que la structure compositionnelle émergente est réellement capturée par les représentations apprises, et non artificiellement injectée. Ce travail s'inscrit dans une dynamique de recherche qui cherche à contourner le goulot d'étranglement des données en robotique, aux côtés d'approches comme Diffusion Policy (Chi et al., CMU) ou les Visual Language Action models (VLA) tels que Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). Là où ces derniers misent sur des fondations visuolinguistiques massives, cette contribution cible la généralisation compositionnelle avec des données d'entraînement réduites. La première soumission datant de décembre 2025 et le papier en étant à sa cinquième révision, les auteurs ont visiblement consolidé leurs expériences au fil des retours communautaires. Les prochaines étapes naturelles seraient une validation sur hardware réel et une extension aux chaînes de manipulation longue-horizon, domaine où l'absence de compositionnalité reste le principal point de rupture des approches actuelles.

RecherchePaper
1 source