RecherchearXiv cs.RO1sem

IKSPARK : cinématique inverse avec détection d'obstacles par optimisation convexe

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

IKSPARK (Inverse Kinematics using Semidefinite Programming And RanK minimization) est un solveur de cinématique inverse conscient des obstacles, présenté dans un preprint arXiv (2403.12235v2). Le système prend en charge des morphologies variées : chaînes cinématiques ouvertes et fermées, avec joints sphériques, rotoïdes et prismatiques. Sa formulation exprime le problème IK sous forme de programme semidéfini positif (SDP) avec des contraintes de rang 1 sur des matrices symétriques à traces fixes. Le solveur résout d'abord la relaxation SDP, dont l'infaisabilité certifie formellement l'impossibilité du problème original, avant de récupérer une solution de rang 1 via des méthodes itératives de minimisation de rang à convergence locale prouvée. L'évitement d'obstacles est traité par une formulation convexifiée de contraintes mixtes entières. Les expériences rapportées montrent des taux de succès sensiblement supérieurs aux solveurs non linéaires classiques dans des environnements encombrés, notamment des cellules de travail fixes, et ce sans post-traitement, bien que les benchmarks quantitatifs détaillés n'apparaissent pas dans le résumé public.

L'apport central d'IKSPARK est sa capacité à certifier l'infaisabilité : contrairement aux solveurs basés sur la Jacobienne pseudo-inverse ou le gradient tels que TRAC-IK ou IKFAST, il peut garantir formellement qu'aucune configuration valide n'existe dans un environnement donné, évitant ainsi des cycles de replanification coûteux. Pour les intégrateurs déployant des manipulateurs en cellules industrielles fixes et encombrées, cette propriété améliore directement la robustesse des pipelines de planification de mouvement. L'absence de post-traitement, étape souvent nécessaire avec les approches SDP classiques, représente une avancée pratique non négligeable. La prise en charge native des chaînes cinématiques fermées, souvent mal gérées par les solveurs analytiques standard, élargit par ailleurs l'applicabilité aux robots parallèles et aux mécanismes à morphologie complexe.

La cinématique inverse est un problème fondamental en robotique depuis plusieurs décennies, mais son caractère intrinsèquement non-convexe a longtemps cantonné les approches à garanties globales à des cas très contraints. Les relaxations SDP ont récemment émergé comme piste sérieuse, notamment dans les travaux sur la certification d'optimisation robotique issus de laboratoires comme le MIT ou ETH Zurich. IKSPARK s'inscrit dans cette tendance en l'étendant explicitement à l'évitement d'obstacles. Ses concurrents directs incluent TRAC-IK, BioIK et les méthodes de champ de potentiel, plus rapides en pratique mais dépourvus de garanties de complétude. L'intégration dans des planificateurs de mouvement établis comme MoveIt ou Drake, et la validation sur hardware réel, constitueraient les prochaines étapes logiques, non encore couvertes dans ce preprint.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Suivi de main par vision pour la manipulation robotique via cinématique inverse

Des chercheurs ont publié sur arXiv (réf. 2603.11383) une pipeline de télé-opération bas coût pour bras manipulateurs, baptisée hand-shadowing : une caméra RGB-D égocentrique montée sur des lunettes imprimées en 3D capte les mains de l'opérateur, MediaPipe Hands en extrait 21 points de repère par main, la profondeur les projette dans l'espace 3D, et un algorithme de cinématique inverse à moindres carrés atténués (damped least-squares IK) génère les commandes articulaires du robot SO-ARM101 (5 degrés de liberté + 1 préhenseur). Les actions sont d'abord validées dans un simulateur physique avant d'être rejouées sur le robot réel. Sur un benchmark structuré pick-and-place (grille 5 cases, 10 saisies par case, 3 runs indépendants), la pipeline atteint un taux de succès de 86,7 % ± 4,2 %, avec une erreur IK moyenne de 36,4 mm et une réduction du jerk de 57 à 68 % grâce à un lissage par moyenne mobile exponentielle (EMA). En environnements non structurés réels (supermarché, pharmacie), ce taux chute à 9,3 %, principalement à cause de l'occultation des mains par les objets environnants. Ce résultat illustre avec brutalité le reality gap qui sépare les conditions de laboratoire du déploiement industriel : une marge de 77 points entre les deux contextes n'est pas un détail d'intégration, c'est un défi de fond pour toute approche marker-free analytique. La comparaison directe avec quatre politiques VLA entraînées sur données leader-follower (ACT, SmolVLA, pi_0.5 de Physical Intelligence et GR00T N1.5 de NVIDIA) est méthodologiquement utile : elle positionne cette approche de retargeting pur face aux modèles appris, et quantifie l'écart sans se limiter à la démonstration sélective. Pour un COO ou un intégrateur, le message est clair : le bas coût matériel (lunettes imprimées, caméra grand public) ne compense pas encore l'insuffisance de robustesse à l'occlusion. La télé-opération reste un goulot d'étranglement majeur pour la collecte de données d'entraînement robotique, et les systèmes leader-follower filaires ou magnétiques restent chers et contraignants. Ce travail s'inscrit dans une vague de recherche qui cherche à démocratiser la capture de démonstrations avec du matériel grand public, aux côtés d'approches comme UMI (Columbia) ou AnyTeleop. Pour contourner la faiblesse de MediaPipe face à l'occlusion, les auteurs intègrent WiLoR comme détecteur alternatif et obtiennent 8 % de gain en taux de détection, une amélioration modeste qui confirme que le problème reste ouvert. La prochaine étape logique serait d'ajouter une gestion multi-vues ou un suivi temporel robuste pour traiter les environnements encombrés, conditions précisément où la télé-opération sans marqueur aurait le plus de valeur.

RecherchePaper

1 source

2arXiv cs.RO

Prise de décision hiérarchique intégrée pour la planification et le contrôle en cinématique inverse

Une équipe de chercheurs présente sur arXiv (2412.01324, v4) un solveur de programmation non linéaire hiérarchique et épars qui intègre simultanément prise de décision discrète et cinématique inverse (IK) corps entier. En un seul problème d'optimisation, le système résout des questions jusqu'ici traitées séparément : sélectionner le nombre minimal d'articulations à activer (contrôle IK épars), choisir parmi un large ensemble de positions candidates où poser un effecteur terminal, ou coordonner deux bras pour saisir un objet orienté aléatoirement. Le solveur s'appuie sur la norme ℓ₀, qui pénalise directement le nombre de variables non nulles, là où la littérature recourt habituellement à la norme ℓ₁, une approximation convexe plus facile à manipuler mais moins fidèle au problème réel. L'enjeu est la réduction du fossé entre planification et exécution dans les robots manipulateurs complexes. Les méthodes actuelles font appel à la programmation entière mixte non linéaire (MINLP), dont le coût de calcul est prohibitif en temps réel, ou à des heuristiques de faisabilité (cartes d'atteignabilité, workspace envelopes) qui simplifient le problème au détriment de la précision. Ce cadre traite le problème non linéaire directement, sans relaxation, en exploitant sa structure hiérarchique éparse. Pour un intégrateur travaillant sur des bras bi-manuels ou des plateformes humanoïdes, cela représente une piste concrète pour réduire la dépendance aux bibliothèques de mouvements pré-calculés et aux pipelines de sélection de prises hors ligne. Ce travail s'inscrit dans la lignée de la programmation quadratique hiérarchique (HQP), paradigme établi en commande de robots redondants depuis les travaux de Sentis et Khatib dans les années 2000. L'usage de la norme ℓ₀ dans des problèmes continus non convexes reste rare en robotique, ce qui constitue la principale originalité revendiquée. L'article ne présente toutefois pas de validation sur plateforme matérielle réelle, ni de benchmarks comparatifs en temps de calcul face à des solveurs de référence comme Drake (Toyota Research Institute) ou les pipelines MoveIt/TRAC-IK, une limite méthodologique à noter avant d'envisager un déploiement. Les suites naturelles seraient une intégration sur humanoïde et une comparaison avec les approches d'apprentissage par renforcement pour la sélection de prises.

RecherchePaper

1 source

3arXiv cs.RO

Optimisation paramétrique co-conception de mains dextériques par approche fonctionnelle

Une équipe de chercheurs a publié fin avril 2025 sur arXiv (arXiv:2504.27557) un cadre paramétrique unifié pour la co-optimisation de mains robotiques dextères. L'approche couvre simultanément la structure de la paume, la cinématique des doigts, la géométrie des bouts de doigts et les courbures de surface à fine échelle, l'ensemble étant intégré dans un espace de conception unique. Les caractéristiques géométriques fines sont introduites via des noyaux de déformation de surface paramétriques qui agissent directement sur les interactions de contact. Le framework génère des modèles prêts pour la simulation et pour la fabrication physique, et sera publié en open-source. Les auteurs l'ont validé sur des tâches d'optimisation de la stabilité de préhension en simulation et dans des scénarios dynamiques réels, sans toutefois préciser les configurations exactes de tests ni le nombre de cycles d'évaluation dans le preprint. L'intérêt principal pour les équipes de R&D en robotique est de sortir du paradigme dominant où la conception mécanique de la main et la politique de contrôle sont développées en silos. En co-optimisant la morphologie et le comportement de préhension dans un même espace de paramètres, le framework permet d'explorer systématiquement des compromis que les approches découplées ratent structurellement, notamment l'influence directe de la courbure de surface sur la qualité du contact. L'ouverture en open-source vise à accélérer l'itération rapide pour les intégrateurs et les laboratoires travaillant sur le transfert sim-to-real et l'entraînement de politiques cross-embodiment, un problème central pour les VLA (Vision-Language-Action models) déployés sur des morphologies variées. La co-conception robotique (co-design) est un champ en plein essor, notamment depuis les travaux de MIT et Stanford sur les robots morphologiquement adaptatifs et les approches de differentiable simulation. Ce preprint s'inscrit dans une tendance plus large visant à rendre la conception mécanique différentiable et optimisable par gradient, aux côtés d'acteurs comme Dexterous Robotics, Shadow Robot ou les équipes internes de Figure AI et 1X Technologies qui développent leurs propres mains multi-doigts. Aucun partenariat industriel ni timeline de déploiement n'est mentionné ; il s'agit à ce stade d'une contribution académique avec promesse d'open-source, dont la valeur pratique dépendra de la qualité de l'outillage livré avec le code.

RecherchePaper

1 source

4arXiv cs.RO

Optimisation distribuée de graphe de poses par dynamique riemannienne continue

Un pré-print déposé le 13 mai 2026 sur arXiv (référence 2605.11210) propose un nouveau cadre algorithmique pour l'optimisation distribuée de graphes de poses (PGO), un problème central en SLAM collaboratif (Simultaneous Localization and Mapping). L'approche reformule le PGO comme un système dynamique du second ordre en temps continu sur des groupes de Lie, les structures mathématiques qui modélisent naturellement rotations et translations dans l'espace. Les variables de pose sont traitées comme des particules massiques amorties, de sorte que les équilibres de la dynamique riemannienne résultante coïncident avec les points critiques du premier ordre du problème original. L'intégrateur géométrique semi-implicite employé, basé sur les équations d'Euler-Poincaré, généralise la descente de gradient riemannienne et la méthode de Gauss-Newton. En contexte multi-robots, chaque agent résout une équation différentielle ordinaire pour ses propres poses via des matrices de masse et d'amortissement block-diagonales, permettant un traitement entièrement parallèle avec une communication minimale. Les benchmarks sur jeux de données PGO standard montrent des performances supérieures aux méthodes distribuées de l'état de l'art, en régime synchrone comme asynchrone. L'intérêt pratique réside dans la gestion des communications retardées, un verrou majeur pour les flottes AMR opérant dans des environnements industriels où les liaisons sans fil sont intermittentes. La modélisation conjointe de l'état et de la vitesse permet une prédiction des voisins qui améliore significativement la convergence malgré ces délais. Pour les intégrateurs de solutions multi-robots en logistique ou en inspection industrielle, ce solveur distribué ouvre la voie à une localisation collective robuste sans infrastructure centralisée à faible latence. Les auteurs établissent par ailleurs des conditions suffisantes garantissant la dissipation d'énergie sous le schéma de discrétisation retenu, ce qui confère au résultat une garantie de convergence formelle plutôt qu'une simple validation empirique. Le PGO distribué est un domaine actif depuis une décennie, avec des travaux pionniers comme DDF-SAM, DOOR-SLAM ou Kimera-Multi développés au MIT et à CMU, qui s'appuient principalement sur des méthodes discrètes de type ADMM. Ce nouveau cadre adopte une perspective continue sur variétés riemanniennes, s'inscrivant dans la tendance récente des optimiseurs géométriques pour la robotique. Il s'agit d'une contribution purement académique : aucun déploiement ni partenariat industriel n'est mentionné. Les suites naturelles seraient une intégration dans des bibliothèques SLAM open-source comme GTSAM ou g2o, et une validation sur plateformes réelles en environnement non contrôlé.

RecherchePaper

1 source