Planification efficace en temps réel pour la robotique …

TinySDP : optimisation semi-définie en temps réel pour une robotique embarquée certifiable et agile

57

1arXiv cs.RO

TinySDP : optimisation semi-définie en temps réel pour une robotique embarquée certifiable et agile

Des chercheurs ont publié sur arXiv (preprint 2605.13748, mai 2025) TinySDP, qu'ils présentent comme le premier solveur de programmation semi-définie (SDP) conçu explicitement pour les systèmes embarqués à ressources contraintes. L'objectif : permettre un contrôle prédictif en temps réel (MPC) sur microcontrôleurs, en intégrant des contraintes d'obstacles non convexes jusqu'ici réservées à des machines de calcul bien plus puissantes. Le solveur associe des projections de cônes semi-définis positifs à un algorithme ADMM (Alternating Direction Method of Multipliers) avec factorisation de Riccati mise en cache. Un certificat de rang 1 a posteriori convertit à chaque pas de temps les solutions relaxées en garanties géométriques explicites. Les expériences portent sur des scénarios d'évitement d'obstacles dynamiques et de cul-de-sac, où les méthodes locales classiques échouent ; TinySDP y produit des trajectoires sans collision et jusqu'à 73 % plus courtes que les baselines de référence. La validation matérielle est conduite sur un quadrirotor Crazyflie, nano-drone de recherche développé par Bitcraze. L'enjeu industriel est réel : les relaxations SDP offrent depuis des années des garanties de certification pour la planification de mouvement, mais leur coût computationnel les confinait aux stations de calcul hors-ligne ou aux serveurs de cloud. Les embarquer sur un microcontrôleur ouvre la voie à des robots autonomes certifiés opérant sans infrastructure réseau : drones d'inspection, AMR en environnement dynamique, bras cobots sans liaison cloud. Le gain de 73 % sur la longueur de chemin dans des scénarios difficiles dépasse ce que la littérature locale obtient habituellement, bien qu'il faille noter que ces benchmarks sont choisis par les auteurs, et que les conditions réelles d'industrialisation restent à établir. La programmation semi-définie est un outil établi en robotique depuis les travaux sur les relaxations de Lasserre et les problèmes de manipulation certifiée, mais aucun solveur embarqué n'en avait rendu le déploiement praticable avant ce travail. Côté concurrents, les solveurs embarqués dominants comme OSQP ou ECOS ciblent les problèmes quadratiques ou coniques de second ordre, sans support natif des contraintes SDP. Le papier reste un preprint non relu par les pairs ; les prochaines étapes naturelles seraient une validation sur des plateformes plus contraintes encore (STM32, Cortex-M) et des scénarios multi-obstacles en environnement non structuré.

UEBitcraze, entreprise suédoise (EU) dont le nano-drone Crazyflie sert de plateforme de validation, bénéficie d'une visibilité accrue ; les équipes R&D européennes travaillant sur des AMR ou cobots embarqués sans connexion cloud pourraient intégrer TinySDP dans leurs pipelines de planification de mouvement certifiable.

RecherchePaper

1 source

Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source

34

2arXiv cs.RO

Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source

Des chercheurs ont publié sur arXiv (référence 2509.19318, version révisée en 2026) un système baptisé Scensory, conçu pour doter les robots d'une capacité olfactive temps réel appliquée à la détection de contaminations fongiques en intérieur. Le framework repose sur des réseaux de capteurs VOC (composés organiques volatils) bon marché et à sensibilité croisée, couplés à des réseaux de neurones capables d'analyser de courtes séries temporelles de 3 à 7 secondes. Sur un panel de cinq espèces fongiques testées en conditions ambiantes, Scensory atteint 89,85 % de précision pour l'identification de l'espèce et 87,31 % pour la localisation de la source. Les deux tâches sont résolues simultanément, à partir d'un même flux de données capteurs. Ce résultat est techniquement significatif parce que les signaux chimiques en diffusion libre sont particulièrement difficiles à exploiter : contrairement à la vision ou au toucher, où le signal est directionnel et localisé, les panaches olfactifs se dispersent de manière stochastique selon les flux d'air ambiants. Que des capteurs VOC grand public, combinés à un apprentissage supervisé sur données collectées automatiquement par le robot, permettent de relier dynamique temporelle du signal et position spatiale de la source change l'équation économique du nez électronique embarqué. Jusqu'ici, la perception chimique robotique supposait soit des capteurs spécialisés coûteux, soit des conditions contrôlées de laboratoire. Scensory suggère qu'une approche data-driven sur matériel accessible peut combler une partie de ce fossé. Le domaine de l'olfaction robotique reste nettement en retard sur la vision et la manipulation, malgré des travaux académiques réguliers depuis les années 2000 sur les nez électroniques (e-nose) et la navigation par gradient chimique. Les applications visées par Scensory, inspection de bâtiments, monitoring environnemental indoor, contrôle qualité alimentaire, n'ont pas encore de solution robotique commerciale établie. Le papier reste un résultat académique sur arXiv sans déploiement annoncé ni partenaire industriel identifié ; les performances reportées devront être validées sur un spectre élargi d'espèces, de conditions d'humidité et de géométries de pièce avant d'envisager une intégration produit.

RecherchePaper

1 source

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

35

3arXiv cs.RO

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper

1 source

Self-CriTeach : auto-enseignement et auto-critique d'un LLM pour améliorer la planification robotique

58

4arXiv cs.RO

Self-CriTeach : auto-enseignement et auto-critique d'un LLM pour améliorer la planification robotique

Des chercheurs ont publié en 2025 via arXiv (2509.21543) un cadre baptisé Self-CriTeach, conçu pour améliorer la planification robotique par grands modèles de langage (LLM) sans supervision humaine coûteuse. Le principe central : un LLM génère automatiquement des domaines de planification symbolique au format PDDL, qui servent ensuite à deux fins distinctes. Dans la phase d'auto-enseignement, ces domaines produisent des milliers de paires problème-plan, converties en trajectoires chain-of-thought (CoT) enrichies exploitées en fine-tuning supervisé. Dans la phase d'auto-critique, ces mêmes domaines sont réutilisés comme fonctions de récompense structurées pour l'apprentissage par renforcement (RL), sans ingénierie manuelle des récompenses. Les résultats publiés font état de taux de succès en planification plus élevés, d'une meilleure généralisation inter-tâches, d'une réduction des coûts d'inférence et d'une robustesse accrue aux états logiques imparfaits ou bruités par la perception. L'intérêt de cette approche tient à son autonomie : elle brise deux goulots d'étranglement majeurs de l'outillage LLM pour la robotique. D'une part, la collecte de données CoT pour les LLMs raisonneurs est notorieusement coûteuse en annotation humaine, surtout pour des séquences de manipulation complexes. D'autre part, la conception de fonctions de récompense en RL robotique reste un travail d'ingénierie long et fragile, souvent spécifique à chaque tâche. Self-CriTeach unifie ces deux pipelines autour d'une seule source synthétique générée automatiquement, ouvrant la voie à une spécialisation scalable d'un LLM sur des workflows robotiques sans intervention humaine à chaque étape. Pour un responsable R&D ou un intégrateur, cela représente une réduction potentielle substantielle du coût de personnalisation. Ce travail s'inscrit dans un courant actif cherchant à remplacer la programmation explicite des robots par des LLMs capables de raisonner sur des représentations symboliques. Des approches antérieures comme SayCan (Google) ou CodeAsPolicies (Google DeepMind) ont utilisé des LLMs pour la planification de haut niveau, mais sans exploiter les domaines générés comme source d'entraînement en retour. La contribution de Self-CriTeach est précisément cette boucle fermée entre génération de domaines, supervision CoT et signal de récompense RL. Il s'agit d'une contribution de recherche académique publiée sur arXiv, sans déploiement industriel annoncé à ce stade. Le code et les résultats sont accessibles via la page GitHub du projet.

RecherchePaper

1 source

Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal

À lire aussi

TinySDP : optimisation semi-définie en temps réel pour une robotique embarquée certifiable et agile

Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Self-CriTeach : auto-enseignement et auto-critique d'un LLM pour améliorer la planification robotique