Dossier arXiv cs.RO — page 10

568 articles · page 10 sur 12

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

451arXiv cs.RO RechercheOpinion

Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM

Des chercheurs ont publié le 12 mai 2026 sur arXiv (référence 2605.08330) un framework de planification tâche-et-mouvement pour robots de service, reposant sur deux modules LLM distincts organisés en hiérarchie. Le premier module, dit "agent de haut niveau", interprète des commandes en langage naturel et génère des séquences d'actions via un prompt de style ReAct, en s'appuyant sur des outils de perception et de manipulation (pick, place, release). Le second module, dédié au raisonnement spatial de bas niveau, prend en charge les instructions de placement précis, par exemple "pose la tasse à côté de l'assiette", en calculant les positions 3D à partir de la géométrie des objets et de la configuration de la scène. La détection d'objets et l'estimation de pose sont assurées par YOLOX-GDRNet. Sur 24 scénarios de test couvrant des commandes spatiales simples, des instructions de haut niveau et des requêtes infaisables, le système affiche un taux de succès global de 86 %. Cette architecture en deux étages répond à un problème bien connu en robotique de service : un LLM généraliste gère mal simultanément la logique séquentielle des tâches et le raisonnement géométrique fin. Séparer ces deux fonctions réduit la surface d'erreur et rend le système plus robuste aux ambiguïtés spatiales, un point de friction majeur dans les scénarios d'assistance à domicile ou hospitaliers. Le taux de 86 % est encourageant, mais il convient de nuancer : 24 scénarios constituent une base d'évaluation très réduite, et les conditions de test en laboratoire restent éloignées de la variabilité d'un environnement réel non structuré. Aucun robot physique n'est mentionné, le module d'exécution motrice étant décrit comme un "stub", ce qui signifie que les résultats restent pour l'instant purement simulés ou partiellement maquettés. Ce travail s'inscrit dans le prolongement des approches LLM-to-robot popularisées par SayCan de Google (2022) et les travaux RT-2 et OpenVLA, qui ont démontré qu'un modèle de langage peut servir de planificateur de haut niveau pour un robot. La spécificité ici est le découplage explicite du raisonnement spatial dans un sous-module dédié, plutôt que de tout faire porter au modèle principal, une direction cohérente avec les limites documentées des VLA (Vision-Language-Action models) sur les tâches de placement précis. Aucun partenaire industriel ni calendrier de déploiement n'est communiqué ; l'étape suivante logique serait une validation sur robot réel dans un contexte de service structuré.

Dossier arXiv cs.RO — page 10

Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM

IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique

Navigation multimodale par apprentissage par renforcement multi-agents

Contrôle anti-enchevêtrement par topologie pour robots souples

SwarmCoDe : cadre de co-conception évolutif pour essaims de robots hétérogènes par spéciation dynamique

Génie logiciel pour la robotique auto-adaptative : un programme de recherche

Emballage dans des contenants partiellement remplis par contact

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Sûreté par invariance, vivacité par raffinement : contrats hétérogènes pour la co-conception du contrôle multicouche

Contrôle neuronal : l'apprentissage adjoint par contraintes d'équilibre

Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède

Commutation de raideur par multistabilité

Capteur cutané conforme pour la cartographie en temps réel de la forme

Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Faut-il vraiment réinitialiser immédiatement ? Repenser la gestion des collisions pour une navigation robotique efficace

Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative

VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable

Forces d'interaction et charges internes dans les manipulateurs parallèles à actionnement redondant

Planification robotique et gestion de situations par perception active

ImagineNav++ : piloter des modèles vision-langage comme navigateurs incarnés par imagination de scènes

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS

Enchevêtrement stochastique de tentacules origami déterministes pour la préhension robotique universelle

IA incarnée : une méthode multimodale intégrant la perception de profondeur pour la compréhension référentielle

STAR-Filter : approximation convexe efficace de l'espace libre par filtrage d'ensembles étoilés en environnements bruités

Diffusion hybride pour la planification symbolique et continue simultanée

EvolvingAgent : un agent à curriculum auto-évolutif avec modèle du monde continu pour les tâches à long horizon

Conception de processus par personas pour des environnements de travail humain-robot inclusifs pour les personnes en situation de handicap

IA incarnée et création artistique : Alter-Art, un robot avatar pour explorer l'art

Remise d'objet robot-humain : étude comparative sur l'orientation et la direction d'approche adaptatives

Analyse cinématique des degrés de liberté de la paume pour améliorer l'opposabilité du pouce dans les mains robotiques

ATRS : découpage adaptatif de trajectoires via une politique neuronale partagée pour l'optimisation parallèle

Prédiction efficace de gestes iconiques tenant compte des émotions pour les robots en co-parole

IA stratifiée et topologique pour la coordination à longue portée (STALC)

Planification VLA à horizon étendu par conditionnement sur traces

JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique

Apprentissage de l'assemblage tenon-mortaise par désassemblage visuo-tactile

Cadre cinématique pour évaluer les configurations de pincement en robotique, sans modèle d'objet ni de contact

Régulateur quadratique linéaire latent pour les tâches de contrôle robotique

Estimation de la présence humaine par vision pour améliorer la sécurité et l'efficacité des AMR en entrepôt industriel

DART : commande prédictive augmentée par apprentissage pour la manipulation bi-bras non préhensile

Actionnement par multiplexage temporel dans les bras à tendons : conception légère et tolérance aux pannes

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

Actionneurs magnétiques bio-inspirés capables de pousser, tirer, ramper et saisir

Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique

Système de vision par projection de franges pour le démontage autonome de disques durs

Les gens apprécient-ils un entraîneur robot ? Étude de cas avec Snoopie le Pacerbot

GIST : extraction de connaissances multimodales et ancrage spatial par topologie sémantique intelligente