Dossier arXiv cs.RO — page 7

609 articles · page 7 sur 13

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

301arXiv cs.RO RecherchePaper

Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique

Une équipe de chercheurs a publié en mai 2025 sur arXiv (référence 2605.12084) une méthode appelée Quasi-Optimal Experimental Design, ou QOED, visant à résoudre un problème fondamental de l'exploration robotique : comment guider un robot vers les expériences qui lui apprendront réellement quelque chose d'utile ? La méthode repose sur une analyse de l'espace propre de la matrice d'information de Fisher pour identifier les directions de paramètres réellement observables, puis modifie l'objectif d'exploration pour concentrer l'effort sur ces directions tout en atténuant l'influence des paramètres secondaires ("nuisance"). Évaluée sur des tâches de navigation et de manipulation en simulation et en conditions réelles, QOED génère un gain de performance de 35,23 % grâce à la sélection des directions identifiables, et de 21,98 % supplémentaires via la suppression des effets parasites. Intégrée comme objectif d'exploration dans une boucle d'optimisation de politique model-based, elle surpasse les baselines classiques de RL. Ce résultat compte parce qu'il attaque directement le goulot d'étranglement de l'apprentissage actif en robotique : dans les systèmes haute dimension (bras articulés, manipulation dextre, navigation en environnement non structuré), une large fraction des paramètres du modèle est faiblement observable, voire non identifiable. Les méthodes classiques de curiosité ou d'information gain mesurent une incertitude globale sans distinguer ce qui peut être réduit par l'expérience de ce qui ne le peut pas. QOED fournit une approximation à facteur constant de l'objectif idéal théorique, une garantie formelle rare dans ce champ, ce qui lui confère une légitimité au-delà de la démonstration empirique seule. La méthode s'inscrit dans une longue tradition de théorie du design expérimental optimal (OED) issue des statistiques, ici adaptée au cadre RL avec optimisation en ligne. Sur le plan concurrentiel, les approches voisines incluent les méthodes de curiosité bayésienne (type DIAYN ou LEXA) et les objectifs d'information mutuelle comme VIME ou Plan2Explore. QOED se distingue par son ancrage théorique rigoureux et l'explicitation du sous-espace identifiable, deux points que les méthodes heuristiques négligent. Aucun déploiement industriel ni partenaire n'est mentionné : il s'agit à ce stade d'un résultat académique, dont l'intégration dans des pipelines de calibration ou de sim-to-real reste à valider à plus grande échelle.

Dossier arXiv cs.RO — page 7

Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique

Modélisation de robots continus par Flow Matching conditionné sur l'action

EFGCL : apprentissage du mouvement dynamique par curriculum guidé par forces externes, inspiré du spotting

Planification efficace du mouvement multi-robots avec des faisceaux d'arêtes invariants par translation précalculés

Apprentissage par imitation 3D pour la robotique par imagination latente asymétrique et reclassement

Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente

AssemPlanner : un cadre de planification de tâches multi-agents pour les systèmes d'assemblage flexibles

IA hybride logique temporelle pour une collaboration humain-essaim fiable en environnements complexes

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

MemCompiler : une mémoire conditionnée par l'état pour les agents IA physiques, sans injection

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

Utilisation créative d'outils par raisonnement contrefactuel

IA incarnée : un compromis nécessaire entre confidentialité et utilité

Paramétrage adaptatif des scans pour l'inspection robotique par plongements vision-langage et calcul hyperdimensionnel

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques

CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche

Organisation robotique de bureau : une approche multi-primitive pour manipuler des objets hétérogènes via les contraintes environnementales

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes

Extraire la récompense cachée dans les politiques de diffusion

Raisonner en texte et en images : traces de raisonnement vision-langage entrelacées pour la manipulation robotique à long horizon

FreeOcc : prédiction d'occupation en vocabulaire ouvert sans entraînement pour l'IA incarnée

TouchGuide : pilotage en temps réel des politiques visuomotrices par guidage tactile

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

Apprentissage robotique à partir de vidéos humaines : une synthèse

Multiplexeur mécanique à embrayage électrostatique avec capacité de force accrue

RopeDreamer : modèle d'espace d'état récurrent cinématique pour la dynamique des objets linéaires déformables

R2RGEN : génération de données 3D réel-vers-réel pour une manipulation spatialement généralisée

Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets

DM³-Nav : navigation sémantique décentralisée multi-agents, multimodale et multi-objets

Preuve d'un « soi » émergent dans l'apprentissage continu d'un robot

Wiggle and Go! : identification du système pour la manipulation dynamique de corde sans démonstration

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle

Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies

Navigating l'encombrement : planification bi-niveau par points de passage pour systèmes multi-robots

ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

Sécurité dynamique corps entier pour bras robotiques : fonctions de sécurité de Poisson 3D pour filtres de sécurité à base de CBF

VistaBot : manipulation robotique robuste aux points de vue grâce à la synthèse de vues spatio-temporelles

Apprendre la physique à partir de modèles vidéo préentraînés : modèles du monde continus et séquentiels pour la manipulation robotique

Agent de sécurité guidé par LLM pour la robotique embarquée avec une architecture perception-calcul-contrôle conforme ISO

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Politique d'accès mémoire contrôlé

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

VeriGraph : graphes de scène pour la vérification de plans de robots