Dossier arXiv cs.RO — page 2

568 articles · page 2 sur 12

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

51arXiv cs.RO IA physiqueActu

NavOL : une politique de navigation par apprentissage par imitation en ligne

NavOL est une approche d'apprentissage en ligne par imitation pour les politiques de navigation robotique, présentée dans un preprint arXiv (2605.11762) en mai 2026. Le système repose sur une politique de diffusion préentraînée qui projette des observations locales vers des waypoints futurs. Son apprentissage s'organise en boucle rollout-mise à jour : en phase de rollout, la politique agit dans un simulateur et interroge un planificateur global disposant d'un accès privilégié à l'environnement complet pour obtenir des segments de trajectoire optimaux comme labels de référence ; en phase de mise à jour, la politique s'entraîne sur ces paires observation-trajectoire collectées en ligne. Construit sur IsaacLab avec rendu parallèle haute fidélité et randomisation de domaine (pose de caméra, paires départ-arrivée), le système s'entraîne simultanément sur 50 scènes sur 8 GPU RTX 4090, collectant plus de 2 000 trajectoires nouvelles par heure, chacune comptant en moyenne plus de 400 pas. Les auteurs introduisent également un benchmark de navigation visuelle en intérieur avec des positions de départ et d'arrivée prédéfinies, conçu pour évaluer la généralisation zéro-shot. NavOL s'attaque à deux blocages classiques de la navigation robotique autonome : le décalage de distribution de l'imitation hors ligne, qui génère des erreurs composées lors du déploiement réel, et la nécessité de concevoir des fonctions de récompense pour l'apprentissage par renforcement. En entraînant la politique sur ses propres rollouts explorés plutôt que sur un corpus statique, le système réduit ce gap de manière plus systématique. Le volume de données généré automatiquement (2 000+ trajectoires/heure) et les gains de performance cohérents sur le benchmark NavDP ainsi que sur le benchmark propriétaire des auteurs indiquent que l'approche pourrait remplacer des pipelines de collecte de données expertes coûteux pour les intégrateurs travaillant sur la navigation en intérieur structuré. Les politiques de navigation visuelle pour robots mobiles constituent un champ actif, avec des approches récentes comme les VLA (Vision-Language-Action models) et les politiques de diffusion qui cherchent à généraliser sans reward engineering. NavOL s'inscrit dans cette dynamique en exploitant IsaacLab, le simulateur d'NVIDIA, pour un entraînement massivement parallèle requérant 8 GPU RTX 4090 haut de gamme. Un point de vigilance : les expériences en conditions réelles mentionnées dans le papier restent peu détaillées dans le résumé, et la performance en simulation peut diverger significativement des résultats terrain, un écart (sim-to-real gap) que ce type d'approche prétend atténuer sans nécessairement le supprimer. Les prochaines étapes naturelles concerneraient l'évaluation sur des environnements extérieurs plus ouverts et l'intégration avec des VLA pour des tâches impliquant un raisonnement sémantique plus riche.

Dossier arXiv cs.RO — page 2

NavOL : une politique de navigation par apprentissage par imitation en ligne

Suivi de main par vision pour la manipulation robotique via cinématique inverse

DexTwist : téléopération en réalité mixte pour la saisie en torsion avec une main dextérique

Gaussian Splatting anticipatif pour la représentation 3D prédictive en prise-et-dépose guidée par le langage

DarkQA : évaluation des modèles vision-langage sur la compréhension visuelle primitive en intérieur faiblement éclairé

PRISM : planification et raisonnement intentionnel dans des environnements simulés à IA incarnée

Trajectoire d'abord : un programme d'entraînement pour découvrir des politiques diversifiées

Nautilus : de l'invite textuelle à l'apprentissage robotique prêt à l'emploi

Des futurs imaginés aux actions exécutables : mélange d'actions latentes pour la manipulation robotique

Optimisation distribuée de graphe de poses par dynamique riemannienne continue

Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots

EvoNav : conception évolutionnaire de fonctions de récompense pour la navigation robotique avec des grands modèles de langage

Remarques sur le clonage stochastique et le filtrage à états différés

Intégration de contraintes environnementales dans la préhension de matériaux flexibles type papier avec une pince souple

De la réaction à l'anticipation : un graphe de tâches à base d'agents pour la reprise proactive en manipulation robotique

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Apprentissage continu par démonstration : un modèle à dynamique stable généré par hyperréseau

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

Planification d'inspection évolutive par programmation linéaire en nombres entiers à base de flots

Vers une prédictibilité fiable du transfert simulation-réel pour la locomotion quadrupède robuste à base de MoE

DexWrist : un poignet robotique pour la manipulation en espace contraint et dynamique

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

PECMAN : navigation collaborative multi-agents par perception en environnements inconnus

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Quand un robot surpasse l'humain : apprendre auprès de démonstrateurs contraints

MOBIUS : un robot bipède multimodal capable de marcher, ramper, grimper et rouler

Auto-cohérence guidée par la géométrie pour l'IA physique

IMPACT : Lagrangien augmenté à ensemble actif implicite pour l'optimisation rapide de trajectoires à contact implicite

Décision séquentielle par apprentissage multi-échelle pour la préparation de commandes en robotique de manutention

Politique de flux stochastique guidé par interpolation

Locomotion humanoïde de bout en bout apprise à partir de pixels bruts

Apprentissage de compétences d'attaquant agile pour robots humanoïdes footballeurs à partir de capteurs bruités

Préhension volumétrique équivariante

Retrieve-then-Steer : mémoire de succès en ligne pour l'adaptation à l'inférence des VLA génératifs

UNCOM : compréhension de commandes zéro-shot sensible au contexte pour scénarios de table

Relocalisation globale 3D hiérarchique hors ligne/en ligne avec LiDAR synthétique et recherche par descripteurs

Large Video Planner permet un contrôle robotique généralisable

Politique visuo-tactile dextérique avec ancrage génératif par contact

Gaze4HRI : benchmark zero-shot des réseaux de neurones pour l'estimation du regard en interaction humain-robot

AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée

SOAR : optimisation conjointe en temps réel pour l'allocation des commandes et l'ordonnancement des robots mobiles

AnchorD : ancrage métrique de la profondeur monoculaire par graphes de facteurs

Revue complète des modèles du monde pour l'apprentissage robotique

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites