Dossier arXiv cs.RO — page 8

568 articles · page 8 sur 12

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

351arXiv cs.RO RechercheOpinion

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

Une équipe de chercheurs a publié sur arXiv en mai 2026 (arXiv:2605.08571) un cadre théorique baptisé BEACON -- acronyme de Best-Effort Adaptation for Cross-Domain Co-Training -- destiné à entraîner des politiques robotiques génératives lorsque les données dans le domaine cible sont rares. L'approche repose sur un mécanisme de pondération par importance : plutôt que de mélanger naïvement des démonstrations provenant de domaines sources abondants (simulation, autres environnements) avec un faible nombre de démonstrations réelles, BEACON apprend simultanément une politique visuomotrice basée sur la diffusion et des poids par échantillon source qui minimisent une fonction objectif garantissant la généralisation sur le domaine cible. Pour rendre cela praticable sur des séquences de haute dimension, les auteurs développent des estimateurs de divergence à l'échelle de l'instance, des mises à jour alternées stochastiques, et une extension multi-sources capable de pondérer des domaines sources hétérogènes. L'enjeu est directement lié au problème du sim-to-real gap, l'un des verrous principaux de la robotique de manipulation : collecter des démonstrations téléopérées dans le monde réel reste coûteux et lent, tandis que la simulation génère des données à bas coût mais au prix d'un écart de distribution souvent fatal au déploiement. BEACON montrerait, selon les auteurs, des gains de robustesse et d'efficacité de données par rapport à trois baselines majeures -- entraînement sur cibles seules, co-entraînement à ratio fixe, et alignement de features explicite -- dans des configurations sim-to-sim, sim-to-real et manipulation multi-sources. Le résultat le plus contre-intuitif est qu'en l'absence de tout objectif d'alignement explicite, BEACON produit néanmoins un alignement de représentations comme effet émergent de la pondération par divergence. Les auteurs ne fournissent pas de taux de réussite précis dans l'abstract, ce qui limite la comparaison directe avec des benchmarks publiés. Ce travail s'inscrit dans une vague de recherches sur le transfert de politiques entre domaines, portée notamment par des méthodes comme RoboAgent, DROID, ou les approches VLA (vision-language-action) de Physical Intelligence (Pi-0) et Google DeepMind (GR00T N2), qui cherchent elles aussi à tirer parti de données hétérogènes à grande échelle. Là où ces dernières misent sur des architectures généralistes entraînées sur des corpus massifs, BEACON propose un angle complémentaire et plus frugal : exploiter intelligemment des sources existantes sans disposer de millions de démonstrations. Le code et les expériences n'étant pas encore publics, il reste à confirmer si les résultats tiennent sur des tâches de manipulation réelle complexes hors du cadre contrôlé des évaluations présentées.

Dossier arXiv cs.RO — page 8

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Traversée prudente de graphes à coûts d'arêtes stochastiques et corrélés pour une mobilité planétaire globale sûre

Correspondance de flux action-à-action

Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé

Apprentissage par renforcement modulaire pour essaims coopératifs

AnyPos : des actions automatisées indépendantes de la tâche pour la manipulation bimanuele

Préhension optimisée dans les robots à pattes : une approche par apprentissage profond pour la loco-manipulation

Cartographie topologique spatiale-sémantique en ligne robuste aux changements

Décomposer et recomposer : inférer de nouvelles compétences robotiques à partir des capacités existantes

Affection robotique : opportunités de l'IA haptique pour le toucher social des robots par approche multi-deep-learning

ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs

FlexiTac : une solution tactile open source, économique et modulaire pour les systèmes robotiques

CLAMP : préentraînement par apprentissage contrastif multi-vues 3D pour la manipulation robotique conditionnée par l'action

Localisation de robots par correspondance hiérarchique de graphes de scène avec apprentissage automatique et cartes préalables

ATLAS : un outil d'annotation pour la segmentation d'actions robotiques à long horizon

STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique

CodeGraphVLP : code comme planificateur et graphe sémantique d'état pour les modèles VLA non-markoviens

Un cadre d'apprentissage autonome en boucle fermée piloté par LLM pour robots confrontés à des tâches inédites en environnement ouvert

Apprendre l'apesanteur : imiter des mouvements non auto-stabilisants sur un robot humanoïde

État de l'art de la robotique à pattes en environnements non inertiels : passé, présent et futur

Système de navigation vision-langage incarné et déployable avec cognition hiérarchique et exploration contextuelle

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes

Les modèles du monde au service d'interventions endovasculaires robotisées autonomes et sûres

Manipulation bimanuelles par robot via apprentissage en contexte multi-agents

VTouch++ : jeu de données multimodal combinant vision et retour tactile pour la manipulation bimanuelle

Cortex 2.0 : ancrer les modèles du monde dans les déploiements industriels réels

ETac : un framework léger de simulation tactile pour apprendre la manipulation dextère

PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

SynAgent : manipulation humanoïde coopérative généralisable par synergie d'agents, du solo au coopératif

De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé

EmbodiedLGR : un graphe léger pour la mémoire sémantique-spatiale des agents robotiques

XEmbodied : un modèle fondation aux indices géométriques et physiques renforcés pour les environnements incarnés à grande échelle

OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste

2D ou 3D : qui gouverne la saillance dans les modèles VLA ? Un cadre d'élagage de tokens en trois étapes avec conscience de la saillance modale

Rule-VLN : unifier perception et respect des règles par raisonnement sémantique et rectification géométrique

AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA

L'importance du sens du toucher pour l'apprentissage par imitation : une étude de cas sur l'allumage d'allumettes par robot

Atelier interdisciplinaire sur l'intelligence mécanique : rapport de synthèse

ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets

NeuroMesh : un framework d'inférence neurale unifié pour la collaboration multi-robots décentralisée

Mémoire à long terme pour agents VLA dans l'exécution de tâches en environnement ouvert

Planification de trajectoires multi-objectifs pour flottes de robots hétérogènes par échantillonnage

Transfert de compétences entre géométries différentes en une seule démonstration par décomposition en parties

COVER : planification de mouvement en temps fixe avec cartes à couverture vérifiée en environnements semi-statiques

De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables