Dossier arXiv cs.RO — page 9

568 articles · page 9 sur 12

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

401arXiv cs.RO RechercheOpinion

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Une équipe de recherche a publié en mai 2026 sur arXiv (référence 2605.08774) ProcVLM, un modèle vision-langage conçu pour générer des signaux de récompense denses dans les tâches de manipulation robotique à longue durée. Contrairement aux approches existantes qui s'appuient sur des étiquettes de succès en fin de trajectoire ou sur une interpolation temporelle, ProcVLM ancre son estimation de progression dans la structure procédurale de la tâche et dans les changements visuels au sein de chaque sous-étape. Le modèle adopte un paradigme "raisonner avant d'estimer" : il infère d'abord les actions atomiques restantes avant de chiffrer l'avancement global. Pour l'entraîner à grande échelle, les auteurs ont constitué ProcCorpus-60M, un corpus de 60 millions de trames annotées issues de 30 jeux de données embodied, dont est dérivé ProcVQA, un benchmark couvrant l'estimation de progression, la segmentation d'actions et la planification prospective. L'enjeu est direct pour les intégrateurs et les équipes travaillant sur la manipulation longue durée, comme l'assemblage multi-étapes, le conditionnement ou la maintenance industrielle. Les modèles de récompense classiques, en confondant temps écoulé et progression réelle, sont incapables de détecter stagnation, étapes manquées ou états d'échec intermédiaires. ProcVLM produit des estimations discriminantes intra-trajectoire, ce qui en fait un composant plus utile pour la policy optimization guidée par récompense. Les expériences publiées montrent des gains mesurés sur ProcVQA et sur des benchmarks de modèles de récompense face aux baselines représentatives. Ces résultats restent néanmoins dans le cadre de la simulation et de l'évaluation hors-ligne : aucun déploiement sur robot physique n'est annoncé. Ce travail s'inscrit dans une tendance de fond visant à améliorer la qualité des signaux de supervision pour les modèles vision-langage-action (VLA), un chantier central depuis la publication de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le problème du reward shaping dans les tâches manipulatoires longues est un verrou bien identifié : le sim-to-real gap se double d'un gap supervision-comportement quand les étiquettes de succès sont trop parcimonieuses. ProcVLM propose une réponse méthodologique à ce second verrou via un corpus de supervision synthétique à 60 millions de trames, mais demeure à ce stade un preprint académique sans validation sur hardware réel annoncée. La page projet (procvlm.github.io) est en ligne, sans date de release du code ou des données précisée.

Dossier arXiv cs.RO — page 9

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

TouchDrive : interface tactile sans électronique pour l'aide à la préhension

Bon modèle au bon moment : commande prédictive en cascade de fidélité pour la marche bipède en temps réel

Calibration optimale tenant compte de l'incertitude pour le problème AX=YB

Du langage à la logique : une architecture théorique pour la navigation sécurisée fondée sur les modèles VLM

AEROS : une architecture mono-agent avec modules de capacités incarnées

FUS3DMaps : cartographie sémantique à vocabulaire ouvert par fusion 3D de couches voxel et instance

RoboAlign-R1 : alignement multimodal des récompenses pour les modèles du monde vidéo robotique

Décomposer et recomposer : inférer de nouvelles compétences robotiques à partir des capacités existantes

Affection robotique : opportunités de l'IA haptique pour le toucher social des robots par approche multi-deep-learning

Estimation de pose 6D temporellement cohérente des objets pour le contrôle robotique

SBAMP : planification de mouvement adaptative par échantillonnage

MorphIt : approximation sphérique flexible de la morphologie robotique pour l'adaptation guidée par représentation

Planification de trajectoire par retour d'état pour systèmes non linéaires stochastiques avec spécifications en logique temporelle de signal

Améliorer la généralisabilité de l'apprentissage par renforcement en robotique via l'analyse SHAP des algorithmes et hyperparamètres

Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements

Commande quasi-statique d'une tige de Cosserat discrète

Filtre de sécurité en ligne pour la manipulation d'objets déformables avec des opérateurs neuronaux sans horizon fixe

E²DT : Decision Transformer efficace avec échantillonnage guidé par l'expérience pour la manipulation robotique

MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence

Graphes de scènes spatio-temporels prédictifs pour scènes semi-statiques

Agent à base d'affordances : orchestration de compétences avec vérification intégrée

MotuBrain : un modèle du monde avancé pour le contrôle robotique

Optimisation paramétrique co-conception de mains dextériques par approche fonctionnelle

Modélisation du monde centrée sur les événements avec récupération augmentée par mémoire pour la prise de décision en IA incarnée

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

IKSPARK : cinématique inverse avec détection d'obstacles par optimisation convexe

Modélisation unifiée des actions dans un monde 4D à partir de vidéos avec débruitage asynchrone

Génération 3D pour l'IA incarnée et la simulation robotique : une synthèse

Planificateurs de préhension 2D et 3D pour la pince asymétrique GET

DC-Ada : adaptation décentralisée des capteurs par récompense seule pour des équipes multi-robots hétérogènes

HiPAN : navigation hiérarchique adaptative à la posture pour robots quadrupèdes en environnements 3D non structurés

LeHome : un environnement de simulation pour la manipulation d'objets déformables en contexte domestique

dWorldEval : évaluation évolutive de politiques robotiques via un modèle du monde à diffusion discrète

Modèle VLA GazeVLA : apprendre l'intention humaine pour la manipulation robotique

Conception, modélisation et évaluation expérimentale d'un mécanisme d'abduction-adduction du poignet à câbles pour exosquelette du membre supérieur

X2-N : robot humanoïde transformable hybride roues-jambes à double mode de locomotion et manipulation

FingerEye : capteur vision-tactile continu et unifié pour la manipulation dextère

Apprentissage du contrôle multimodal du corps entier pour robots humanoïdes réels

Caractérisation expérimentale des systèmes de blocage mécanique par empilement de couches

Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues

Mémoire plutôt que cartes : localisation d'objets 3D sans reconstruction

UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde

Nouveaux algorithmes pour la construction de variétés de contact régulièrement différentiables et vectorisables

Détection structurelle en temps réel pour la navigation intérieure par LiDAR 3D avec images en vue aérienne

Navigation en foule par LiDAR avec représentation des groupes en bordure de champ de vision

Raffinement de démonstrations accélérées par contrôle itératif incrémental pour l'apprentissage par imitation à contact riche

LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation

Amélioration de la reconstruction de surfaces en verre par estimation de profondeur pour la navigation robotique

Les limites de l'évolution lamarckienne face à la pression de nouveauté morphologique