Dossier arXiv cs.RO — page 6

568 articles · page 6 sur 12

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

251arXiv cs.RO IA physiqueOpinion

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Une équipe de chercheurs a publié sur arXiv (référence 2410.14022v2) une architecture de contrôle combinant des modèles Vision-Langage-Action (VLA) à grande échelle avec des politiques d'imitation légères pour la manipulation dextère multi-doigts. Le système repose sur une main robotique anthropomorphique propriétaire à 13 degrés de liberté (DOF), dotée d'une compliance mécanique modulable au niveau des doigts. Le cœur de l'approche est un contrôleur à commutation piloté par événements : le VLA assure la planification de haut niveau à partir d'instructions en langage naturel, tandis que des politiques dextères légères, entraînées par imitation sur des sous-tâches spécifiques, prennent le relais pour l'exécution précise. Les transitions entre les deux niveaux sont déclenchées par des signaux d'événement que le VLA apprend à prédire lui-même après fine-tuning sur un volume minimal de démonstrations. Ce travail s'attaque à un verrou bien identifié du secteur : les VLA (Pi-0, OpenVLA, GR00T N2) excellent en planification multi-tâches mais opèrent typiquement avec des préhenseurs pince à 2 DOF, insuffisants pour la manipulation fine. À l'inverse, les politiques d'imitation pour mains multi-doigts restent cantonnées à des tâches étroitement définies, sans généralisation par langage. En montrant que la compliance matérielle, soit la capacité d'une main à absorber passivement les perturbations de contact, améliore la stabilité sans complexifier le contrôle logiciel, les auteurs fournissent un argument concret en faveur de la co-conception hardware-software, encore trop souvent négligée dans la course au sim-to-real. La modularité revendiquée, à savoir l'ajout de nouvelles compétences ou le changement de main sans réentraîner le VLA, constitue une propriété potentiellement intéressante pour les intégrateurs industriels, même si les conditions d'évaluation restent strictement laboratoire. L'approche s'inspire de la "two-channel hypothesis" du contrôle moteur humain, qui distingue la planification corticale des réflexes spinaux. Sur le plan concurrentiel, elle se positionne face aux travaux de Physical Intelligence (Pi-0), de Google DeepMind sur la manipulation dextère, et aux architectures ACT ou Diffusion Policy appliquées à des mains haute-DOF. Ni institution d'appartenance ni métriques de performance chiffrées ne figurent dans l'abstract disponible, ce qui limite toute évaluation externe sérieuse de la contribution. La prochaine étape crédible serait une validation sur des benchmarks standardisés comme YCB et une comparaison directe avec des mains tierces commerciales, pour confirmer que la cross-embodiment claim tient hors du cadre contrôlé des auteurs.

Dossier arXiv cs.RO — page 6

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Prise de décision hiérarchique intégrée pour la planification et le contrôle en cinématique inverse

Modèle JODA : dynamique articulaire composable pour objets articulés

Modélisation de robots continus par Flow Matching conditionné sur l'action

Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente

MemCompiler : une mémoire conditionnée par l'état pour les agents IA physiques, sans injection

Drifting Field Policy : une politique générative en une étape via le flux de gradient de Wasserstein

IA hybride logique temporelle pour une collaboration humain-essaim fiable en environnements complexes

DexSynRefine : synthèse et affinement des mouvements humain-objet pour des actions robotiques dextériques réalisables

IA incarnée : un compromis nécessaire entre confidentialité et utilité

Paramétrage adaptatif des scans pour l'inspection robotique par plongements vision-langage et calcul hyperdimensionnel

Phone2Act : système de téléopération économique et universel pour la collecte de données VLA à grande échelle

NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques

Organisation robotique de bureau : une approche multi-primitive pour manipuler des objets hétérogènes via les contraintes environnementales

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

Apprendre à piloter en quelques minutes : Infoprop Dyna sur le Mini Wheelbot

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

Cartes de coût conditionnées à la tâche pour la locomotion sur pattes

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

Multiplexeur mécanique à embrayage électrostatique avec capacité de force accrue

FreeOcc : prédiction d'occupation en vocabulaire ouvert sans entraînement pour l'IA incarnée

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

TouchGuide : pilotage en temps réel des politiques visuomotrices par guidage tactile

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

FASTER : repenser les VLA de flux en temps réel

Relier la planification discrète à l'exécution continue pour les robots redondants

R2RGEN : génération de données 3D réel-vers-réel pour une manipulation spatialement généralisée

Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets

Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique

ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle

Navigating l'encombrement : planification bi-niveau par points de passage pour systèmes multi-robots

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies

Agent de sécurité guidé par LLM pour la robotique embarquée avec une architecture perception-calcul-contrôle conforme ISO

Transformer de navigation multimodal sensible à l'incarnation physique

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Politique d'accès mémoire contrôlé

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

Distillation de représentations tactiles simulées pour la manipulation dextérique (PTLD)

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

Filtre de Kalman étendu itératif invariant pour l'odométrie des robots quadrupèdes

VeriGraph : graphes de scène pour la vérification de plans de robots