Mise en cache adaptative par blocs pour accélérer les p…

BlockVLA : accélérer les modèles VLA autorégressifs par affinage avec diffusion par blocs

56

1arXiv cs.RO

BlockVLA : accélérer les modèles VLA autorégressifs par affinage avec diffusion par blocs

Une équipe de recherche propose BlockVLA, un framework publié en preprint sur arXiv (identifiant 2605.13382, mai 2026) qui adapte des modèles Vision-Language-Action (VLA) autorégressifs préentraînés en politiques de diffusion discrète efficaces via un paradigme de "diffusion par blocs". Plutôt que de décoder les tokens d'action séquentiellement, BlockVLA maintient les dépendances autorégressives au niveau des blocs tout en activant un débruitage parallèle au sein de chaque bloc. Ce mécanisme permet la réutilisation du cache KV (key-value) sur les blocs complétés, réduisant le coût des itérations de débruitage (NFE, number of function evaluations) sans sacrifier la cohérence causale globale. Évalué sur les benchmarks LIBERO et SimplerEnv, le modèle atteint une accélération d'inférence de 3,3x par rapport aux baselines de diffusion discrète standards, et converge significativement plus vite à l'entraînement, avantage particulièrement marqué sur les tâches longues et complexes. Ce résultat touche directement l'un des verrous opérationnels du déploiement industriel des VLA : la latence d'inférence. Un modèle autorégressif classique décode les tokens d'action un à un, imposant des délais incompatibles avec un contrôle robotique haute fréquence. La réduction du budget de calcul à l'entraînement est également notable d'un point de vue pratique : elle compresse les cycles d'adaptation d'un modèle à une nouvelle tâche, ce qui peut peser dans les décisions d'intégration. Cela dit, les évaluations restent cantonnées à des environnements simulés standard, sans validation en boucle fermée sur robot physique, ce qui laisse ouverte la question du sim-to-real gap. BlockVLA s'inscrit dans un mouvement plus large visant à rendre les grands VLA exploitables en conditions réelles. Des modèles comme OpenVLA, Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA ont démontré des capacités généralisées impressionnantes, mais restent freinés par leur vitesse d'inférence. De l'autre côté, les politiques de diffusion continues, popularisées par Diffusion Policy (Chi et al., 2023), offrent une génération parallèle mais peinent à capitaliser sur les poids de backbone de langage préentraînés à grande échelle. BlockVLA tente de combler ce fossé via un fine-tuning ciblé sur un backbone AR existant, sans nécessiter un réentraînement complet. Il s'agit à ce stade d'un preprint académique sans déploiement annoncé sur hardware réel, mais les gains mesurés sur benchmarks de référence en font une contribution à suivre pour les équipes travaillant sur le déploiement haute cadence de politiques visuomotrices.

RechercheOpinion

1 source

Extraire la récompense cachée dans les politiques de diffusion

43

2arXiv cs.RO

Extraire la récompense cachée dans les politiques de diffusion

EnergyFlow, preprint soumis en mai 2026 sur arXiv (2605.00623), établit un lien formel entre politiques de diffusion et apprentissage par renforcement inverse (IRL). L'idée centrale : paramétrer une fonction d'énergie scalaire dont le gradient définit le champ de débruitage. Les auteurs prouvent que sous l'hypothèse d'optimalité à entropie maximale, la fonction de score apprise par denoising score matching récupère exactement le gradient de la soft Q-function de l'expert, permettant d'extraire un signal de récompense sans entraînement antagoniste. Sur des tâches de manipulation robotique en simulation, EnergyFlow atteint des performances d'imitation à l'état de l'art et produit un signal de récompense utilisable pour affiner la politique par RL en aval, surpassant GAIL, AIRL et les approches par vraisemblance. Le code est disponible sur GitHub. L'enjeu est directement lié à l'essor des politiques de diffusion (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA-OFT) qui dominent les benchmarks de manipulation mais restent opaques sur la récompense implicite qu'elles optimisent. Sans signal explicite, améliorer une telle politique par RL impose de collecter de nouvelles démonstrations coûteuses. EnergyFlow propose un raccourci : la contrainte de conservativité du champ de débruitage est prouvée réduire la complexité de l'espace d'hypothèses et resserrer les bornes de généralisation hors distribution (OOD). La contrainte structurelle nécessaire à l'extraction de récompense agit simultanément comme biais inductif bénéfique pour la généralisation. Les résultats restent toutefois confinés à la simulation ; une validation sur hardware physique n'est pas encore présentée. Ce travail s'inscrit dans l'effort de dépasser les méthodes adversariales type GAIL, instables par nature en raison du jeu minimax, en exploitant la connexion mathématique entre modèles à base d'énergie (EBM) et processus de diffusion. Les concurrents directs sont GAIL, AIRL et MaxEntIRL. Les suites logiques incluent l'intégration dans des pipelines de fine-tuning de politiques pré-entraînées à grande échelle et la validation sur robot réel, deux conditions que le marché exigera avant toute adoption opérationnelle.

RechercheOpinion

1 source

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

35

3arXiv cs.RO

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper

1 source

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

37

4arXiv cs.RO

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Des chercheurs ont publié sur arXiv (identifiant 2509.17244) MADP (Multi-Agent Diffusion Policy), une approche basée sur les modèles de diffusion pour la coordination décentralisée de nuées de robots. Le principe : chaque robot génère ses actions en échantillonnant depuis une distribution jointe haute dimension, en conditionnant sa politique sur une représentation fusionnée de ses propres observations et des embeddings perceptuels reçus de ses pairs via communication locale. L'équipe évalue MADP sur le problème de couverture de terrain (coverage control), un benchmark canonique en robotique multi-agent où un groupe de robots holonomes doit couvrir efficacement un espace selon des fonctions de densité d'importance variables. La politique est entraînée par imitation learning à partir d'un expert omniscient (dit "clairvoyant"), et le processus de diffusion est paramétré par une architecture de transformer spatial permettant l'inférence décentralisée, sans coordinateur central. Les résultats présentés sont exclusivement issus de simulations. L'intérêt technique principal tient à la nature des modèles de diffusion : contrairement aux politiques classiques qui produisent une action déterministe ou une distribution gaussienne unimodale, MADP peut capturer les interdépendances entre les actions de plusieurs agents dans une distribution multi-modale complexe. Les expériences montrent que le modèle généralise à travers des densités d'agents variables et des environnements non vus à l'entraînement, surpassant les baselines état de l'art. Pour un intégrateur ou un décideur industriel, cela signifie en théorie des essaims plus robustes aux variations de flotte, aux défaillances partielles et aux reconfiguration dynamiques, sans retraining complet. La robustesse au nombre d'agents est particulièrement notable : c'est un verrou historique des approches d'apprentissage multi-agent. Le problème de couverture de terrain occupe les équipes de robotique multi-agent depuis les années 2000, avec des solutions allant de l'optimisation par diagrammes de Voronoï aux algorithmes de reinforcement learning décentralisé. L'application des modèles de diffusion aux politiques robotiques est un domaine en essor depuis les travaux sur les diffusion policies (Pearce et al., 2023) et leur extension dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures ACT. MADP en étend la logique au cas multi-agent, encore peu exploré dans la littérature. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce preprint ; les prochaines étapes naturelles seraient une validation sur hardware réel et l'extension à des tâches au-delà de la couverture pure.

RecherchePaper

1 source

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

À lire aussi

BlockVLA : accélérer les modèles VLA autorégressifs par affinage avec diffusion par blocs

Extraire la récompense cachée dans les politiques de diffusion

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture