Dossier Physical Intelligence — π0 — page 6

339 articles · page 6 sur 7

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

251arXiv cs.RO RechercheOpinion

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Une équipe de recherche a publié en mai 2026 sur arXiv (référence 2605.08774) ProcVLM, un modèle vision-langage conçu pour générer des signaux de récompense denses dans les tâches de manipulation robotique à longue durée. Contrairement aux approches existantes qui s'appuient sur des étiquettes de succès en fin de trajectoire ou sur une interpolation temporelle, ProcVLM ancre son estimation de progression dans la structure procédurale de la tâche et dans les changements visuels au sein de chaque sous-étape. Le modèle adopte un paradigme "raisonner avant d'estimer" : il infère d'abord les actions atomiques restantes avant de chiffrer l'avancement global. Pour l'entraîner à grande échelle, les auteurs ont constitué ProcCorpus-60M, un corpus de 60 millions de trames annotées issues de 30 jeux de données embodied, dont est dérivé ProcVQA, un benchmark couvrant l'estimation de progression, la segmentation d'actions et la planification prospective. L'enjeu est direct pour les intégrateurs et les équipes travaillant sur la manipulation longue durée, comme l'assemblage multi-étapes, le conditionnement ou la maintenance industrielle. Les modèles de récompense classiques, en confondant temps écoulé et progression réelle, sont incapables de détecter stagnation, étapes manquées ou états d'échec intermédiaires. ProcVLM produit des estimations discriminantes intra-trajectoire, ce qui en fait un composant plus utile pour la policy optimization guidée par récompense. Les expériences publiées montrent des gains mesurés sur ProcVQA et sur des benchmarks de modèles de récompense face aux baselines représentatives. Ces résultats restent néanmoins dans le cadre de la simulation et de l'évaluation hors-ligne : aucun déploiement sur robot physique n'est annoncé. Ce travail s'inscrit dans une tendance de fond visant à améliorer la qualité des signaux de supervision pour les modèles vision-langage-action (VLA), un chantier central depuis la publication de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le problème du reward shaping dans les tâches manipulatoires longues est un verrou bien identifié : le sim-to-real gap se double d'un gap supervision-comportement quand les étiquettes de succès sont trop parcimonieuses. ProcVLM propose une réponse méthodologique à ce second verrou via un corpus de supervision synthétique à 60 millions de trames, mais demeure à ce stade un preprint académique sans validation sur hardware réel annoncée. La page projet (procvlm.github.io) est en ligne, sans date de release du code ou des données précisée.

Dossier Physical Intelligence — π0 — page 6

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Video Friday : l'IA confère aux mains robotiques une dextérité humaine

SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée

Prix RBR50 2026 de l'innovation en robotique

Du langage à la logique : une architecture théorique pour la navigation sécurisée fondée sur les modèles VLM

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Le robot humanoïde Agibot A2 partage le tapis rouge du Met Gala avec des célébrités

Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède

Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples

Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Anticipation-VLA : résolution de tâches incarnées à long horizon par génération de sous-objectifs

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Agent à base d'affordances : orchestration de compétences avec vérification intégrée

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative

Attention spatiale stéréo multi-étapes pour manipulation mobile en temps réel sous variations d'échelle et perturbations

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

Modélisation du monde centrée sur les événements avec récupération augmentée par mémoire pour la prise de décision en IA incarnée

Planification robotique et gestion de situations par perception active

ImagineNav++ : piloter des modèles vision-langage comme navigateurs incarnés par imagination de scènes

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS

Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?

IA incarnée : une méthode multimodale intégrant la perception de profondeur pour la compréhension référentielle

Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

Modèle VLA GazeVLA : apprendre l'intention humaine pour la manipulation robotique

Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense

Robot Talk, épisode 153 : des robots inspirés de l'origami, avec Chenying Liu

Planification VLA à horizon étendu par conditionnement sur traces

Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels

OmniUMI : vers un apprentissage robotique ancré dans le monde physique par interaction multimodale alignée sur l'humain

UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

Raffinement de démonstrations accélérées par contrôle itératif incrémental pour l'apprentissage par imitation à contact riche

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

Visual-RRT : planification de chemins vers des objectifs visuels par rendu différentiable

La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée

Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants

GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale

RBR50 Gala fait son retour au Robotics Summit &amp; Expo 2026

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Maniformer lance une plateforme de données d'IA physique tout-en-un pour préparer l'ère de l'AGI

Amazon rachète Fauna Robotics pour lancer son premier robot humanoïde domestique

RBR50 Gala fait son retour au Robotics Summit & Expo 2026