Dossier Physical Intelligence — π0

363 articles

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

Figure 1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Tous les dossiers →

1arXiv cs.RO IA physiqueOpinion

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate. Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier. π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

Dossier Physical Intelligence — π0

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

Quels sont les facteurs limitants de la navigation vision-langage ?

FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA

Unifier les actions du robot dans le référentiel caméra

Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

SECOND-Grasp : préhension dextérique guidée par le contact sémantique

Quoi ignorer, quoi traiter : affinage par renforcement des modèles VLA robustes aux distracteurs visuels

BlockVLA : accélérer les modèles VLA autorégressifs par affinage avec diffusion par blocs

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile

Modèle du monde multimodal pour interactions physiques : prédictions visuelles et tactiles simultanées pour une précision accrue

TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations

SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai

Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

Correspondance de flux équivariante morphologiquement pour la manipulation mobile bimanuelles

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée

TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

SI-Diff : cadre d'apprentissage pour la recherche et l'insertion haute précision par diffusion dans le domaine des forces

DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

Téléopération en temps réel d'un robot humanoïde par capture de mouvement IMU avec validation sim-vers-réel

Estimation de scènes encombrées prêtes pour la simulation par optimisation conjointe de forme et de pose intégrant la physique

ECHO : mémoire hiérarchique continue pour les modèles vision-langage-action (VLA)

X-Imitator : apprentissage par imitation spatial via interaction bidirectionnelle action-pose

Vidéo : Unitree lance le premier robot à conduite optionnelle au monde prêt pour la production

Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde

RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)

Comment enseigner la même compétence à différents robots

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation

NoiseGate : plannings de bruit par pas de temps latent comme filtrage d'information dans les modèles monde-action

PhySPRING : réduction préservant la structure des jumeaux numériques physiques via GNN