Dossier Physical Intelligence — π0 — page 2

339 articles · page 2 sur 7

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

51arXiv cs.RO RecherchePaper

De la réaction à l'anticipation : un graphe de tâches à base d'agents pour la reprise proactive en manipulation robotique

Une équipe de recherche a publié en mai 2025 sur arXiv (identifiant 2605.11951) AgentChord, un système multi-agents qui anticipe les pannes de manipulation robotique avant l'exécution plutôt qu'en les traitant de manière réactive. L'architecture repose sur un graphe de tâches dirigé enrichi, en amont de toute exécution, de branches de récupération pré-compilées et contextualisées selon chaque étape critique. Trois agents spécialisés structurent ce pipeline : un "composer" modélise la tâche nominale, un "arranger" greffe les branches de récupération anticipées, et un "conductor" orchestre les transitions via des moniteurs à faible latence. Les expériences portent sur des tâches de manipulation bimanuelle à horizon long ; les auteurs rapportent une amélioration "substantielle" des taux de succès sans publier de métriques chiffrées précises dans l'abstract disponible. Le principal apport est d'éliminer la latence inhérente au pipeline classique "détecter-raisonner-récupérer", dans lequel chaque échec déclenche un nouvel appel à un LLM ou à un planificateur symbolique. En pré-compilant les correctifs avant le début de la tâche, AgentChord permet une réponse immédiate sans re-planification dès qu'un moniteur détecte une déviation. Pour les intégrateurs industriels qui automatisent des opérations en cellule non structurée, cette architecture de graphe anticipatif pourrait réduire les arrêts imprévus liés aux échecs de manipulation. L'approche présente néanmoins une limite structurelle : les branches pré-compilées ne couvrent que les pannes anticipées, non les défaillances inédites ou hors-modèle. La robustesse de la manipulation en conditions réelles reste l'un des goulots d'étranglement centraux de la robotique commerciale, que ce soit pour les bras industriels ou les humanoïdes en phase de déploiement comme Optimus de Tesla ou les robots de Figure AI. AgentChord s'inscrit dans un courant qui exploite les LLMs comme orchestrateurs de logique de haut niveau, en complément de politiques d'action de bas niveau. Des approches concurrentes comme les VLA Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA intègrent la récupération de manière implicite dans le réseau de politique, là où AgentChord opte pour une représentation explicite en graphe, plus transparente mais potentiellement moins générique face à la variabilité du monde réel. La page projet est accessible sur shengxu.net/AgentChord ; la validation hors banc de test académique reste la prochaine frontière.

Dossier Physical Intelligence — π0 — page 2

De la réaction à l'anticipation : un graphe de tâches à base d'agents pour la reprise proactive en manipulation robotique

X-Imitator : apprentissage par imitation spatial via interaction bidirectionnelle action-pose

Hello Robot établit la référence en matière de robots domestiques pratiques et sûrs

Des données de caméras corporelles sur des travailleurs humains servent à entraîner des cerveaux robotiques dans un essai coréen

Auto-cohérence guidée par la géométrie pour l'IA physique

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Politique de flux stochastique guidé par interpolation

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Quand un robot surpasse l'humain : apprendre auprès de démonstrateurs contraints

Retrieve-then-Steer : mémoire de succès en ligne pour l'adaptation à l'inférence des VLA génératifs

NoTVLA : adapter les robots humanoïdes via des interfaces d'action narratives sans modifier le modèle VLA

Préhension volumétrique équivariante

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)

PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)

Pilotage unifié du bruit pour l'adaptation guidée par l'humain des modèles VLA

HarmoWAM : harmoniser manipulation généraliste et précise grâce aux modèles d'action du monde adaptatifs

HiVLA : un système de manipulation incarnée hiérarchique centré sur l'ancrage visuel

ALAM : des transitions latentes algébriquement cohérentes pour les modèles VLA

Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique

Apprentissage sim-vers-réel zéro-shot pour robots : étude de préhension réactive par main dextérique

Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

HeteroGenManip : manipulation généralisable pour les interactions avec des objets hétérogènes

LaST-R1 : un nouveau paradigme de raisonnement physique atteint 99,9 % de succès sur le benchmark LIBERO

Large Video Planner permet un contrôle robotique généralisable

Politique visuo-tactile dextérique avec ancrage génératif par contact

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

CommandSwarm : génération d'arbres de comportement en langage naturel pour essaims robotiques avec contraintes de sécurité

RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée

Parkour humanoïde perceptif : enchaînement de compétences dynamiques par correspondance de mouvement

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Atlas de Boston Dynamics épate avec un appui tendu renversé parfait

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire

Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation

Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs

Revue complète des modèles du monde pour l'apprentissage robotique

Figure affirme produire un robot humanoïde par heure, soit une multiplication par 24 en quatre mois

SEREACT lève 93 millions d’euros pour se positionner au cœur de l’IA appliquée au monde réel

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

De l'électrique à la robotique : Tesla vise 10 millions d'unités Optimus avec sa nouvelle usine au Texas

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

L'utilisation des LLM pour la planification en IA incarnée introduit des risques de sécurité systématiques

Boston Dynamics et Google DeepMind apprennent à Spot à raisonner