Dossier Physical Intelligence — π0 — page 4

339 articles · page 4 sur 7

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

151arXiv cs.RO IA physiqueOpinion

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Une équipe de chercheurs a publié sur arXiv (référence 2410.14022v2) une architecture de contrôle combinant des modèles Vision-Langage-Action (VLA) à grande échelle avec des politiques d'imitation légères pour la manipulation dextère multi-doigts. Le système repose sur une main robotique anthropomorphique propriétaire à 13 degrés de liberté (DOF), dotée d'une compliance mécanique modulable au niveau des doigts. Le cœur de l'approche est un contrôleur à commutation piloté par événements : le VLA assure la planification de haut niveau à partir d'instructions en langage naturel, tandis que des politiques dextères légères, entraînées par imitation sur des sous-tâches spécifiques, prennent le relais pour l'exécution précise. Les transitions entre les deux niveaux sont déclenchées par des signaux d'événement que le VLA apprend à prédire lui-même après fine-tuning sur un volume minimal de démonstrations. Ce travail s'attaque à un verrou bien identifié du secteur : les VLA (Pi-0, OpenVLA, GR00T N2) excellent en planification multi-tâches mais opèrent typiquement avec des préhenseurs pince à 2 DOF, insuffisants pour la manipulation fine. À l'inverse, les politiques d'imitation pour mains multi-doigts restent cantonnées à des tâches étroitement définies, sans généralisation par langage. En montrant que la compliance matérielle, soit la capacité d'une main à absorber passivement les perturbations de contact, améliore la stabilité sans complexifier le contrôle logiciel, les auteurs fournissent un argument concret en faveur de la co-conception hardware-software, encore trop souvent négligée dans la course au sim-to-real. La modularité revendiquée, à savoir l'ajout de nouvelles compétences ou le changement de main sans réentraîner le VLA, constitue une propriété potentiellement intéressante pour les intégrateurs industriels, même si les conditions d'évaluation restent strictement laboratoire. L'approche s'inspire de la "two-channel hypothesis" du contrôle moteur humain, qui distingue la planification corticale des réflexes spinaux. Sur le plan concurrentiel, elle se positionne face aux travaux de Physical Intelligence (Pi-0), de Google DeepMind sur la manipulation dextère, et aux architectures ACT ou Diffusion Policy appliquées à des mains haute-DOF. Ni institution d'appartenance ni métriques de performance chiffrées ne figurent dans l'abstract disponible, ce qui limite toute évaluation externe sérieuse de la contribution. La prochaine étape crédible serait une validation sur des benchmarks standardisés comme YCB et une comparaison directe avec des mains tierces commerciales, pour confirmer que la cross-embodiment claim tient hors du cadre contrôlé des auteurs.

Dossier Physical Intelligence — π0 — page 4

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Drifting Field Policy : une politique générative en une étape via le flux de gradient de Wasserstein

SynapX lance SYNData : un système de collecte de données multimodal pour l'ère de l'IA incarnée

La collecte de données robotiques traditionnelle est obsolète : ce qui la remplace

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

GENESIS AI veut apprendre aux robots les gestes humains à grande échelle

Paramétrage adaptatif des scans pour l'inspection robotique par plongements vision-langage et calcul hyperdimensionnel

STEP : politiques visuomotrices pré-initialisées avec prédiction de cohérence spatiotemporelle

Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

ShapeGrasp : complétion de forme et préhension visuo-haptiques simultanées pour une manipulation robotique améliorée

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

Organisation robotique de bureau : une approche multi-primitive pour manipuler des objets hétérogènes via les contraintes environnementales

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

Extraire la récompense cachée dans les politiques de diffusion

Raisonner en texte et en images : traces de raisonnement vision-langage entrelacées pour la manipulation robotique à long horizon

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

Apprentissage robotique à partir de vidéos humaines : une synthèse

AI² Robotics défend les modèles VLA et lance NeuroVLA

FASTER : repenser les VLA de flux en temps réel

Un cerveau unique pour tout gérer : la Chine développe un modèle d'IA unifié pour la robotique multi-tâches complexe

Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets

Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle

Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

Apprendre la physique à partir de modèles vidéo préentraînés : modèles du monde continus et séquentiels pour la manipulation robotique

VistaBot : manipulation robotique robuste aux points de vue grâce à la synthèse de vues spatio-temporelles

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes

Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA

InternScenes : un jeu de données de scènes intérieures simulables à grande échelle avec des agencements réalistes

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée

StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

Préentraînement séparé des dynamiques directe et inverse pour un apprentissage robotique découplé

La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China

Ce robot cuisine mieux que vous… et il a tout appris en regardant une vidéo