Dossier IA physique & VLA

206 articles

L'IA physique : modèles vision-langage-action qui contrôlent des corps robotisés. État de l'art académique (CoRL, RSS) et premières productions industrielles.

Figure 1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Tous les dossiers →

1Pandaily Chine/AsieOpinion

IA incarnée : la startup Zenbot lève près de 100 millions de yuans lors de son tour d'amorçage

La startup chinoise Zenbot, spécialisée dans l'infrastructure d'IA embodied, a bouclé un tour de financement d'amorçage de près de 100 millions de yuans (environ 14 millions de dollars). Le tour est co-piloté par trois industriels cotés de la fabrication de précision : ChangYing Precision (300115.SZ), Kedali (002850.SZ) et Zhaoming Technology (301000.SZ), auxquels s'ajoutent le fonds entrepreneurial L2F Light Source et Sirius Capital. L'utilisation des fonds cible quatre axes : le développement d'un world model à vocation généraliste pour l'IA embodied, la production en série de modules articulaires exploitant des drivers GaN de troisième génération, le déploiement d'une architecture de communication temps réel dite "cerveau-colonne vertébrale" (brain-spine), et le renforcement des capacités de conception full-stack pour la production de masse de produits complets. Ce financement signale une tendance structurelle dans l'écosystème robotique chinois : les équipementiers de précision entrent directement au capital des startups d'IA embodied, cherchant à sécuriser un accès précoce aux briques technologiques critiques. L'intégration de drivers GaN dans les modules articulaires est un pari technique notable, ces composants semi-conducteurs de troisième génération promettent une densité de puissance supérieure et des pertes réduites par rapport au silicium classique, ce qui est déterminant pour l'autonomie et la compacité des robots humanoïdes. L'architecture brain-spine en temps réel répond à un verrou bien identifié du secteur : la latence de communication entre le contrôleur central et les actionneurs périphériques, souvent citée comme obstacle au déploiement industriel fiable. Zenbot s'inscrit dans une vague dense de startups chinoises d'IA embodied qui cherchent à concurrencer Figure, Boston Dynamics ou 1X Technologies sur le terrain des briques d'infrastructure plutôt que sur celui des robots finis. Le co-fondateur Dr. Jia Zhenzhong, diplômé du département d'instruments de précision de Tsinghua et docteur de l'Université du Michigan, positionne l'entreprise à l'intersection de la robotique, de la vision par ordinateur et des grands modèles d'IA. Aucun prototype public, ni timeline de production en série, ni client annoncé à ce stade : ce tour reste une annonce d'intention, avec des jalons technologiques ambitieux encore à démontrer.

Dossier IA physique & VLA

IA incarnée : la startup Zenbot lève près de 100 millions de yuans lors de son tour d'amorçage

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage

SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai

SenseTime ouvre un magasin de proximité avec des robots à IA physique à Shanghai

Automated Tire sort de la confidentialité avec son système robotisé SmartBay de changement de pneus

L'IA physique et la robotique autonome s'imposent dans le grand public avec une conférence à San Jose

L'IA physique, trait d'union entre rentabilité et durabilité

SAP et Cyberwave déploient des robots autonomes à base d'IA dans un entrepôt logistique SAP

PL-Universe Robotics dévoile sa gamme de produits d'IA physique industrielle 2.0

Kairos : un système de déploiement extensible pour l'IA physique

IA incarnée : cartographie des stratégies de toucher affectif sur un robot humanoïde

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

PRISM : planification et raisonnement intentionnel dans des environnements simulés à IA incarnée

DarkQA : évaluation des modèles vision-langage sur la compréhension visuelle primitive en intérieur faiblement éclairé

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

ECHO : mémoire hiérarchique continue pour les modèles vision-langage-action (VLA)

Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0

Des données de caméras corporelles sur des travailleurs humains servent à entraîner des cerveaux robotiques dans un essai coréen

Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs

Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation

Auto-cohérence guidée par la géométrie pour l'IA physique

IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

Modèle JODA : dynamique articulaire composable pour objets articulés

Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)

PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)

RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)

LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Lumos Robotics lève près d'1 milliard de yuans en séries A1 et A2, Mitsubishi Electric en tête

Deer Robot (Luming Robotics) lève près d'un milliard de yuans lors de ses séries A1 et A2, avec Mitsubishi Electric en chef de file

MemCompiler : une mémoire conditionnée par l'état pour les agents IA physiques, sans injection

HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures

IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique

CSR : politiques en temps réel à horizon infini avec représentations d'état massivement en cache

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Large Video Planner permet un contrôle robotique généralisable

SeedPolicy : passage à l'échelle par politique de diffusion auto-évolutive pour la manipulation robotique