Aller au contenu principal
Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir
Chine/Asie36Kr3j

Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Wang Zhongyuan, directeur du Beijing Academy of Artificial Intelligence (BAAI, 北京智源人工智能研究院), institution de recherche non lucrative chinoise, a accordé une interview approfondie au média spécialisé 硬氪 en marge de la conférence annuelle de l'académie, consacrée cette année aux modèles du monde (World Models) et aux agents intelligents. Il y cartographie quatre grandes familles de world models en compétition : les modèles centrés sur le langage comme les VLA et VLM (dont Gemini 3), qui prédisent le prochain token sans comprendre les conséquences physiques ; les modèles centrés sur les pixels comme Sora ou Seedance, efficaces pour la génération vidéo mais aveugles à la causalité physique ; les modèles centrés sur la structure 3D, dont Marble de World Labs (l'équipe de Li Feifei), qui reconstruisent l'espace géométrique sans en modéliser les états physiques ; et les modèles centrés sur la représentation visuelle, comme la série V-JEPA de Yann LeCun, dont l'évolution des embeddings ne correspond pas à l'évolution des lois physiques. BAAI explore une cinquième voie : fusionner représentations linguistiques et visuelles dans un espace latent unifié (latent space), depuis lequel des décodeurs distincts restituent langage, actions et vision selon le besoin, via des systèmes déjà déployables comme Physis et RoboBrain Orca.

L'enjeu central, selon Wang, est de substituer au paradigme "Next Token Prediction" des LLM un paradigme "Next Physical State Prediction", soit la prédiction du prochain état physique du monde. Cette bascule est directement liée aux limites exposées par l'IA incarnée (embodied AI) : les robots actuels, qu'ils s'appuient sur des VLA ou des architectures plus simples, restent des exécutants passifs, cantonnés à des tâches mono-scène avec des données très spécifiques. Ils ne généralisent pas. Un robot VLA peut attraper un colis sur une chaîne logistique, mais il est incapable de prédire ce qui se passe si une bouteille ouverte tombe à côté. Wang rejette catégoriquement l'équivalence entre génération vidéo et world model, qui s'est répandue depuis qu'OpenAI a qualifié Sora de "World Simulator" : produire une vidéo physiquement plausible n'est pas modéliser le monde. Un vrai world model doit être physiquement correct (gravité, optique, fluides), doté d'une causalité action-résultat explicite, cohérent sur de longues séquences temporelles, et généralisable à des tâches multiples. Quant au débat "VLA is dead", Wang le tranche sans ambiguïté : les VLA restent utiles aujourd'hui et le resteront à court terme, mais les world models représentent l'étape suivante.

BAAI a construit cette position en couches successives depuis le LLM Wudao (悟道), premier grand modèle chinois public, jusqu'aux architectures multimodales natives Emu3 et Emu3.5, avant d'amorcer en 2024 la transition vers la "Next State Prediction". L'académie est aussi un vivier : les fondateurs de Zhipu AI (Tang Jie), Moonshot AI (Yang Zhilin), iFlytek Research (Liu Zhiyuan) et Galactic General Robotics (Wang He) y ont tous conduit des recherches. Côté compétition internationale, BAAI se positionne face à World Labs (Marble), OpenAI (Sora), DeepMind (Genie 2) et au programme V-JEPA de LeCun chez Meta. Wang situe l'état actuel des world models à l'équivalent du deep learning vers 2012 : données fragmentées, benchmarks divergents, pas encore de "moment ChatGPT". Il estime qu'un véritable cerveau robotique à base de world model est un horizon de trois ans minimum, avec des applications prioritaires dans la robotique industrielle, la simulation physique et l'IA for Science.

À lire aussi

L'IA et les modèles du monde : pourquoi la Chine a une longueur d'avance
1SCMP Tech 

L'IA et les modèles du monde : pourquoi la Chine a une longueur d'avance

Les modèles de monde ("world models") sont désormais identifiés comme la prochaine rupture technologique en intelligence artificielle, dépassant les grands modèles de langage (LLM) en leur ajoutant une capacité de simulation de l'environnement physique. Contrairement aux LLM qui traitent du texte, ces architectures apprennent les lois de la physique, la causalité et la géométrie de l'espace réel, ce qui permet d'entraîner des systèmes à intelligence incarnée (embodied AI) : robots humanoïdes, véhicules autonomes, bras industriels. La Chine a déjà déployé ces systèmes à une échelle nettement supérieure à celle des États-Unis, avec des entreprises comme Baidu Apollo (plusieurs dizaines de millions de kilomètres d'autonomie sur route réelle), Unitree et ses robots humanoïdes en production, ainsi que des modèles de monde propriétaires développés par Tencent (HunyuanWorld) et ByteDance. Cet avantage chinois est structurel autant que technologique : le cadre réglementaire y autorise des déploiements massifs en conditions réelles, là où les États-Unis maintiennent des restrictions plus strictes sur les tests d'autonomie. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que le gap sim-to-real, longtemps considéré comme le principal frein à l'adoption robotique, est en train d'être résolu plus vite en Chine qu'ailleurs. Les world models permettent de générer des données synthétiques d'entraînement à partir de simulations physiquement cohérentes, réduisant drastiquement le besoin de collecte en environnement réel. Côté contexte, le concept de world model remonte aux travaux de Yann LeCun chez Meta (architecture JEPA, 2022-2024), mais sa concrétisation industrielle s'est accélérée en 2025-2026 avec l'émergence de modèles dédiés à la robotique comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les plateformes chinoises. En Europe, des acteurs comme Enchanted Tools (Paris) travaillent sur des approches similaires mais à bien plus petite échelle. La prochaine étape sera probablement la standardisation des benchmarks de world models, un domaine où le leadership de définition reste encore ouvert.

UEL'Europe accuse un retard structurel face à la Chine dans la course aux world models pour la robotique incarnée, avec seulement Enchanted Tools (Paris) identifié comme acteur actif à petite échelle, là où Pékin bénéficie d'un cadre réglementaire autorisant des déploiements massifs en conditions réelles qui accélèrent la résolution du gap sim-to-real.

Chine/AsieOpinion
1 source
L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA
2Pandaily 

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA

L'équipe Tongyi Qianwen d'Alibaba a annoncé en 2026 son entrée dans le domaine de l'IA embodiée avec Qwen-VLA, un modèle vision-langue-action (VLA) destiné à doter robots et appareils intelligents d'une capacité de perception, de compréhension et d'action dans le monde physique. L'architecture unifiée du modèle intègre trois composantes : la perception visuelle, la compréhension du langage naturel, et la planification d'actions physiques. Concrètement, un système embarquant Qwen-VLA serait en mesure d'analyser son environnement via des caméras, d'interpréter des instructions vocales ou textuelles, et de générer les commandes motrices correspondantes. Les applications visées couvrent un spectre large : robots industriels, robots de service, et équipements domestiques connectés. Le modèle s'appuie sur l'expertise accumulée par la série Qwen en LLM et IA multimodale, en étendant ces capacités vers la prédiction d'actions robotiques. Aucune métrique de performance (charge utile, degrés de liberté, temps de cycle) n'a été communiquée à ce stade, ce qui situe clairement cette publication comme une annonce de cap stratégique plutôt que le lancement d'un produit finalisé. L'entrée d'Alibaba reconfigure l'équilibre de la course à l'IA embodiée en Chine, non pas par une approche hardware-first, mais par la couche modèle. Qwen-VLA est positionné comme une plateforme ouverte : Alibaba ne construit pas ses propres robots, mais fournit le "cerveau" que des partenaires matériels peuvent embarquer dans leurs systèmes, quel que soit le facteur de forme. Cette stratégie rappelle davantage celle d'un fournisseur de fondations que celle d'un constructeur robotique intégré. L'atout différenciant réside dans les ressources mobilisables : la puissance de calcul d'Alibaba Cloud, les données réelles issues des opérations logistiques de Cainiao et des flux e-commerce de Taobao, et un écosystème dense de partenaires industriels. Si ces données propriétaires représentent un avantage réel pour l'entraînement et le fine-tuning de VLA, leur exploitation sans friction juridique ou de gouvernance reste à démontrer en pratique. La publication de Qwen-VLA s'inscrit dans une accélération marquée du marché chinois de l'IA embodiée en 2026, portée par la convergence des modèles de fondation, des capteurs et des capacités manufacturières. Alibaba rejoint un champ concurrentiel déjà dense : Unitree Robotics et Deep Robotics sur le hardware, Zhiyuan et AgiBot sur l'intégration système, et des géants tech comme Xiaomi et ByteDance qui investissent de plus en plus dans la robotique généraliste. La stratégie d'Alibaba, modèle ouvert sans robot propriétaire, la distingue de Figure AI ou 1X Technologies aux États-Unis, qui misent sur une intégration verticale complète. Elle se rapproche davantage de l'approche de NVIDIA avec GR00T N2, ou de Physical Intelligence avec Pi-0 côté américain. Les prochaines étapes à surveiller : des partenariats hardware concrets, des benchmarks comparables aux standards du secteur, et d'éventuels pilotes industriels chez des opérateurs logistiques comme Cainiao, qui constitueraient le premier vrai test de passage à l'échelle.

UEL'accélération de l'IA embodiée en Chine avec Qwen-VLA accentue la pression concurrentielle sur les acteurs européens du secteur, sans impact direct immédiat sur le marché français ou les réglementations EU.

Chine/AsieOpinion
1 source
L'ex-directeur tech de Meituan crée un modèle du monde pour la restauration à l'ère de l'IA incarnée
336Kr 

L'ex-directeur tech de Meituan crée un modèle du monde pour la restauration à l'ère de l'IA incarnée

AtomBite.AI (元节智能), startup chinoise d'intelligence incarnée, vient de boucler un tour d'amorçage de plusieurs dizaines de millions de yuans mené par le fonds Yinno Innovation, avec la participation du Shuimu Tsinghua Alumni Seed Fund. La société cible un terrain peu médiatisé mais à forte récurrence : la cuisine professionnelle de restauration et la chaîne d'exécution des commandes de livraison de repas. Son équipe fondatrice porte l'ADN de Meituan : Wang Dong (CEO, docteur en informatique) y dirigeait l'ingénierie de Meituan Waimai, supervisant mille ingénieurs et des algorithmes traitant des dizaines de millions de commandes quotidiennes ; Li Tao pilotait les systèmes algorithmiques et data de la même division ; Li Haozhe, troisième co-fondateur, est un entrepreneur en série à dimension internationale. La technologie centrale est un "World Action Model" (WAM) dédié à la restauration, décliné en architecture VT-WAM combinant vision et retour tactile, en rupture explicite avec l'approche VLA (Vision-Language-Action) dominante dans le secteur. Un premier déploiement pilote en cuisine professionnelle est attendu d'ici fin 2026, avec plusieurs lettres d'intention déjà signées avec des opérateurs nationaux et internationaux. Le choix de la restauration résulte d'un audit de plusieurs mois conduit en Amérique du Nord et à Singapour. Wang Dong y a identifié un triptyque rare : besoin universel (même problématique en Chine, aux États-Unis et en Asie du Sud-Est), ROI mesurable pour le restaurateur (réduction des erreurs de commande, gains à l'emballage, allègement de la masse salariale) et cycle de décision court chez les PME, contrairement aux scénarios domestiques ou médico-sociaux. L'industrie est structurellement sous pression : hausse soutenue des salaires horaires en Amérique du Nord, turnover chronique et difficultés de recrutement persistantes en Chine. Sur le plan technique, AtomBite.AI conteste le paradigme VLA en affirmant que le contrôle moteur réel ne passe pas par le langage mais par la compréhension visuelle et physique. L'approche VT-WAM fusionne ces deux modalités dans un espace latent pour prédire les conséquences de contact avant exécution : inférer si un gobelet est plein ou chaud modifie les forces de friction et le centre de gravité lors de la saisie, ce que la vision seule ne permet pas de capturer. AtomBite.AI prend le contre-pied de la stratégie "modèle universel d'abord" adoptée par la plupart de ses concurrents. Les opérations répétitives de la cuisine, emballage, tri et transfert de commandes, génèrent un flux naturel de données d'interaction physique difficile à reproduire en simulation, alimentant un cycle d'amélioration continue du modèle depuis le terrain réel. L'architecture se décompose en trois couches : modèle monde incarné pour la perception et la planification d'actions, moteur d'orchestration des tâches, et couche matérielle combinant composants propriétaires et hardware standard. Les gestes récurrents s'exécutent en local sur des modèles légers pour limiter la latence ; le cloud gère les exceptions comme un ingrédient manquant ou un objet détecté hors place. Sur ce segment, Miso Robotics aux États-Unis et Keenon Robotics en Chine sont déjà présents, sur des périmètres différents (friture automatisée, service en salle). La feuille de route prévoit une extension progressive vers le tri, la logistique interne de restaurant, et à terme la cuisine domestique.

Chine/AsieActu
1 source
Ex-cadre IA incarnée de Huawei : un modèle du monde neuromorphique concurrent de JEPA lève 100 millions de yuans
436Kr 

Ex-cadre IA incarnée de Huawei : un modèle du monde neuromorphique concurrent de JEPA lève 100 millions de yuans

JuNao Panshi (具脑磐石), startup chinoise spécialisée dans les architectures cognitives pour la robotique incarnée, a annoncé en mai 2026 la clôture d'un tour de financement dépassant 100 millions de yuans (environ 13,5 millions d'euros), conduit par un fonds industriel positionné sur l'intersection neuromorphique et robotique, avec réinvestissement des actionnaires existants et participation de plusieurs fonds de premier rang. Un second tour serait en cours de finalisation simultanément, selon la publication chinoise 36Kr. La société, fondée en 2025, est dirigée par Zhu Senhua, ancien responsable du programme "cerveau incarné" chez Huawei, où il a piloté la plateforme cloud IA-neurosciences, le modèle Pangu pour l'intelligence incarnée et le Global Embodied Intelligence Innovation Center. Titulaire d'un doctorat en neurosciences cognitives de l'Université de Pennsylvanie et d'un post-doctorat au Laboratoire national clé Cerveau et Cognition de l'Académie des sciences de Chine, Zhu Senhua est l'un des rares profils combinant recherche académique en neuro-IA, validation expérimentale et industrialisation à grande échelle. JuNao Panshi développe un Cognitive World Model (modèle de monde cognitif) fondé sur l'intelligence neuromorphique, avec quatre objectifs techniques structurants : apprentissage avec peu de données, forte généralisation intersituationnelle, apprentissage à vie et faible consommation énergétique. Plusieurs proof-of-concepts sont en cours de déploiement auprès de clients industriels en Chine et à l'international. L'intérêt de cette levée dépasse la valorisation d'une startup : elle signale un basculement dans les priorités de R&D du secteur de la robotique incarnée, où le terme VLA (Vision-Language-Action) cède progressivement la place au concept de world model comme axe central de compétition. JuNao Panshi argumente que la grande majorité des approches actuelles restent bloquées sur un paradigme data-intensif et énergivore, incapable de généraliser sans réentraînement à chaque nouvel environnement. En s'appuyant sur les mécanismes fonctionnels du cerveau humain, notamment les neurones multi-compartiments, l'attention non linéaire, la mémoire multi-stades et l'inférence active, la société cherche à construire un système capable d'apprentissage abstrait à partir de peu d'exemples, de mémoire persistante et de planification autonome en conditions réelles. Pour les intégrateurs industriels et les décideurs B2B, la promesse est concrète : un robot qui n'a pas besoin d'être réentraîné à chaque changement de ligne ou d'environnement est un robot économiquement viable à déployer à grande échelle. Sur le plan concurrentiel, la trajectoire technique de JuNao Panshi s'aligne explicitement avec l'architecture JEPA (Joint Embedding Predictive Architecture) de Yann LeCun, dont AMI Labs explore la branche causale et de raisonnement. En parallèle, Fei-Fei Li parie sur l'intelligence spatiale 3D, NVIDIA et Google DeepMind accélèrent la simulation physique et l'apprentissage par interaction réelle. JuNao Panshi se positionne un cran au-dessus dans la hiérarchie qu'elle définit elle-même en cinq niveaux, revendiquant la couche la plus haute : l'inférence active issue des neurosciences cognitives. La stratégie commerciale repose sur un modèle "un cerveau, plusieurs robots, plusieurs morphologies" (一脑多机一脑多形), avec des partenariats matériels déjà établis avec les fabricants de robots Lejiu, Xingchen Intelligence et Zhidongli. La feuille de route prévoit d'ouvrir le modèle de cerveau cognitif universel à l'écosystème d'intégrateurs, une fois les capacités de généralisation jugées suffisantes pour piloter des configurations de robots hétérogènes depuis un seul modèle central.

Chine/AsieActu
1 source