Aller au contenu principal
Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée
Chine/Asie36Kr4sem

Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Lors de la conférence AI+ Industry 2026 de Beijing Yizhuang, Xu Liangwei, CTO et cofondateur de Zhiyu Jishi (智域基石), a exposé un pipeline de compilation de données en cinq couches destiné à l'intelligence incarnée (embodied AI). Son argument central: la loi de mise à l'échelle (Scaling Law) qui sous-tend les grands modèles de langage ne se transfère pas aux robots. Un LLM peut absorber des textes hétérogènes en masse, mais un robot opérant dans le monde physique nécessite des données multimodales couplées dans le temps et dans l'espace, où qualité et traçabilité priment sur le volume brut. Le pipeline de Zhiyu Jishi comprend cinq étapes séquentielles: contrôle qualité des données brutes, alignement spatio-temporel, extraction sémantique et causale (séquence contexte-action-conséquence), traitement à grande échelle avec indexation multi-dimensionnelle, et livraison aux équipes de modèles. Xu Liangwei précise que ce pipeline s'applique indifféremment aux architectures VLA (Vision-Language-Action, apprentissage par imitation) et aux world models, les deux paradigmes convergeant vers le même besoin: des données physiques structurées et tracées.

L'enjeu concret pour les intégrateurs et les équipes de modèles est la traçabilité des défaillances terrain. En 2026, certains robots commencent à passer de pilotes laboratoire à des déploiements industriels en petit lot, et les équipes peinent à relier un comportement anormal à un sample d'entraînement défaillant. Xu Liangwei précise que les modèles fixent le plafond de capacité d'un robot, mais que la qualité des données dans les cas d'échec, de reprise et de retry conditionne la fiabilité en environnement dégradé. Sans cette traçabilité bout en bout, la boucle fermée données-modèle-terrain-données ne peut pas converger à l'échelle industrielle, rendant impossible le passage du petit lot à la production réelle.

Zhiyu Jishi se positionne dans une niche émergente, les "data foundry" pour l'embodied AI, distincte des services de labeling classiques par la dimension temporelle et multimodale des données robotiques. Le discours de Xu Liangwei s'oppose implicitement au modèle fragmenté actuel, où fabricants de plateformes matérielles, développeurs de modèles et intégrateurs industriels produisent chacun leurs données en silo. Sa proposition est de structurer un écosystème à trois acteurs avec une séparation claire des responsabilités, comparable à une couche d'infrastructure partagée. La présentation ne comporte aucun chiffre de déploiement vérifiable ni de client cité, ce qui la positionne davantage comme une communication de positionnement stratégique que comme un bilan d'exécution. La suite annoncée est l'ouverture de ce pipeline à l'ensemble de l'écosystème robotique chinois, sans calendrier précis communiqué.

À lire aussi

L'ex-directeur tech de Meituan crée un modèle du monde pour la restauration à l'ère de l'IA incarnée
136Kr 

L'ex-directeur tech de Meituan crée un modèle du monde pour la restauration à l'ère de l'IA incarnée

AtomBite.AI (元节智能), startup chinoise d'intelligence incarnée, vient de boucler un tour d'amorçage de plusieurs dizaines de millions de yuans mené par le fonds Yinno Innovation, avec la participation du Shuimu Tsinghua Alumni Seed Fund. La société cible un terrain peu médiatisé mais à forte récurrence : la cuisine professionnelle de restauration et la chaîne d'exécution des commandes de livraison de repas. Son équipe fondatrice porte l'ADN de Meituan : Wang Dong (CEO, docteur en informatique) y dirigeait l'ingénierie de Meituan Waimai, supervisant mille ingénieurs et des algorithmes traitant des dizaines de millions de commandes quotidiennes ; Li Tao pilotait les systèmes algorithmiques et data de la même division ; Li Haozhe, troisième co-fondateur, est un entrepreneur en série à dimension internationale. La technologie centrale est un "World Action Model" (WAM) dédié à la restauration, décliné en architecture VT-WAM combinant vision et retour tactile, en rupture explicite avec l'approche VLA (Vision-Language-Action) dominante dans le secteur. Un premier déploiement pilote en cuisine professionnelle est attendu d'ici fin 2026, avec plusieurs lettres d'intention déjà signées avec des opérateurs nationaux et internationaux. Le choix de la restauration résulte d'un audit de plusieurs mois conduit en Amérique du Nord et à Singapour. Wang Dong y a identifié un triptyque rare : besoin universel (même problématique en Chine, aux États-Unis et en Asie du Sud-Est), ROI mesurable pour le restaurateur (réduction des erreurs de commande, gains à l'emballage, allègement de la masse salariale) et cycle de décision court chez les PME, contrairement aux scénarios domestiques ou médico-sociaux. L'industrie est structurellement sous pression : hausse soutenue des salaires horaires en Amérique du Nord, turnover chronique et difficultés de recrutement persistantes en Chine. Sur le plan technique, AtomBite.AI conteste le paradigme VLA en affirmant que le contrôle moteur réel ne passe pas par le langage mais par la compréhension visuelle et physique. L'approche VT-WAM fusionne ces deux modalités dans un espace latent pour prédire les conséquences de contact avant exécution : inférer si un gobelet est plein ou chaud modifie les forces de friction et le centre de gravité lors de la saisie, ce que la vision seule ne permet pas de capturer. AtomBite.AI prend le contre-pied de la stratégie "modèle universel d'abord" adoptée par la plupart de ses concurrents. Les opérations répétitives de la cuisine, emballage, tri et transfert de commandes, génèrent un flux naturel de données d'interaction physique difficile à reproduire en simulation, alimentant un cycle d'amélioration continue du modèle depuis le terrain réel. L'architecture se décompose en trois couches : modèle monde incarné pour la perception et la planification d'actions, moteur d'orchestration des tâches, et couche matérielle combinant composants propriétaires et hardware standard. Les gestes récurrents s'exécutent en local sur des modèles légers pour limiter la latence ; le cloud gère les exceptions comme un ingrédient manquant ou un objet détecté hors place. Sur ce segment, Miso Robotics aux États-Unis et Keenon Robotics en Chine sont déjà présents, sur des périmètres différents (friture automatisée, service en salle). La feuille de route prévoit une extension progressive vers le tri, la logistique interne de restaurant, et à terme la cuisine domestique.

Chine/AsieActu
1 source
SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée
236Kr 

SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée

Zhuma Innovation (竹马创新), startup chinoise fondée en novembre 2025, vient de boucler un tour Angel+ de plusieurs dizaines de millions de yuans mené par SenseTime Guoxiang Capital, le bras d'investissement de SenseTime, avec la participation de Dinghui VGC et Fengru Capital. Les fonds serviront au développement produit, à la préparation de la production en série et à l'expansion internationale. La société développe Pebble, une caméra autonome grand public intégrant le rendu 3D Gaussian Splatting (3DGS), la fusion multi-capteurs et une interface AI-native, conçue pour capturer une scène tridimensionnelle aussi simplement qu'une vidéo ordinaire. Le produit est encore en phase de R&D et n'a pas atteint la production industrielle. L'intérêt stratégique de Zhuma dépasse le marché de la caméra 3D : la société se positionne comme infrastructure de données pour l'IA incarnée (embodied AI). Les modèles VLA (Vision-Language-Action) pilotant la prochaine génération de robots humanoïdes sont aujourd'hui majoritairement entraînés sur des données de téléopération, une méthode coûteuse et difficile à scaler. Le consensus qui émerge dans la recherche est que des vidéos en première personne, des données de capteurs spatiaux et des séquences comportementales en environnement réel constitueront la prochaine source dominante d'entraînement. Zhuma propose des données photoréalistes dotées de structure 3D, de sémantique et d'échelle physique correcte, directement utilisables pour construire des world models ou affiner la perception spatiale en simulation, réduisant ainsi la dépendance aux environnements synthétiques dont le réalisme reste limité. La société est cofondée par Zhang Ji, ancien vice-président de Kujiale (plateforme de design d'intérieur à grande échelle en Chine), et dirigée scientifiquement par Guo Jie, maître de conférences permanent à l'Université de Nanjing et spécialiste reconnu du 3DGS. La technologie 3DGS, popularisée depuis 2023, reconstruit des scènes 3D photoréalistes à partir de vidéos ordinaires, avec des performances supérieures au NeRF sur les temps de rendu. L'entrée de SenseTime comme investisseur principal apporte des ressources algorithmiques complémentaires aux capacités matérielles de Zhuma. Le marché reste largement ouvert : les acteurs industriels du lidar et des scanners haute précision n'ont pas encore attaqué le segment consommateur. Les investisseurs positionnent explicitement Zhuma comme un potentiel Insta360 de la caméra spatiale, une marque capable de définir une catégorie hardware avant que le marché ne se structure.

Chine/AsieOpinion
1 source
Alibaba et Tencent mènent le virage de l'IA incarnée pour la robotique
3SCMP Tech 

Alibaba et Tencent mènent le virage de l'IA incarnée pour la robotique

Alibaba et Tencent ont annoncé un virage stratégique majeur : déployer leurs modèles d'IA générative dans des systèmes robotiques physiques, plutôt que de rester cantonnés aux interfaces conversationnelles. Alibaba a lancé la semaine dernière le modèle Qwen3.7-Max, doté de capacités dites de "tool-calling" qui lui permettent de fonctionner comme cerveau numérique d'un robot, en orchestrant des composants logiciels et matériels externes. Concrètement, le modèle peut déclencher des séquences d'actions physiques comme la navigation autonome, le bras articulé ou la prise d'objet, sans reprogrammation manuelle à chaque tâche. Ce positionnement signale un déplacement du front concurrentiel de l'IA en Chine : la différenciation ne se joue plus sur les benchmarks de raisonnement textuel, mais sur la capacité des VLA (Vision-Language-Action models) à passer du simulateur à l'environnement réel. Pour les intégrateurs industriels et les décideurs B2B, cela implique que des briques d'IA disponibles en open ou semi-open source pourraient bientôt remplacer des stacks robotiques propriétaires coûteux, accélérant les cycles de déploiement tout en abaissant les barrières à l'entrée. Alibaba avait déjà positionné la famille Qwen comme alternative aux modèles occidentaux, avec des versions multimodales compétitives face à GPT-4o et Gemini. Tencent suit une trajectoire similaire avec ses propres initiatives robotiques encore peu documentées publiquement. Les deux groupes se retrouvent en concurrence directe avec Figure AI, Physical Intelligence (pi0), Boston Dynamics et Unitree, ainsi qu'avec les efforts de Nvidia (GR00T N2) pour standardiser les pipelines d'entraînement robotique. Les prochaines étapes annoncées restent pour l'instant au stade de la démonstration technique, sans déploiement industriel confirmé.

UEL'émergence de briques VLA open/semi-open source chinoises (Qwen3.7-Max) pourrait abaisser les coûts d'intégration pour les industriels européens, tout en intensifiant la pression concurrentielle sur les acteurs EU face aux géants technologiques chinois.

Chine/AsieOpinion
1 source
Daxiao Robot a levé des centaines de millions de dollars : son fondateur révèle les fractures de l'industrie de l'IA incarnée
436Kr 

Daxiao Robot a levé des centaines de millions de dollars : son fondateur révèle les fractures de l'industrie de l'IA incarnée

ACE Robotics (大晓机器人), fondée en juillet 2025 par Wang Xiaogang, co-fondateur de SenseTime, a annoncé le 15 juin 2026 la clôture d'un tour Angel+ réunissant Dachen Caizhong, Shenzhen Capital Group, le Shanghai Science and Innovation Fund, Muxin Shares, Fosun Ruizheng et le Lingang New Area Fund, avec un réinvestissement de l'actionnaire historique SenseTime Guoxiang Capital. Le cumul de levées 2026 dépasse désormais plusieurs centaines de millions de dollars, classant ACE parmi les premières licornes de la robotique incarnée en Chine. La startup dévoile simultanément Kairos 3.0, son modèle monde (world model) dédié à l'intelligence incarnée, revendiquant le SOTA sur quatre benchmarks mondiaux d'embodied intelligence, et publie en open-source Kairos 3.0-4B, présenté comme la première version capable de piloter un robot directement depuis un périphérique embarqué (edge device) sans serveur distant. Le corpus d'entraînement atteint un million d'heures d'interactions humain-environnement, obtenu via une collecte centrée sur l'acteur humain en situation réelle, soit dix fois le volume produit par télé-opération traditionnelle. Les modules A1 équipent des chiens robots pour l'inspection de voirie à Shanghai (secteur Ouest Rive), ainsi que des robots opérant dans des hôtels, des magasins sans caissier et des entrepôts logistiques automatisés. La levée met en lumière une fracture structurelle de l'écosystème chinois : contrairement à Figure, Tesla Optimus ou Physical Intelligence (Pi-0), qui internalisent la boucle matériel-données-modèle pour accélérer l'itération, les acteurs locaux fonctionnent encore en silos. Wang Xiaogang l'admet explicitement : les standards de collecte de données restent fragmentés, les corpus directement exploitables pour l'entraînement de modèles incarnés sont rares, et les cycles d'itération matérielle sont trop longs pour rester synchronisés avec la cadence des modèles. La réponse d'ACE est pragmatique : s'ancrer dans des scénarios B2B contrôlés et reproductibles (logistique, inspection routière), y collecter des données réelles en boucle fermée via des partenaires intégrateurs -- dont Shanhui Robots, acteur du retail sans caissier issu de l'écosystème SenseTime -- et abaisser le coût de la solution au tiers de la moyenne sectorielle par l'effet d'échelle. Cette stratégie scene-first sert aussi à valider la thèse du world model face aux VLA (vision-language-action) : Wang soutient que seul un modèle capable de comprendre, générer et prédire simultanément peut atteindre une véritable émergence de l'intelligence incarnée. Wang Xiaogang, co-fondateur de SenseTime depuis 2014, a délibérément créé ACE en juillet 2025, après la première vague de startups incarnées, pour capitaliser sur les impasses avérées des VLA et éviter les gaspillages en données et en calcul accumulés par ses prédécesseurs. En Chine, la concurrence se structure autour de niches sectorielles : Qianjue Technology (spin-off de l'Université Tsinghua) cible l'hôtellerie et les services commerciaux, tandis que Tasishi Zhihang, fondée par Chen Yilun (ex-chef scientifique du département automobile de Huawei), se concentre sur l'assemblage de faisceaux de câbles industriels. La feuille de route d'ACE progresse en trois temps : inspection routière et chiens robots (déjà en production), entrepôts logistiques (déploiements en cours), puis la sphère domestique grand public. Wang reste prudent sur les délais : Kairos n'a pas encore atteint l'équivalent d'un GPT-3 pour les modèles monde, ce seuil d'émergence à partir duquel les paradigmes de recherche se stabilisent et les capacités commencent à généraliser à grande échelle.

Chine/AsieOpinion
1 source