Aller au contenu principal
SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée
Chine/Asie36Kr3sem

SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Zhuma Innovation (竹马创新), startup chinoise fondée en novembre 2025, vient de boucler un tour Angel+ de plusieurs dizaines de millions de yuans mené par SenseTime Guoxiang Capital, le bras d'investissement de SenseTime, avec la participation de Dinghui VGC et Fengru Capital. Les fonds serviront au développement produit, à la préparation de la production en série et à l'expansion internationale. La société développe Pebble, une caméra autonome grand public intégrant le rendu 3D Gaussian Splatting (3DGS), la fusion multi-capteurs et une interface AI-native, conçue pour capturer une scène tridimensionnelle aussi simplement qu'une vidéo ordinaire. Le produit est encore en phase de R&D et n'a pas atteint la production industrielle.

L'intérêt stratégique de Zhuma dépasse le marché de la caméra 3D : la société se positionne comme infrastructure de données pour l'IA incarnée (embodied AI). Les modèles VLA (Vision-Language-Action) pilotant la prochaine génération de robots humanoïdes sont aujourd'hui majoritairement entraînés sur des données de téléopération, une méthode coûteuse et difficile à scaler. Le consensus qui émerge dans la recherche est que des vidéos en première personne, des données de capteurs spatiaux et des séquences comportementales en environnement réel constitueront la prochaine source dominante d'entraînement. Zhuma propose des données photoréalistes dotées de structure 3D, de sémantique et d'échelle physique correcte, directement utilisables pour construire des world models ou affiner la perception spatiale en simulation, réduisant ainsi la dépendance aux environnements synthétiques dont le réalisme reste limité.

La société est cofondée par Zhang Ji, ancien vice-président de Kujiale (plateforme de design d'intérieur à grande échelle en Chine), et dirigée scientifiquement par Guo Jie, maître de conférences permanent à l'Université de Nanjing et spécialiste reconnu du 3DGS. La technologie 3DGS, popularisée depuis 2023, reconstruit des scènes 3D photoréalistes à partir de vidéos ordinaires, avec des performances supérieures au NeRF sur les temps de rendu. L'entrée de SenseTime comme investisseur principal apporte des ressources algorithmiques complémentaires aux capacités matérielles de Zhuma. Le marché reste largement ouvert : les acteurs industriels du lidar et des scanners haute précision n'ont pas encore attaqué le segment consommateur. Les investisseurs positionnent explicitement Zhuma comme un potentiel Insta360 de la caméra spatiale, une marque capable de définir une catégorie hardware avant que le marché ne se structure.

À lire aussi

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale
1Pandaily 

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale

DeepMotor, une startup pékinoise fondée par Chen Kai au début 2025, développe une approche d'intelligence artificielle incarnée (embodied AGI) basée sur l'entraînement à partir de vidéos en première personne capturées par des humains. Au lancement, la thèse de l'entreprise n'a convaincu ni les investisseurs domestiques ni la majorité du secteur : pourquoi parier sur une méthode que même les géants américains n'avaient pas encore validée ? La startup a levé plusieurs centaines de millions de RMB et poursuit aujourd'hui un déploiement accéléré. La chronologie des validations industrielles donne la mesure de son avance : en mai 2025, Tesla a annoncé réorienter l'entraînement d'Optimus vers des données vidéo humaines. En juin 2025, GeneralistAI a présenté une démo d'apprentissage imitatif robotique, puis a confirmé les lois de mise à l'échelle avec 270 000 heures de données humaines réelles collectées sur le terrain. FigureAI a de son côté annoncé des partenariats avec des opérateurs immobiliers commerciaux pour collecter des flux en première personne. En février 2026, NVIDIA a publié EgoScale, un modèle pré-entraîné sur 20 000 heures de vidéo première personne destiné à la manipulation dextre. L'importance de cette séquence dépasse le simple calendrier. Elle valide l'hypothèse centrale de DeepMotor : la vidéo en vue égocentrique est le signal d'apprentissage le plus dense pour combler le sim-to-real gap en robotique généraliste. Chaque acteur majeur converge vers cette approche non par choix idéologique, mais parce que les benchmarks internes le forcent. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que la prochaine génération de robots manipulateurs ne sera pas entraînée dans des simulateurs mais sur des flux de travail humains réels, ce qui redéfinit les exigences en matière de collecte de données et de gouvernance des contenus vidéo. DeepMotor s'inscrit dans un écosystème robotique chinois en forte accélération, concurrent direct d'Unitree, d'Agibot et des branches robotique de Baidu et Tencent, mais avec une orientation plus fondamentale sur la couche de données brutes plutôt que sur le hardware. La startup a devancé d'environ un an le consensus industriel mondial sur l'approche egocentric data, ce qui lui confère une position de référence potentielle si elle parvient à publier ses propres scaling laws ou à ouvrir un dataset. Les prochaines étapes probables incluent la publication de résultats comparatifs et des partenariats avec des fabricants de robots humanoides pour valider le transfert de politique sur des plateformes tiers. La source originale (Waves/暗涌) reste un media chinois spécialisé, et les chiffres de levée ne sont pas précisément détaillés.

UELe basculement de l'industrie vers les données vidéo égocentristes comme signal d'entraînement de référence redéfinira les exigences de collecte de données et de gouvernance vidéo pour les intégrateurs et fabricants de robots européens, sans acteur français ou européen directement impliqué à ce stade.

Chine/AsieOpinion
1 source
Fortsense développe des caméras spatiales RGBD monocomposant pour la perception de l'IA physique
2Pandaily 

Fortsense développe des caméras spatiales RGBD monocomposant pour la perception de l'IA physique

Fortsense Technologies, startup chinoise spécialisée dans la conception de puces pour la vision 3D, développe des caméras spatiales RGBD mono-puce destinées à la perception des systèmes d'IA physique. La société affirme être la seule entreprise en Chine à maîtriser la chaîne complète SPAD (Single-Photon Avalanche Diode), de la conception du composant à la production en série au niveau automotive. Sa technologie de balayage optique omnidirectionnel atteint 80 % d'efficacité d'utilisation laser, permettant un LiDAR solid-state longue portée de 200 mètres à coût réduit. Depuis le démarrage en série au quatrième trimestre 2025, plusieurs dizaines de milliers de puces SPAD-SoC ont été livrées, avec Zeekr (modèle 9X) parmi les premiers clients identifiés. La feuille de route prévoit une transition d'une architecture bi-puce vers une intégration mono-puce d'ici 2027, fusionnant imagerie RGB et mesure dToF (direct Time-of-Flight) dans un seul composant. La résolution actuelle de 300 000 à 400 000 pixels pour les applications robotiques doit progresser vers des solutions 4 mégapixels automotive à la même échéance. L'enjeu est fondamentalement architectural : les caméras 2D classiques infèrent la profondeur de façon probabiliste, méthode que le président Mo Lianghua juge insuffisante pour des applications où une erreur de perception unique peut avoir des conséquences critiques, qu'il s'agisse de conduite autonome ou de navigation robotique en environnement partagé. Une puce RGBD mono-puce fusionnerait nativement couleur et profondeur, réduisant latence, coût et empreinte matérielle par rapport aux configurations actuelles combinant une caméra RGB et un LiDAR séparés. Pour les intégrateurs de robots humanoïdes, de systèmes cobots ou d'ADAS, cela représenterait une simplification concrète des pipelines de fusion de capteurs. La production effective depuis fin 2025 distingue cette annonce d'un simple prototype de laboratoire, bien que les volumes restent contenus à l'échelle de l'industrie automobile. Fortsense s'inscrit dans un marché de la perception 3D déjà dense, où Luminar, Hesai, Robosense et Innoviz dominent le segment LiDAR, tandis que STMicroelectronics, Sony et OmniVision tiennent le segment imagerie. La différenciation revendiquée repose sur l'intégration verticale de la puce SPAD et un brevet de scanning omnidirectionnel exclusif. En Chine, les politiques d'approvisionnement local et les restrictions à l'export sur les composants américains créent une fenêtre d'opportunité structurelle pour des fournisseurs nationaux comme Fortsense. Les prochaines étapes annoncées incluent les solutions 4MP automotive et l'intégration mono-puce complète, toutes deux visées pour 2027. Aucun acteur européen n'est impliqué dans cette annonce, mais la dynamique illustre l'accélération de l'écosystème chinois dans les composants de perception critiques, un segment qu'adressent également des acteurs comme Prophesee (France, vision événementielle) avec des approches technologiques distinctes.

UEL'accélération de l'écosystème chinois dans les composants de perception RGBD constitue une pression compétitive indirecte sur des acteurs européens du segment comme Prophesee (France, vision événementielle), sans impact direct immédiat.

Chine/AsieOpinion
1 source
Zhongke Diwuji lève des centaines de millions en série A pour déployer ses modèles d'IA incarnée à grande échelle
3Pandaily 

Zhongke Diwuji lève des centaines de millions en série A pour déployer ses modèles d'IA incarnée à grande échelle

Zhongke Diwuji, entreprise chinoise spécialisée dans l'intelligence incarnée (embodied AI), a bouclé une levée de fonds de Série A d'un montant de plusieurs centaines de millions de yuans, annoncée en 2026. Le tour a été mené par Futi Capital, avec la participation de Shanghai Semiconductor Industry Investment, CAS Investment, China Venture Capital et Hongruida Technology. L'investisseur historique Zoyuan Asia a choisi d'augmenter significativement sa participation. Il s'agit du troisième tour de financement réalisé par la société dans la seule année 2026. Les fonds seront alloués au développement de la série FAM (few-shot large model), au modèle monde incarné de prochaine génération BridgeV2W, à l'industrialisation des algorithmes d'apprentissage par renforcement, à l'extension des capacités de production robotique et au recrutement d'ingénieurs de haut niveau. La société affirme avoir sécurisé plusieurs centaines de millions de yuans de commandes auprès de clients entreprises internationaux, bien que leurs noms n'aient pas été communiqués. Trois levées en moins de douze mois pour une entreprise fondée en septembre 2024 constituent un signal d'intérêt institutionnel inhabituellement fort. Ce qui distingue Zhongke Diwuji de ses concurrents n'est pas la plateforme matérielle mais la couche d'apprentissage : son approche par few-shot learning permet à un système robotique d'acquérir de nouvelles capacités de manipulation à partir d'un nombre minimal d'exemples, sans les volumineuses campagnes de collecte de données qui alourdissent traditionnellement le coût d'adaptation à de nouvelles tâches industrielles. C'est précisément ce goulot d'étranglement économique qui freine les déploiements à grande échelle, et une solution crédible à ce problème justifie des valorisations élevées. L'obtention de commandes fermes de clients industriels internationaux, et non de simples lettres d'intention, indique que la technologie a franchi la frontière entre démonstration en laboratoire et valeur terrain vérifiable, même si l'absence de noms de clients invite à une certaine prudence. Fondée en septembre 2024, Zhongke Diwuji s'est positionnée dès l'origine comme un acteur de modèles fondationnels physiques universels, à mi-chemin entre startup robotique et laboratoire de recherche en IA. En 2026, le secteur chinois de la robotique incarnée est entré dans une phase de déploiement commercial à l'échelle, avec des concurrents directs comme Unitree Robotics, AgiBot et Fourier Intelligence en compétition sur les mêmes segments industriels. La présence remarquée de Zhongke Diwuji lors de salons professionnels européens et ses commandes internationales annoncées témoignent d'une ambition d'expansion explicite au-delà du marché domestique. Les prochaines étapes identifiées incluent la mise en production de BridgeV2W et l'intégration du reinforcement learning dans des déploiements clients réels, deux jalons qui permettront de vérifier si la promesse du few-shot tient effectivement à l'échelle industrielle.

UELa présence de Zhongke Diwuji lors de salons professionnels européens et ses commandes internationales annoncées signalent une ambition d'expansion vers l'UE qui pourrait accroître la pression concurrentielle sur les acteurs européens de la robotique industrielle et de l'IA physique.

Chine/AsieOpinion
1 source
Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée
436Kr 

Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée

Lors de la conférence AI+ Industry 2026 de Beijing Yizhuang, Xu Liangwei, CTO et cofondateur de Zhiyu Jishi (智域基石), a exposé un pipeline de compilation de données en cinq couches destiné à l'intelligence incarnée (embodied AI). Son argument central: la loi de mise à l'échelle (Scaling Law) qui sous-tend les grands modèles de langage ne se transfère pas aux robots. Un LLM peut absorber des textes hétérogènes en masse, mais un robot opérant dans le monde physique nécessite des données multimodales couplées dans le temps et dans l'espace, où qualité et traçabilité priment sur le volume brut. Le pipeline de Zhiyu Jishi comprend cinq étapes séquentielles: contrôle qualité des données brutes, alignement spatio-temporel, extraction sémantique et causale (séquence contexte-action-conséquence), traitement à grande échelle avec indexation multi-dimensionnelle, et livraison aux équipes de modèles. Xu Liangwei précise que ce pipeline s'applique indifféremment aux architectures VLA (Vision-Language-Action, apprentissage par imitation) et aux world models, les deux paradigmes convergeant vers le même besoin: des données physiques structurées et tracées. L'enjeu concret pour les intégrateurs et les équipes de modèles est la traçabilité des défaillances terrain. En 2026, certains robots commencent à passer de pilotes laboratoire à des déploiements industriels en petit lot, et les équipes peinent à relier un comportement anormal à un sample d'entraînement défaillant. Xu Liangwei précise que les modèles fixent le plafond de capacité d'un robot, mais que la qualité des données dans les cas d'échec, de reprise et de retry conditionne la fiabilité en environnement dégradé. Sans cette traçabilité bout en bout, la boucle fermée données-modèle-terrain-données ne peut pas converger à l'échelle industrielle, rendant impossible le passage du petit lot à la production réelle. Zhiyu Jishi se positionne dans une niche émergente, les "data foundry" pour l'embodied AI, distincte des services de labeling classiques par la dimension temporelle et multimodale des données robotiques. Le discours de Xu Liangwei s'oppose implicitement au modèle fragmenté actuel, où fabricants de plateformes matérielles, développeurs de modèles et intégrateurs industriels produisent chacun leurs données en silo. Sa proposition est de structurer un écosystème à trois acteurs avec une séparation claire des responsabilités, comparable à une couche d'infrastructure partagée. La présentation ne comporte aucun chiffre de déploiement vérifiable ni de client cité, ce qui la positionne davantage comme une communication de positionnement stratégique que comme un bilan d'exécution. La suite annoncée est l'ouverture de ce pipeline à l'ensemble de l'écosystème robotique chinois, sans calendrier précis communiqué.

Chine/AsieOpinion
1 source