Alibaba se lance dans la robotique avec sa première sui…

Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée

58

1Pandaily

Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée

Alibaba a publié mardi la suite Qwen-Robot, sa première famille de modèles d'IA incarnée, destinée à relier les grands modèles de langage à l'action robotique dans le monde physique. La suite comprend trois modèles : Qwen-RobotNav pour la navigation visuo-langagière, entraîné sur 15,6 millions d'échantillons en unifiant instruction following, navigation par cible et suivi d'objets ; Qwen-RobotManip pour la manipulation robotique via une architecture VLA (Visual Language Action) basée sur un backbone Qwen3.5-4B VL couplé à une tête de diffusion par flow matching, entraîné sur plus de 38 100 heures de données issues exclusivement de sources open source ; et Qwen-RobotWorld, un modèle de monde prédit des futurs physiquement cohérents pour la manipulation, la conduite et la navigation via une interface en langage naturel. La démonstration centrale met en scène un robot quadrupède Unitree Go2 sur hardware NVIDIA Jetson Thor, équipé d'une unique caméra basse résolution : sans cartographie préalable, il navigue dans un appartement inconnu en suivant des instructions verbales, avec une latence d'inférence de 196 millisecondes. Alibaba a également présenté Qwen-RobotClaw, un framework agent permettant aux modèles Qwen VLM d'appeler les outils Qwen-Robot pour gérer des tâches longues et la mémoire de contexte, et mis en open source Chat2Robot, une plateforme d'évaluation navigateur supportant Qwen-RobotManip sur 50 tâches via le dataset RoboTwin-Clean. Pour les intégrateurs et décideurs industriels, deux points méritent attention. L'entraînement de Qwen-RobotManip exclusivement sur des données open source est un choix architectural significatif : il abaisse les barrières de reproduction et contourne le verrou des données propriétaires qui bloque nombre d'acteurs du secteur. La latence de 196 ms sur Jetson Thor illustre la viabilité de l'inférence embarquée pour la navigation, même si cette performance a été mesurée dans un environnement contrôlé et non en production industrielle. La robustesse à grande échelle reste à démontrer : les vidéos présentées constituent une preuve de concept, pas un déploiement validé. L'architecture Qwen-RobotClaw adresserait un problème concret si elle tient ses promesses en production : la gestion de tâches multi-étapes sans reprogrammation manuelle, qui reste le verrou central de l'adoption robotique en environnements non structurés. Alibaba entre tardivement dans l'espace des modèles de fondation robotiques face à des acteurs déjà positionnés : Physical Intelligence (pi0, levée de 400 M$ en 2024), Figure AI (Figure 03, partenariat BMW), Google DeepMind et NVIDIA avec GR00T N2. En Chine, Unitree (fournisseur du Go2 de la démo), Zhiyuan Robot et Agibot développent leurs propres stacks logicielles embarquées. En Europe, Enchanted Tools et Pollen Robotics avancent sur des plateformes collaboratives, mais sans modèle VLA de cette envergure à ce stade. Les prochaines étapes annoncées incluent l'extension de Chat2Robot à de nouvelles plateformes et tâches robotiques, ainsi qu'une intégration commerciale potentielle via Alibaba Cloud.

UEL'entrée d'Alibaba avec une suite VLA entraînée sur données open source creuse l'écart technologique avec les acteurs européens (Enchanted Tools, Pollen Robotics) qui ne disposent pas encore de modèles de fondation robotiques comparables, même si la stack open source pourrait leur servir de base de développement.

Chine/AsieOpinion

1 source

Alibaba et Tencent mènent le virage de l'IA incarnée pour la robotique

43

2SCMP Tech

Alibaba et Tencent mènent le virage de l'IA incarnée pour la robotique

Alibaba et Tencent ont annoncé un virage stratégique majeur : déployer leurs modèles d'IA générative dans des systèmes robotiques physiques, plutôt que de rester cantonnés aux interfaces conversationnelles. Alibaba a lancé la semaine dernière le modèle Qwen3.7-Max, doté de capacités dites de "tool-calling" qui lui permettent de fonctionner comme cerveau numérique d'un robot, en orchestrant des composants logiciels et matériels externes. Concrètement, le modèle peut déclencher des séquences d'actions physiques comme la navigation autonome, le bras articulé ou la prise d'objet, sans reprogrammation manuelle à chaque tâche. Ce positionnement signale un déplacement du front concurrentiel de l'IA en Chine : la différenciation ne se joue plus sur les benchmarks de raisonnement textuel, mais sur la capacité des VLA (Vision-Language-Action models) à passer du simulateur à l'environnement réel. Pour les intégrateurs industriels et les décideurs B2B, cela implique que des briques d'IA disponibles en open ou semi-open source pourraient bientôt remplacer des stacks robotiques propriétaires coûteux, accélérant les cycles de déploiement tout en abaissant les barrières à l'entrée. Alibaba avait déjà positionné la famille Qwen comme alternative aux modèles occidentaux, avec des versions multimodales compétitives face à GPT-4o et Gemini. Tencent suit une trajectoire similaire avec ses propres initiatives robotiques encore peu documentées publiquement. Les deux groupes se retrouvent en concurrence directe avec Figure AI, Physical Intelligence (pi0), Boston Dynamics et Unitree, ainsi qu'avec les efforts de Nvidia (GR00T N2) pour standardiser les pipelines d'entraînement robotique. Les prochaines étapes annoncées restent pour l'instant au stade de la démonstration technique, sans déploiement industriel confirmé.

UEL'émergence de briques VLA open/semi-open source chinoises (Qwen3.7-Max) pourrait abaisser les coûts d'intégration pour les industriels européens, tout en intensifiant la pression concurrentielle sur les acteurs EU face aux géants technologiques chinois.

Chine/AsieOpinion

1 source

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA

43

3Pandaily

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA

L'équipe Tongyi Qianwen d'Alibaba a annoncé en 2026 son entrée dans le domaine de l'IA embodiée avec Qwen-VLA, un modèle vision-langue-action (VLA) destiné à doter robots et appareils intelligents d'une capacité de perception, de compréhension et d'action dans le monde physique. L'architecture unifiée du modèle intègre trois composantes : la perception visuelle, la compréhension du langage naturel, et la planification d'actions physiques. Concrètement, un système embarquant Qwen-VLA serait en mesure d'analyser son environnement via des caméras, d'interpréter des instructions vocales ou textuelles, et de générer les commandes motrices correspondantes. Les applications visées couvrent un spectre large : robots industriels, robots de service, et équipements domestiques connectés. Le modèle s'appuie sur l'expertise accumulée par la série Qwen en LLM et IA multimodale, en étendant ces capacités vers la prédiction d'actions robotiques. Aucune métrique de performance (charge utile, degrés de liberté, temps de cycle) n'a été communiquée à ce stade, ce qui situe clairement cette publication comme une annonce de cap stratégique plutôt que le lancement d'un produit finalisé. L'entrée d'Alibaba reconfigure l'équilibre de la course à l'IA embodiée en Chine, non pas par une approche hardware-first, mais par la couche modèle. Qwen-VLA est positionné comme une plateforme ouverte : Alibaba ne construit pas ses propres robots, mais fournit le "cerveau" que des partenaires matériels peuvent embarquer dans leurs systèmes, quel que soit le facteur de forme. Cette stratégie rappelle davantage celle d'un fournisseur de fondations que celle d'un constructeur robotique intégré. L'atout différenciant réside dans les ressources mobilisables : la puissance de calcul d'Alibaba Cloud, les données réelles issues des opérations logistiques de Cainiao et des flux e-commerce de Taobao, et un écosystème dense de partenaires industriels. Si ces données propriétaires représentent un avantage réel pour l'entraînement et le fine-tuning de VLA, leur exploitation sans friction juridique ou de gouvernance reste à démontrer en pratique. La publication de Qwen-VLA s'inscrit dans une accélération marquée du marché chinois de l'IA embodiée en 2026, portée par la convergence des modèles de fondation, des capteurs et des capacités manufacturières. Alibaba rejoint un champ concurrentiel déjà dense : Unitree Robotics et Deep Robotics sur le hardware, Zhiyuan et AgiBot sur l'intégration système, et des géants tech comme Xiaomi et ByteDance qui investissent de plus en plus dans la robotique généraliste. La stratégie d'Alibaba, modèle ouvert sans robot propriétaire, la distingue de Figure AI ou 1X Technologies aux États-Unis, qui misent sur une intégration verticale complète. Elle se rapproche davantage de l'approche de NVIDIA avec GR00T N2, ou de Physical Intelligence avec Pi-0 côté américain. Les prochaines étapes à surveiller : des partenariats hardware concrets, des benchmarks comparables aux standards du secteur, et d'éventuels pilotes industriels chez des opérateurs logistiques comme Cainiao, qui constitueraient le premier vrai test de passage à l'échelle.

UEL'accélération de l'IA embodiée en Chine avec Qwen-VLA accentue la pression concurrentielle sur les acteurs européens du secteur, sans impact direct immédiat sur le marché français ou les réglementations EU.

Chine/AsieOpinion

1 source

Première mondiale : un parc à thème robotique avec des humanoïdes danseurs de K-pop pour séduire le public

33

4Interesting Engineering

Première mondiale : un parc à thème robotique avec des humanoïdes danseurs de K-pop pour séduire le public

Galaxy Corporation, société de management artistique sud-coréenne dont le catalogue inclut G-Dragon, a inauguré le Galaxy Robot Park dans l'arrondissement de Gangdong à Séoul. L'installation de 16 500 m², présentée par ses promoteurs comme "le premier parc à thème robotique au monde", propose des robots humanoïdes de taille enfantine exécutant des chorégraphies K-pop synchronisées, tenant le rôle de valets à l'entrée, dessinant des portraits ou s'affrontant dans un ring de boxe contrôlé en mirroring temps réel par les visiteurs. Le show d'ouverture mettait en scène plusieurs robots dansant sur Home Sweet Home de G-Dragon ainsi que Advice et Idea de Taemin. La réalité technique s'est néanmoins imposée dès la première représentation : l'un des robots a dysfonctionné en pleine performance et a dû être retiré de scène. Galaxy ambitionne d'organiser plus de 1 000 concerts robotiques par an, de lancer une tournée mondiale et de déployer ces systèmes dans des zones difficilement accessibles aux artistes humains, dont des zones de conflit. Le mécanisme repose sur une synchronisation centralisée : une chorégraphie chargée sur un robot serait instantanément répliquée à l'ensemble du parc de machines. L'initiative soulève une question structurelle pour l'industrie du divertissement et, par extension, pour les intégrateurs robotiques travaillant sur l'expressivité humanoïde : les robots peuvent-ils générer une connexion émotionnelle réelle avec un public, ou restent-ils cantonnés au registre de la curiosité technologique ? L'analyste Cha Woo-jin compare économiquement une tournée robotique à une troupe de cover dance, mais avec l'avantage d'éliminer les frais d'hébergement et les per diems. La K-pop, genre ultra-visuel fondé sur la précision chorégraphique, constitue un terrain d'évaluation pertinent pour ce type de système, plus que d'autres genres où le rapport à l'interprète est plus intime. Le dysfonctionnement en ouverture, lui, rappelle que l'écart entre démonstration maîtrisée et déploiement live reste un facteur de risque concret pour ce type d'expérience grand public. Ce projet s'inscrit dans une trajectoire déjà bien engagée au sein de la K-pop : les agences ont depuis plusieurs années intégré des avatars virtuels aux côtés de membres réels, et des groupes entièrement digitaux comme Plave atteignent régulièrement les charts coréens. Galaxy Corporation franchit un cran supplémentaire en substituant le robot physique à l'humain, là où ses concurrents restent dans le registre du virtuel projeté. Aucun acteur européen ou français n'est impliqué dans ce projet. La société annonce également le lancement d'un label de mode robotique et d'un premier défilé humanoïde, dont les détails techniques et calendaires restent flous. La pérennité du Galaxy Robot Park dépendra moins de la fluidité mécanique des chorégraphies que de la capacité de ces machines à entretenir le lien affectif qui fonde l'économie du fandom K-pop.

Chine/AsieOpinion

1 source

Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots

À lire aussi

Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée

Alibaba et Tencent mènent le virage de l'IA incarnée pour la robotique

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA

Première mondiale : un parc à thème robotique avec des humanoïdes danseurs de K-pop pour séduire le public