Aller au contenu principal
Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée
IA physiqueTechNode1j

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Alibaba a publié mardi une suite robotique composée de trois modèles fondamentaux : Qwen-RobotNav, Qwen-RobotManip et Qwen-RobotWorld. Qwen-RobotNav étend les capacités vision-langage à la robotique mobile en unifiant quatre tâches au sein d'un même framework : suivi d'instructions, navigation orientée objectif, tracking de cible et conduite autonome. Qwen-RobotManip standardise l'espace état-action et représente le mouvement de l'effecteur terminal sous forme de poses incrémentielles dans le référentiel caméra, une approche conçue pour faciliter la généralisation multi-plateforme. Ce modèle a été entraîné sur plus de 38 100 heures de données entièrement open source. Qwen-RobotWorld, le troisième composant, fonctionne comme un world model généraliste : il prédit des états futurs physiquement cohérents via une interface en langage naturel, couvrant simultanément la navigation, la conduite et la manipulation depuis un seul modèle.

L'approche modulaire mais unifiée est la proposition de valeur centrale de cette suite. Un world model unique opérant sur trois domaines d'action représente une architecture qui, si elle tient ses promesses en conditions réelles, réduirait significativement les coûts d'intégration pour les équipes robotiques industrielles. L'utilisation de données entièrement open source pour Qwen-RobotManip est un signal notable dans un secteur où les datasets propriétaires constituent souvent un avantage concurrentiel défensif : Alibaba positionne ainsi Qwen-Robot davantage comme une infrastructure partagée que comme un produit fermé. Réserve importante cependant : l'annonce ne s'accompagne d'aucun benchmark public (RLBench, LIBERO, CARLA) ni de déploiement physique documenté. Il s'agit d'une publication de modèles, pas d'un produit shipé.

L'équipe Qwen d'Alibaba est reconnue pour ses modèles multimodaux (Qwen2.5-VL, QwQ), mais ce lancement marque son entrée explicite dans l'embodied AI. Le terrain est disputé : Google DeepMind pousse ses dérivés de RT-2, Physical Intelligence a publié Pi-0 et Pi-0.5, Hugging Face soutient l'initiative LeRobot, et NVIDIA propose GR00T N2 comme backbone pour les robots humanoïdes partenaires. Côté chinois, Unitree, Agibot et Zhiyuan Robot accélèrent eux aussi leurs pipelines VLA (vision-language-action). La prochaine étape pour Alibaba sera de démontrer des résultats sur des plateformes matérielles réelles ; faute de quoi, Qwen-Robot restera un framework académique parmi d'autres dans une course déjà très chargée.

Impact France/UE

Impact indirect sur l'écosystème européen : la suite open-source d'Alibaba accentue la pression concurrentielle sur les initiatives VLA portées par des acteurs à ancrage européen comme Hugging Face (LeRobot), sans déploiement physique documenté en Europe à ce stade.

À lire aussi

Alibaba dévoile des cerveaux IA conçus pour équiper la prochaine génération de robots
1Interesting Engineering 

Alibaba dévoile des cerveaux IA conçus pour équiper la prochaine génération de robots

Alibaba a annoncé en juin 2026 le lancement de la suite Qwen-Robot, sa première famille de modèles d'IA dite "embodied", développée par son Tongyi Lab et actuellement en phase de pilote avec des clients entreprise d'Alibaba Cloud. La suite repose sur trois modèles spécialisés : Qwen-RobotNav pour la navigation et le suivi de cibles, Qwen-RobotManip pour la manipulation d'objets physiques, et Qwen-RobotWorld pour la modélisation de l'environnement et la prédiction des conséquences d'actions. Le groupe a également publié Qwen-RobotClaw, un framework d'agents qui expose les modèles Qwen-Robot comme outils accessibles à des agents LLM, ainsi que Chat2Robot, une plateforme open-source en navigateur pour tester des interactions avec des robots physiques. Sur le plan des performances déclarées, Qwen-RobotManip a été entraîné sur plus de 38 000 heures de données open-source et a obtenu sur le benchmark RoboChallenge un process score de 59,83 avec un taux de succès de tâches de 45 % dans la catégorie "généraliste". La démonstration de navigation a mis en scène un quadrupède Unitree Go2 équipé d'un NVIDIA Jetson Thor et d'une seule caméra basse résolution, atteignant une latence d'inférence de 196 millisecondes dans un appartement inconnu, sans carte préchargée. Ces résultats méritent d'être lus avec prudence : un taux de succès de 45 % sur un benchmark réel, s'il est confirmé en conditions non contrôlées, reste modeste mais significatif pour un modèle généraliste. Le vrai signal industriel n'est pas le score brut, c'est l'approche architecturale : au lieu de fusionner indifféremment données de navigation, bras robotiques, caméras et véhicules autonomes, Alibaba a opté pour une spécialisation par modalité, évitant les conflits d'apprentissage que génère le mélange hétérogène de données physiques. Pour les intégrateurs et décideurs B2B, la disponibilité via Alibaba Cloud en pilote marque un premier pas vers la commercialisation d'une couche d'IA robotique as-a-service, potentiellement utilisable sur du matériel tiers sans pipeline de training propriétaire. Alibaba entre dans une course déjà engagée par plusieurs acteurs de premier plan. Aux États-Unis, Google DeepMind fait avancer Gemini Robotics sur des architectures Vision-Language-Action (VLA) similaires, tandis que Physical Intelligence (Pi-0), Figure AI (Figure 03) et Boston Dynamics misent sur des pipelines de données propriétaires et des déploiements industriels réels. NVIDIA pousse son framework GR00T N2 comme socle hardware-logiciel pour l'humanoid. Côté chinois, Unitree et Agibot ont déjà des robots en production, mais sans la couche LLM intégrée qu'Alibaba apporte. L'open-sourcing de Chat2Robot et les pilotes cloud suggèrent une stratégie d'écosystème : capter les développeurs et intégrateurs autour des modèles Qwen-Robot avant que le marché des robots généraux ne se consolide, probablement d'ici 2027-2028 selon les timelines annoncées par les principaux concurrents.

UEL'entrée d'Alibaba dans l'IA robotique cloud-as-a-service intensifie la pression concurrentielle mondiale, sans déploiement ni partenariat européen annoncé à ce stade.

💬 45 % de réussite sur un benchmark généraliste, c'est pas brillant, je sais, mais tu regardes au mauvais endroit. Le vrai signal, c'est l'architecture : trois modèles spécialisés par modalité plutôt qu'un gros fourre-tout, parce que mélanger navigation, manipulation et caméras dans le même pipeline, ça crée des conflits d'apprentissage que tout le monde a sous-estimés depuis le début. Alibaba ne cherche pas à gagner les benchmarks robotiques, ils cherchent à s'installer comme la couche cloud entre le matériel tiers et l'IA physique avant que le marché se consolide.

IA physiqueOpinion
1 source
Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique
2arXiv cs.RO 

Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique

L'équipe Qwen d'Alibaba a publié le 22 juin 2026 un rapport technique décrivant Qwen-RobotManip, un modèle fondation Vision-Langage-Action (VLA) conçu pour la manipulation robotique généraliste. Construit sur l'architecture Qwen-VL, le modèle introduit un cadre d'alignement unifié couvrant trois dimensions : la représentation sensorielle, le mouvement, et le comportement. Son corpus d'entraînement atteint environ 38 100 heures de données, constitué exclusivement de jeux de données open source et de vidéos en vue subjective des mains humaines, sans aucune collecte propriétaire. Un pipeline de synthèse convertit ces démonstrations égocentrées en trajectoires robot compatibles avec 15 plateformes matérielles différentes, dont AgileX ALOHA, Franka, UR et ARX. Évalué sur six benchmarks out-of-distribution (RoboCasa365, LIBERO-Plus, EBench, RoboTwin-Clean2Rand, RoboTwin-IF, RoboTwin-XE), Qwen-RobotManip surpasse les modèles précédents sur l'ensemble des configurations et remporte la première place du RoboChallenge avec une amélioration relative de 20 % par rapport à l'état de l'art antérieur. Ce résultat est significatif parce qu'il répond directement à une question centrale du secteur : peut-on appliquer aux données de manipulation robotique la même recette de scaling qui a propulsé les grands modèles de langage ? Jusqu'ici, la réponse restait négative, en raison de l'hétérogénéité structurelle des données de manipulation (formats, espaces d'action, embodiments incompatibles), qui rendait l'entraînement multi-sources incohérent plutôt que synergique. Qwen-RobotManip avance que l'alignement préalable des données résout ce problème, permettant l'absorption à grande échelle sans dégradation. Les capacités émergentes documentées (suivi d'instructions zero-shot, récupération d'erreurs réactive, transfert cross-embodiment) constituent, si elles se confirment en conditions industrielles réelles, un changement de paradigme pour les intégrateurs : moins de fine-tuning spécifique par robot, généralisation à de nouvelles tâches sans redéploiement complet du pipeline. Il convient toutefois de noter que les résultats reposent sur des benchmarks académiques et des validations en laboratoire réel ; aucun déploiement industriel n'est encore documenté, et l'écart sim-to-real reste une inconnue à l'échelle. Qwen-RobotManip s'inscrit dans une course serrée autour des VLA pour la manipulation, où Physical Intelligence (pi0 et pi0.5), Google DeepMind (RT-2, pi-0), et Hugging Face (LeRobot) occupent déjà des positions fortes. Le modèle de Qwen se distingue en revendiquant la performance la plus élevée sur les benchmarks OOD publiés à ce jour, et surtout en n'utilisant aucune donnée propriétaire, ce qui ouvre théoriquement la voie à une adoption plus large. La publication est un preprint arXiv (arXiv:2506.17846v1), pas encore soumis à peer review, et aucune date de disponibilité du modèle ni annonce de pilote industriel n'accompagne ce rapport. Les prochaines étapes probables incluent une intégration dans l'écosystème Hugging Face ou ModelScope et des évaluations indépendantes en conditions réelles.

💬 L'obstacle au scaling en robotique, c'était pas le manque de données, c'était leur incohérence structurelle. Qwen le prouve ici : aligner avant de scaler, et les benchmarks OOD s'envolent de 20%. Bon, c'est encore du labo et je ne vois aucun déploiement industriel documenté, mais avec zéro donnée propriétaire dans le corpus, les intégrateurs sur Franka ou UR ont une vraie porte d'entrée.

IA physiqueOpinion
1 source
AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique
3arXiv cs.RO 

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

Une équipe de chercheurs propose AttenA+, un framework d'entraînement pour modèles de fondation robotiques publié sur arXiv (2605.13548) en mai 2026. Le constat de départ est simple : les modèles Vision-Language-Action (VLA) et World-Action Models (WAM) actuels héritent du paradigme d'entraînement des LLMs, qui traite chaque token -- ici chaque action -- avec le même poids dans la fonction de perte. Or une trajectoire de manipulation robotique n'est pas homogène : les segments à faible vitesse (préhension précise, insertion, contact fin) conditionnent le succès de la tâche, tandis que les phases à haute vitesse (transitions entre positions) tolèrent l'erreur. AttenA+ corrige ce déséquilibre en repondérant dynamiquement la loss d'entraînement via un champ de vitesse inverse, sans modifier l'architecture ni ajouter de paramètres. Sur le benchmark Libero, le modèle OpenVLA-OFT passe de 97,1 % à 98,6 % (+1,5 points) ; FastWAM atteint 92,4 % sur RoboTwin 2.0 (+0,6 points). Des validations sur bras Franka en conditions réelles confirment la généralisation inter-tâches. L'enjeu dépasse les chiffres de benchmark. Le domaine robotique investit massivement dans le scaling -- plus de données, plus de paramètres, plus de compute -- comme levier principal de performance. AttenA+ suggère qu'une partie du plafond actuel des VLA n'est pas liée à la taille du modèle mais à un biais structurel d'optimisation, ignorant la physique de la manipulation. Pour un intégrateur ou un équipementier qui déploie des bras dans des lignes d'assemblage, cela signifie potentiellement de meilleures performances sur des gestes précis (vissage, pick-and-place serré) sans coût de réentraînement supplémentaire -- le framework se greffe sur les backbones existants en plug-and-play. Les VLA ont connu une accélération notable depuis pi0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), mais la majorité des gains publiés reposaient sur l'augmentation de données ou de paramètres. AttenA+ s'inscrit dans une tendance émergente : exploiter les priors structurels des séquences d'action plutôt que brute-forcer le scaling. Les benchmarks utilisés -- Libero et RoboTwin 2.0 -- restent des environnements simulés, et l'expérimentation Franka décrite dans le papier est limitée. La robustesse à des environnements industriels moins contrôlés reste à démontrer. Aucun partenaire industriel ni timeline de déploiement n'est mentionné dans ce preprint académique.

IA physiqueOpinion
1 source
RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes
4Robotics & Automation News 

RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes

RLWRLD, une startup spécialisée dans les modèles fondation pour la robotique physique, a dévoilé RLDX-1 lors d'un événement privé baptisé "Dexterity Night in SF". Ce modèle fondation est conçu pour permettre aux robots humanoïdes d'exécuter des tâches à contact riche : préhension d'objets, versement de liquides et utilisation d'outils. L'entreprise a publié des résultats sur trois types de benchmarks : manipulation sur table avec des humanoïdes, manipulation en cuisine et versement de café en conditions réelles. Les métriques précises n'ont pas été rendues publiques au moment de l'annonce, ce qui limite toute évaluation indépendante des performances revendiquées. L'approche "dexterity-first" marque un choix de priorité distinct dans la course aux modèles fondation pour robots. La manipulation fine reste le principal goulot d'étranglement de la robotique humanoïde à usage industriel : la locomotion est largement résolue, mais la préhension d'objets variés dans des environnements non structurés demeure difficile à généraliser. L'inclusion d'évaluations en conditions réelles (café, cuisine) plutôt qu'exclusivement en laboratoire suggère une volonté de démontrer une réduction du sim-to-real gap. Pour un intégrateur ou un COO industriel, un modèle capable de gérer des objets divers sans reprogrammation par tâche représente un levier de productivité concret, à condition que les résultats tiennent hors conditions contrôlées. RLWRLD s'inscrit dans un segment en densification rapide : celui des fournisseurs de couche d'intelligence logicielle pour robots tiers, sans fabriquer leur propre hardware. Physical Intelligence (modèle Pi-0), qui adopte une stratégie similaire, est le concurrent le plus direct. En parallèle, Figure AI (Figure 03), Apptronik, 1X et Boston Dynamics développent des modèles intégrés hardware-logiciel. L'annonce de RLWRLD reste au stade du teaser technique : aucune date de disponibilité commerciale, aucun partenaire constructeur ni client pilote n'a été communiqué.

IA physiqueOpinion
1 source