Aller au contenu principal

Dossier Figure — page 2

195 articles · page 2 sur 4

Figure, le constructeur de robots humanoïdes le plus capitalisé : Figure 02 et 03, modèle Helix VLA, déploiements BMW, partenariats avec OpenAI puis indépendance.

Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0
51Pandaily Chine/AsieActu

Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0

Pro Universe Robotics a présenté son "Product Matrix 2.0", comprenant deux nouvelles offres : AcCI, une solution d'acquisition de données multimodale à précision sub-millimétrique, et le module Dabai, dédié au chargement et déchargement intelligent par robot. AcCI intègre des technologies de contrôle maître-esclave, de téléopération VR et de manette, et capture des données de force, couple, pose, retour tactile et vision, avec une boucle fermée end-to-end. La société lance simultanément une stratégie d'écosystème baptisée "1+N+infinity" et recrute des partenaires mondiaux pour cibler ce qu'elle décrit comme un marché d'intelligence incarnée industrielle à "trillion de yuans" (environ 138 milliards de dollars). Fondée il y a 16 mois seulement, l'entreprise n'a communiqué ni client ni déploiement terrain confirmé. La collecte de données haute qualité reste l'un des principaux goulots d'étranglement pour le déploiement à grande échelle de robots industriels physiquement intelligents. Une solution d'acquisition multimodale en boucle fermée - force, couple, tactile, visuel, pose - répond directement à ce besoin, notamment pour entraîner des VLA (Vision-Language-Action models) sur des tâches de manipulation complexe comme le chargement et déchargement de pièces. Si la précision sub-millimétrique annoncée se confirme en conditions réelles, ce serait un atout concret pour constituer des datasets d'entraînement denses. Cependant, le communiqué ne fournit ni benchmark indépendant, ni volume de données collectées, ni résultats mesurables sur le terrain. Pro Universe Robotics s'inscrit dans un secteur très compétitif : Physical Intelligence avec Pi-0, Figure AI avec le Figure 03, Apptronik, mais aussi des acteurs spécialisés dans la téléopération et la capture de données comme Embodied Intelligence ou Scale AI. La revendication "global-first" sur l'acquisition fusionnée haute précision est difficile à vérifier sans étude comparative indépendante. L'ambition affichée d'un marché au trillion de yuans est une projection courante dans les annonces robotiques chinoises, où l'écart entre ambition déclarée et réalité commerciale reste souvent important. La prochaine étape déterminante sera la signature de partenaires industriels concrets au sein de l'écosystème annoncé.

1 source
Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation
52Pandaily 

Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation

Moore Threads et Guangyun Intelligence ont annoncé un partenariat stratégique, selon le média financier chinois IPO Zaozhidao. L'accord associe les GPU polyvalents de Moore Threads et son cluster de calcul intelligent Kua'e à la plateforme de simulation propriétaire de Guangyun Intelligence, articulée autour d'une approche intégrée "solve-measure-generate" (résolution, mesure, génération). L'objectif commun est de produire à grande échelle des données synthétiques haute-confiance pour le développement de l'IA incarnée (embodied AI). Aucun chiffre de volume de données, de puissance de calcul déployée ni de tarification n'a été communiqué dans l'annonce. Ce partenariat cible un verrou structurel de la robotique humanoïde : la rareté des données physiques réelles, leur coût de collecte, la couverture insuffisante des scénarios, et la difficulté à reproduire de façon stable des processus physiques complexes lors des campagnes de collecte sur robot réel. La synthèse de données de haute qualité s'impose comme voie de contournement, mais elle se heurte à des besoins en calcul en croissance exponentielle liés à l'explosion combinatoire du rendu. Le pipeline proposé, de la trajectoire réelle à la modélisation en simulation puis à l'augmentation de données, ambitionne notamment de résoudre la simulation physique de la préhension de corps souples (flexible body grasping), un défi technique clé pour les applications de manipulation industrielle. L'annonce s'inscrit dans la course chinoise à la souveraineté en IA physique. Moore Threads, fondé en 2020, positionne ses GPU comme alternative domestique aux puces Nvidia dans un contexte de restrictions américaines à l'exportation. Guangyun Intelligence se spécialise dans la simulation pour la robotique incarnée. Ce type de boucle fermée entre calcul souverain et production de données synthétiques robotiques trouve des équivalents directs dans l'écosystème occidental, notamment NVIDIA Isaac Sim, la plateforme open-source Genesis, ou les pipelines internes de Figure AI et Physical Intelligence. La portée réelle de ce partenariat reste à démontrer : l'annonce relève du cadre stratégique, sans déploiement documenté ni résultat public à ce stade.

Chine/AsieOpinion
1 source
CSR : politiques en temps réel à horizon infini avec représentations d'état massivement en cache
53arXiv cs.RO 

CSR : politiques en temps réel à horizon infini avec représentations d'état massivement en cache

Des chercheurs ont publié début mai 2026 un preprint sur arXiv (2605.07325) présentant CSR (Cached State Representation) et ASR (Asynchronous State Reconciliation), deux mécanismes visant à déployer des LLMs massifs comme contrôleurs temps réel pour des robots. Le verrou pratique est la latence TTFT (time-to-first-token) : sur un contexte de 120 000 tokens avec un modèle de 235 milliards de paramètres, la baseline standard exige 14,67 secondes avant la première sortie. CSR optimise la réutilisation du cache KV (key-value) pour ramener ce délai à 0,56 seconde, soit un facteur 26. ASR déleste en parallèle l'éviction de la mémoire d'état, éliminant les pics de latence sur 10 cycles d'opération continue. Testé sur un robot physique connecté sans fil à un serveur GPU on-premise, le système dépasse 2 Hz de fréquence de traitement et atteint un rappel de 0,836 sur un benchmark d'IA incarnée, contre 0,459 pour une approche RAG classique. L'enjeu est structurel pour la robotique incarnée : les approches existantes, RAG (retrieval-augmented generation) et fenêtres glissantes, font toutes deux un compromis, soit sur la cohérence contextuelle globale, soit sur la vitesse de re-calcul. CSR démontre qu'un modèle de 235 milliards de paramètres peut maintenir un horizon de contexte illimité tout en restant utilisable à fréquence robotique. C'est l'une des premières validations publiées de cette hypothèse sur un robot physique réel, et non en simulation. Pour les intégrateurs et les équipes ingénierie, cela signifie que les politiques robotiques fondées sur des LLMs ne seraient plus condamnées à tronquer l'historique ou à sacrifier le temps de cycle. Ces travaux s'inscrivent dans la tendance VLA (Vision-Language-Action), où des modèles fondation multimodaux remplacent progressivement les contrôleurs classiques. Les concurrents directs incluent Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les architectures Helix de Figure AI, qui adoptent des approches comparables pour l'IA incarnée à grande échelle. Ce preprint reste cependant une contribution académique préliminaire : le protocole porte sur un seul robot, un unique serveur GPU on-premise, sans affiliation industrielle ni feuille de route de déploiement annoncée. La reproductibilité à l'échelle et en conditions industrielles reste entièrement à prouver.

RechercheOpinion
1 source
SynapX lance SYNData : un système de collecte de données multimodal pour l'ère de l'IA incarnée
54Pandaily 

SynapX lance SYNData : un système de collecte de données multimodal pour l'ère de l'IA incarnée

SynapX a lancé SYNData, un système de collecte de données multimodales dédié à la manipulation dextre pour l'IA incarnée (embodied AI). La plateforme combine trois modules matériels : un casque Ego équipé de quatre caméras, des bracelets EMG (électromyographie) et un gant exosquelette bionique. Ensemble, ils capturent simultanément la vision à la première personne, la pose des mains, l'état de contact de la paume entière avec distribution des forces, et les signaux bioélectriques musculaires, y compris en cas d'occlusion visuelle. La brique centrale est le mécanisme Bio2Robot : un modèle IA qui transforme les signaux biologiques humains en données directement exploitables pour l'entraînement robotique, sans contraindre le comportement naturel de l'opérateur. Fondée en janvier 2026, SynapX a participé à l'AGIBOT World Challenge (track Reasoning to Action) à ICRA 2026 seulement trois semaines après sa création officielle, décrochant la 2e place mondiale et la 1re place en Chine. Le vrai goulot d'étranglement de l'IA incarnée n'est plus l'architecture des modèles ni le matériel, mais la disponibilité de données d'interaction physique de haute qualité à grande échelle. SYNData cible ce problème en capturant les gestes humains sans les modifier, là où la télé-opération classique introduit des artefacts comportementaux. La capture simultanée de la distribution des forces sur toute la paume et des signaux EMG constitue une modalité que peu de systèmes commerciaux ou open-source proposent aujourd'hui. Le résultat obtenu à ICRA 2026, même pour une entreprise de trois semaines, valide une cohérence technique sur benchmark standardisé, même si les conditions précises du challenge ne sont pas détaillées publiquement. Le marché de la collecte de données pour la robotique manipulatrice est dominé par des pipelines propriétaires : Physical Intelligence (Pi-0), Figure AI et Agility Robotics collectent leurs datasets via télé-opération directe. SynapX se distingue par une approche biosignale potentiellement plus scalable en environnement industriel réel. La société n'a pour l'instant communiqué ni sur ses clients, ni sur ses tarifs, ni sur un calendrier de déploiement commercial. Les prochaines étapes attendues sont la constitution d'un dataset propriétaire de grande envergure et, probablement, une commercialisation du système de collecte auprès de laboratoires de robotique et d'intégrateurs industriels.

💬 Le vrai problème des robots manipulateurs, c'est pas les modèles, c'est les données. SynapX a compris ça : capter les gestes humains sans les contraindre, là où la télé-opération classique introduit des artefacts que les modèles apprennent ensuite à reproduire (y compris les mauvais). La 2e place mondiale à ICRA trois semaines après la création, c'est flatteur, mais le vrai test c'est un dataset à grande échelle en conditions industrielles réelles.

IA physiqueActu
1 source
Xiaoyubot lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC
55Pandaily 

Xiaoyubot lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC

Xiaoyubot, startup chinoise spécialisée dans l'IA embodied industrielle, a bouclé un tour de financement de série B+ de plusieurs centaines de millions de yuans (montant exact non précisé), selon le média financier IPOZaozhidao. Ce tour est co-mené par cinq investisseurs industriels : Xiaomi, Didi, BAIC Investment (bras financier du constructeur automobile BAIC), Fosun Venture et la China Construction Bank Development (CCDC). Lei Wanqiang, co-fondateur de Xiaomi, y participe pour la quatrième fois consécutive, signe d'une conviction institutionnelle durable. Les fonds levés seront affectés à l'accélération du déploiement de Xiaoyubot sur l'ensemble des scénarios industriels couverts par l'IA embodied, terme désignant les systèmes d'IA capables d'agir physiquement dans un environnement réel via un corps robotique. L'ambition déclarée de Xiaoyubot est d'atteindre un rythme de livraison de 100 000 unités par an, seuil qu'elle présente elle-même comme le ticket d'entrée pour la phase finale de la course aux robots incarnés. La société développe une architecture baptisée "un cerveau, plusieurs formes" (one brain, multiple forms), conçue pour piloter différentes morphologies robotiques depuis un même système cognitif général, avec l'objectif de mutualiser les coûts de développement logiciel tout en couvrant un spectre large de cas d'usage industriels. La composition du tour est elle-même un signal stratégique : réunir des acteurs de l'internet (Xiaomi, Didi), de l'automobile (BAIC), de la finance privée (Fosun) et de la finance d'État (CCB) sous un même cap est rare et suggère un positionnement de plateforme nationale plutôt qu'une verticale sectorielle étroite. Fondée avec pour mission de déployer des robots IA dans des scénarios industriels variés, Xiaoyubot s'inscrit dans un écosystème chinois de la robotique en pleine effervescence, aux côtés de Unitree Robotics, Fourier Intelligence ou encore UBTECH. Ce tour intervient alors que plusieurs acteurs chinois cherchent à atteindre une échelle de production industrielle avant leurs concurrents occidentaux tels que Boston Dynamics, Figure AI ou 1X Technologies. L'objectif des 100 000 unités annuelles reste une cible annoncée, sans calendrier précis ni preuve de commandes fermes publiés à ce stade.

UELa constitution d'un consortium industrie-finance-État autour de Xiaoyubot accélère la course chinoise aux 100 000 unités annuelles et intensifie la pression concurrentielle sur les acteurs européens de la robotique industrielle, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieActu
1 source
Xiaoyu Robotics lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC
56Pandaily 

Xiaoyu Robotics lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC

Xiaoyu Robotics, startup chinoise spécialisée dans l'IA incarnée industrielle (embodied AI), a bouclé un tour de table Series B+ de plusieurs centaines de millions de yuans, selon le média spécialisé IPO Early. Le tour est co-piloté par cinq investisseurs industriels : Xiaomi, Didi, BAIC Investment (bras financier du constructeur automobile BAIC), Fosun Venture et CCDC (filiale de China Construction Bank). Le co-fondateur de Xiaomi, Lei Wanqiang, y participe pour la quatrième fois consécutive, signal fort de confiance institutionnelle dans la trajectoire de la société. Les fonds sont destinés à accélérer le déploiement de la startup dans l'ensemble des scénarios industriels et à financer son architecture robotique dite "un cerveau, plusieurs formes" : un seul cerveau général capable de piloter différents types de robots physiques, avec un objectif affiché de 100 000 unités livrées par an. Ce chiffre de 100 000 unités est présenté par la société comme le seuil d'entrée dans la phase décisive de la course à l'embodied AI industrielle. Il s'agit d'une ambition déclarée, sans contrats ni calendrier précis communiqués publiquement. Ce qui est plus structurellement significatif est la composition du tour : réunir simultanément un géant tech grand public (Xiaomi), un opérateur de mobilité (Didi), un OEM automobile (BAIC), un conglomérat industrialo-financier (Fosun) et une banque d'État (CCB) est rare dans l'écosystème robotique. Cela positionne Xiaoyu Robotics moins comme un fournisseur sectoriel que comme une plateforme transversale, ce qui est une proposition structurellement différente pour les intégrateurs et les décideurs B2B : l'ambition n'est pas un robot, c'est un OS robotique industriel. Fondée pour opérer dans des environnements industriels variés, Xiaoyu Robotics s'inscrit dans une vague de levées massives sur le segment embodied AI en Chine en 2024-2025, aux côtés d'Unitree, Agibot (ex-Zhiyuan) et Fourier Intelligence. Face à eux, les acteurs occidentaux comme Figure AI avec son Figure 03, Physical Intelligence et son modèle pi-0, ou Agility Robotics déployé chez Amazon, avancent également sur la commercialisation industrielle. L'architecture "un cerveau, plusieurs formes" vise à différencier la startup par la généralité du modèle plutôt que par un form factor unique, une approche proche des VLA (Vision-Language-Action models) appliqués à l'échelle. Les prochaines étapes, notamment les pilotes industriels et la feuille de route vers les 100 000 unités, n'ont pas encore été détaillées publiquement.

Chine/AsieActu
1 source
Unitree lance UniStore, le premier App Store mondial pour robots humanoïdes, avec 24 applications de mouvement disponibles au lancement
57Pandaily 

Unitree lance UniStore, le premier App Store mondial pour robots humanoïdes, avec 24 applications de mouvement disponibles au lancement

Unitree Robotics a lancé UniStore, une plateforme de distribution d'applications pour robots humanoïdes, structurée autour de quatre modules : User Square, Motion Library, Dataset et Developer Center. Au lancement, la Motion Library propose 24 actions motrices téléchargeables, parmi lesquelles une danse style Jackson, du Mantis Boxing, le Charleston, des animations "比心" (finger heart) et une catégorie de comportements humoristiques baptisée "整活". Ces contenus sont accessibles en essai gratuit à durée limitée. L'interface utilisateur reproduit le modèle UX des app stores mobiles : navigation, téléchargement et installation de nouvelles compétences directement depuis une application smartphone, sans intervention technique sur le robot. La plateforme est compatible avec l'ensemble de la gamme Unitree, humanoïdes G1 et H1, quadrupède B2 et robot chien Go2. Le Developer Center ouvre la publication à des développeurs tiers, qui peuvent créer et soumettre leurs propres packages de mouvements. L'initiative est structurellement significative pour le secteur, même si les 24 applications du lancement relèvent davantage de la démonstration grand public que du cas d'usage industriel. Ce qui compte, c'est le modèle : Unitree cherche à décorréler la valeur logicielle de la valeur matérielle, en instaurant un écosystème tiers autour de ses plateformes physiques. Pour les intégrateurs et les décideurs B2B, c'est une orientation claire vers la monétisation des comportements robotiques et une réduction de la dépendance aux pipelines de développement propriétaires. Cela pose aussi une question sur la résilience qualité : des comportements créés par des tiers et installés sur des robots humanoïdes en environnement réel soulèvent des enjeux de validation et de responsabilité que la plateforme ne documente pas encore publiquement. Unitree, fondée en 2016 à Shenzhen, s'est imposée comme le fournisseur de robots quadrupèdes les moins chers du marché avant de pivoter vers les humanoïdes avec le H1 puis le G1, commercialisé sous les 16 000 dollars. La stratégie UniStore s'inscrit en opposition directe avec Boston Dynamics, dont l'approche reste fermée et orientée contrats enterprise, mais aussi face à Figure AI, Agility Robotics et 1X, qui misent sur des pipelines logiciels internes. Si des développeurs tiers commencent à publier des packages de mouvements fonctionnels, Unitree pourrait accélérer sa couverture de cas d'usage sans porter seul le coût R&D. Les prochaines étapes à surveiller : le volume de contributions externes dans les 90 premiers jours et l'éventuelle ouverture d'un modèle de monétisation pour les développeurs.

UESignal compétitif indirect pour les intégrateurs et développeurs européens : Unitree instaure un écosystème logiciel ouvert autour de robots humanoïdes low-cost, sans équivalent chez les acteurs occidentaux pour l'instant.

Chine/AsieOpinion
1 source
Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne
58arXiv cs.RO 

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs ont publié sur arXiv (arXiv:2605.05544, mai 2026) une méthode appelée Adaptive Q-Chunking (AQC), visant à résoudre une limitation structurelle de l'apprentissage par renforcement offline-to-online avec action chunking. Toutes les approches existantes appliquent une taille de chunk fixe à chaque état, ce qui est sous-optimal : près d'un contact physique, des chunks courts sont nécessaires pour un contrôle réactif ; en déplacement libre, des chunks longs améliorent l'attribution du crédit temporel. La solution naïve, entraîner un critique par taille de chunk puis comparer les valeurs Q, échoue systématiquement par désalignement des échelles de remise (discount-scale mismatch) et dégénère en bruit dans les états à faible valeur. AQC corrige ce double problème en comparant l'avantage relatif de chaque horizon par rapport à une baseline normalisée par le facteur de remise, rendant les comparaisons non biaisées même en l'absence de signal discriminant. La méthode atteint des taux de succès état de l'art sur les benchmarks OGBench et Robomimic, et améliore significativement les performances de modèles VLA à grande échelle sur les tâches RoboCasa-GR1. L'enjeu est concret pour les équipes qui intègrent des modèles Vision-Language-Action en production. Ces architectures, dont Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, prédisent des séquences d'actions dont l'efficacité dépend directement de la granularité temporelle de ces séquences. AQC est applicable sans modifier l'architecture sous-jacente, ce qui en fait un correctif plug-and-play pour des pipelines existants. Les auteurs fournissent également des bornes formelles sur l'immunité au bruit du sélecteur d'avantage et sur la dominance en valeur du chunking adaptatif face à toute taille fixe, donnant une assise théorique à des performances que les benchmarks confirment empiriquement. L'action chunking s'est imposé comme paradigme de référence en manipulation apprise depuis ACT (Action Chunking with Transformers, Chi et al., 2023) et Diffusion Policy. La limitation d'une taille fixe était documentée mais sans solution rigoureuse. Des approches concurrentes adressent la granularité temporelle via la planification hiérarchique ou le fine-tuning online de politiques de diffusion, sans résoudre le biais de comparaison entre horizons. AQC se positionne comme correctif algorithmique orthogonal, applicable en surcouche de ces méthodes. Les résultats présentés portent intégralement sur des environnements simulés ; la validation sur plateformes physiques reste à établir, le gap sim-to-real demeurant une variable non résolue dans ce domaine.

RechercheOpinion
1 source
CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde
59arXiv cs.RO 

CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde

Des chercheurs ont déposé le 8 mai 2026 sur arXiv (2605.06247) CKT-WAM, un cadre de transfert de connaissances paramètre-efficient entre modèles d'action du monde (WAMs, World Action Models). L'approche résout un verrou persistant : faire bénéficier un WAM étudiant des représentations apprises par un WAM enseignant plus capable, sans réentraîner l'ensemble du réseau. Techniquement, CKT-WAM extrait des états cachés intermédiaires de l'enseignant, les compresse via une attention croisée à requêtes apprenables (LQCA), les transforme à travers un adaptateur généralisé toujours actif et des adaptateurs spécialisés à activation parcimonieuse, puis injecte ce contexte compact dans les embeddings textuels de conditionnement de l'étudiant. Sur le benchmark LIBERO-Plus, le système atteint 86,1 % de taux de réussite global en n'entraînant que 1,17 % des paramètres du modèle étudiant, approchant les performances du fine-tuning complet. En conditions réelles, quatre tâches de manipulation longue portée ont été évaluées avec 83,3 % de réussite moyenne, résultat présenté comme meilleur de la catégorie par les auteurs. Le code est disponible sur GitHub (YuhuaJiang2002/CKT-WAM). L'enjeu industriel est direct : affiner un WAM ou un VLA (Vision-Language-Action model) de taille fondationnelle exige des ressources GPU considérables ; descendre à 1,17 % de paramètres entraînables tout en conservant des performances comparables ouvre une voie concrète pour les équipes R&D à ressources limitées. La démonstration d'une généralisation zero-shot suggère que le contexte transféré encode des capacités motrices transposables au-delà des tâches d'entraînement, ce qui valide partiellement l'hypothèse d'une composabilité des modèles robotiques génératifs. Deux réserves s'imposent toutefois : les quatre scénarios réels évalués restent trop peu nombreux pour conclure à une robustesse hors laboratoire, et les conditions d'évaluation (définition du succès, variabilité environnementale, sélection des vidéos) ne sont pas détaillées dans le preprint, ce qui limite la portée des chiffres annoncés. CKT-WAM s'inscrit dans la vague actuelle des modèles robotiques fondationnels interopérables, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI). L'idée de capitaliser sur des modèles enseignants hétérogènes plutôt que de réentraîner from scratch rejoint les travaux de distillation de connaissances explorés en académique comme en industrie, dans un contexte où la course aux WAMs s'accélère significativement depuis 2025. En Europe, Enchanted Tools et Wandercraft développent des architectures de contrôle avancées, bien que moins orientées WAMs dans leurs publications récentes. La suite logique serait une validation sur des benchmarks plus larges comme DROID ou Open-X Embodiment, et des expérimentations terrain pour confirmer la robustesse réelle du transfert en dehors des environnements contrôlés.

UELes équipes R&D européennes travaillant sur des VLAs à ressources GPU limitées (dont Enchanted Tools et Wandercraft) pourraient exploiter ce framework pour réduire drastiquement le coût d'affinage de modèles fondationnels robotiques, dès validation sur des benchmarks plus larges.

💬 1,17 % des paramètres entraînés pour des perfs comparables au fine-tuning complet, c'est le genre de chiffre qui change les plans de roadmap. Les équipes qui rêvaient de WAMs génératifs mais bloquaient sur le budget GPU vont regarder ça de près. Bon, quatre tâches réelles c'est maigre pour crier victoire, mais l'axe est le bon.

IA physiqueOpinion
1 source
SF Express, Sequoia China et IDG investissent dans une licorne en robots humanoïdes issue de Tsinghua
60Pandaily 

SF Express, Sequoia China et IDG investissent dans une licorne en robots humanoïdes issue de Tsinghua

Wujie Power (无界动力), spin-off de l'université Tsinghua spécialisé dans les robots humanoïdes à usage général, a bouclé un tour de financement impliquant des investisseurs chinois et internationaux de premier rang. Ce tour est co-dirigé par Envision Group et le Fonds d'investissement en intelligence artificielle de Pékin, avec la participation récurrente de Sequoia China, Linear Capital, Hillhouse Ventures, Baidu Ventures et Yunshan Capital. La société est par ailleurs sur le point de clôturer une tranche additionnelle dite "angel+++" auprès de capitaux américains et en renminbi, portant le financement total au stade angel à plus de 200 millions de dollars. Ce tour intervient dans la continuité d'un tour stratégique d'un milliard de yuans finalisé en mars 2026. Simultanément, StarTrace (星动纪元), autre constructeur d'humanoïdes issu du même écosystème d'investisseurs, a clôturé un tour dépassant également 200 millions de dollars. Le géant de la logistique SF Express figure parmi les nouveaux entrants, rejoignant le capital à l'intersection de la robotique et de l'automatisation de la chaîne d'approvisionnement. L'annonce ne précise ni la valorisation exacte ni les spécifications techniques du robot : pas de charge utile, de degrés de liberté ou de cadence opérationnelle communiqués. Ces levées consécutives confirment l'appétit persistant du capital-risque chinois pour l'IA incarnée (embodied AI), mais signalent surtout un mouvement stratégique côté industrie. La présence de SF Express au capital est un indicateur concret : un opérateur logistique de cette envergure n'engage pas plusieurs dizaines de millions sans anticiper un horizon d'intégration dans ses entrepôts ou centres de tri. Pour les décideurs B2B, cela suggère que la logistique reste le premier terrain de déploiement visé par les humanoïdes chinois en 2026-2027, avant le manufacturing. Les deux tours simultanés (Wujie Power + StarTrace) indiquent également une stratégie de portefeuille coordonnée, plutôt qu'une conviction isolée sur un seul acteur. Wujie Power s'inscrit dans la vague de spin-offs académiques issus de Tsinghua ces deux dernières années, aux côtés d'acteurs comme Unitree Robotics, Agibot et UBTECH, qui ont tous intensifié leurs levées et annonces produit en 2025-2026. Face à eux, les constructeurs occidentaux Figure AI, Agility Robotics (désormais dans l'orbite d'Amazon) et 1X Technologies avancent sur leurs propres déploiements, tandis qu'en Europe Enchanted Tools et Wandercraft restent à plus petite échelle de capitalisation. La course sino-américaine sur l'humanoïde s'accélère avec des capitaux publics et privés engagés des deux côtés. Les prochaines étapes probables pour Wujie Power sont la clôture de la tranche angel+++ et l'annonce de premiers pilotes industriels, possiblement en logistique avec SF Express en client-investisseur.

UELa concentration de plus de 400 M$ sur deux tours simultanés chez des constructeurs d'humanoïdes chinois accentue l'écart de financement avec Enchanted Tools et Wandercraft, fragilisant le positionnement concurrentiel européen à moyen terme.

Chine/AsieOpinion
1 source
GENESIS AI veut apprendre aux robots les gestes humains à grande échelle
61FrenchWeb 

GENESIS AI veut apprendre aux robots les gestes humains à grande échelle

Genesis AI, startup cofondée entre Paris et la Californie, ambitionne de reproduire dans le domaine physique la révolution qu'a opérée l'intelligence artificielle générative dans le logiciel. La société développe une approche destinée à enseigner aux robots des gestes humains complexes à grande échelle, en s'inspirant directement de la logique des grands modèles de langage : collecter des volumes massifs de données pour permettre une généralisation large des capacités motrices. L'objectif est de doter les systèmes robotiques d'une flexibilité comparable à celle que les LLMs ont apportée aux tâches cognitives. L'enjeu est considérable pour l'ensemble de la filière robotique industrielle et grand public. Aujourd'hui, programmer un robot pour qu'il reproduise fidèlement un geste humain reste une tâche laborieuse, spécifique à chaque contexte, et difficile à transférer d'une situation à une autre. Si Genesis AI parvient à construire un modèle généraliste du mouvement physique, cela pourrait accélérer massivement le déploiement de robots dans des environnements non structurés : entrepôts, soins à domicile, industrie manufacturière. La robotique connaît depuis 2023 une véritable effervescence autour des "foundation models" appliqués au mouvement, avec des acteurs comme Physical Intelligence (Pi), Figure AI ou Apptronik qui investissent massivement dans cette direction aux États-Unis. Genesis AI se distingue par son ancrage européen, notamment parisien, dans un secteur dominé par les capitaux américains et asiatiques. La capacité à générer et annoter des données de mouvement à grande échelle reste le verrou technologique central que la startup entend faire sauter.

UEGenesis AI, co-fondée à Paris, représente une initiative européenne dans la robotique fondationnelle, un secteur jusqu'ici dominé par les capitaux américains et asiatiques.

HumanoïdesOpinion
1 source
Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
62arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source
Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique
63Robotics Business Review 

Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI, startup californienne basée à Palo Alto, a présenté le 6 mai 2026 son modèle fondation GENE-26.5, conçu pour la manipulation robotique dextre bimane à vocation généraliste. La société fondée par Zhou Xian revendique des "capacités de manipulation physique au niveau humain" et annonce simultanément deux composants propriétaires : un moteur de données destiné à lever le plafond de volumétrie d'entraînement, et une main robotique à l'échelle humaine couplée à un gant de capture tactile. Ce gant, équipé d'une peau électronique à capteurs, est conçu pour assurer un mappage 1:1:1 entre le gant, la main humaine et l'effecteur robotique, réduisant la perte de fidélité dans le transfert de compétences téléopérées. Pour illustrer les capacités de GENE-26.5, Genesis AI a publié une vidéo montrant un robot réaliser une séquence de cuisson en 20 étapes (découpe de tomates, cassage d'œuf d'une main, coordination bimane), préparer un smoothie avec service en plein air, exécuter des expériences de laboratoire incluant pipetage et transfert de liquides, câbler des faisceaux électroniques, résoudre un Rubik's Cube en manipulation aérienne, saisir simultanément quatre objets de tailles variables, et jouer du piano. Genesis AI était sortie de stealth en 2025 avec 105 millions de dollars de financement. L'enjeu industriel de cette annonce se situe à deux niveaux distincts. Le moteur de données propriétaire cible le principal frein aux modèles de fondation en robotique : l'absence de données de manipulation dextre à grande échelle et haute fidélité. Le gant tactile cherche à résoudre l'embodiment gap, soit la discontinuité morphologique entre effecteur robotique et main humaine qui dégrade le transfert de compétences. Si le mappage 1:1:1 annoncé tient en production, il ouvrirait la voie à une scalabilité des données de téléopération rarement atteinte dans les systèmes actuels. Il convient toutefois de tempérer : les démonstrations présentées sont des vidéos produites et sélectionnées par l'entreprise elle-même. Aucun benchmark indépendant, aucun taux de succès en environnement industriel non contrôlé n'est communiqué. Les affirmations de performance "au niveau humain" émanent exclusivement de Genesis AI et d'Eric Schmidt, ex-PDG de Google et investisseur dans la société. Genesis AI évolue dans un segment en pleine consolidation. Sur le terrain des modèles de fondation pour la manipulation, elle affronte Physical Intelligence (Pi-0, Pi-0.5, Pi-1, San Francisco), Nvidia avec GR00T N2 lancé en novembre 2024, et Figure AI dont la plateforme Figure 03 progresse vers le déploiement industriel chez BMW. La différenciation de Genesis AI porte sur la verticalisation hardware-software : là où Physical Intelligence s'appuie sur du matériel tiers, Genesis AI contrôle à la fois le modèle et l'effecteur. L'entreprise n'a communiqué aucun calendrier de déploiement commercial précis ni partenariat industriel signé. La prochaine étape observable sera de vérifier si les performances démontrées en vidéo se traduisent en métriques reproductibles dans des environnements réels, hors conditions de studio.

IA physiqueOpinion
1 source
Le robot humanoïde Unitree G1 provoque un premier retard de vol à cause de ses batteries
64Interesting Engineering 

Le robot humanoïde Unitree G1 provoque un premier retard de vol à cause de ses batteries

Un robot humanoïde Unitree G1 a provoqué un retard de plus d'une heure à l'aéroport international d'Oakland, en Californie, après que le personnel de la compagnie aérienne a soulevé des questions sur la capacité de sa batterie embarquée. Le pack d'accumulateurs du robot dépassait les seuils en watt-heure fixés par la Federal Aviation Administration (FAA) pour les cellules lithium-ion transportées en cabine et en soute : au-delà de 100 Wh, une batterie de rechange nécessite l'accord explicite de la compagnie ; au-delà de 160 Wh, elle est simplement interdite en cabine. Or, les robots humanoïdes modernes embarquent des packs d'une capacité comprise entre 1 kWh et plus de 2 kWh, soit jusqu'à douze fois la limite autorisée pour un ordinateur portable. Les agents au sol ont dû traverser une cascade de questions sur la chimie des cellules, la configuration du pack, sa démontabilité et sa classification matières dangereuses, avant que l'appareil puisse être autorisé au départ, sous les regards impatients des autres passagers. Ce retard illustre une lacune structurelle dont les conséquences dépassent un simple incident opérationnel. La réglementation FAA sur les matières dangereuses a été conçue pour les appareils électroniques grand public et les véhicules électriques transportés en fret, non pour un robot bipède occupant un siège passager. Un pack de 2 kWh représente une énergie thermique potentielle comparable à douze batteries de laptop combinées, avec un risque d'emballement thermique non négligeable dans un fuselage pressurisé où les possibilités d'intervention sont limitées. Pour les intégrateurs et les entreprises qui déploient des humanoïdes hors des environnements contrôlés, l'incident d'Oakland signale que chaque nouveau contexte (usine, hôpital, entrepôt, aéroport) est susceptible de rencontrer un cadre réglementaire écrit sans eux, générant des blocages opérationnels imprévisibles et potentiellement coûteux. L'humanoïde impliqué est le G1 de Unitree Robotics, constructeur chinois qui a misé sur l'accessibilité tarifaire de ses plateformes pour accélérer la diffusion grand public de la robotique humanoïde. Commercialisé autour de 16 000 dollars, le G1 est l'un des humanoïdes les plus abordables du marché, loin devant les propositions de Figure AI, Boston Dynamics ou 1X Technologies. L'incident survient dans un contexte où la FAA fait déjà face à une pression soutenue pour réviser ses règles sur les batteries lithium, à la suite d'incidents d'incendie en fret aérien. Sans directive explicite pour cette nouvelle catégorie d'appareils, les agents au sol continueront d'improviser au cas par cas et les passagers d'attendre. Une clarification réglementaire s'impose à mesure que les robots humanoïdes quittent les laboratoires pour intégrer des espaces publics et des flux logistiques réels.

UELes opérateurs européens de robots humanoïdes sont exposés aux mêmes restrictions EASA sur les batteries lithium, et cet incident révèle un vide réglementaire qui pourrait bloquer le transport aérien de ces appareils en Europe sans cadre spécifique.

RegulationReglementation
1 source
Paramétrage adaptatif des scans pour l'inspection robotique par plongements vision-langage et calcul hyperdimensionnel
65arXiv cs.RO 

Paramétrage adaptatif des scans pour l'inspection robotique par plongements vision-langage et calcul hyperdimensionnel

Des chercheurs ont publié le 6 mai 2026 (arXiv:2605.03909) ScanHD, un système qui configure automatiquement les paramètres d'un profilomètre laser monté sur robot à partir d'une image RGB pré-scan et d'une instruction en langage naturel. Les cinq paramètres ciblés, à savoir fréquence d'échantillonnage, plage de mesure, temps d'exposition, dynamique du récepteur et illumination, sont aujourd'hui réglés manuellement par essais-erreurs dans l'industrie. Pour évaluer l'approche, les auteurs ont constitué Instruct-Obs2Param, un jeu de données multimodal réel portant sur 16 objets avec variations de pose et d'éclairage multi-vues. ScanHD atteint 92,7 % de précision exacte et 98,1 % de Win@1 sur les cinq paramètres, avec une latence d'inférence compatible avec un déploiement industriel, et surpasse les heuristiques à base de règles ainsi que les grands modèles de langage multimodaux (MLLM). L'enjeu concret dépasse la seule inspection de surface : tout intégrateur déployant des cellules de contrôle dimensionnel automatisées dans l'automobile, l'aéronautique ou l'électronique de précision est exposé aux conséquences d'un mauvais réglage capteur, notamment la saturation, l'écrêtage ou les retours manquants qui ne peuvent pas être corrigés en post-traitement. Que ScanHD surpasse les MLLM sur cette tâche est significatif : le calcul hyperdimensionnel (HDC), qui encode instructions et observations dans des vecteurs binaires de très haute dimension pour un raisonnement associatif compact, semble offrir un avantage structurel sur les tâches de correspondance discrète à faible latence, là où les LLM génératifs tendent à sur-généraliser ou à produire des réponses instables. Le HDC est un paradigme computationnel issu des travaux de Pentti Kanerva dans les années 1980-1990, qui connaît un regain d'intérêt pour les applications embarquées grâce à sa compacité mémoire et son interprétabilité, en contraste avec les architectures transformers. ScanHD s'inscrit dans le courant des modèles vision-langage appliqués à la robotique, un espace aujourd'hui dominé par pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI), mais il se distingue en ciblant la configuration du capteur plutôt que les actions du robot. Aucun partenaire industriel ni calendrier de déploiement ne figurent dans la publication : l'article reste au stade de la validation expérimentale sur banc de test.

UELes intégrateurs européens de cellules de contrôle dimensionnel automatisées (automobile, aéronautique, électronique de précision) sont directement concernés par la problématique du réglage manuel des capteurs laser, mais aucun transfert industriel ni partenariat EU n'est prévu à ce stade.

RecherchePaper
1 source
BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes
66arXiv cs.RO 

BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes

Une équipe de chercheurs a publié le 6 mai 2026 BifrostUMI (arXiv:2605.03452), un framework de collecte de données sans robot dédié à l'entraînement de politiques visuomotrices full-body pour robots humanoïdes. Le principe : un opérateur humain équipé d'un casque VR léger réalise des démonstrations manuelles, capturées sous forme de trajectoires de points-clés (keypoints) épars, tandis que des caméras montées au niveau des poignets enregistrent simultanément les données visuelles. Ces données multimodales alimentent ensuite un réseau de politique haut niveau qui apprend à prédire les trajectoires futures conditionnées aux features visuelles observées. Un pipeline de retargeting traduit ensuite ces trajectoires sur la morphologie du robot cible, qui les exécute via un contrôleur corps entier (whole-body controller). L'efficacité du framework est validée sur deux scénarios expérimentaux distincts, sans que les auteurs ne précisent les benchmarks quantitatifs de performance (temps de cycle, taux de succès par tâche) dans le résumé disponible. L'enjeu est direct pour quiconque tente de scaler l'entraînement d'humanoïdes : la télé-opération robotique reste le goulot d'étranglement principal de la collecte de données. Elle exige un accès permanent au hardware, un opérateur qualifié, et génère un flux de données lent et coûteux. BifrostUMI découple complètement la phase de démonstration du robot physique, ce qui ouvre la possibilité de collecter des démonstrations en masse, avec n'importe quel opérateur humain, dans n'importe quel environnement, sans mobiliser la plateforme mécanique. C'est précisément le verrou que les acteurs du secteur cherchent à lever : Figure AI, Physical Intelligence (pi) ou Apptronik dépendent tous de pipelines de collecte lents et onéreux. Si le sim-to-real gap reste un défi ouvert, l'approche keypoint avec retargeting propose une voie alternative au full imitation learning vidéo, en s'appuyant sur une représentation compacte et plus robuste aux variations morphologiques entre démonstrateur et robot. BifrostUMI s'inscrit directement dans la lignée de l'Universal Manipulation Interface (UMI) développé par Stanford, qui avait montré qu'un graspeur instrumenté suffit à générer des démonstrations transférables. Les auteurs étendent ce paradigme au corps entier des humanoïdes, un saut de complexité significatif donné le nombre de degrés de liberté à contrôler. Sur le marché, Physical Intelligence mise sur Pi-0 et ses variantes pour des politiques générales entraînées sur données téléopérées, tandis que Boston Dynamics, Unitree et Fourier Intelligence investissent massivement en infrastructure de télé-op. BifrostUMI, en tant que preprint non encore évalué par les pairs, reste une preuve de concept académique, sans déploiement industriel annoncé ni timeline de commercialisation. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés (RoboSuite, DROID) et une validation sur plusieurs morphologies humanoïdes différentes.

IA physiqueOpinion
1 source
Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle
67Interesting Engineering 

Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle

La division Robotics d'Hexagon AB, basée à Zurich, et l'entreprise autrichienne Fill Maschinenbau ont annoncé un partenariat pour déployer le robot humanoïde AEON dans les ateliers de Fill à Gurten, en Autriche. Ce pilote cible des tâches de conduite de machines (machine tending), d'inspection et de support opérationnel dans des environnements de production à haute mixité. Point notable : AEON n'est pas un robot bipède, mais adopte une locomotion sur roues complétée par des bras de manipulation, une fusion de capteurs multimodale et une intelligence embarquée sur puce NVIDIA Jetson Orin. Présenté en juin 2025, il avait effectué son premier déploiement industriel en décembre 2025 à l'usine BMW Group de Leipzig, unique référence terrain disponible à ce jour. Ce partenariat met en avant une approche simulation-first que les intégrateurs suivent de près. Hexagon revendique une réduction des cycles d'entraînement de plusieurs mois à quelques semaines grâce à NVIDIA Isaac Sim et Isaac Lab, qui permettent d'acquérir navigation, locomotion et manipulation en environnement virtuel avant tout déploiement réel. Le robot utilise également NVIDIA Isaac GR00T et les outils Mimic pour apprendre à partir de démonstrations humaines et générer des données de mouvement synthétiques. Si ces gains se confirment en production, ils apporteraient une réponse partielle au problème du sim-to-real gap, considéré comme l'un des principaux obstacles à l'industrialisation des humanoïdes. Prudence néanmoins : les deux déploiements cités restent à des stades pilotes, sans métriques publiées sur des cycles de production continus. Hexagon AB est un groupe suédois spécialisé en métrologie et intelligence industrielle, dont la division Robotics à Zurich s'est positionnée sur le segment humanoïde après des acteurs comme Figure AI (accord BMW signé dès 2024 pour le Figure 02), Boston Dynamics ou Agility Robotics (Digit, déployé chez Amazon). Les données spatiales collectées par AEON sont remontées vers Hexagon Reality Cloud Studio via HxDR et intégrées à NVIDIA Omniverse pour générer des jumeaux numériques industriels en temps réel, un positionnement qui ancre l'offre davantage dans l'écosystème PLM et métrologie d'Hexagon que dans la robotique mobile pure. Les prochaines étapes incluent une migration vers la puce NVIDIA IGX Thor pour renforcer les garanties de sécurité collaborative. En Europe, cette initiative rejoint les travaux de Wandercraft sur l'humanoïde de réhabilitation médicale et ceux d'Enchanted Tools sur des plateformes à usage hospitalier, signe d'un écosystème continental qui monte progressivement en maturité industrielle.

UELe partenariat entre Hexagon AB (Suède/Zurich) et Fill Maschinenbau (Autriche) pour déployer AEON en usine illustre la montée en maturité industrielle de l'écosystème européen des robots humanoïdes, aux côtés de Wandercraft et Enchanted Tools.

FR/EU ecosystemeOpinion
1 source
Revue des grands modèles de langage pour les systèmes multi-robots
68arXiv cs.RO 

Revue des grands modèles de langage pour les systèmes multi-robots

Une équipe de chercheurs a publié sur arXiv (référence 2502.03814, version 5) la première revue systématique dédiée à l'intégration des grands modèles de langage (LLM) dans les systèmes multi-robots (MRS). Le survey catégorise les usages en trois niveaux d'abstraction : allocation de tâches de haut niveau (décomposition d'objectifs, planification globale), planification de trajectoire au niveau intermédiaire, et génération d'actions bas niveau, auxquels s'ajoute une quatrième dimension couvrant l'intervention humaine et la collaboration homme-robot. Les domaines d'application recensés incluent la robotique domestique, la construction, le contrôle de formation, le suivi de cibles mobiles et les jeux multi-agents robotiques. Les auteurs maintiennent un dépôt GitHub open source mis à jour en continu pour suivre l'évolution rapide des publications. Le principal apport de ce travail est de combler un angle mort : la littérature sur les LLM en robotique se concentrait jusqu'ici sur les systèmes mono-robot, ignorant les défis propres à la coordination distribuée. Passer à plusieurs robots soulève des problèmes structurels distincts : scalabilité des communications, cohérence des plans entre agents, gestion des conflits de ressources. Les auteurs documentent des gains réels en compréhension du langage naturel et en décomposition de tâches complexes, mais identifient trois obstacles majeurs à l'adoption industrielle : les lacunes en raisonnement mathématique (planification géométrique, optimisation multi-agents), les hallucinations pouvant propager des erreurs à l'échelle d'une flotte entière, et la latence d'inférence, incompatible avec les boucles de contrôle temps réel des systèmes industriels. Ce survey arrive dans un contexte où plusieurs acteurs tentent d'industrialiser la coordination robotique fondée sur les LLM : Google DeepMind avec RT-2 et SayCan, Physical Intelligence avec Pi-0, et Figure AI ont chacun démontré des capacités de planification langage-vers-action sur des robots individuels ou en nombre limité. L'extension à des flottes hétérogènes reste un problème ouvert, en particulier sur le sim-to-real : les benchmarks actuels, souvent conduits en simulation, ne reflètent pas fidèlement les contraintes de déploiement réel. Les auteurs identifient le fine-tuning sur des données multi-robots spécifiques, le développement de modèles de raisonnement dédiés aux tâches, et la création de benchmarks standardisés comme priorités de recherche à venir. Aucun calendrier de déploiement commercial n'est évoqué dans le document.

RecherchePaper
1 source
Les robots chinois s'imposent dans la vie réelle, du nettoyage à la régulation du trafic
69SCMP Tech 

Les robots chinois s'imposent dans la vie réelle, du nettoyage à la régulation du trafic

En Chine, les robots humanoïdes et de service quittent les laboratoires pour s'intégrer dans des environnements opérationnels réels, un virage visible depuis le début de 2025. En mars, une offre de nettoyage a été lancée sur 58.com, plateforme chinoise d'annonces équivalente à LeBonCoin, associant un robot à un technicien humain pour des interventions à domicile. Au-delà du ménage, des robots sont désormais déployés pour réguler la circulation routière et intervenir dans des ateliers industriels à risque, là où l'exposition humaine est problématique, soudure, manipulation de produits chimiques, environnements haute température. Ce glissement du POC vers le déploiement opérationnel est structurellement significatif pour le secteur. Il signale que l'écart "demo-to-reality" commence à se résorber dans des cas d'usage à périmètre contrôlé : tâches répétitives, environnements semi-structurés, supervision humaine maintenue. Pour les intégrateurs B2B, cela ouvre une fenêtre concrète sur des ROI calculables, à condition que les cycles de maintenance et les taux d'erreur en conditions réelles soient publiés, ce que les annonces chinoises ne détaillent pas encore systématiquement. La Chine a inscrit la robotique incarnée comme priorité nationale dans son plan industriel 2025, avec des financements étatiques directs vers des acteurs comme Unitree, UBTECH et Fourier Intelligence. Face à Figure AI (Figure 02), Boston Dynamics (Atlas) et Tesla (Optimus Gen 2) côté américain, Pékin mise sur le déploiement massif et rapide plutôt que sur la performance en vitrine. Les prochaines étapes probables : extension des services 58.com à d'autres villes, et multiplication des pilotes industriels dans la logistique et la maintenance lourde.

UELa montée en puissance du déploiement opérationnel des robots chinois (Unitree, UBTECH, Fourier) accentue la pression concurrentielle indirecte sur les fabricants et intégrateurs européens, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieOpinion
1 source
Physical AI : l’intelligence artificielle incarne enfin le monde réel
70Le Big Data 

Physical AI : l’intelligence artificielle incarne enfin le monde réel

La Physical AI désigne une nouvelle génération de systèmes d'intelligence artificielle capables non plus de traiter des données textuelles ou visuelles, mais d'agir directement sur le monde matériel. Contrairement aux modèles de langage classiques qui prédisent des séquences de tokens, ces systèmes combinent des capteurs avancés, vision 3D, lidar, accéléromètres, avec des modèles de fondation pour percevoir leur environnement en temps réel, raisonner sur sa géométrie et produire des mouvements précis en termes de force et de couple. En 2026, l'arrivée de processeurs embarqués suffisamment puissants permet à ces architectures de fonctionner sans délai réseau, rendant la correction de trajectoire instantanée : un bras robotique qui heurte un obstacle recalcule son chemin seul, sans intervention humaine. L'enjeu industriel est considérable. Là où la robotique classique imposait une programmation rigide adaptée à des environnements contrôlés, la Physical AI permet aux machines de s'adapter à l'imprévu, une pièce déplacée, une variation de surface, un collègue humain qui traverse l'espace de travail. La tolérance à l'erreur est radicalement différente de celle de l'IA générative : une hallucination dans un résumé de texte est embarrassante, une erreur de trajectoire dans un entrepôt logistique peut endommager du matériel coûteux ou blesser quelqu'un. Cela pousse les équipes d'ingénierie à exiger des niveaux de fiabilité proches de ceux de l'aéronautique, ce qui tire vers le haut l'ensemble de la chaîne de développement matériel et logiciel. Ce mouvement s'inscrit dans une trajectoire plus longue. Depuis le milieu des années 2010, la robotique industrielle stagnait : les bras mécaniques étaient rapides mais aveugles, incapables de généraliser à de nouveaux contextes sans re-programmation. L'émergence des grands modèles de vision et de langage a ouvert la voie à un apprentissage par démonstration et par simulation physique ultra-réaliste, contournant le besoin de millions d'exemples réels difficiles à collecter. Des acteurs comme NVIDIA avec sa plateforme Isaac, Boston Dynamics ou encore Figure AI investissent massivement dans cette convergence numérique-physique. La prochaine étape sera de déterminer qui contrôle les couches logicielles fondamentales, et donc l'économie de la robotique généralisée, avant que le marché ne se consolide autour de deux ou trois plateformes dominantes.

HumanoïdesOpinion
1 source
Meta veut devenir l’Android des robots humanoïdes
71Next INpact 

Meta veut devenir l’Android des robots humanoïdes

Meta a confirmé auprès de Bloomberg l'acquisition d'Assured Robot Intelligence (ARI), une startup spécialisée dans le développement de modèles d'intelligence artificielle pour la robotique. L'équipe d'ARI, présentée par Meta comme se situant « à la pointe de l'intelligence robotique, conçue pour permettre aux robots de comprendre, prévoir et s'adapter aux comportements humains dans des environnements complexes et dynamiques », rejoint le Meta Superintelligence Labs. Elle travaillera étroitement avec le Meta Robotics Studio, une division créée en février 2025 pour développer les technologies de base des robots humanoïdes. Ce rachat s'inscrit dans une stratégie plus large : Meta a déjà présenté en octobre 2025 des prototypes de capteurs tactiles avancés, le Digit Plexus, une solution matérielle pour intégrer des capteurs dans une main robotique, et le Digit 360, un capteur en forme de doigt fournissant des données haptiques très précises. Le géant des réseaux sociaux aurait par ailleurs déjà engagé des discussions avec Unitree Robotics, fabricant chinois connu pour ses robots acrobatiques, ainsi qu'avec Figure AI. L'ambition de Meta ne se limite pas à fabriquer ses propres robots : l'entreprise veut jouer un rôle de plateforme transversale pour toute l'industrie, sur le modèle d'Android et des puces Qualcomm dans l'écosystème des smartphones. Si ce positionnement réussit, Meta se retrouverait en position centrale dans un marché potentiellement colossal, en fournissant les briques logicielles et matérielles sur lesquelles d'autres constructeurs bâtiront leurs produits. L'enjeu industriel est réel : Amazon estime que les robots humanoïdes lui permettront d'éviter 600 000 embauches d'ici 2033, signal fort que la demande en environnements professionnels précède largement celle du grand public. Ce mouvement s'inscrit dans une dynamique de fond déclenchée par l'essor de l'IA générative, qui a fourni aux robots la capacité de comprendre des consignes en langage naturel, de décomposer des tâches complexes et de s'adapter à des situations imprévues, ce que les systèmes robotiques classiques ne pouvaient pas faire seuls. De nombreuses entreprises ont flairé l'opportunité d'un nouveau marché lucratif, et la compétition se structure rapidement. Tesla mise sur une approche intégrée verticalement avec Optimus, Elon Musk ayant promis lors du Forum de Davos une commercialisation possible dès fin 2026. Meta, dont le laboratoire de recherche fondamentale FAIR a vu son influence diminuer depuis le départ de Yann LeCun, réoriente clairement ses ressources vers ce chantier via le Superintelligence Labs. La question est désormais de savoir si le modèle « couche d'infrastructure ouverte » peut s'imposer face aux acteurs qui cherchent à tout contrôler, de la puce au châssis.

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA
72arXiv cs.RO 

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

Une équipe de chercheurs a publié le 1er mai 2026 (arXiv:2605.00321) un travail introduisant deux outils de diagnostic pour les politiques de type Vision-Langage-Action (VLA) : l'Interventional Significance Score (ISS) et le Nuisance Mass Ratio (NMR). L'ISS est une procédure de masquage interventionnel qui estime l'influence causale de régions visuelles spécifiques sur les prédictions d'action d'un agent robotique. Le NMR est une métrique scalaire qui quantifie dans quelle mesure un modèle s'appuie sur des caractéristiques visuelles non pertinentes pour la tâche plutôt que sur des causes réelles. La méthode reformule l'attribution visuelle comme un problème d'estimation interventionnelle, au sens de la causalité de Pearl, et non comme une simple corrélation statistique. Des expériences sur des tâches de manipulation variées confirment que le NMR prédit le comportement de généralisation, et que l'ISS produit des attributions plus fidèles que les méthodes d'interprétabilité existantes. À noter : le preprint ne publie ni code ni benchmark public, et les métriques de performance sur tâches spécifiques restent peu détaillées dans l'abstract. L'enjeu est direct pour les intégrateurs et les décideurs industriels : les modèles VLA actuellement déployés, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Sanctuary AI, échouent régulièrement hors de leur distribution d'entraînement. Jusqu'ici, identifier pourquoi restait largement empirique. ISS et NMR offrent un test diagnostique pré-déploiement : un NMR élevé signale que le modèle prend ses décisions sur la base de corrélations visuelles parasites (couleur de fond, éclairage, texture du sol) plutôt que sur la structure causale de la tâche. C'est une avancée concrète vers l'analyse formelle du sim-to-real gap, l'un des verrous les plus cités par les équipes d'intégration robotique industrielle, et cela ouvre la voie à des critères de certification hors-distribution avant mise en production. Le problème de l'interprétabilité des politiques robotiques apprises restait largement ouvert. Les méthodes existantes, cartes de saillance par gradient ou rollout d'attention, reposent sur des observations corrélationnelles et ont tendance à surestimer l'importance de features visuelles non causales. Ce travail se positionne explicitement contre ces approches en adoptant un cadre interventionnel rigoureux. Aucune affiliation institutionnelle n'est mentionnée dans le preprint. Les suites naturelles incluent l'application systématique de ces métriques sur des architectures établies comme OpenVLA, Octo ou RoboVLMs, et potentiellement leur intégration comme signal de régularisation pendant l'entraînement. Le papier arrive au moment où Figure AI, 1X Technologies et Agility Robotics intensifient leurs déploiements en environnements industriels réels, rendant la robustesse hors-distribution critique pour la crédibilité commerciale du secteur.

UECes outils de diagnostic pourraient aider les intégrateurs industriels européens à évaluer la robustesse hors-distribution des modèles VLA avant déploiement, et à terme nourrir des critères de certification conformes à l'AI Act.

IA physiquePaper
1 source
Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes
73arXiv cs.RO 

Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes

Une équipe de chercheurs a déposé le 1er mai 2026 sur arXiv (référence 2605.00416) un cadre d'apprentissage par renforcement appelé Learning While Deploying (LWD), conçu pour améliorer en continu des politiques généralisées de type Vision-Language-Action (VLA) directement en conditions réelles. Le système a été validé sur une flotte de 16 robots à deux bras, engagés sur huit tâches de manipulation en environnement physique, dont le réassort sémantique de produits d'épicerie et des séquences longues de 3 à 5 minutes. Partant d'une politique VLA pré-entraînée hors ligne, LWD collecte les rollouts autonomes et les corrections humaines réalisés sur l'ensemble de la flotte, puis les intègre dans un cycle continu d'amélioration et de redéploiement. Techniquement, le framework combine le Distributional Implicit Value Learning (DIVL), pour une estimation de valeur robuste sur des données hétérogènes à récompense sparse, avec le Q-learning via Adjoint Matching (QAM), adapté aux générateurs d'actions de type flow-based. Au terme de l'accumulation d'expérience de flotte, la politique généraliste unique atteint un taux de succès moyen de 95 %, les gains les plus marqués étant observés sur les tâches longue durée. Ce résultat est significatif non parce qu'il affiche un chiffre élevé, mais parce qu'il démontre que l'écart entre données d'entraînement et déploiement réel peut être réduit par apprentissage continu in situ. Les politiques VLA, de plus en plus utilisées comme backbone généralisé en robotique manipulation, souffrent d'un problème bien identifié : les datasets de démonstration fixes ne capturent ni les variations de distribution rencontrées sur le terrain, ni les pannes rares, ni les corrections opérateur. LWD formalise un pipeline où ces signaux de terrain sont directement réintégrés dans la boucle d'entraînement, sans nécessiter une phase offline séparée. Pour un intégrateur ou un COO industriel, la promesse est concrète : une flotte déployée s'améliore d'elle-même à mesure qu'elle travaille, et les interventions humaines alimentent le modèle plutôt que d'être perdues. Cette publication s'inscrit dans une course active à la post-formation de politiques VLA pour la manipulation robotique. Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et les équipes de Figure AI ou 1X Technologies investissent tous dans des politiques généralisées robustes au transfert réel. Le point de différenciation de LWD est le paradigme fleet-scale : là où la majorité des travaux publiés portent sur un ou deux robots en laboratoire, les auteurs valident leur approche sur 16 unités en parallèle. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné dans le preprint, et les vidéos de démonstration n'ont pas été évaluées de manière indépendante, ce qui invite à traiter ces résultats comme une preuve de concept académique solide plutôt que comme une annonce produit.

RechercheOpinion
1 source
Des téléphones aux robots humanoïdes : la chaîne d'approvisionnement chinoise vise sa prochaine courbe de croissance
74SCMP Tech 

Des téléphones aux robots humanoïdes : la chaîne d'approvisionnement chinoise vise sa prochaine courbe de croissance

Le fabricant de smartphones Honor a créé la surprise en remportant le semi-marathon robotique de Pékin avec son humanoïde D1, devançant des acteurs établis comme Unitree, une première qui illustre un basculement structurel dans l'industrie : la chaîne d'approvisionnement chinoise des smartphones et de l'électronique grand public se reconvertit activement vers la robotique humanoïde. Des fournisseurs de composants jusqu'ici positionnés sur les marchés mobiles cherchent de nouveaux relais de croissance alors que la demande en téléphonie stagne, et transfèrent leur expertise en actionneurs, capteurs, batteries haute densité et électronique embarquée vers ce nouveau segment. L'enjeu est considérable pour l'industrie robotique mondiale. La Chine dispose d'un avantage structurel rare : une chaîne d'approvisionnement intégrée, des volumes de production éprouvés, et des coûts unitaires optimisés par des années de compétition féroce sur le marché mobile. Si ces capacités se déploient à grande échelle dans le secteur humanoïde, elles pourraient accélérer drastiquement le passage du prototype au produit commercialisable, un goulot d'étranglement qui freine encore la plupart des acteurs occidentaux. La victoire du D1 reste néanmoins une démonstration en conditions contrôlées, et les performances en environnement industriel réel constituent un autre niveau d'exigence. Ce pivot intervient alors que Pékin soutient activement l'humanoïde via des subventions et des appels d'offres publics. Unitree (G1, H1), UBTECH et le consortium Fourier Intelligence figurent parmi les acteurs domestiques établis que Honor et d'autres entrants issus du hardware grand public viennent désormais challenger. À l'international, Boston Dynamics, Figure AI et 1X restent les références, mais leur chaîne d'approvisionnement reste plus fragmentée. Les prochaines étapes pour Honor et les reconvertis du mobile seront de démontrer une fiabilité opérationnelle hors contexte de compétition.

UELe pivot de la chaîne d'approvisionnement chinoise vers l'humanoïde pourrait à terme intensifier la pression concurrentielle sur les fabricants européens de robots en comprimant les coûts unitaires de composants clés (actionneurs, batteries, électronique embarquée).

Chine/AsieOpinion
1 source
De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM
75arXiv cs.RO 

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

Une étude publiée sur arXiv (référence 2604.27267) propose la première modélisation unifiée des menaces de sécurité pour les systèmes robotiques autonomes pilotés par des grands modèles de langage (LLM). Les auteurs ont modélisé un robot autonome déployé en architecture edge-cloud sous la forme d'un Data Flow Diagram (DFD) hiérarchique, puis appliqué la méthode STRIDE-per-interaction sur six points de franchissement de frontières de confiance. Cette analyse identifie trois familles de menaces distinctes : les menaces cyber conventionnelles (injections réseau, falsification de données), les menaces adversariales (attaques sur la perception visuelle ou sensorielle) et les menaces conversationnelles (prompt injection, manipulation des sorties du LLM). Trois chaînes d'attaque cross-boundary sont tracées de l'entrée externe jusqu'à l'actionnement physique non sécurisé du robot. Ce travail est significatif parce qu'il démontre que ces trois catégories de menaces convergent aux mêmes points d'interface architecturale, ce qui invalide l'hypothèse implicite de nombreux intégrateurs selon laquelle les couches perception, planification et actuation peuvent être sécurisées indépendamment. L'étude expose trois failles structurelles distinctes : l'absence de validation sémantique indépendante entre l'entrée utilisateur et la commande d'actionneur, la translation cross-modale de la perception visuelle vers l'instruction LLM, et le franchissement non médié des frontières via les outils côté fournisseur (tool use). Pour un COO industriel ou un intégrateur déployant des robots LLM-enabled en production, ces résultats impliquent que le pipeline perception-planification-actuation constitue une surface d'attaque continue, et non un empilement de composants isolables. Le contexte est celui d'une intégration accélérée des LLM dans la robotique autonome, portée par des acteurs comme Figure AI, 1X Technologies, Boston Dynamics ou Physical Intelligence (pi0), qui utilisent des architectures VLA (Vision-Language-Action) pour le contrôle haut niveau. Les travaux antérieurs traitaient séparément la cybersécurité robotique, les attaques adversariales sur la perception et la sécurité des LLM, sans modèle architectural unifié. Cette étude, encore au stade preprint et non évaluée par les pairs, comble ce vide méthodologique et devrait alimenter les discussions dans les groupes de standardisation (ISO TC 299, IEC) sur la certification des systèmes robotiques cognitifs. Les auteurs ne précisent pas d'affiliations institutionnelles spécifiques ni de financements dans l'abstract.

UECette étude devrait alimenter les groupes de standardisation européens (IEC, ISO TC 299) travaillant sur la certification des systèmes robotiques cognitifs dans le cadre de l'AI Act, en fournissant une méthodologie unifiée manquante.

RechercheOpinion
1 source
AI² Robotics défend les modèles VLA et lance NeuroVLA
76Pandaily 

AI² Robotics défend les modèles VLA et lance NeuroVLA

Guo Yandong, fondateur et PDG d'AI² Robotics, a présenté NeuroVLA, un modèle d'action robotique de troisième génération qui réduit la latence de réponse de plusieurs centaines de millisecondes à quelques dizaines de millisecondes. L'entreprise articule l'évolution des architectures VLA (Vision-Language-Action) en trois stades : les modèles end-to-end de première génération unifiant perception et contrôle ; les systèmes de deuxième génération intégrant des world models pour le raisonnement prédictif ; et désormais NeuroVLA, architecture neuro-inspirée permettant une optimisation continue comparable à la mémoire musculaire. En parallèle, AI² Robotics a lancé AlphaBrain Platform, une boîte à outils open-source combinant modèles VLA neuro-inspirés, entraînement par reinforcement learning à base de tokens et architectures modulaires de world model, avec support des benchmarks de référence LIBERO et CALVIN. L'annonce ne précise ni contexte de déploiement réel, ni clients industriels : il s'agit d'un lancement de modèle et de plateforme, pas d'un déploiement terrain. La réduction de latence revendiquée est le chiffre à surveiller. En manipulation robotique, passer sous 50 ms est généralement considéré comme le seuil nécessaire pour des gestes précis en environnement non structuré. Si NeuroVLA tient ces performances hors laboratoire, cela représenterait une avancée concrète sur le sim-to-real gap, obstacle persistant à la commercialisation des robots VLA. L'ouverture d'AlphaBrain en open-source signale une stratégie d'écosystème : AI² Robotics cherche à fédérer des contributeurs autour de son approche architecturale, à l'image de ce que tente Physical Intelligence avec pi0. AI² Robotics est une startup chinoise spécialisée dans l'embodied AI pour robots manipulateurs et humanoïdes. La prise de position publique de Guo Yandong en faveur des VLA intervient dans un débat architectural actif : les pipelines VLA end-to-end, portés aussi par Figure AI et 1X Technologies, s'affrontent aux approches hybrides modulaires de Sanctuary AI ou Apptronik. Les prochains jalons crédibles à suivre sont les résultats publiés sur LIBERO et CALVIN, qui permettront une comparaison objective avec les modèles concurrents, ainsi que l'annonce éventuelle de pilotes industriels validant les métriques en conditions réelles.

IA physiqueOpinion
1 source
Automatisation robotique assistée par apprentissage automatique pour la fabrication industrielle
77arXiv cs.RO 

Automatisation robotique assistée par apprentissage automatique pour la fabrication industrielle

Des chercheurs ont présenté un système hybride baptisé Learning-Augmented Robotic Automation (LARA), déployé sur une ligne de production réelle de moteurs électriques pour automatiser deux tâches jusqu'alors confiées à des opérateurs humains : l'insertion de câbles déformables et la soudure. Le système combine des contrôleurs de tâches appris par imitation et un moniteur de sécurité neuronal 3D, intégré directement dans les workflows industriels existants. Entraîné avec moins de 20 minutes de données réelles par tâche, LARA a fonctionné en continu pendant 5 heures 10 minutes, produisant 108 moteurs sans barrière physique de protection, avec un taux de conformité de 99,4 % aux tests de contrôle qualité au niveau produit. Le takt time atteint est comparable à celui d'un opérateur humain, avec une réduction mesurée de la variabilité des joints de soudure et des temps de cycle. Ce résultat s'attaque directement au fossé entre démonstration laboratoire et déploiement industriel effectif, l'obstacle principal qui freine l'adoption de la robotique apprenante en production. L'entraînement en moins de 20 minutes par tâche abaisse considérablement la barrière à l'intégration pour les industriels et les intégrateurs système. Pour un COO de ligne d'assemblage, le point le plus structurant est l'absence de caging physique : le moniteur neuronal remplace les protections mécaniques classiques, ouvrant la voie à des cellules collaboratives sans les coûts de reconfiguration d'atelier associés aux robots industriels traditionnels. La manipulation de câbles déformables et la soudure figurent parmi les tâches les plus résistantes à la robotisation classique, du fait de la déformation matière et de la non-répétabilité des poses. Sur ce segment, Physical Intelligence (Pi-0.5) et Figure AI (Helix sur Figure 02) poussent des VLA généralistes pour la manipulation multi-tâches, tandis que Wandercraft et Enchanted Tools, tous deux français, ciblent respectivement la mobilité humanoïde et les robots de service. LARA se distingue par son pragmatisme : pas d'humanoïde, pas de modèle fondationnel, mais une hybridation ciblée sur des cellules industrielles existantes. Les auteurs évoquent comme suites naturelles l'extension à d'autres tâches de câblage et la validation sur des lignes multi-produits.

UELa fabrication de moteurs électriques est un segment clé de la transition EV en Europe ; LARA démontre qu'un système appris en moins de 20 minutes peut atteindre le takt time humain sur des tâches résistantes à la robotisation classique, abaissant directement la barrière d'adoption pour les intégrateurs et industriels européens sans reconfiguration lourde d'atelier.

IndustrielActu
1 source
Preuve d'un « soi » émergent dans l'apprentissage continu d'un robot
78arXiv cs.RO 

Preuve d'un « soi » émergent dans l'apprentissage continu d'un robot

Des chercheurs ont publié sur arXiv (2603.24350, version révisée) une méthode pour quantifier l'émergence d'un "soi" dans des systèmes robotiques soumis à l'apprentissage continu. Le protocole compare deux conditions : un robot entraîné sur une tâche fixe (contrôle) et un second exposé à des tâches variables en apprentissage continu. L'analyse révèle que ce second robot développe un sous-réseau invariant, une portion de son architecture neurale qui reste significativement plus stable que le reste du réseau (p < 0,001). Ce sous-réseau est fonctionnellement critique : sa préservation facilite l'adaptation à de nouvelles tâches, tandis que sa dégradation intentionnelle entraîne une baisse mesurable des performances. L'apport principal est de proposer un critère opérationnel pour détecter quelque chose qui ressemble fonctionnellement à un "soi" dans un système artificiel. En robotique, l'apprentissage continu achoppe sur l'oubli catastrophique : les réseaux de neurones se dégradent sur les tâches antérieures dès qu'ils en apprennent de nouvelles. L'existence d'un noyau invariant fonctionnellement critique suggère qu'un mécanisme analogue à celui qui stabilise l'identité cognitive humaine pourrait, délibérément exploité, offrir une piste architecturale pour atténuer ce problème. Pour les équipes travaillant sur des robots adaptatifs en environnements non structurés ou des cobots reconfigurables, cela ouvre une direction concrète : identifier et protéger ce noyau stable pour améliorer la plasticité sans sacrifier les acquis. La question de la conscience de soi dans les systèmes artificiels est débattue depuis des décennies, sans critère mesurable universel. Ce qui distingue cette contribution, c'est le passage d'une définition philosophique à un indicateur reproductible dans un cadre expérimental robotique contrôlé. Les auteurs ne prêtent pas de conscience subjective aux robots testés, mais établissent une correspondance structurelle entre persistance cognitive et notion de soi. Les prochaines étapes naturelles incluent la validation sur des architectures humanoïdes plus complexes, où l'apprentissage continu est déjà en déploiement chez Figure AI, Agility Robotics ou 1X Technologies, ainsi que l'extension aux grands modèles de langage soumis à du fine-tuning continu.

RecherchePaper
1 source
VistaBot : manipulation robotique robuste aux points de vue grâce à la synthèse de vues spatio-temporelles
79arXiv cs.RO 

VistaBot : manipulation robotique robuste aux points de vue grâce à la synthèse de vues spatio-temporelles

Des chercheurs ont publié VistaBot, un framework de manipulation robotique ciblant un angle mort des politiques end-to-end actuelles : leur fragilité face aux changements de point de vue de caméra entre entraînement et déploiement. La préprint arXiv 2604.21914, déposée en avril 2026, décrit une architecture en trois modules : estimation de géométrie 4D, synthèse de vue par diffusion vidéo, et planification d'actions en espace latent, sans recalibration de caméra requise au moment du déploiement. Intégré dans deux politiques de référence du domaine, ACT (Action Chunking Transformer) et π₀ (la politique diffusion-based de Physical Intelligence), VistaBot améliore la métrique VGS (View Generalization Score, introduite par les auteurs) de 2,79x par rapport à ACT et de 2,63x par rapport à π₀, en simulation et en environnement réel. Le code et les modèles seront publiés en open source. La dépendance à un point de vue fixe constitue un frein structurel au déploiement des bras manipulateurs en conditions industrielles : une caméra repositionnée ou partiellement obstruée peut invalider un modèle entier sans mécanisme de compensation. VistaBot répond en synthétisant dynamiquement des vues alternatives via un modèle de diffusion vidéo, puis en planifiant les actions dans l'espace latent de ces vues synthétisées, sans recollecte de données depuis le nouvel angle. Pour un intégrateur ou un COO industriel, cela réduit directement le coût de reconfiguration sur ligne. L'introduction du VGS comble également un vide méthodologique : le domaine ne disposait pas de benchmark standardisé pour comparer la robustesse cross-view entre politiques, rendant les comparaisons entre travaux difficiles. Le problème de robustesse aux points de vue est documenté en imitation learning depuis plusieurs années, mais les solutions disponibles exigeaient soit une augmentation intensive des données, soit une calibration caméra explicite à chaque reconfiguration. Physical Intelligence, fondée en 2023, a développé π₀ comme politique généraliste de manipulation. D'autres acteurs comme Google DeepMind (RT-2 et ses successeurs), Figure AI (Figure 03) ou 1X Technologies ciblent des architectures VLA à plus large spectre sans traiter spécifiquement cet axe de robustesse aux vues. VistaBot reste une contribution académique préliminaire : la préprint n'est pas encore revue par les pairs, les tâches réelles évaluées ne sont pas décrites en détail, et les gains annoncés devront être confirmés par des reproductions indépendantes une fois le code disponible.

IA physiquePaper
1 source
Vidéo : Ce robot humilie les meilleurs joueurs de ping-pong au monde
80Le Big Data 

Vidéo : Ce robot humilie les meilleurs joueurs de ping-pong au monde

Sony AI a dévoilé mercredi dans la revue scientifique Nature les résultats d'Ace, un robot de tennis de table développé à Zurich. Sur cinq matchs disputés en règles officielles contre des joueurs d'élite, Ace en a remporté trois. Face à des professionnels confirmés, le bilan est plus nuancé : deux défaites et une seule manche gagnée sur sept rencontres. Le système repose sur un bras articulé à huit axes monté sur une base mobile, équipé de caméras multi-angles qui analysent position et rotation de la balle en temps réel. En ciblant le logo imprimé sur la balle, Ace estime l'effet en quelques millisecondes. L'entraînement a nécessité environ 3 000 heures de simulation, et certains gestes, notamment le service, ont été modélisés directement à partir de joueurs expérimentés. Peter Dürr, responsable du projet chez Sony AI, indique que le robot a depuis progressé : « Nous avons affronté des adversaires plus forts et nous les avons battus. » Le tennis de table est depuis longtemps considéré comme l'un des défis les plus ardus pour la robotique : la vitesse des échanges, la diversité des effets et la précision millimétrée requise en font un banc d'essai exigeant pour les systèmes autonomes. Ace a démontré une maîtrise solide de ces contraintes, gérant des situations complexes comme des balles frôlant le filet, et réalisant un coup rétro rapide qu'un ancien joueur olympique, Kinjiro Nakamura, jugeait jusqu'alors impossible à produire mécaniquement. Ce dernier estime désormais que les humains pourraient s'inspirer de cette technique. Le robot bénéficie par ailleurs d'un avantage psychologique non négligeable : sans regard ni langage corporel, ses intentions sont illisibles pour l'adversaire, ce qui perturbe les stratégies habituelles de lecture du jeu. Cette percée s'inscrit dans une compétition mondiale accélérée autour de la robotique généraliste à haute réactivité, où Sony AI se positionne comme un acteur sérieux aux côtés de Google DeepMind, Boston Dynamics ou Figure AI. Jusqu'ici, les tentatives de robots pongistes restaient cantonnées à des démonstrations contrôlées, loin des conditions de match réel. Publier dans Nature avec des résultats contre de vrais compétiteurs marque un saut qualitatif. Les limites actuelles d'Ace, difficultés sur les balles lentes et peu liftées, indiquent les axes de travail restants, mais la trajectoire est claire : chaque version repousse davantage le niveau humain de référence, et les chercheurs laissent entendre que la parité avec les meilleurs joueurs mondiaux n'est plus une question de principe, mais de temps.

HumanoïdesOpinion
1 source
Système ouvert de bout en bout pour la navigation autonome de robots en conditions réelles
81arXiv cs.RO 

Système ouvert de bout en bout pour la navigation autonome de robots en conditions réelles

Des chercheurs ont présenté un système embarqué léger et à architecture ouverte permettant à un robot quadrupède de naviguer de manière autonome dans des environnements réels, inconnus et dynamiques, sans apprentissage préalable spécifique à ces lieux. Déployé sur un robot Unitree Go2 à quatre pattes, le système atteint un taux de réussite supérieur à 88 % dans plusieurs environnements intérieurs testés. Il repose sur ROS2 comme middleware de communication entre les différents composants embarqués, et accepte des instructions de navigation formulées en langage naturel. Les capteurs du robot alimentent en continu un système de localisation et de cartographie, qui construit des graphes de scènes hiérarchiques enrichis de sémantique ouverte, c'est-à-dire capables d'identifier des objets sans liste prédéfinie. Un planificateur basé sur un grand modèle de langage (LLM) exploite ces graphes pour générer et adapter des plans d'action en temps réel, au fur et à mesure que la scène évolue. Ce résultat est significatif car la navigation autonome en environnement réel reste un problème difficile que la majorité des systèmes actuels ne résolvent qu'en simulation, là où les conditions sont contrôlées et les incertitudes absentes. Le fait qu'un robot puisse interpréter une consigne en langue naturelle, construire une représentation sémantique de son environnement à la volée et s'y adapter dynamiquement ouvre la voie à des déploiements pratiques dans des bâtiments industriels, des entrepôts, des hôpitaux ou des espaces publics, sans configuration manuelle préalable. La robotique autonome bute depuis des années sur quatre obstacles fondamentaux : la perception imparfaite, l'observabilité partielle, l'incertitude de localisation et les contraintes de sécurité. L'intégration des LLM comme couche de planification symbolique, combinée à une cartographie sémantique continue, représente une approche émergente qui capitalise sur les progrès récents en traitement du langage naturel et en vision par ordinateur. Ce travail s'inscrit dans une tendance plus large visant à doter les robots de capacités de raisonnement général plutôt que de comportements pré-programmés, un chantier sur lequel rivalisent des équipes académiques et des acteurs industriels comme Boston Dynamics, Figure AI ou Agility Robotics.

HumanoïdesActu
1 source
GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle
82arXiv cs.RO 

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Des chercheurs ont soumis sur arXiv (arXiv:2604.19522) un framework baptisé GenerativeMPC, destiné aux robots manipulateurs mobiles bimanaux. Le système articule un modèle de vision-langage couplé à une génération augmentée par récupération (VLM-RAG) avec un contrôleur prédictif sur le corps entier (Whole-Body MPC). Concrètement, le module VLM-RAG analyse la scène en temps réel, visuellement et en langage naturel, puis génère des contraintes de contrôle numériques directement exploitables: limites de vitesse dynamiques et marges de sécurité injectées dans le MPC. Parallèlement, il module les gains de raideur et d'amortissement virtuels d'un contrôleur impédance-admittance unifié pour adapter la compliance du robot au contexte. Les expériences menées dans les simulateurs MuJoCo et IsaacSim, puis sur une plateforme physique bimanuale, font état d'une réduction de vitesse de 60% à proximité des humains. Le système s'appuie sur une base de données vectorielle alimentée par l'expérience passée, ce qui permet d'ancrer les paramètres de contrôle sans ré-entraînement du modèle. L'enjeu architectural est significatif pour les intégrateurs et les décideurs industriels. Les approches end-to-end de type VLA, comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), délèguent entièrement la traduction sémantique-physique au réseau neuronal, rendant les garanties de sécurité difficiles à certifier formellement. GenerativeMPC propose une architecture hybride explicite: le grand modèle raisonne sur le contexte (présence humaine, nature de la tâche) et produit des paramètres numériques interprétables qui alimentent un MPC classique au comportement auditable et déterministe. Pour les secteurs à forte contrainte réglementaire, c'est un argument de poids. La réduction de 60% reste cependant une métrique à contextualiser: le papier ne précise pas la vitesse de référence initiale ni les conditions exactes des essais physiques, un bémol courant dans les publications de ce type. La manipulation mobile bimanuale est l'un des problèmes ouverts les plus exigeants de la robotique collaborative, coincé entre contrôleurs classiques contextuellement aveugles et modèles end-to-end difficilement certifiables. L'utilisation du RAG pour paramétrer des contrôleurs physiques est une direction de recherche émergente, distincte de l'apprentissage par renforcement. Dans l'écosystème concurrent, Figure AI (Figure 03), Boston Dynamics (Atlas) et 1X Technologies explorent des architectures hybrides pour des tâches bimanales. En Europe, Enchanted Tools (France) et des laboratoires comme le LAAS-CNRS avancent sur des architectures de contrôle sûres pour la collaboration humain-robot. GenerativeMPC reste pour l'instant un résultat de recherche académique sans déploiement industriel annoncé, mais son approche explicitement certifiable ouvre des perspectives concrètes pour la logistique collaborative et la robotique médicale.

UELe LAAS-CNRS et Enchanted Tools (France) travaillent sur des architectures de contrôle sûres similaires ; l'approche hybride certifiable de GenerativeMPC pourrait renforcer le positionnement européen dans les débats réglementaires sur la certification des robots collaboratifs au titre de l'AI Act.

RechercheOpinion
1 source
Apprentissage multi-allures pour robots humanoïdes par renforcement avec prior de mouvement adversarial sélectif
83arXiv cs.RO 

Apprentissage multi-allures pour robots humanoïdes par renforcement avec prior de mouvement adversarial sélectif

Des chercheurs ont publié en avril 2026 sur arXiv (preprint 2604.19102) une méthode d'apprentissage par renforcement permettant à un humanoïde à 12 degrés de liberté de maîtriser cinq allures dans un cadre politique unifié : marche normale, marche militaire cadencée (goose-stepping), course, montée d'escaliers et saut, avec un espace d'action et une formulation de récompense identiques pour toutes. La contribution centrale est une stratégie appelée AMP sélectif (Adversarial Motion Prior sélectif) : l'AMP, qui guide l'apprentissage en comparant les mouvements générés à des données de référence de type mocap, est appliqué uniquement aux allures périodiques et stables (marche, goose-stepping, escaliers), et délibérément omis pour les allures dynamiques (course, saut) où sa régularisation briderait trop le mouvement. L'entraînement repose sur PPO (Proximal Policy Optimization) avec randomisation de domaine en simulation, et les politiques sont déployées sur le robot physique par transfert sim-to-réel zéro-shot, sans phase d'adaptation supplémentaire. Les expériences quantitatives montrent que l'AMP sélectif surpasse une politique AMP uniforme sur les cinq allures : convergence plus rapide, erreur de suivi réduite et meilleurs taux de succès sur les allures stables, sans dégrader l'agilité des allures explosives. Pour les équipes d'ingénierie robotique, ce résultat renforce l'idée qu'une politique monolithique bien structurée peut remplacer plusieurs contrôleurs spécialisés, réduisant la complexité du système embarqué. La réussite du transfert zéro-shot valide par ailleurs l'efficacité de la randomisation de domaine pour combler le sim-to-real gap sur un humanoïde à 12 DOF, un résultat cohérent avec des travaux récents d'ETH Zurich et de Carnegie Mellon sur les robots bipèdes. L'Adversarial Motion Prior a été formalisé par Xue Bin Peng et al. (UC Berkeley, 2021) comme mécanisme pour imiter des mouvements de référence dans un cadre RL sans récompense artisanale excessive. Des équipes chez Agility Robotics, Figure AI et Boston Dynamics explorent des variantes similaires, mais la plupart des publications se concentrent sur une ou deux allures à la fois. Ce preprint propose une généralisation plus large, bien que le robot utilisé (12-DOF, sans identification de marque dans l'abstract) reste une plateforme expérimentale dont les performances hors simulation restent à confirmer sur des terrains non contrôlés. Aucune entité française ou européenne n'est impliquée. Les étapes suivantes naturelles incluent l'extension à davantage de DOF, l'intégration de primitives de manipulation et des tests en conditions réelles variées.

HumanoïdesPaper
1 source
Quanzhibo lève des centaines de millions de yuans lors d'un tour de Série A++
84Pandaily 

Quanzhibo lève des centaines de millions de yuans lors d'un tour de Série A++

Quanzhibo, développeur chinois de joints servo fondé en 2020 à Wuxi, a bouclé le 21 avril 2026 un tour Series A++ de plusieurs centaines de millions de yuans, avec la participation de Shenzhen Investment Holdings, Photosynthesis Ventures, Orient Jiafu, Junshan Capital, Liangjiang Capital et Junxi Capital. Cette levée porte le financement total cumulé à plus de 600 millions de RMB en huit tours. La société commercialise trois familles de joints servo intégrés (planétaire PA, harmonique HA, cycloïdal CA) couvrant des couples de 2 à 400 Nm, pour humanoïdes et robots quadrupèdes. En 2025, ses livraisons ont dépassé 100 000 modules, auprès de clients comme Songyan Power et Leju Robotics. En avril 2026, son usine de fabrication de précision à Wuxi est entrée en production avec un cycle de 90 secondes par unité, un taux d'automatisation de 85 %, un rendement au premier passage de 96 % et un rendement global supérieur à 98 %, pour une capacité annuelle annoncée à l'échelle du million d'unités. Ce financement reflète la tension croissante autour des joints actionneurs, qui restent l'un des principaux verrous pour les fabricants d'humanoïdes. Couvrir 2 à 400 Nm avec un seul fournisseur simplifie la chaîne d'approvisionnement des intégrateurs, des doigts jusqu'aux hanches. Atteindre 100 000 unités expédiées en 2025 et viser le million par an place Quanzhibo dans un registre de volume compatible avec une production en série, à condition que le taux de rendement annoncé (98 % global) résiste à une vérification indépendante, hors contexte de communication financière. Fondée en 2020, l'entreprise a enchaîné cinq tours en 2025 seul (A2 à A6), rythme qui traduit une compétition intense côté chinois sur les actionneurs de précision, où des acteurs comme INNFOS et des filiales de groupes industriels investissent également. À l'international, Figure AI (Figure 03), Tesla (Optimus) et 1X Technologies développent leurs joints en interne, tandis que Harmonic Drive AG reste la référence sur les marchés occidentaux. En Europe, des sociétés comme Wandercraft ou Enchanted Tools s'approvisionnent encore majoritairement hors de Chine. L'ouverture de l'usine de Wuxi marque le passage de Quanzhibo d'une logique de R&D à une logique de composant de série ; les prochaines étapes probables incluent des accords OEM avec des fabricants d'humanoïdes de second rang et des ambitions à l'export.

UELa montée en puissance industrielle de Quanzhibo (capacité annoncée à 1 million d'unités/an) accentue la pression concurrentielle sur les fournisseurs d'actionneurs de précision non-chinois, au moment où des fabricants européens d'humanoïdes comme Wandercraft et Enchanted Tools s'approvisionnent encore majoritairement hors de Chine.

Chine/AsieActu
1 source
Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA
85arXiv cs.RO 

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA

Des chercheurs, vraisemblablement affiliés à l'Université de Pékin (l'URL du projet pointe vers pku-safevla.github.io), ont publié en mars 2025 SafeVLA, une méthode d'alignement sécurisé pour les modèles vision-langage-action (VLA) déployés sur robots physiques. L'approche, baptisée ISA (Integrated Safety Approach), repose sur le paradigme des processus de décision de Markov contraints (CMDP) et combine trois étapes : modélisation formelle des exigences de sécurité, élicitation active de comportements dangereux, puis optimisation min-max de la politique robot via du renforcement contraint. Sur des tâches de manipulation mobile à long horizon, SafeVLA réduit le coût cumulé des violations de sécurité de 83,58 % par rapport à la méthode de référence state-of-the-art, tout en améliorant simultanément le taux de succès des tâches de 3,85 points. Les données, modèles et benchmark associés sont publiés en open source. Ce résultat est notable parce qu'il adresse directement le principal frein à la commercialisation des VLA en environnement industriel : la garantie de comportement sûr hors distribution. Jusqu'ici, les politiques générales de type pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) montraient des performances impressionnantes en laboratoire mais offraient peu de garanties formelles sur les scénarios de défaillance extrêmes, les cas limites ou les perturbations inattendues. SafeVLA propose un cadre d'assurance quantifiable, avec une généralisation démontrée aux perturbations out-of-distribution, ce qui intéresse directement les intégrateurs industriels et les COO qui exigent des SLA de sécurité avant tout déploiement en cellule humaine ou en espace partagé. L'amélioration simultanée du taux de succès contredit l'hypothèse courante selon laquelle la sécurité contrainte dégrade nécessairement la performance. Les VLA ont connu une accélération significative depuis 2023 avec des travaux fondateurs comme RT-2 (Google DeepMind) et OpenVLA, mais la question de leur alignement sécurisé pour une utilisation réelle restait largement ouverte, la plupart des équipes se concentrant sur les capacités génératives plutôt que sur les garanties de comportement. SafeVLA s'inscrit dans un mouvement plus large de formalisation de la sécurité robotique, en parallèle des travaux de Physical Intelligence sur pi-0, de 1X Technologies ou de Figure AI avec Figure 03. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication : il s'agit d'une contribution académique avec benchmark public, pas d'un produit shipé. Les prochaines étapes naturelles seraient l'intégration de cette approche dans des architectures VLA commerciales et sa validation sur des plateformes humanoïdes à grande échelle.

UELes résultats de SafeVLA pourraient alimenter les travaux de normalisation de la sécurité des VLA en Europe (AI Act, certification robots collaboratifs), mais aucun acteur européen n'est impliqué directement dans cette publication académique.

RechercheOpinion
1 source
Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux
86arXiv cs.RO 

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

Des chercheurs ont publié sur arXiv (référence 2505.19237) une étude portant sur la capacité des grands modèles de langage multimodaux (LLM multimodaux) à développer une forme de conscience proprioceptive lorsqu'ils sont embarqués sur un robot mobile autonome. L'équipe a intégré un LLM multimodal directement dans la boucle de contrôle d'un robot mobile, puis a évalué si le système pouvait construire une représentation interne de son propre corps dans l'environnement, sans programmation explicite de cette capacité. Les résultats montrent que le robot démontre trois propriétés distinctes : une conscience environnementale (perception cohérente du monde extérieur), une auto-identification (le système infère lui-même sa nature robotique et ses caractéristiques de mouvement), et une conscience prédictive (anticipation de ses propres états futurs). Les chercheurs ont utilisé la modélisation par équations structurelles (SEM) pour quantifier comment l'intégration sensorielle influence les différentes dimensions du "soi minimal", et ont conduit des tests d'ablation sur les entrées sensorielles pour isoler le rôle de la mémoire épisodique et structurée. Ces résultats ont des implications concrètes pour les intégrateurs et les équipes de développement travaillant sur des architectures d'agents incarnés. Jusqu'ici, la conscience de soi dans les systèmes robotiques reposait sur des modèles cinématiques codés en dur ou des estimateurs d'état dédiés. Démontrer qu'un LLM peut inférer sa propre nature physique à partir de l'expérience sensorimotrice ouvre la voie à des robots plus adaptatifs, capables de recalibrer leur comportement sans reconfiguration manuelle. Les tests d'ablation confirment que les capteurs se compensent mutuellement en cas de défaillance partielle, ce qui est un indicateur de robustesse opérationnelle réelle, pas seulement de performance en conditions idéales. La mémoire épisodique s'avère indispensable, ce qui renforce l'intérêt des architectures de type RAG (retrieval-augmented generation) pour la robotique embarquée. Ce travail s'inscrit dans un mouvement plus large visant à unifier les capacités cognitives des LLM avec l'action physique, un champ que des acteurs comme Physical Intelligence (Pi-0), Figure AI ou le projet GR00T de NVIDIA explorent depuis 2023-2024 sous l'angle des architectures VLA (Vision-Language-Action). La particularité ici est de remonter à une couche plus fondamentale : non pas "comment le robot agit" mais "comment le robot se sait robot", ce que les philosophes cognitifs appellent le "soi minimal". Aucun acteur européen n'est directement cité dans ce papier académique, mais des laboratoires comme celui de Wandercraft à Paris ou des groupes de recherche en robotique cognitive à l'INRIA travaillent sur des questions adjacentes. La prochaine étape naturelle sera de tester cette architecture sur des plateformes humanoïdes à degrés de liberté élevés, où l'auto-modélisation corporelle devient critique pour la sécurité et la planification de mouvement.

UEAucun acteur européen n'est impliqué directement, mais l'INRIA et des groupes de robotique cognitive français travaillent sur des problématiques adjacentes susceptibles de bénéficier de ces résultats sur l'auto-modélisation embarquée.

RechercheOpinion
1 source
StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel
87arXiv cs.RO 

StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel

Des chercheurs ont publié le 24 avril 2026 StableIDM, un framework spatio-temporel conçu pour stabiliser les modèles de dynamique inverse (IDM) en robotique manipulatrice. Les IDM sont des composants clés de l'IA incarnée : ils traduisent des observations visuelles brutes en commandes d'action bas-niveau, et servent à la fois pour l'annotation automatique de données d'entraînement et pour l'exécution de politiques. Le problème ciblé est la troncature du manipulateur, c'est-à-dire les situations où le bras robotique sort partiellement ou totalement du champ de la caméra, rendant la reconstruction d'état mathématiquement sous-déterminée. StableIDM intègre trois modules complémentaires : un masquage centré sur le robot pour éliminer le bruit de fond, une agrégation directionnelle de features (DFA) qui extrait des caractéristiques anisotropes le long des directions inférées depuis la partie visible du bras, et un raffinement temporel de la dynamique (TDR) qui lisse les prédictions via la continuité du mouvement. Sur le benchmark AgiBot, le système améliore la précision d'action stricte de 12,1 % sous troncature sévère, augmente le taux de succès moyen en rejeu réel de 9,7 %, améliore le succès de saisie de 11,5 % lors du décodage de plans issus de vidéos générées, et booste de 17,6 % les performances en conditions réelles quand StableIDM joue le rôle d'annotateur automatique pour un modèle VLA aval. Ces résultats sont significatifs pour quiconque déploie des bras manipulateurs en environnement non contrôlé. La troncature visuelle est une failure mode banale en production : un carton qui passe, un opérateur qui traverse, une caméra mal positionnée. Jusqu'ici, les IDM existants s'effondraient dans ces conditions, forçant les intégrateurs à multiplier les caméras ou à contraindre fortement la scène. StableIDM suggère qu'un traitement spatio-temporel ciblé peut absorber cette incertitude sans revoir l'infrastructure capteur. Par ailleurs, le gain de 17,6 % sur les VLA aval confirme une hypothèse montante dans le secteur : la qualité des annotations automatiques est un levier critique pour l'apprentissage à grande échelle, au moins autant que l'architecture du modèle de politique lui-même. Les IDM ont émergé comme alternative légère aux modèles de politique bout-en-bout dans le sillage des travaux sur l'imitation learning visuel (Gato, RT-2, OpenVLA). Le benchmark AgiBot, développé par la startup chinoise AgiBot, est devenu une référence de facto pour évaluer la manipulation dextre en conditions réelles. Sur le terrain concurrentiel, Physical Intelligence (pi) avec Pi-0, Figure AI avec son pipeline de données, et 1X Technologies travaillent tous sur des variantes d'IDM ou de VLA pour réduire la dépendance aux capteurs proprioceptifs. StableIDM se positionne comme un backbone généraliste compatible avec ces architectures, potentiellement intégrable comme préprocesseur dans des pipelines existants. Les auteurs n'annoncent pas de code public ni de partenariat industriel à ce stade : c'est une contribution de recherche, pas un produit shipped.

IA physiqueActu
1 source
Les géants technologiques chinois accélèrent dans la robotique, un secteur en pleine expansion
88SCMP Tech 

Les géants technologiques chinois accélèrent dans la robotique, un secteur en pleine expansion

Honor, filiale autonome de Huawei depuis 2020 et jusqu'ici positionnée sur les smartphones et wearables, a décroché la médaille d'or au deuxième semi-marathon humanoides de Pékin avec son robot baptisé Lightning, devançant des acteurs spécialisés comme Unitree et X-Humanoid. L'événement, organisé dimanche dernier, réunissait les principaux constructeurs de robots humanoïdes chinois dans une course d'endurance conçue pour évaluer locomotion et robustesse en conditions réelles. Alibaba figure également parmi les grands groupes technologiques qui accélèrent leurs investissements dans le secteur, dans un contexte où Pékin pousse activement à la montée en puissance de la robotique nationale. La victoire d'Honor est significative car elle illustre un phénomène nouveau: les Big Tech généralistes chinois rattrapent en moins de deux ans des spécialistes de la robotique humanoïde qui disposent de plusieurs années d'avance en R&D. Cela suggère que les barrières à l'entrée s'abaissent rapidement, portées par la disponibilité de fondations logicielles communes et d'une chaîne d'approvisionnement matérielle dense en Chine. Pour les intégrateurs industriels, cela annonce une intensification de la concurrence et potentiellement une compression des prix sur les plateformes humanoïdes dans les 18 à 24 prochains mois. Honor n'a lancé sa division robotique qu'en 2025, ce qui rend sa performance d'autant plus notable. La Chine compte désormais plusieurs dizaines de startups humanoïdes, dont Unitree et Fourier Intelligence, mais l'entrée des grandes plateformes tech recompose le paysage compétitif. Côté occidental, Boston Dynamics, Figure AI et Agility Robotics suivront de près cette évolution, notamment pour évaluer si les performances en course se traduisent en fiabilité opérationnelle industrielle.

Chine/AsieOpinion
1 source
Le robot humanoïde Digit démontre sa force et son équilibre avec un soulevé de terre de 30 kg
89Interesting Engineering 

Le robot humanoïde Digit démontre sa force et son équilibre avec un soulevé de terre de 30 kg

Le robot humanoïde Digit, développé par Agility Robotics (Oregon, États-Unis), vient de réaliser un soulevé de terre de 29 kilogrammes (65 livres) dans un environnement de laboratoire contrôlé. La démonstration met en évidence une coordination corpo-entière, bras, jambes et torse s'ajustent dynamiquement en temps réel pour maintenir l'équilibre sous charge. Selon l'entreprise, l'exercice a été conçu pour tester les limites des actionneurs, la durabilité des articulations et les systèmes de contrôle en temps réel. La politique de contrôle a été entraînée en simulation : un objet virtuel est introduit dans un environnement numérique, permettant au modèle d'apprendre la distribution de charge, les forces de préhension et les déplacements du centre de masse. Des milliers d'essais simulés affinent ensuite la stabilité de prise et le contrôle postural avant transfert sur le robot physique. La version actuelle de Digit embarque également une autonomie batterie de quatre heures, un système d'auto-recharge par docking autonome, des membres renforcés, des effecteurs terminaux avancés, et des protocoles de sécurité industrielle incluant un arrêt de catégorie 1, des PLCs de sécurité et le protocole FailSafe over EtherCAT. Ce que révèle cette démonstration va au-delà du simple exercice de force : elle illustre le passage des trajectoires articulaires programmées manuellement vers des politiques adaptatives apprises, un changement de paradigme significatif pour les intégrateurs industriels. Le sim-to-real, longtemps considéré comme un verrou majeur de la robotique humanoïde, semble ici suffisamment mature pour gérer des tâches de manipulation lourde avec consistance et sans réinitialisation. Pour un COO industriel, la promesse concrète est un robot capable d'empiler des bacs, charger des chariots et manutentionner des matériaux variés de façon autonome et répétable, en complément de robots mobiles autonomes (AMR) qui assurent le transport. La durabilité sous charge soutenue reste toutefois à valider en conditions réelles de production : la vidéo présentée est un test laboratoire, pas un déploiement opérationnel. Agility Robotics a été fondée en 2015 à partir des travaux de l'Oregon State University sur la locomotion bipède. L'entreprise a signé un partenariat stratégique avec Amazon, qui a piloté Digit dans ses entrepôts en 2023-2024. Elle se positionne directement face à Figure AI (Figure 02, partenariat BMW), Boston Dynamics (Atlas), Tesla (Optimus) et 1X Technologies sur le segment de l'humanoïde industriel. Contrairement à Figure ou Tesla qui communiquent davantage sur des capacités de manipulation généraliste, Agility mise sur une intégration logistique ciblée, en couplant Digit aux flottes AMR existantes. Les prochaines étapes annoncées incluent une accélération de la cadence de production et un déploiement élargi dans des environnements entrepôt multi-unités, sans date précise communiquée à ce stade.

HumanoïdesActu
1 source
La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China
90Pandaily 

La startup d'IA incarnée X Square Robot lève près de 276 millions de dollars en série B, menée par Xiaomi et Sequoia China

X Square Robot, startup chinoise spécialisée dans l'IA incarnée fondée en décembre 2023, a bouclé un tour de série B de près de 2 milliards de yuans (environ 276 millions de dollars) entre fin mars et début avril 2026, co-mené par le bras d'investissement stratégique de Xiaomi et Sequoia China. Cette levée intervient à peine trois mois après un tour A++ d'un milliard de yuans (138 millions de dollars) annoncé le 12 janvier, dans lequel ByteDance, Sequoia China, le Beijing Information Industry Development Fund et le Shenzhen Capital Group figuraient déjà comme investisseurs principaux. Meituan et Alibaba ont également rejoint le cap table, ce qui fait de X Square Robot la seule entreprise d'IA incarnée en Chine à avoir attiré les trois géants de l'internet chinois simultanément. La société a déjà commercialisé deux plateformes robotiques propriétaires : Quantum-1 et Quantum-2, ce dernier étant un humanoïde à roues à usage général. En moins de six mois d'existence publique, X Square Robot cumule plus de 400 millions de dollars levés, un rythme qui place la startup dans la même trajectoire de capitalisation accélérée que Figure AI ou Physical Intelligence aux États-Unis. La présence conjointe de Xiaomi, acteur hardware avec une chaîne d'approvisionnement robuste, et de ByteDance, maître de la donnée comportementale à grande échelle, suggère une stratégie d'intégration verticale : modèles de fondation incarnés alimentés par des volumes de données massifs, déployés sur du matériel maîtrisé. Le fait que le fonds IA dédié de Shenzhen Capital ait effectué ici son premier investissement signale également un intérêt institutionnel croissant pour la robotique généraliste en Chine. X Square Robot émerge dans un contexte de compétition intense entre Beijing et la Silicon Valley sur les modèles de fondation robotiques : Unitree, Agibot et Galbot d'un côté, Figure, 1X Technologies et Physical Intelligence de l'autre. La différenciation affichée de X Square repose sur des "modèles de fondation d'intelligence incarnée générale" développés en interne, une approche similaire à celle de Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les détails techniques des modèles, leurs benchmarks réels et les déploiements clients concrets restent à ce stade non divulgués, les annonces demeurant au stade du positionnement stratégique plutôt que du produit validé en conditions industrielles.

UELa capitalisation accélérée de X Square Robot par Xiaomi, ByteDance et Alibaba simultanément accentue la pression concurrentielle mondiale sur les projets européens de robots humanoïdes et de modèles de fondation incarnés, sans impact direct immédiat sur la France ou l'UE.

Chine/AsieOpinion
1 source
Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives
91arXiv cs.RO 

Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives

Une revue systématique publiée sur arXiv (2604.15395) recense l'état de l'art des modèles de fondation appliqués à la robotique, couvrant l'ensemble du spectre allant des grands modèles de langage (LLM) aux architectures vision-langage-action (VLA). Les auteurs structurent leur analyse en cinq phases historiques distinctes, depuis les premières intégrations de modèles NLP et vision par ordinateur jusqu'aux déploiements multi-sensoriels en environnement réel. La taxonomie proposée examine six axes : les types de modèles employés (LLM, VFM, VLM, VLA), les architectures de réseaux de neurones sous-jacentes, les paradigmes d'apprentissage, les stades d'incorporation des connaissances, les tâches robotiques ciblées, et les domaines applicatifs industriels. L'étude recense également les datasets publics utilisés pour l'entraînement et l'évaluation sur ces différentes tâches. L'intérêt de ce travail pour les intégrateurs et les décideurs industriels réside dans sa cartographie des capacités réelles versus annoncées des VLA en déploiement. Le passage d'agents mono-tâche et spécialisés vers des agents adaptatifs multi-fonctions à usage général constitue le fil directeur de l'analyse. Les auteurs traitent explicitement du gap simulation-réalité (sim-to-real), de la généralisation inter-embodiment (cross-embodiment), et de la planification à horizon long, trois verrous techniques qui conditionnent la commercialisation à grande échelle. La revue identifie aussi les défis ouverts et les directions de recherche prometteuses, utiles pour orienter des feuilles de route R&D. Ce survey s'inscrit dans une accélération documentée depuis 2022, portée par des laboratoires comme Google DeepMind (RT-2, π0), Physical Intelligence, Figure AI, et Unitree, qui ont tous misé sur les VLA comme colonne vertébrale de leurs systèmes. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'apparaissent pas dans ce corpus, ce qui reflète un déséquilibre de publication favorable aux équipes nord-américaines et asiatiques. La revue ne constitue pas un benchmark expérimental indépendant mais une synthèse bibliographique, ce qui en fait un point d'entrée solide pour un ingénieur robotique cherchant à situer une technologie ou comparer des approches, sans remplacer une évaluation terrain des solutions commerciales disponibles.

UELe déséquilibre de publication constaté, acteurs FR/EU (Enchanted Tools, Wandercraft) absents du corpus, souligne un déficit de visibilité des équipes européennes dans la recherche VLA, ce qui peut biaiser les benchmarks de référence utilisés par les industriels pour orienter leurs feuilles de route R&D.

RecherchePaper
1 source
Les atouts de la chaîne d'approvisionnement asiatique pourraient donner à l'Asie un avantage sur les États-Unis dans la course à l'IA, selon Foo de Granite Asia
92SCMP Tech 

Les atouts de la chaîne d'approvisionnement asiatique pourraient donner à l'Asie un avantage sur les États-Unis dans la course à l'IA, selon Foo de Granite Asia

Jixun Foo, associé gérant de Granite Asia et vétéran du capital-risque technologique asiatique, estime qu'Asia dispose d'un avantage structurel sur les États-Unis dans la prochaine phase de la course à l'IA. Selon lui, le développement de l'IA a franchi un cap décisif : après deux ans de percées sur les modèles de fondation (LLMs, VLMs), le secteur entre dans une phase d'applications physiques, robotique, automatisation industrielle, systèmes embarqués, où la capacité à produire du matériel à grande échelle devient aussi déterminante que la recherche algorithmique. Ce changement de paradigme est stratégiquement important pour les intégrateurs et décideurs industriels : il déplace le centre de gravité compétitif des data centers vers les chaînes d'approvisionnement. La Chine, le Japon, la Corée du Sud et Taiwan concentrent une part dominante de la fabrication mondiale de composants électroniques, de moteurs, d'actionneurs et de capteurs, précisément les éléments critiques pour déployer des robots physiques à l'échelle industrielle. Un avantage logistique et manufacturier peut compenser, au moins partiellement, un retard sur les modèles de base. Granite Asia, fonds hongkongais actif dans les technologies deeptech et la mobilité, s'inscrit dans un mouvement plus large de repositionnement des investisseurs asiatiques sur l'IA physique. Les concurrents américains, Figure AI, Agility Robotics, Boston Dynamics, misent sur l'excellence des modèles (VLA, GR00T N2, pi0), mais dépendent largement de composants fabriqués en Asie. La thèse de Foo rejoint celle de plusieurs analystes : la prochaine bataille ne se gagnera pas uniquement dans les laboratoires, mais sur les lignes de production.

UEL'avantage manufacturier asiatique sur les composants robotiques (actionneurs, capteurs, moteurs) renforce la dépendance structurelle des intégrateurs européens vis-à-vis des chaînes d'approvisionnement asiatiques, un enjeu de souveraineté industrielle pour la filière robotique EU.

Chine/AsieOpinion
1 source
Ce robot cuisine mieux que vous… et il a tout appris en regardant une vidéo
93Le Big Data 

Ce robot cuisine mieux que vous… et il a tout appris en regardant une vidéo

Physical Intelligence, startup basée à San Francisco, a présenté π0.7, un modèle d'IA robotique capable d'exécuter des tâches pour lesquelles il n'a reçu presque aucun entraînement spécifique. La démonstration phare : un robot utilisant une friteuse à air chaud pour cuire une patate douce, alors que ses données d'apprentissage ne contenaient que deux séquences vaguement pertinentes, un robot fermant une friteuse, et un autre manipulant une bouteille en plastique issue d'un dataset open source. Sans assistance verbale, le taux de réussite du robot était d'environ 5 %. Après une demi-heure d'instructions orales en temps réel, ce taux a bondi à 95 %, sans réentraînement ni collecte massive de nouvelles données. Sergey Levine, cofondateur de Physical Intelligence, décrit cette capacité comme une recomposition inédite de connaissances acquises dans des contextes disparates, notamment issues du web. Ce qui distingue π0.7 de la majorité des systèmes robotiques actuels, c'est précisément ce qu'il n'a pas besoin : des millions d'heures de vidéos pour chaque nouvelle tâche. La robotique industrielle et domestique bute depuis des années sur ce mur : chaque situation légèrement différente exige un nouvel entraînement coûteux. Si π0.7 tient ses promesses, il ouvre la voie à des robots capables de s'adapter à des environnements inconnus simplement en recevant des consignes verbales, un changement de paradigme potentiellement majeur pour les secteurs de la logistique, de l'aide à domicile ou de la restauration automatisée. La chercheuse Shi, doctorante à Stanford impliquée dans les travaux, note toutefois qu'il reste difficile d'identifier précisément d'où le modèle tire les connaissances qu'il mobilise, ce qui soulève des questions sur la prédictibilité et la fiabilité du système. Physical Intelligence s'inscrit dans une vague de startups qui parient sur des modèles de fondation pour la robotique, à l'image de ce que GPT-4 a représenté pour le texte. L'entreprise a levé des fonds significatifs ces dernières années et concurrence directement des laboratoires comme Google DeepMind ou Figure AI sur le terrain des robots généralistes. Le vrai enjeu n'est plus de construire des bras articulés précis, mais de créer des systèmes capables de raisonner sur le monde physique avec un minimum d'exemples. π0.7 représente une étape crédible dans cette direction, même si les tests restent pour l'instant en conditions contrôlées. Les prochains mois diront si cette capacité d'adaptation tient face à la complexité désordonnée du monde réel.

HumanoïdesActu
1 source
Tesla pris de vitesse ? Chery vend déjà son robot humanoïde en ligne
94Frandroid 

Tesla pris de vitesse ? Chery vend déjà son robot humanoïde en ligne

Le constructeur automobile chinois Chery, jusqu'ici principalement connu pour ses véhicules électriques, vient de franchir un cap inattendu en mettant en vente son premier robot humanoïde, le Mornine M1, directement en ligne. Affiché à environ 39 000 euros, l'engin embarque une batterie de capteurs directement issus des systèmes de conduite autonome développés par Chery pour ses voitures. Le robot est commercialisé sans passer par des canaux de distribution traditionnels, une stratégie de vente directe qui rappelle celle adoptée par Tesla pour ses véhicules. Cette mise sur le marché place Chery dans une course technologique qui dépasse largement le secteur automobile. À ce prix, le Mornine M1 s'adresse potentiellement aux industriels, entrepôts logistiques et laboratoires souhaitant automatiser des tâches physiques complexes. La réutilisation de composants issus de la conduite autonome représente un avantage compétitif réel : Chery amortit ses investissements en R&D sur deux marchés simultanément, réduisant ainsi les coûts de développement. Cependant, l'article signale un point faible significatif qui n'est pas détaillé dans l'extrait disponible, ce qui laisse planer un doute sur la maturité réelle du produit. Le lancement du Mornine M1 s'inscrit dans une dynamique chinoise plus large visant à dominer le marché mondial de la robotique humanoïde, un secteur où Tesla avec Optimus, Figure AI et Boston Dynamics se livrent une concurrence féroce. La Chine a fait de la robotique humanoïde une priorité industrielle nationale, et voir un constructeur automobile s'y engouffrer illustre la convergence accélérée entre mobilité autonome et robotique. Chery rejoint ainsi BYD et d'autres géants industriels chinois qui diversifient leurs activités bien au-delà de l'électromobilité.

UELes industriels et entrepôts logistiques européens pourraient accéder à un robot humanoïde à 39 000€, accentuant la pression concurrentielle sur le marché de l'automatisation physique en Europe.

HumanoïdesOpinion
1 source
Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique
95MarkTechPost 

Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique

Google DeepMind a publié Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à servir de cerveau cognitif aux robots évoluant dans des environnements physiques réels. Ce modèle ne contrôle pas directement les membres d'un robot, c'est le rôle du modèle jumeau Gemini Robotics 1.5, dit VLA (vision-language-action), qui traduit les instructions en commandes motrices. Gemini Robotics-ER 1.6 joue plutôt le rôle du stratège : il analyse l'espace, planifie les tâches, détecte les succès et peut appeler des outils externes comme Google Search ou des fonctions définies par l'utilisateur. Par rapport à la version 1.5, la nouvelle itération améliore nettement les capacités de raisonnement spatial et physique, pointage précis au pixel près, comptage d'objets, raisonnement relationnel ("l'objet le plus petit", "déplacer X vers Y"), et introduit une fonctionnalité entièrement nouvelle : la lecture d'instruments analogiques. L'impact de ces améliorations est concret et mesurable. Dans les benchmarks internes, Gemini Robotics-ER 1.6 identifie correctement le nombre de marteaux, ciseaux, pinceaux, pinces et outils de jardin présents dans une scène, et refuse de pointer des objets absents de l'image, là où la version 1.5 hallucine une brouette inexistante et rate plusieurs objets. Cette fiabilité est critique : dans un pipeline robotique, une fausse détection d'objet provoque des erreurs en cascade, le robot tentant d'interagir avec du vide. La détection de succès multi-vues, savoir quand une tâche est réellement terminée en fusionnant plusieurs flux caméra simultanément, améliore également la capacité du système à décider entre relancer une tentative échouée ou passer à l'étape suivante. La lecture d'instruments, elle, permet pour la première fois à un robot de lire un cadran analogique, un thermomètre ou un manomètre sans avoir besoin que l'instrument soit numérique. Cette publication s'inscrit dans une course effrénée à l'IA physique, où Google DeepMind affronte des acteurs comme Figure AI, Physical Intelligence ou Boston Dynamics sur le terrain de la robotique généraliste. L'architecture duale stratège/exécuteur choisie par DeepMind tranche avec les approches bout-en-bout de certains concurrents, pari sur une meilleure modularité et une plus grande capacité à intégrer des outils tiers. La lecture d'instruments ouvre des perspectives industrielles immédiates : inspection d'équipements dans des usines ou des centrales, environnements où la numérisation complète des capteurs reste coûteuse. Gemini Robotics-ER 1.6 est disponible via Google AI Studio et l'API Gemini, et DeepMind a annoncé un programme d'accès anticipé pour les entreprises souhaitant l'intégrer dans leurs pipelines robotiques.

UELes capacités de lecture d'instruments analogiques et d'inspection visuelle ouvrent des débouchés immédiats pour les industriels européens (usines, centrales) souhaitant déployer des robots dans des environnements non numérisés.

HumanoïdesOpinion
1 source
Gemini Robotics-ER 1.6 : le jour où les robots ont enfin commencé à penser
96Le Big Data 

Gemini Robotics-ER 1.6 : le jour où les robots ont enfin commencé à penser

Google DeepMind a lancé le 14 avril 2026 Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à la robotique. Cette nouvelle version améliore significativement la compréhension visuelle et spatiale des robots, leur permettant de planifier et d'exécuter des tâches plus complexes avec une autonomie accrue. Concrètement, le modèle est capable d'identifier des points de préhension optimaux sur des objets variés, de traiter des informations provenant de plusieurs angles simultanément grâce à la compréhension multi-vues, et de détecter si une tâche a été accomplie avec succès. Il surpasse ses prédécesseurs directs, Gemini Robotics-ER 1.5 et Gemini 3.0 Flash, notamment sur la lecture des espaces tridimensionnels et l'interprétation des mouvements. Le modèle est disponible dès maintenant via l'API Gemini et Google AI Studio pour les développeurs souhaitant l'intégrer dans leurs projets. Cette avancée marque un tournant dans la manière dont les robots interagissent avec le monde physique. Jusqu'ici, les systèmes automatisés suivaient des instructions rigides, incapables de s'adapter à des environnements imprévus. Avec ER 1.6, les machines peuvent interpréter des jauges et des indicateurs industriels, cartographier des trajectoires en tenant compte des contraintes environnementales, et valider elles-mêmes les résultats de leurs actions. Ce niveau de raisonnement ouvre la voie à des déploiements dans des contextes industriels réels, où les situations ambiguës ou complexes sont la norme. Google insiste également sur les améliorations en matière de sécurité : les tests montrent une meilleure conformité dans des scénarios de raisonnement spatial sensibles, un critère essentiel pour tout déploiement hors laboratoire. Le projet s'inscrit dans une course mondiale à la robotique intelligente où Google DeepMind s'impose comme acteur central. La collaboration avec Boston Dynamics, notamment sur la lecture d'instruments, illustre la convergence entre intelligence artificielle de pointe et plateformes robotiques éprouvées. En ouvrant l'accès via son API, Google mise sur un écosystème de développeurs pour accélérer l'expérimentation et multiplier les cas d'usage, de la logistique à la chirurgie assistée. Cette stratégie d'ouverture contraste avec des approches plus fermées, et positionne Gemini Robotics comme une infrastructure sur laquelle d'autres peuvent construire. Les prochains mois diront si ce pari sur le raisonnement incarné suffit à distancer des concurrents comme Figure AI, 1X ou Tesla, qui misent eux aussi sur des robots capables de comprendre leur environnement plutôt que de simplement l'exécuter.

HumanoïdesActu
1 source
L'usine Tesla de Shanghai capable de produire des robots humanoïdes, selon son président en Chine
97SCMP Tech 

L'usine Tesla de Shanghai capable de produire des robots humanoïdes, selon son président en Chine

Allan Wang Hao, président de Tesla Chine, a déclaré lors d'un briefing médias ce mardi que la Gigafactory de Shanghai, la plus grande base de production du constructeur américain, pourrait constituer une "clé en or" pour la fabrication en masse de robots humanoïdes. Wang n'a pas annoncé de calendrier précis ni de volume de déploiement, mais il a explicitement lié la capacité manufacturière exceptionnelle du site, qui produit actuellement plus de 450 000 véhicules par an, à l'ambition d'Elon Musk de commercialiser l'Optimus à grande échelle. Aucun chiffre de production cible pour le robot n'a été communiqué lors de cet événement. Cette déclaration signale une évolution stratégique notable : Tesla envisage de faire de sa chaîne automobile existante un vecteur d'industrialisation robotique, ce qui réduirait structurellement les coûts de montée en cadence. Pour les décideurs industriels, cela suggère que le vrai différenciateur dans la course humanoïde ne sera pas uniquement la performance du modèle d'IA, mais la maîtrise du scale-up manufacturier, un domaine où Tesla dispose d'un avantage reconnu. Il reste cependant à distinguer cette déclaration d'intention d'un engagement de production ferme. Tesla teste actuellement des unités Optimus Gen 2 en interne dans plusieurs de ses usines, sans déploiement commercial confirmé à ce jour. Sur le marché, les concurrents directs incluent Figure AI (Figure 02), Agility Robotics (Digit, déployé chez Amazon), et le chinois Unitree. La Gigafactory de Shanghai, implantée en Chine, donnerait également à Tesla un accès privilégié à la chaîne d'approvisionnement en composants robotiques, dominée par des fournisseurs asiatiques, ce qui constitue un levier logistique non négligeable pour atteindre les objectifs de coût évoqués par Musk.

Les travailleurs à la tâche qui entraînent des robots humanoïdes à domicile
98MIT Technology Review 

Les travailleurs à la tâche qui entraînent des robots humanoïdes à domicile

Zeus est étudiant en médecine au Nigeria. Chaque soir, après ses gardes à l'hôpital, il rentre dans son studio, fixe son iPhone sur son front à l'aide d'un bandeau, allume son ring light et enregistre ses mouvements — plier des draps, repasser des vêtements, faire la vaisselle. Il est l'un des milliers de travailleurs recrutés par Micro1, une entreprise américaine basée à Palo Alto, en Californie, qui collecte des données du monde réel pour les revendre à des fabricants de robots humanoïdes. Des géants comme Tesla, Figure AI et Agility Robotics sont en course pour construire des robots capables de se déplacer et d'agir comme des humains dans des usines ou des foyers, et les vidéos tournées par ces travailleurs à la tâche sont devenues l'une des ressources les plus convoitées pour les entraîner. Micro1 emploie des milliers de contractuels dans plus de 50 pays — Inde, Nigeria, Argentine — payés 15 dollars de l'heure, un salaire attractif dans des économies où le chômage des jeunes diplômés reste élevé. Des acteurs comme Scale AI, Encord ou encore DoorDash ont lancé leurs propres programmes similaires, tandis qu'en Chine, des centres d'entraînement étatiques équipent des opérateurs de casques VR et d'exosquelettes pour apprendre aux robots à ouvrir un micro-ondes ou essuyer une table. L'enjeu est colossal : les investisseurs ont injecté plus de 6 milliards de dollars dans les robots humanoïdes en 2025, et les entreprises du secteur dépensent aujourd'hui plus de 100 millions de dollars par an pour acheter ces données de mouvement, selon Ali Ansari, PDG de Micro1. La raison est technique : manipuler des objets physiques reste un problème extraordinairement difficile pour un robot. Les simulations virtuelles permettent d'entraîner des mouvements acrobatiques, mais échouent à reproduire fidèlement la physique des interactions avec les objets. Seules des données réelles, captées dans de vrais environnements, semblent capables de combler ce manque. L'essor des grands modèles de langage — qui ont appris à produire du texte en ingérant des milliards de pages du web — a inspiré un changement de paradigme : si les LLM ont appris le langage par l'échelle, les robots pourraient apprendre le mouvement de la même façon, à condition d'accumuler suffisamment de vidéos humaines. Ce modèle économique soulève pourtant des questions sérieuses. Les travailleurs, qui ont accepté de parler à MIT Technology Review sous pseudonyme faute d'autorisation explicite de leur employeur, s'interrogent sur ce qu'ils signent réellement : leurs données biométriques, leurs gestes captés chez eux, la topographie de leur intérieur — tout cela alimente des systèmes dont ils ignorent les usages précis. La question du consentement éclairé et de la vie privée reste en suspens, d'autant que la chaîne entre le gig worker nigérian et le robot d'usine déployé en Europe ou aux États-Unis est opaque. Zeus, lui, s'ennuie à repasser des chemises en boucle. Il espère devenir médecin. En attendant, il entraîne les robots qui, peut-être un jour, travailleront à sa place.

UELes pratiques opaques de collecte de données biométriques et gestuelles décrites soulèvent des questions de conformité RGPD, notamment si ces systèmes entraînés alimentent des robots humanoïdes déployés sur le territoire européen.

HumanoïdesActu
1 source
Amazon rachète une start-up de robots humanoïdes
99Siècle Digital 

Amazon rachète une start-up de robots humanoïdes

Amazon a finalisé l'acquisition de Fauna Robotics, une jeune entreprise américaine spécialisée dans les robots humanoïdes, selon des informations révélées par Bloomberg. Le montant de la transaction n'a pas été divulgué. Cette opération s'inscrit dans une stratégie d'expansion robotique accélérée du géant de Seattle, qui avait déjà alimenté les rumeurs en juin dernier autour de robots livreurs autonomes. L'annonce intervient quelques jours seulement après une autre initiative dans ce secteur, confirmant un rythme d'investissement soutenu. Pour Amazon, l'enjeu est considérable : ses entrepôts emploient plus d'un million de personnes dans le monde, et l'automatisation des tâches manuelles complexes — picking, tri, manutention — représente un levier de productivité et de réduction des coûts massif. Les robots humanoïdes, capables de manipuler des objets dans des environnements conçus pour les humains, ouvrent des possibilités que les bras robotisés traditionnels ne permettent pas. Pour les travailleurs de la logistique, cette trajectoire soulève des questions directes sur l'évolution de leurs métiers. La course aux robots humanoïdes s'est considérablement intensifiée ces deux dernières années. Figure 02 de Figure AI, Optimus de Tesla, Atlas de Boston Dynamics ou encore les robots de 1X Technologies attirent des milliards de dollars d'investissement. Amazon, qui possède déjà Boston Dynamics via Hyundai et opère des dizaines de milliers de robots dans ses entrepôts, se positionne pour ne pas laisser à des tiers le contrôle de cette technologie stratégique. L'intégration de Fauna Robotics devrait accélérer ses capacités de développement en interne.

UELes entrepôts Amazon en France et en Europe, qui emploient des centaines de milliers de salariés de la logistique, sont directement concernés par cette accélération vers l'automatisation humanoïde.

HumanoïdesActu
1 source
Quel est le robot humanoïde avec Brigitte Macron et Melania Trump à la Maison Blanche ?
100Numerama 

Quel est le robot humanoïde avec Brigitte Macron et Melania Trump à la Maison Blanche ?

Le 25 mars 2026, le robot humanoïde Figure 03, développé par la startup américaine Figure AI, a fait une apparition remarquée lors d'un sommet à la Maison-Blanche consacré à l'éducation et aux technologies. Il était présent aux côtés de Melania Trump et Brigitte Macron, épouse du président français Emmanuel Macron, en visite officielle aux États-Unis. Cette présence symbolique illustre la montée en puissance des robots humanoïdes dans l'espace public et politique. En apparaissant lors d'un événement de haut niveau mêlant deux premières dames, Figure 03 bénéficie d'une vitrine internationale considérable, accélérant la visibilité de Figure AI face à ses concurrents comme Tesla Optimus ou Boston Dynamics. Figure AI, fondée en 2022, s'est imposée comme l'un des acteurs les plus ambitieux du secteur, ayant levé plusieurs centaines de millions de dollars pour développer des robots destinés à des environnements industriels et domestiques.

UELa présence de Brigitte Macron à cet événement diplomatique confère une dimension européenne symbolique à la vitrine des robots humanoïdes, sans impact réglementaire ou économique direct sur la France ou l'UE.

HumanoïdesActu
1 source