Aller au contenu principal
Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS
IA physiqueInteresting Engineering4sem

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Horizon Robotics, entreprise chinoise connue jusqu'ici pour ses SoC dédiés à l'IA embarquée dans l'automobile, a publié en open source HoloMotion-1, un modèle de contrôle moteur corps entier pour robots humanoïdes. Fort de 4 milliards de paramètres, ce modèle dépasse d'un à deux ordres de grandeur les architectures cérébelleuses habituellement déployées, qui plafonnent à quelques millions de paramètres. En inférence, HoloMotion-1 atteint 200 à 300 cycles par seconde sur calculateur embarqué, le module moteur physique tournant en parallèle à 50 Hz pour lisser les trajectoires. La démonstration a été conduite sur un robot Unitree G1, en zero-shot complet : aucun fine-tuning sur données réelles, toute l'inférence exécutée en local. Le robot a reproduit des comportements absents de son entraînement physique, notamment la danse, le rampé, la position assise et des frappes de type arts martiaux. Des tests de téléopération en temps réel via combinaison de capture de mouvement et contrôleurs VR ont également montré un suivi stable des gestes humains.

Le point critique n'est pas la vitesse brute mais la robustesse du sim-to-real gap sans adaptation. Réussir un transfert zero-shot sur un humanoïde commercial reste un obstacle mal résolu par la majorité des systèmes actuels, qui exigent des phases de fine-tuning coûteuses. HoloMotion-1 contourne partiellement ce problème en constituant un corpus de données radicalement plus large : données MoCap sélectionnées, données internes, et mouvements reconstruits depuis des vidéos du monde réel, augmentant la couverture des situations imprévues. L'architecture MoE (Mixture-of-Experts) Transformer active sélectivement des sous-réseaux spécialisés à chaque pas de temps, réduisant le coût computationnel sans régresser sur la capacité expressive. Le KV-cache accélère l'inférence séquentielle en réutilisant les calculs passés. L'entraînement repose sur une méthode PPO (Proximal Policy Optimization) appliquée à des séquences de mouvement complètes plutôt qu'à des pas de temps isolés, ce qui améliore la stabilité sur corpus hétérogène. Pour un intégrateur ou un OEM robotique, la conséquence concrète est qu'un modèle généraliste à 4 milliards de paramètres devient déployable sur edge hardware sans infrastructure cloud. Il convient toutefois de souligner que les démonstrations publiées restent des séquences sélectionnées, sans métriques indépendantes sur la robustesse en conditions industrielles.

Horizon Robotics est historiquement positionnée sur la couche silicium, avec ses puces Journey pour l'ADAS, et HoloMotion-1 marque un pivot vers la couche logicielle en robotique humanoïde. Le choix de l'open source suit la stratégie d'influence sur l'écosystème pratiquée par Meta avec LLaMA dans les LLM : imposer un standard de fait avant que les concurrents ne verrouillent leur stack propriétaire. Le paysage concurrentiel est dense : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Agility Robotics et Figure AI côté occidental, Unitree, Fourier Intelligence et Zhiyuan Robotics côté chinois. La publication décrit un plan en quatre phases pour le contrôle humanoïde ("Imitate Any Pose, Follow Any Command" en constituent les deux premières), mais les phases suivantes n'ont pas été détaillées publiquement. Aucun déploiement industriel ni partenariat de production n'est annoncé à ce stade.

Impact France/UE

La publication open-source de HoloMotion-1 met à disposition des équipes R&D européennes un modèle de contrôle moteur corps entier déployable sur edge hardware, mais aucun acteur, labo ou déploiement européen n'est impliqué.

À lire aussi

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes
1Interesting Engineering 

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes

Lors du GTC Taipei, NVIDIA a dévoilé une plateforme full-stack destinée aux robots humanoïdes, aux véhicules autonomes et à l'automatisation industrielle. Le cœur de l'annonce est Cosmos 3, un omnimodèle fondational open-source construit sur une architecture mixture-of-transformers, capable de traiter simultanément texte, images, vidéo, son et commandes d'action dans un seul système. Il se décline en Cosmos 3 Super, orienté haute précision pour la robotique et les véhicules autonomes, et Cosmos 3 Nano, optimisé pour l'inférence rapide. NVIDIA lance également l'Isaac GR00T Reference Humanoid Robot, un design de référence intégrant le robot Unitree H2 Plus, les mains articulées Sharpa, le calculateur embarqué Jetson Thor et la pile logicielle GR00T, adopté par Ai2, ETH Zurich, Stanford Robotics Center et UC San Diego. La collaboration avec TSMC porte les bibliothèques CUDA-X dans la fab pour la lithographie computationnelle, la simulation de transistors et l'inspection de plaquettes à l'échelle nanométrique. Alpamayo 2 Super, un modèle de raisonnement à 32 milliards de paramètres, cible quant à lui les applications robotaxi. La cohérence verticale de la plateforme est sa principale valeur ajoutée : NVIDIA prétend désormais couvrir l'intégralité de la chaîne de valeur de l'IA physique, de la génération de données synthétiques à la simulation, jusqu'au déploiement en production. Pour les équipes R&D en robotique humanoïde, GR00T Reference Robot réduit potentiellement plusieurs mois d'intégration hardware/software. Cosmos 3 s'attaque par ailleurs au sim-to-real gap en proposant un world model capable de générer des environnements d'entraînement réalistes, l'un des verrous structurels du secteur. Cela dit, les benchmarks avancés ("meilleur modèle ouvert" sur plusieurs évaluations) émanent de NVIDIA lui-même sans validation tierce, ce qui invite à une lecture prudente. L'intégration dans la fab TSMC est plus tangible : des gains d'efficacité mesurables dans la détection de défauts nanométriques signalent une adoption industrielle réelle, pas seulement un proof-of-concept. NVIDIA construit ce positionnement depuis plusieurs années via Isaac Sim, Omniverse et la famille GR00T N2 présentée en 2025. Sur le marché des humanoïdes, les concurrents directs incluent Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics (Atlas) et Agility Robotics (Digit). Le choix du robot Unitree H2 Plus, acteur chinois concurrent sur le segment humanoïde, comme base matérielle du design de référence NVIDIA est notable. En Europe, Enchanted Tools (Miroki, France) et Wandercraft pourraient tirer parti de Cosmos 3 pour la génération de données d'entraînement, même si aucun partenariat public n'a été annoncé. Les prochaines étapes incluent l'accès des institutions de recherche à GR00T Reference Robot et la disponibilité de Cosmos 3 via NVIDIA NGC ; aucune tarification ni date de commercialisation n'a été communiquée pour l'ensemble de la plateforme.

UEEnchanted Tools et Wandercraft pourraient exploiter Cosmos 3 pour la génération de données d'entraînement, et ETH Zurich figure parmi les partenaires de recherche du GR00T Reference Robot, mais aucun déploiement commercial en Europe n'est confirmé à ce stade.

💬 NVIDIA ne vend plus du silicium, il vend une plateforme verticale, de la simulation jusqu'au robot en prod. Le détail qui m'a accroché : le choix d'Unitree, concurrent chinois direct, comme base matérielle du robot de référence GR00T. C'est soit du pragmatisme pur, soit une façon de dire que l'avantage NVIDIA est dans le software, pas le hardware.

IA physiqueOpinion
1 source
Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel
2Robotics Business Review 

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel

Tutor Intelligence a inauguré DF1, sa "Data Factory" installée dans une ancienne manufacture de Watertown, Massachusetts : un parc de 100 robots semi-humanoïdes bimanaux baptisés Sonny, destinés à collecter des données réelles pour entraîner son modèle vision-langage-action (VLA) Ti0. Fondée en 2021 par Josh Gruenstein (CEO) et Alon Kosowsky-Sachs (CTO) issus du MIT-CSAIL, la startup revendique avoir constitué la plus grande infrastructure de ce type aux États-Unis. Elle a levé 34 millions de dollars en Série A en décembre 2025, puis tenu une journée portes ouvertes en avril 2026. Entre 45 et 50 téléopérateurs distants au Mexique et aux Philippines pilotent les robots par téleopération proprioceptive pour leur enseigner des tâches de picking, kitting et préparation de commandes e-commerce. En évaluant simultanément le même comportement sur 100 unités, la détection d'anomalies s'effectue 100 fois plus vite qu'en opération solo : un cas limite normalement visible après 8 heures d'opération sur un robot unique devient détectable en 5 minutes de fonctionnement de la flotte. Une méthode de prétraitement baptisée "velocity normalization" standardise les profils de démonstration entre téléopérateurs pour homogénéiser le corpus d'entraînement. L'enjeu central est de s'affranchir de la dépendance à la simulation, un pari sur la donnée réelle là où la majorité des acteurs humanoïdes s'appuient encore sur des environnements synthétiques pour réduire leurs coûts de collecte. La thèse de Gruenstein est directe : sans équivalent robotique de Wikipédia, le transfert d'intelligence à l'échelle industrielle passe nécessairement par des humains enseignant des machines en conditions réelles. DF1 est conçue comme le premier maillon d'un cycle vertueux, déploiements commerciaux, données à l'échelle, amélioration continue de Ti0. Pour les intégrateurs et décideurs industriels, cette approche ouvre une trajectoire vers un modèle généraliste capable d'absorber de nouvelles tâches sans reprogrammation lourde, précisément le verrou économique du marché actuel. Les performances annoncées restent toutefois auto-déclarées, sans validation indépendante. Tutor Intelligence a émergé du MIT-CSAIL en 2021, avant l'essor commercial des VLA. La startup est membre de la première promotion du Physical AI Fellowship, programme co-animé par AWS, NVIDIA et MassRobotics, qui lui fournit ressources de calcul cloud et expertise technique. Dans un paysage concurrentiel où Physical Intelligence (pi0), Figure, Apptronik et Boston Dynamics développent chacun leurs propres stacks d'entraînement, Tutor se différencie en contrôlant à la fois le hardware d'entraînement (Sonny), la plateforme de téleopération et le modèle VLA, sans dépendre d'une simulation propriétaire. L'objectif déclaré est de lancer le premier déploiement commercial humanoïde généraliste, en alimentant la boucle de données depuis la production réelle pour piloter les itérations suivantes. Les conditions commerciales, les performances comparatives de Ti0 et les éventuels clients pilotes n'ont pas encore été communiqués.

IA physiqueOpinion
1 source
VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes
3arXiv cs.RO 

VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes

Une équipe de chercheurs a publié en mai 2025 sur arXiv les résultats de VOFA, un système de loco-manipulation destiné aux robots humanoïdes capable de pousser des objets lourds vers des positions cibles arbitraires en utilisant uniquement la perception embarquée. Les expériences ont été conduites sur le robot humanoïde Booster T1, et les résultats affichent un taux de réussite supérieur à 90 % en simulation et supérieur à 80 % en conditions réelles. Le système parvient à déplacer des charges allant jusqu'à 17 kg, soit plus de la moitié du poids propre du T1, sans aucune connaissance préalable de la masse des objets ni du coefficient de friction au sol. L'architecture repose sur deux niveaux hiérarchiques : une politique visuomotrice haut niveau, conditionnée par les objectifs, qui traite des observations embarquées bruitées, et un contrôleur bas niveau de type force-adaptive whole-body qui absorbe les incertitudes physiques en boucle fermée temps réel. La difficulté centrale que VOFA cherche à résoudre est précisément celle qui bloque la robotique de manipulation en entrepôt : agir de façon robuste sans connaissance privilégiée de l'état de l'objet, c'est-à-dire sans capteurs dédiés sur le sol, sans marqueurs visuels, et sans modèle de masse injecté à la volée. Le taux de 80 % en monde réel sur des tâches de poussée est significatif car ces tâches cumulent plusieurs sources de défaillance simultanées (glissement, dérive de perception, erreur d'actuation). Ce résultat suggère que la combinaison politique VLA conditionnée visuellement et contrôle force adaptatif permet de franchir le reality gap sans sur-spécialiser le système à un objet ou à un terrain particulier. Pour les intégrateurs logistiques, cela ouvre une voie vers la manutention généraliste sans infrastructure capteur supplémentaire. Le déploiement de robots humanoïdes dans la logistique est activement poursuivi par Figure Robotics (BMW, contrat 2024), Agility Robotics (Amazon), et Apptronik (Mercedes-Benz). VOFA se distingue de leurs approches en adressant explicitement la robustesse aux propriétés physiques inconnues plutôt que la vitesse ou le payload brut. Le Booster T1 est un humanoïde développé par la startup chinoise Booster Robotics, moins médiatisée que ses concurrents américains mais qui dispose d'une plateforme ouverte à la recherche. Le papier reste pour l'instant une contribution académique sans annonce de déploiement ni de partenariat industriel, et les vidéos de démonstration n'ont pas fait l'objet d'une validation externe. Les prochaines étapes naturelles incluent l'extension à des tâches de manipulation bimanuelles et à des environnements encombrants, deux conditions nécessaires pour valider l'approche en entrepôt réel.

IA physiqueOpinion
1 source
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
4arXiv cs.RO 

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes. L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle. Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.

IA physiqueOpinion
1 source