Dossier Figure

204 articles

Figure, le constructeur de robots humanoïdes le plus capitalisé : Figure 02 et 03, modèle Helix VLA, déploiements BMW, partenariats avec OpenAI puis indépendance.

1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Enchanted Tools — Mirokaï Tous les dossiers →

1arXiv cs.RO IA physiqueOpinion

Quels sont les facteurs limitants de la navigation vision-langage ?

Une équipe de chercheurs publie StereoNav (arXiv:2605.13328, mai 2026), un framework Vision-Language-Action (VLA) conçu pour la navigation robotique guidée par instructions en langage naturel, domaine désigné sous le terme Vision-and-Language Navigation (VLN). Sur les benchmarks standards R2R-CE et RxR-CE, le système atteint des taux de succès (SR) de 81,1 % et 67,5 %, avec des scores SPL (Success weighted by Path Length) de 68,3 % et 52,0 % respectivement, positionnant StereoNav en état-de-l'art sur RGB égocentrique. Ces performances sont obtenues avec nettement moins de paramètres et de données d'entraînement que les approches concurrentes fondées sur la mise à l'échelle. Des déploiements physiques sur robot dans des environnements non structurés réels confirment une amélioration substantielle de la fiabilité de navigation. La contribution centrale de StereoNav est de remettre en cause le paradigme dominant du scaling: les auteurs soutiennent que le vrai goulot d'étranglement pour combler le sim-to-real gap ne réside pas dans la taille des modèles ou le volume de données d'entraînement, mais dans l'absence d'un ancrage spatial robuste (spatial grounding) et de représentations cross-domaines stables. Ils introduisent en réponse des Target-Location Priors, représentations visuelles persistantes invariantes entre simulation et déploiement réel, qui stabilisent la navigation même lorsque les instructions verbales sont vagues ou incomplètes. La vision stéréo complète le dispositif en construisant une représentation unifiée sémantique et géométrique, résistante aux perturbations visuelles fréquentes en environnement industriel: flou de mouvement, variations d'éclairage, changements de perspective. Pour un intégrateur ou un COO industriel, le signal est clair: atteindre ces performances sans modèles XXL réduit significativement les coûts de déploiement et d'inférence. La VLN s'appuie historiquement sur le benchmark Room-to-Room (R2R) introduit en 2018, mais le passage du simulateur Matterport3D au monde physique restait un défi largement ouvert. StereoNav entre en compétition directe avec des VLA généralistes misent sur l'échelle paramétrique: pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI. L'architecture proposée choisit une voie opposée, fondée sur l'efficience et les priors géométriques explicites plutôt que la capacité brute. Il s'agit à ce stade d'un résultat académique sans déploiement commercial annoncé, mais les expériences physiques documentées dépassent le registre de la démonstration en laboratoire et constituent une base sérieuse pour des pilotes industriels à venir.

UEL'approche architecture légère de StereoNav pourrait réduire les coûts de déploiement VLA pour les intégrateurs industriels européens, sans nécessiter d'infrastructure de calcul massive.

Dossier Figure

Quels sont les facteurs limitants de la navigation vision-langage ?

TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données

CUBic : cadre unifié et coordonné de perception et contrôle bimanuels

SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai

Helix-02 assure désormais des quarts de 8 heures en usine sans intervention humaine

Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

Kairos : un système de déploiement extensible pour l'IA physique

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0

Vidéo : Unitree lance le premier robot à conduite optionnelle au monde prêt pour la production

Hello Robot établit la référence en matière de robots domestiques pratiques et sûrs

Unitree dévoile le GD01 : premier mécha transformable portant un humain produit en série, à 3,9 millions de yuans

Des données de caméras corporelles sur des travailleurs humains servent à entraîner des cerveaux robotiques dans un essai coréen

IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel

Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Locomotion humanoïde de bout en bout apprise à partir de pixels bruts

RoboMemArena : un benchmark complet et exigeant pour la mémoire des robots

RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques

Comment enseigner la même compétence à différents robots

Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls

Lumos Robotics lève près d'1 milliard de yuans en séries A1 et A2, Mitsubishi Electric en tête

Large Video Planner permet un contrôle robotique généralisable

Propriétés dynamiques et reproductibilité d'un torse humanoïde pneumatique compact pour le contrôle piloté par données

Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026

MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”

Video Friday : l'IA confère aux mains robotiques une dextérité humaine

Xiaoyu Robotics lève un nouveau tour de table, soutenu par Xiaomi, Didi et BAIC

Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre

Genesis AI publie GENE-26.5 : un robot humanoïde réussit enfin à préparer des œufs brouillés à la tomate

Unitree Robotics fait son entrée en Corée du Sud avec une cérémonie d'ordination au plus grand temple bouddhiste de Séoul

Reconstruction ou sémantique ? Ce qui rend un espace latent utile pour les modèles du monde en robotique

Un temple sud-coréen ordonne le robot humanoïde Unitree G1 lors d'une première mondiale bouddhiste

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel

1X lance la production de ses humanoïdes NEO dans son usine californienne

Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Atlas de Boston Dynamics épate avec un appui tendu renversé parfait

AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée

Sécurité de l'IA incarnée : panorama des risques, attaques et défenses

Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire