
Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique
Un groupe de chercheurs impliqués dans l'élaboration de la norme ISO/WD 26264-1 au sein du comité technique ISO/TC 299/WG 16 publie un préprint arXiv (2606.19769, juin 2026) posant que la standardisation des données constitue le prochain verrou critique pour les robots humanoïdes. Leur thèse centrale: le goulot d'étranglement n'est pas seulement la rareté des données, mais leur caractère non cumulatif, causé par des coûts de collecte élevés, des silos organisationnels et des protocoles d'évaluation incompatibles. Les auteurs identifient trois conditions pour qu'un jeu de données soit réutilisable: l'expérience physique doit rester liée au corps du robot, à la tâche et au contexte d'exécution; les flux multimodaux doivent partager synchronisation temporelle, repères de coordonnées, calibration et unités documentées; les données doivent enfin être versionnées et traçables pour s'accumuler entre projets et organisations.
L'enjeu est direct pour les équipes qui entraînent des modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI. Sans grammaire commune (métadonnées, provenance, versioning), chaque acteur repart de zéro à chaque nouveau déploiement. Pour un intégrateur industriel, cela signifie concrètement que des données collectées sur un site ne peuvent pas réentraîner un modèle sur un autre, même avec du matériel identique. L'article recadre le "sim-to-real gap" non pas comme un problème de simulation, mais comme un déficit d'alignement des référentiels physiques entre jeux de données: les hypothèses de synchronisation et de cinématique, si elles ne sont pas documentées, rendent les flux non interopérables dès le départ.
La norme proposée s'articule en deux couches: une infrastructure horizontale couvrant le cycle de vie, les métadonnées, la qualité, le versioning et la traçabilité, et des parties spécifiques par capacité (manipulation, locomotion, interaction humain-robot, cognition). Le contexte est celui d'un secteur ou Figure AI, Boston Dynamics, Tesla (Optimus Gen 3), Unitree et 1X accumulent des données de manière cloisonnée, tandis que des initiatives ouvertes comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace) posent des bases communes sans force normative. Le préprint est en phase WD (Working Draft) sans date de ratification annoncée: c'est une prise de position académique, pas une norme publiée ni un déploiement industriel.
Si ratifiée, la norme ISO/WD 26264-1 structurera les pratiques de données des acteurs européens de la robotique humanoïde ; HuggingFace (Paris) est déjà cité comme contributeur aux bases ouvertes communes (LeRobot), sans force normative à ce stade.
Dans nos dossiers




