Aller au contenu principal
Bi3 : un jeu de données biplateforme, biculturel et bipersonnel pour la navigation des robots sociaux
RecherchearXiv cs.RO3j

Bi3 : un jeu de données biplateforme, biculturel et bipersonnel pour la navigation des robots sociaux

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Bi3 est un jeu de données pour la navigation sociale de robots en espaces contraints, publié en preprint sur arXiv en mai 2026. L'expérience place systématiquement un robot face à deux humains dans un espace de laboratoire restreint, avec 74 participants recrutés sur deux sites : un aux États-Unis, un en France. Le dataset totalise 10,5 heures de trajectoires avec vérité terrain pour humains et robots, des flux vidéo RGB et des évaluations subjectives des participants sur les performances du robot. Cinq algorithmes de navigation distincts ont été testés sur deux plateformes robotiques différentes, ce qui constitue une couverture algorithmique et matérielle inédite dans ce domaine.

La navigation sociale en milieu dense reste l'un des verrous techniques majeurs de la robotique de service et de la logistique en environnement humain. Les benchmarks existants souffrent généralement d'un biais culturel marqué et d'une densité d'interaction artificiellement faible. Bi3 cible ces lacunes directement : la dimension biculturelle France/USA permet de tester si les comportements proximaux humains varient selon les normes sociales locales, une hypothèse rarement éprouvée empiriquement. Les métriques publiées, densité d'interaction et vélocité humaine, montrent une complexité comportementale supérieure aux datasets précédents, ce qui en fait un terrain d'évaluation plus exigeant pour les modèles de prédiction de mouvement et les politiques de contrôle de navigation.

Ce dataset s'inscrit dans l'effort collectif de la communauté robotique pour réduire l'écart entre simulations et déploiements réels. La présence d'un site de collecte en France est notable : elle apporte une représentation européenne rare dans ce type de benchmark, où les données américaines ou asiatiques dominent historiquement. Bi3 est conçu comme une ressource ouverte pour entraîner des architectures VLA (Vision-Language-Action) et des politiques de navigation en espaces denses, ainsi que des modèles de prédiction de mouvement humain. À ce stade, il s'agit d'un preprint académique, pas d'un déploiement opérationnel. Les suites naturelles incluent l'intégration dans des benchmarks standardisés et l'utilisation pour affiner des politiques de navigation sur des AMR (Autonomous Mobile Robots) en environnement industriel ou hospitalier.

Impact France/UE

La présence d'un site de collecte en France apporte des données comportementales européennes dans un benchmark de navigation sociale, offrant une référence plus représentative pour calibrer des AMR déployés en milieu hospitalier ou industriel en Europe.

À lire aussi

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles
1arXiv cs.RO 

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu
1 source
MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage
2arXiv cs.RO 

MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage

MiniVLA-Nav v1 est un dataset de simulation publié sur HuggingFace pour la navigation robotique conditionnée par le langage naturel, tâche désignée LCOA (Language-Conditioned Object Approach). Un robot différentiel NVIDIA Nova Carter reçoit une instruction courte et doit atteindre l'objet nommé en s'arrêtant à moins d'un mètre. Le dataset couvre 1 174 épisodes dans quatre scènes Isaac Sim photoréalistes (bureau, hôpital, entrepôt complet, entrepôt à étagères multiples), chacun annoté avec images RGB 640x640, cartes de profondeur métriques float32, masques de segmentation d'instance et labels d'action à 60 Hz (commandes continues v/omega et tokenisation 7x7 via contrôleur proportionnel visuel). Trois tiers de distance d'initialisation (1,5-3,5 m, 3,5-7,0 m, et lointain curatés) assurent la diversité des trajectoires, avec une corrélation Pearson r=0,94 entre distance de départ et longueur. Douze catégories d'objets et 30 templates (18 d'entraînement, 12 hors distribution) structurent cinq splits d'évaluation. La rareté de données annotées pour entraîner des modèles VLA (Vision-Language-Action) orientés navigation reste un frein reconnu dans la communauté. MiniVLA-Nav v1 y répond avec un benchmark à cinq axes : précision en distribution, robustesse aux paraphrases et généralisation hors distribution sur de nouvelles catégories. La tâche LCOA isole délibérément le grounding linguistique, c'est-à-dire la capacité à relier une instruction verbale à un objet physique, sans mélanger avec la planification globale de chemin. Les labels moteurs continus à 60 Hz offrent une supervision plus fine que la majorité des datasets de navigation verbale existants, souvent limités à des waypoints discrets. La compatibilité native avec l'écosystème Isaac Sim et la plateforme Nova Carter facilite un éventuel transfert sim-to-real vers des robots physiques en milieu industriel ou hospitalier. Ce travail s'inscrit dans la lignée de R2R et REVERIE pour la navigation à instruction verbale, mais avec un focus bas niveau peu commun. La publication, signée Ali Bustami et déposée sur arXiv en mai 2025 (2605.00397), ne présente pas encore de modèle baseline entraîné sur ces données, ce qui en limite la portée empirique immédiate : c'est un dataset, pas une preuve de performance. L'écosystème concurrent inclut Meta AI avec Habitat, Allen AI avec AI2-THOR et plusieurs benchmarks récents de Google DeepMind, mais aucun ne cible spécifiquement le LCOA avec commandes continues à 60 Hz sur plateforme NVIDIA. Le dataset est librement accessible sur HuggingFace (alibustami/miniVLA-Nav), en attente d'un modèle VLA de référence et d'expériences de transfert sim-to-real sur robot physique.

RechercheOpinion
1 source
COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café
3arXiv cs.RO 

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

L'équipe derrière COFFAIL a publié sur arXiv (référence 2604.18236) un jeu de données consacré à l'apprentissage de compétences robotiques de manipulation, collecté dans un environnement cuisine avec un robot physique. Le dataset couvre plusieurs types de tâches liées à la préparation de café et se distingue par une caractéristique rare dans la littérature : il regroupe à la fois des épisodes d'exécution réussis et des épisodes anomaux, c'est-à-dire des séquences où quelque chose s'est mal passé. Certains épisodes mobilisent une manipulation bimanuell, impliquant la coordination des deux bras du robot. Les auteurs démontrent l'usage concret du dataset en entraînant une politique robotique par imitation learning (apprentissage par démonstration). Ce qui distingue COFFAIL des datasets de manipulation habituellement disponibles, c'est l'inclusion explicite des échecs et des anomalies. La grande majorité des benchmarks publics ne documentent que les trajectoires réussies, ce qui crée un biais structurel dans l'entraînement des modèles : les robots apprennent à réussir, mais pas à détecter ni à récupérer d'une défaillance. Pour les intégrateurs industriels et les équipes de recherche travaillant sur la robustesse et la détection d'anomalies en manipulation, disposer d'exemples négatifs annotés est une ressource directement exploitable, notamment pour entraîner des modules de supervision ou de re-planification. L'application à l'imitation learning suggère aussi une compatibilité avec les architectures VLA (vision-language-action) actuelles. La préparation de café comme domaine applicatif est un choix délibéré dans la robotique de service : c'est une tâche suffisamment structurée pour être reproductible, mais qui implique des objets déformables, des liquides, et des contraintes temporelles, ce qui en fait un banc de test représentatif pour la manipulation fine. Plusieurs labos et startups ont utilisé des scénarios similaires pour tester leurs pipelines, dont Physical Intelligence (pi0), Everyday Robots (avant sa dissolution chez Google) ou des équipes académiques européennes. COFFAIL reste pour l'instant une contribution de dataset sans benchmarking comparatif avec d'autres méthodes, ce qui limite la portée des conclusions : le papier est court et déclaré comme tel par les auteurs. Les prochaines étapes naturelles seraient une évaluation comparative sur des tâches de détection d'anomalies et une extension du protocole à d'autres domaines de manipulation.

UELes équipes de recherche européennes en manipulation robotique peuvent exploiter ce dataset pour entraîner des modules de détection d'anomalies, mais aucun acteur FR/EU n'est directement impliqué dans sa production.

RecherchePaper
1 source
Follow-Bench : un benchmark unifié de planification de mouvement pour la poursuite sociale de personnes par robot
4arXiv cs.RO 

Follow-Bench : un benchmark unifié de planification de mouvement pour la poursuite sociale de personnes par robot

Une équipe de chercheurs a publié sur arXiv (référence arXiv:2509.10796v4) Follow-Bench, le premier benchmark unifié consacré au "robot person following" (RPF), c'est-à-dire des robots mobiles capables de suivre et d'assister une personne cible dans un environnement peuplé. L'étude couvre les scénarios représentatifs identifiés dans la littérature (assistance personnelle, patrouille de sécurité, aide aux personnes âgées, logistique), propose un environnement de simulation standardisé reproduisant des configurations variées comme des trajectoires cibles multiples, des dynamiques de foule et des agencements spatiaux différents, et réimplémente huit planificateurs de mouvement RPF issus de travaux existants dans ce cadre commun. Les deux planificateurs les plus performants en simulation ont ensuite été déployés sur un robot réel à entraînement différentiel pour valider les résultats en conditions concrètes. L'absence d'un benchmark partagé rendait jusqu'ici toute comparaison rigoureuse entre méthodes RPF quasiment impossible : chaque équipe évaluait ses planificateurs sur ses propres scénarios avec ses propres métriques, rendant les comparaisons inter-équipes peu fiables. Follow-Bench comble ce vide en standardisant simultanément les scénarios, les métriques de sécurité et de confort, et les planificateurs de référence. Le résultat le plus instructif est la quantification du compromis sécurité-confort : les expériences montrent qu'optimiser la distance de sécurité vis-à-vis des piétons tend à dégrader le confort de la personne suivie, et inversement. Cette tension, souvent évoquée qualitativement dans la littérature, dispose désormais d'une base quantitative reproductible. Pour les intégrateurs travaillant sur des robots d'assistance ou de logistique en milieu humain, cela fournit enfin un cadre commun pour comparer des solutions et cibler des axes d'amélioration précis. Le RPF s'inscrit dans le domaine plus large de la navigation socialement acceptable (social robot navigation), en expansion rapide sous l'effet du vieillissement démographique et de la croissance des entrepôts automatisés. Des plateformes comme celles de Labrador Systems, Ohmni Labs ou certains AMR de Boston Dynamics intègrent des capacités de suivi de personne, mais sans référentiel objectif partagé. Follow-Bench ne livre pas de solution clé en main : les auteurs identifient des défis ouverts non résolus, notamment la robustesse en foule dense et la gestion des occlusions prolongées, qui restent des freins au déploiement industriel à grande échelle.

RecherchePaper
1 source