Reconstruction couture-vers-graphe pour l'alignement de…

EAGG : génération de saisie alignée sur l'embodiment par conditionnement géométrique sur graphe

42

1arXiv cs.RO

EAGG : génération de saisie alignée sur l'embodiment par conditionnement géométrique sur graphe

Des chercheurs présentent EAGG (Embodiment-Aligned Grasp Generation via Geometry-Aware Graph Conditioning), un modèle de génération de prises robotiques multi-effecteur publié en prépublication sur arXiv (arXiv:2506.18092). L'architecture représente chaque effecteur terminal via un graphe topologique et un espace de contrôle bas-dimensionnel propre à chaque morphologie, qu'il s'agisse de pinces parallèles classiques ou de mains dextères à plusieurs doigts. Un module backbone figé convertit l'état articulé courant en tokens géométriques réutilisables, qui sont rafraîchis de façon itérative tout au long du processus d'échantillonnage via un mécanisme baptisé iterative geometry injection. Sur le benchmark MultiGripperGrasp, EAGG atteint 56,17 % de taux de succès moyen sur six effecteurs d'entraînement, soit un écart de seulement 1,10 point de pourcentage par rapport à des modèles spécialisés entraînés séparément pour chaque préhenseur. L'injection géométrique itérative réduit par ailleurs la distance médiane de contact de 0,239 cm à 0,189 cm. Le code est disponible en open source sur GitHub. Ce résultat s'attaque à l'un des verrous les plus concrets pour les intégrateurs industriels : la nécessité de réentraîner ou d'affiner un modèle de saisie à chaque changement de préhenseur. L'approche dominante consiste aujourd'hui soit à entraîner un modèle par géométrie d'effecteur (coûteux en données et en compute), soit à encoder l'identité de l'effecteur via un descripteur statique, ce qui dégrade le transfert dès que la topologie ou le couplage d'actionnement diverge significativement. EAGG montre qu'encoder explicitement la structure morphologique dans un générateur partagé, plutôt que de masquer les différences inter-effecteurs, améliore à la fois la performance générale et la transférabilité zero-shot vers des préhenseurs non vus lors de l'entraînement. C'est un argument de poids pour les équipes robotiques cherchant à mutualiser les politiques de saisie sur une flotte multi-effecteurs. Ce travail s'inscrit dans la dynamique plus large de politiques robotiques universelles que poursuivent simultanément Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, ou Figure AI avec Helix, tous confrontés au même défi de transfert inter-morphologie. EAGG se concentre sur le sous-problème de la saisie et propose une solution fondée sur les graphes, là où d'autres approches misent sur des encodages continus ou des plongements latents partagés. Il s'agit pour l'instant d'une contribution académique sans déploiement industriel annoncé ni partenariat applicatif déclaré, et les chiffres de performance sont à lire dans le cadre contrôlé du benchmark MultiGripperGrasp, ce qui laisse ouverte la question du sim-to-real gap en conditions réelles.

RechercheActu

1 source

Planification de la prochaine vue optimale avec prise en compte de l'incertitude de mouvement pour la reconstruction d'objets mobiles

37

2arXiv cs.RO

Planification de la prochaine vue optimale avec prise en compte de l'incertitude de mouvement pour la reconstruction d'objets mobiles

Des chercheurs présentent dans un preprint arXiv (2605.17593) un cadre de planification baptisé "motion-uncertainty-aware next-best-view" (NBV), destiné à reconstruire en 3D des objets rigides en mouvement planaire avec un robot mobile équipé d'un capteur de profondeur. Le problème central est le délai entre la sélection d'un viewpoint et son exécution : au moment où le robot atteint la position choisie, l'objet a déjà bougé, rendant caduc tout plan basé sur une pose prédite unique. Pour y répondre, chaque viewpoint candidat est évalué non pas sur une position fixe, mais sur l'ensemble des états futurs plausibles de l'objet, modélisés par un lisseur à processus gaussien à fenêtre glissante (fixed-lag Gaussian Process smoother) alimenté par des mesures de position bruitées. Les expériences, menées en simulation et en conditions réelles, montrent une complétude de reconstruction supérieure à celle des planificateurs NBV non-prédictifs et des méthodes de tracking-seul. Ce résultat comble un angle mort documenté de la robotique perceptive : les planificateurs NBV classiques optimisent la couverture de surface en supposant des objets statiques, tandis que les méthodes de perception active orientées mouvement favorisent le suivi au détriment de la qualité de reconstruction. La combinaison des deux dans un seul cadre probabiliste est directement applicable à l'inspection automatisée de pièces sur convoyeur, au contrôle qualité en ligne ou à la génération de jumeaux numériques en environnement dynamique. Traiter le futur comme une distribution d'états plutôt qu'une estimation ponctuelle améliore la robustesse aux perturbations capteurs et aux variations de dynamique que les approches déterministes ne gèrent pas. La planification NBV est un problème actif depuis les années 1990 en robotique perceptive, mais son extension aux objets en mouvement reste peu traitée dans la littérature. L'usage de processus gaussiens pour la prédiction de trajectoire est éprouvé dans d'autres domaines, rarement couplé jusqu'ici à des scores de couverture de surface en contexte NBV. Il s'agit d'un preprint sans évaluation par les pairs à ce stade, sans partenaire industriel ni déploiement annoncé. Les métriques de complétude avancées restent à confirmer sur des dynamiques plus complexes : les expériences actuelles se limitent au mouvement planaire et aux objets rigides. Les extensions naturelles incluent le mouvement 3D non-planaire, les objets déformables et les configurations multi-cibles. Aucun acteur français ou européen n'est impliqué dans cette publication.

RecherchePaper

1 source

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

50

3arXiv cs.RO

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

Une équipe de chercheurs a publié fin juin 2026 un système baptisé GASE (Gaussian Splatting-Based Automated System for Reconstructing Embodied-Simulation Environments), conçu pour automatiser la construction de scènes de simulation photoréalistes destinées à l'entraînement de robots. Le pipeline exploite des réseaux de caméras panoramiques multivues pour capturer l'environnement réel, extrait automatiquement les objets de premier plan via une stratégie basée sur les poses de caméras dans le domaine 2D, puis reconstruit séparément objets et arrière-plan statique par 3D Gaussian Splatting avant de les importer dans un simulateur physique avec inpainting haute-fidélité des zones manquantes. Sur des benchmarks de segmentation, GASE surpasse les méthodes 3DGS concurrentes de plus de 10 %. Surtout, lors de déploiements réels sur des tâches de manipulation et de navigation, les politiques entraînées en simulation n'affichent qu'un écart de performance inférieur à 10 % par rapport à celles entraînées sur données réelles, arXiv:2606.17520. Ce résultat chiffré est l'argument central du papier. Le sim-to-real gap, soit la dégradation des performances lors du passage du simulateur au robot physique, reste l'un des obstacles majeurs au déploiement à grande échelle de l'apprentissage robotique. Un écart sous les 10 % suggère que la simulation générée automatiquement depuis des scans réels peut constituer un vecteur de data augmentation viable, réduisant la dépendance à des opérateurs qualifiés et à du matériel coûteux pour la collecte terrain. Pour les intégrateurs et les industriels engagés dans des projets de manipulation ou de navigation autonome, la promesse est de compresser significativement le coût des pipelines d'entraînement, à condition que la méthode tienne à l'échelle et sur des environnements plus complexes que ceux testés. GASE s'inscrit dans la trajectoire tracée par l'émergence du 3D Gaussian Splatting en 2023 comme alternative temps-réel aux NeRF pour la reconstruction de scènes. Les approches concurrentes, notamment SplatSim, Gaussian Grouping et les pipelines d'assets manuels dans Isaac Sim ou MuJoCo, progressent en parallèle, mais l'automatisation complète de l'acquisition jusqu'à l'import simulateur reste un problème ouvert. Le preprint ne mentionne ni institution ni partenaires industriels, ce qui rend difficile l'évaluation des perspectives de transfert applicatif. Le code doit être publié ultérieurement mais n'est pas encore disponible au moment de la soumission. Le périmètre limité des tâches testées et l'absence de comparaison avec des environnements synthétiques construits manuellement laissent plusieurs questions ouvertes à la communauté.

RecherchePaper

1 source

Construction de la généralisation dans la génération de comportements via des compositions adaptatives de régularités

34

4arXiv cs.RO

Construction de la généralisation dans la génération de comportements via des compositions adaptatives de régularités

Une équipe de chercheurs a déposé sur arXiv (2605.31110) un cadre baptisé AICON (Active InterCONnect) pour aborder la généralisation en robotique. Le système représente les régularités, soit les relations prévisibles au sein du couple robot-environnement, sous forme de processus en interaction dans un réseau différentiable. Le retour sensoriel orchestre leur composition en temps réel, tandis qu'une descente de gradient génère le comportement. Les expériences sont menées entièrement en simulation sur un problème maîtrisé, où toutes les régularités pertinentes ont été identifiées et encodées a priori. Confronté à un large éventail de conditions inédites, le modèle produit un comportement adapté dans presque tous les cas ; seul un scénario échoue, et les auteurs démontrent formellement que les régularités encodées y sont insuffisantes. La généralisation reste le verrou central de la robotique apprenante : un robot entraîné sur un ensemble de tâches échoue souvent dès que les conditions varient légèrement. AICON propose une réponse structurelle, en ancrant la généralisation dans un biais inductif explicite, la composition adaptative de régularités, plutôt que dans le volume de données. Les ablations montrent que le réseau module automatiquement l'influence de chaque régularité selon son caractère informatif dans la situation courante, un mécanisme de pondération émergent sans supervision. Pour les chercheurs en apprentissage robot et les intégrateurs, cela remet en question l'hypothèse que la mise à l'échelle des données ou des paramètres suffit à couvrir la distribution des situations réelles. La généralisation est aujourd'hui au coeur des travaux sur les VLA (Vision-Language-Action models) comme pi0 de Physical Intelligence, RT-2 de Google DeepMind ou OpenVLA, qui misent sur des fondations pré-entraînées à grande échelle pour transférer vers de nouvelles tâches. AICON emprunte une voie opposée, plus proche des systèmes dynamiques et du contrôle adaptatif, en cherchant à encoder la structure du monde plutôt qu'à l'approximer par accumulation de données. L'étude reste entièrement en simulation sur des problèmes jouets ; le passage aux robots physiques et l'identification automatique des régularités pertinentes restent des questions ouvertes. Une validation sur des benchmarks de manipulation réelle comme LIBERO ou RLBench constituerait la prochaine étape naturelle.

RecherchePaper

1 source

Reconstruction couture-vers-graphe pour l'alignement de configuration de vêtements

À lire aussi

EAGG : génération de saisie alignée sur l'embodiment par conditionnement géométrique sur graphe

Planification de la prochaine vue optimale avec prise en compte de l'incertitude de mouvement pour la reconstruction d'objets mobiles

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

Construction de la généralisation dans la génération de comportements via des compositions adaptatives de régularités