RecherchearXiv cs.RO2sem

Apprentissage de modèles du monde par Gaussian Splatting centrés sur les objets et conditionnés par les actions pour objets rigides

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie MRO-GWM (Multi Rigid Object Gaussian World Model), un modèle de monde action-conditionnel capable de prédire en 3D les effets des actions d'un robot sur des objets rigides. Déposé sur arXiv (réf. 2606.01950), le travail combine Gaussian splatting et apprentissage de dynamique : chaque objet de la scène est décrit par un ensemble de gaussiennes dans un référentiel canonique propre, son mouvement étant modélisé comme une transformation de corps rigide (rotation et translation). Un transformateur spatio-temporel prédit la trajectoire future des objets à partir de leur historique gaussien et des actions planifiées par le robot. L'architecture gère les occlusions partielles grâce à un entraînement sur reconstructions multi-vues. Les évaluations portent sur des datasets synthétiques d'objets ménagers en interaction avec un effecteur robot, et sur des tâches de manipulation non préhensile (pousser un objet sans le saisir) dans le cadre d'un contrôle prédictif par modèle (MPC), le tout exclusivement en simulation.

L'association de modèles de monde action-conditionnels et de Gaussian splatting est pertinente : les premiers permettent de planifier sans essai-erreur coûteux, le second offre une représentation 3D différentiable adaptée à des géométries complexes sans maillage explicite. La décomposition objet-centrique améliore en théorie la généralisation à de nouvelles configurations de scène, contrairement aux encodages holistes. La validation sur manipulation non préhensile est notable car pousser un objet vers une cible est considéré comme un benchmark difficile : les contacts sont instables et mal modélisés par la plupart des simulateurs physiques. Ces résultats restent toutefois entièrement simulés et limités aux objets strictement rigides, sans aucun transfert sim-to-real documenté.

Le Gaussian splatting connaît une adoption rapide en robotique depuis la publication de 3DGS (Kerbl et al., 2023), avec des travaux concurrents comme SplatSim, GaussianWorld ou des approches combinant NeRF et planification. MRO-GWM se distingue par son traitement explicite de la dynamique multi-objets avec interactions physiques, un axe moins couvert que la navigation ou la préhension isolée. Le gap sim-to-real demeure le verrou principal : une validation sur bras réel (type Franka ou UR5) constituerait l'étape naturelle, tout comme une extension aux objets articulés ou semi-rigides, aujourd'hui hors périmètre du modèle.

Dans nos dossiers

World models arXiv cs.RO

À lire aussi

1arXiv cs.RO

Slot-MPC : contrôle prédictif par modèle conditionné sur des objectifs avec représentations centrées sur les objets

Des chercheurs ont publié en mai 2025 Slot-MPC (arXiv:2605.14937), un cadre de modélisation du monde combinant représentations centrées sur les objets et contrôle prédictif par modèle (MPC). L'approche encode chaque objet de la scène dans un "slot" latent distinct, appris par un encodeur visuel, puis utilise ces représentations structurées pour apprendre un modèle de dynamique conditionné sur les actions. Au moment de l'inférence, ce modèle sert de simulateur interne : l'agent planifie ses actions sur un horizon temporel fini, réoptimise à chaque pas de temps, et peut ainsi s'adapter à des situations non rencontrées pendant l'entraînement. Les expériences sont menées sur des tâches de manipulation robotique simulées, dans un cadre hors-ligne (offline) avec couverture limitée des paires état-action. La contribution principale tient à la différentiabilité du modèle appris : contrairement aux approches MPC classiques qui échantillonnent des milliers de trajectoires candidates (méthodes sans gradient, type CEM ou MPPI), Slot-MPC optimise directement les actions par descente de gradient, ce qui est significativement plus efficace en termes de calcul. Dans le cadre offline étudié, cette planification par gradient surpasse les méthodes d'échantillonnage. Les résultats montrent également que les représentations structurées objet par objet constituent un biais inductif fort : les agents Slot-MPC généralisent mieux à des situations nouvelles que les baselines à représentations latentes monolithiques, ce qui est un enjeu central pour les applications robotiques réelles où l'environnement évolue de façon imprévisible. Ce travail s'inscrit dans la lignée des recherches sur les représentations centrées sur les objets (Slot Attention de Locatello et al., 2020 ; SLATE, Dinosaur), appliquées ici au contrôle plutôt qu'à la seule perception. Il entre en compétition directe avec des modèles de monde appris comme DreamerV3 (DeepMind) ou TD-MPC2, qui utilisent des représentations latentes denses non structurées. Limite notable : toutes les expériences restent en simulation, sans transfert sim-to-real ni validation sur robot physique, ce qui est un écart important avant toute application industrielle. Le code source et les résultats complémentaires sont disponibles sur slot-mpc.github.io.

RecherchePaper

1 source

2arXiv cs.RO

3D-DLP : apprentissage auto-supervisé de représentations de scènes 3D centrées sur les objets

Une équipe de chercheurs publie 3D-DLP (3D Deep Latent Particles), un modèle d'apprentissage auto-supervisé de représentations de scène centré sur les objets. À partir d'entrées RGB-D (couleur et profondeur combinées) ou volumétriques en voxels, le modèle décompose une scène en un ensemble de particules latentes 3D, chacune encodant trois attributs distincts : la position 3D du keypoint, les dimensions de la bounding box et des descripteurs d'apparence visuelle. L'entraînement repose sur un objectif de reconstruction end-to-end sans annotations manuelles, en étendant le cadre Deep Latent Particles (DLP) au domaine 3D. Le modèle génère également des cartes de segmentation par particule, lisibles directement. Des expériences sur données simulées et réelles sont présentées dans le preprint arXiv 2606.19451, avec le code open source disponible à l'adresse eubooks3003.github.io/3d-dlp. Pour la manipulation robotique, l'apport principal est une représentation de scène à la fois structurée et compacte. Les benchmarks internes montrent une amélioration par rapport à deux types de baselines : celles qui manquent d'information 3D explicite, et celles qui utilisent des représentations 3D denses (nuages de points complets, volumes de voxels) sans structure centrée sur les objets. Cette dernière catégorie est coûteuse en mémoire à l'échelle, ce que 3D-DLP contourne via sa paramétrisation par particules. L'espace latent est également manipulable : modifier les positions des particules avant décodage permet de synthétiser de nouvelles configurations de scène, une propriété utile pour la planification ou la simulation contrefactuelle en robotique. Le modèle s'inscrit dans le courant de l'apprentissage centré sur les objets, en alternative aux approches monolithiques comme les NeRF ou les Gaussian Splatting pour la représentation 3D de scènes. Il entre aussi en dialogue avec les architectures VLA (Vision-Language-Action), qui peinent encore à intégrer une géométrie 3D explicite et structurée. À ce stade, 3D-DLP reste un preprint académique sans validation industrielle ni intégration dans un pipeline robotique commercial, et les métriques de performance ne sont pas quantifiées précisément au-delà d'une comparaison qualitative aux baselines.

RechercheActu

1 source

3arXiv cs.RO

Modèles du monde locaux et globaux couplés pour un apprentissage par renforcement efficace du premier ordre

Des chercheurs ont publié en février 2026 une méthode d'entraînement de politiques de contrôle robotique entièrement à l'intérieur de modèles du monde appris depuis des données réelles, sans aucun simulateur physique. L'approche, baptisée FoG (First-order Gradient découplé), repose sur un couplage inédit : un modèle du monde global, basé sur un modèle de diffusion à grande échelle, génère des trajectoires précises dans l'espace image, tandis qu'un modèle local léger opérant dans un espace latent approche les dynamiques locales pour calculer les gradients de manière tractable. Les auteurs valident la méthode sur la tâche Push-T, un benchmark standard de manipulation planaire, où FoG surpasse significativement PPO (Proximal Policy Optimization) en efficacité d'échantillons. Une deuxième évaluation porte sur de la manipulation d'objets en vue égocentrique avec un robot quadrupède. Ce travail s'attaque à un verrou majeur de la robotique de manipulation : les simulateurs physiques classiques peinent à modéliser fidèlement les contacts, la non-rigidité des objets et les perceptions visuelles complexes, créant un écart sim-to-real difficile à combler. En substituant entièrement le simulateur par un modèle du monde appris sur des interactions réelles, FoG contourne ce problème structurellement plutôt que de l'atténuer par du domain randomization ou du fine-tuning. Le découplage local/global est la contribution centrale : utiliser le modèle de diffusion complet pour le déroulé (roll-out) garantit la fidélité, tandis que le substitut latent rend le calcul du gradient computationnellement viable, une tension que les approches précédentes ne résolvaient pas proprement. Les world models comme levier pour l'apprentissage robotique constituent un axe de recherche en forte accélération depuis les travaux fondateurs de Dreamer (DeepMind, 2019-2023) et de MBPO. Les modèles de diffusion, d'abord dominants en génération d'images, sont progressivement intégrés comme modèles de transition dynamique dans des travaux récents chez Google DeepMind, Berkeley et le MIT. FoG se positionne dans cette veine mais avec un angle d'optimisation first-order qui le distingue des approches model-based RL classiques. Les résultats sont préliminaires, limités à deux tâches de complexité modérée, et les auteurs ne présentent pas de métriques de temps de calcul détaillées ni de comparaison sur des benchmarks de manipulation plus exigeants comme ManiSkill ou RoboSuite. La prochaine étape naturelle serait de tester la méthode sur des tâches dextères en environnement non structuré, où le gap sim-to-real est le plus pénalisant.

RecherchePaper

1 source

4arXiv cs.RO

Mem-World : modèles du monde conditionnés par l'action et augmentés par la mémoire pour la manipulation robotique persistante

Des chercheurs ont publié Mem-World sur arXiv (réf. 2606.18960, juin 2026), un modèle du monde multi-vues augmenté par mémoire pour la manipulation robotique. Le problème adressé est fondamental aux modèles du monde conditionnés par l'action (action-conditioned world models) : lors d'une tâche de manipulation, l'effecteur terminal occulte fréquemment la scène, et les mouvements rapides de la caméra embarquée au poignet rendent l'observation courante insuffisante pour prédire les vues futures, poussant les modèles à halluciner ou oublier des détails observés antérieurement. L'innovation centrale est W-VMem, une mémoire indicée par surfels (éléments de surface 3D) en 4D, centrée sur la vue poignet, qui ancre les observations historiques à des éléments de surface évoluant dans le temps. Cette structure permet une récupération de contexte conditionnée sur les actions futures et consciente de la géométrie de scène, via rendu et scoring basés sur les surfels. Sur les tâches de long horizon, le taux de réussite progresse de 58 % à 72 % grâce à la génération de données synthétiques, et la corrélation de Pearson entre évaluations simulées et performances réelles s'améliore de 14,5 % par rapport à Ctrl-World, le modèle de référence. Ce gain en corrélation est directement actionnable pour les équipes robotique : il indique qu'on peut davantage faire confiance aux rollouts simulés pour prédire le comportement réel d'une politique, réduisant la dépendance aux expérimentations physiques coûteuses. L'hallucination de scène était jusqu'ici un verrou majeur à l'utilisation des world models pour l'entraînement de politiques dextres ; en séparant explicitement quand et où chaque élément a été observé, W-VMem produit un contexte historique non-redondant et pertinent. Il convient toutefois de noter que les scénarios de test et les métriques d'évaluation ne sont pas détaillés dans le résumé disponible, ce qui limite l'interprétation directe des chiffres annoncés. Les world models conditionnés par l'action sont apparus d'abord en jeu vidéo et conduite autonome (DreamerV3, GAIA-1) avant d'être adaptés à la manipulation, domaine plus exigeant en raison des occlusions proches et de la dynamique de caméra embarquée. Ctrl-World est la référence directe contre laquelle Mem-World se positionne. Cette publication reste un preprint, non encore évalué par des pairs, sans partenaire industriel ni timeline de déploiement annoncé. Les suites naturelles incluent une évaluation sur des benchmarks standardisés comme RLBench et une intégration dans des pipelines de modèles Visual Language Action (VLA), où la cohérence temporelle des rollouts est un prérequis à l'entraînement à grande échelle.

RechercheOpinion

1 source