
Politique d'accès mémoire contrôlé
Une équipe de chercheurs en robotique a publié fin avril 2026 sur arXiv (référence 2604.18933) la Gated Memory Policy (GMP), une architecture de politique visuomotrice pour les tâches de manipulation robotique. L'article cible un problème concret : certaines tâches sont markoviennes (la décision dépend uniquement de l'état courant), d'autres non-markoviennes (elles nécessitent de se souvenir d'interactions passées, parfois sur plusieurs essais). GMP intègre trois mécanismes distincts : une porte de mémoire apprise qui active sélectivement le contexte historique uniquement quand la tâche le requiert, un module de cross-attention léger pour construire des représentations latentes efficaces de la mémoire, et une injection de bruit de diffusion dans les actions historiques pour atténuer la sensibilité aux historiques bruités ou imprécis. Évaluée sur MemMimic, un benchmark non-markovien proposé par les auteurs eux-mêmes, GMP affiche une amélioration de 30,1 % du taux de succès moyen par rapport aux baselines à long historique, tout en maintenant des performances compétitives sur les tâches markoviennes du benchmark RoboMimic.
L'enjeu pointe une limite structurelle des politiques visuomotrices actuelles : l'approche naïve consistant à étendre la fenêtre d'observation historique dégrade les performances en raison du décalage de distribution et du surajustement. GMP montre qu'apprendre quand mémoriser est plus efficace qu'empiler de l'historique brut. Pour les équipes de recherche en manipulation et les intégrateurs industriels, cela valide une direction de conception : les politiques robotiques polyvalentes devront intégrer une gestion contextuelle de la mémoire, notamment pour des scénarios multi-étapes comme l'assemblage séquentiel ou le tri conditionnel. Une nuance s'impose toutefois : MemMimic est un benchmark conçu par les auteurs eux-mêmes, ce qui limite l'indépendance de la validation et appelle une évaluation sur des référentiels tiers.
Les politiques visuomotrices comme Diffusion Policy ou ACT opèrent principalement en mode réactif, sans mécanisme de mémoire épisodique explicite. Des architectures basées sur des transformers ont tenté d'incorporer l'historique, mais sans sélection adaptative. GMP s'inscrit dans une tendance plus large, aux côtés des VLA (Vision-Language-Action models) et des architectures de type state-space model comme Mamba, qui cherchent toutes à mieux gérer la temporalité en manipulation robotique. Le code, les données et les instructions de déploiement en conditions réelles sont disponibles sur le site du projet (gated-memory-policy.github.io), ce qui ouvre la voie à une reproduction indépendante et à une évaluation sur benchmarks extérieurs.



