
RoboSSM : apprentissage par imitation contextuel et extensible via les modèles à espace d'états
Des chercheurs ont publié sur arXiv (réf. 2509.19658v2) RoboSSM, une architecture d'apprentissage par imitation en contexte (ICIL, pour in-context imitation learning) qui remplace les Transformers par des modèles à espace d'état (SSM, state-space models), et plus précisément par Longhorn, un SSM récent présenté comme état de l'art. L'apprentissage par imitation en contexte permet à un robot d'apprendre une nouvelle tâche à partir d'une poignée de démonstrations fournies à l'inférence, sans aucune mise à jour des paramètres du modèle. Les expériences ont été conduites sur le benchmark LIBERO, référence standard pour l'évaluation des politiques robotiques multi-tâches, et montrent que RoboSSM dépasse les méthodes ICIL à base de Transformers sur les tâches non vues à l'entraînement ainsi que sur les tâches à horizon long.
L'enjeu est architectural : les Transformers ont une complexité quadratique en fonction de la longueur du contexte, ce qui les pénalise dès que le prompt contient de nombreuses démonstrations ou des séquences longues. Les SSM, eux, offrent une inférence en temps linéaire et une capacité d'extrapolation à des contextes plus longs que ceux vus à l'entraînement, deux propriétés directement utiles pour l'ICIL en conditions réelles, où l'on peut vouloir fournir cinq ou dix démonstrations plutôt qu'une seule. Les auteurs affirment démontrer pour la première fois qu'un SSM peut servir de colonne vertébrale efficace et scalable pour l'ICIL. Les résultats restent toutefois confinés au simulateur LIBERO ; aucun transfert sim-to-real ni déploiement industriel n'est documenté dans ce travail.
L'ICIL s'est imposée ces deux dernières années comme alternative aux politiques entraînées tâche par tâche, portée notamment par des travaux comme ICRT ou HPT, tous basés sur des Transformers. RoboSSM s'inscrit dans une tendance plus large de remplacement des Transformers par des SSM (famille Mamba, Longhorn) dans les pipelines séquentiels, tendance déjà observée en NLP et en vision. Le code est publié sur GitHub, ce qui ouvre la voie à une reproduction communautaire. Les prochaines étapes attendues sont une validation sur robot physique et une comparaison à l'échelle avec des VLA (vision-language-action) de plus grande taille.
Dans nos dossiers




