Aller au contenu principal
Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique
RecherchearXiv cs.RO3sem

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du Collaborative Robotics Lab de Virginia Tech ont publié Language Movement Primitives (LMP), un framework qui relie les modèles de vision-langage (VLM) aux Dynamic Movement Primitives (DMP), une famille de contrôleurs de trajectoire établie en robotique depuis les années 2000. Le principe: les DMP définissent des trajectoires continues et stables via un faible nombre de paramètres interprétables, et les VLM configurent ces paramètres directement à partir d'instructions en langage naturel. Testé sur 31 tâches de manipulation de bureau en conditions réelles, LMP atteint un taux de succès de 65%, contre 35% pour le meilleur système de référence évalué. Le pipeline fonctionne en mode zéro-shot, sans fine-tuning spécifique aux tâches cibles. L'article est disponible sur arXiv (2602.02839, troisième révision) et accompagné de vidéos de démonstration.

Le vrai problème que LMP cible est le "grounding" moteur: transformer un raisonnement abstrait en commandes physiquement cohérentes. Les VLM comme GPT-4V excellent à décomposer une tâche en étapes logiques, mais produire des trajectoires exécutables reste hors de leur portée native. À l'inverse, les modèles de fondation robotique tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 de Google génèrent des actions directement, mais nécessitent généralement un fine-tuning coûteux en données in-domain pour s'adapter à de nouvelles tâches. LMP propose une troisième voie: les DMP servent d'interface structurée entre le raisonnement LLM et le contrôle bas niveau, préservant la stabilité dynamique sans apprentissage supplémentaire. Le gain de 30 points de pourcentage en zéro-shot sur des tâches réelles est notable, même si le choix des baselines et les conditions de test précises mériteront une vérification indépendante par la communauté.

Les DMP ont été formalisés par Schaal et al. dans les années 2000 et restent un outil de référence pour la manipulation grâce à leur stabilité et leur capacité de généralisation. L'approche de LMP s'inscrit dans la lignée de SayCan (Google) et Code-as-Policies (Liang et al.), mais descend plus bas dans la pile de contrôle sans passer par un réseau de politique intermédiaire. Les concurrents directs sont les VLA bout-en-bout comme OpenVLA ou le récent Helix d'Figure AI, qui offrent plus de flexibilité mais restent tributaires de larges jeux de données de démonstration. Les prochaines étapes probables incluent l'extension à des environnements non-tabulaires et à des robots à plus haute dimensionnalité, notamment la manipulation dextre sur bras 7-DOF.

À lire aussi

Mouvement primitif en robotique : une étude approfondie
1arXiv cs.RO 

Mouvement primitif en robotique : une étude approfondie

Publiée sur arXiv sous l'identifiant 2601.02379v2, une revue encyclopédique sur les movement primitives en robotique recense et compare l'ensemble des cadres théoriques développés ces trente dernières années pour représenter les trajectoires de contrôle de robots à partir de démonstrations humaines. Ces primitives de mouvement, blocs élémentaires de motion analogues aux phonèmes du langage, permettent à un système autonome de décomposer un geste complexe en segments réutilisables et recombinables. Les approches couvertes incluent les Dynamic Movement Primitives (DMP), formulés comme des systèmes dynamiques de type amortisseur-ressort, les Probabilistic Movement Primitives (ProMP) couplant statistiquement plusieurs démonstrations, et les extensions neuronales adaptées aux espaces d'état de haute dimension. La revue présente ces frameworks en ordre chronologique, évalue leurs forces et faiblesses, et identifie des applications concrètes : saisie d'objets, mouvements balistiques, enchaînements de tâches en manipulation robotique. Pour les praticiens (intégrateurs, équipes R&D en manipulation, COO industriels), cette synthèse positionne les primitives de mouvement comme une couche intermédiaire critique entre démonstration brute et politique généraliste de bout en bout. Elles permettent le transfert de compétences motrices sans rejeu complet des données d'entraînement et restent interprétables, contrairement aux architectures VLA (Vision-Language-Action) comme π0 de Physical Intelligence ou OpenVLA. La revue souligne en particulier des défis non résolus que ces dernières n'ont pas encore surmontés à l'échelle industrielle : segmentation automatique des démonstrations, passage à l'échelle en environnements non structurés, et couplage de contraintes en temps réel. Les primitives de mouvement ont émergé au début des années 2000 avec les travaux d'Auke Ijspeert, Jun Nakanishi et Stefan Schaal sur les DMP, puis étendues par Paraschos et al. avec les ProMP en 2013. Le champ s'est depuis fragmenté en nombreuses variantes sans synthèse unifiée. Face aux approches purement neuronales (ACT, Diffusion Policy) popularisées par les groupes de Sergey Levine et Chelsea Finn, les primitives se repositionnent comme solution modulaire et interprétable. Les auteurs identifient leur intégration dans des architectures de type foundation model pour la robotique comme prochaine étape structurante, un axe qui mobilise des acteurs aux États-Unis (Boston Dynamics AI Institute, CMU) comme en Europe (DLR, LAAS-CNRS).

UELAAS-CNRS est explicitement identifié comme un acteur européen clé sur l'intégration des primitives de mouvement dans les architectures foundation model pour la robotique, ce qui positionne la recherche française au cœur d'un axe stratégique face aux approches VLA purement neuronales.

RecherchePaper
1 source
AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique
2arXiv cs.RO 

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion
1 source
MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)
3arXiv cs.RO 

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.08288) introduit MotionVLA, une interface de mémoire motrice conçue pour améliorer les modèles vision-language-action appliqués à la manipulation robotique longue portée. Le principe : plutôt qu'alimenter le modèle avec une séquence d'images passées traitées indépendamment, MotionVLA convertit une courte fenêtre vidéo récente en tokens de champ de trajectoire (trajectory-field tokens), compacts et temporellement continus. Ces tokens encodent le mouvement cohérent entre les observations, et les tokens visuels courants les interrogent pour extraire les informations de mouvement pertinentes à la tâche en cours. Le tout est réinjecté dans le flux VLA via une supervision ancrée sur les trajectoires. Les auteurs rapportent des améliorations sur des benchmarks de simulation ainsi que des essais préliminaires sur robot réel, avec des exécutions décrites comme plus fluides et plus directes. L'enjeu est théorique, mais les implications pratiques sont directes. Les VLA actuels -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure) -- cherchent à résoudre l'ambiguïté des tâches longues en injectant toujours plus de contexte : historique d'images, profondeur, features 4D. L'hypothèse implicite est "plus de contexte spatio-temporel équivaut à une meilleure politique". MotionVLA conteste cette hypothèse : un contexte incohérent en termes de mouvement introduit de la dérive géométrique, des indices temporels fragmentés et une génération d'actions instable. Reformuler la mémoire comme un champ de mouvement plutôt que comme un empilement de frames résout le problème à la source, ce qui intéresse directement les équipes cherchant à stabiliser des VLA en déploiement industriel sans exploser le budget de calcul. Ce travail s'inscrit dans une course intense à l'architecture VLA optimale. Les approches concurrentes incluent les modèles à base de profondeur (SpatialVLA), de features 4D (CogACT), ou de diffusion de trajectoires (pi-0). MotionVLA se rapproche davantage des travaux sur le flot optique dense et les représentations de mouvement continu. Deux mises en garde s'imposent : les résultats sur robot réel sont explicitement qualifiés de "préliminaires" par les auteurs, et aucun chiffre de benchmark précis n'est disponible dans la publication actuelle. À ce stade, il s'agit d'une contribution de recherche, non d'un produit industrialisé ni d'une démonstration validée à l'échelle.

RechercheOpinion
1 source
RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA
4arXiv cs.RO 

RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA

Un article pré-publié sur arXiv (2606.02277, juin 2026) introduit RoboSemanticBench (RSB), un benchmark conçu pour tester si les modèles vision-langage-action (VLA) exploitent réellement la compréhension sémantique dans leurs prédictions de mouvement. Le protocole est délibérément simple : un robot reçoit une question à choix multiples, arithmétique ou de culture générale, observe des blocs physiques correspondant aux réponses candidates, et doit saisir le bloc associé à la bonne réponse. RSB propose deux configurations, à quatre et dix choix, couvrant l'arithmétique contrôlée, la compréhension mathématique de niveau primaire, ainsi que le raisonnement de bon sens et factuel. Les résultats obtenus sur plusieurs modèles VLA représentatifs sont sévères : si la majorité des politiques testées parviennent à saisir des blocs de manière fiable, le taux de sélection du bloc sémantiquement correct se situe, après correction du succès de préhension, à des niveaux proches du hasard, voire inférieurs. Ce résultat remet en question une hypothèse fondatrice de l'architecture VLA : l'idée que la compréhension sémantique acquise lors du pré-entraînement du backbone (modèle de langage ou vision-langage) se transfère naturellement vers la prédiction d'action. Ce que RSB révèle, c'est que le fine-tuning par imitation sur des distributions d'actions spécifiques à une tâche suffit à masquer ce transfert : les modèles apprennent des raccourcis visuels ou des associations instruction-action sans ancrer leurs gestes dans la signification réelle des instructions. Pour les intégrateurs et industriels qui déploient des systèmes VLA dans des environnements à haute variabilité sémantique (picking, tri, assemblage configurable), ce diagnostic a des implications directes : la performance en évaluation standard ne garantit pas une généralisation sémantique robuste en conditions réelles. Les modèles VLA ont connu une montée en puissance rapide depuis RT-2 (Google DeepMind, 2023), avec des successeurs comme OpenVLA, Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), tous reposant sur l'hypothèse que des backbones vision-langage pré-entraînés fournissent une compréhension du monde directement exploitable pour la manipulation robotique. RSB constitue le premier benchmark structuré autour de la dissociation entre compétence sémantique au niveau du backbone et compétence sémantique au niveau de l'action, une distinction que les évaluations classiques par taux de succès en manipulation ne capturent pas. Les auteurs ne proposent pas de correctif immédiat, mais leur protocole ouvre la voie à des méthodes de fine-tuning ou d'évaluation capables de préserver, voire de restaurer, la capacité sémantique dans la chaîne décision-action.

UELes équipes R&D et intégrateurs européens déployant des systèmes VLA en picking, tri ou assemblage configurable doivent réévaluer leurs métriques de validation : RSB démontre que le taux de succès en manipulation ne garantit pas la généralisation sémantique en conditions réelles.

RechercheActu
1 source