
Les modèles VLA maîtrisent-ils les bases ? Évaluation de la rétention du sens commun et des connaissances du monde
Une équipe de recherche a publié sur arXiv (arXiv:2606.19297) un protocole d'évaluation baptisé Act2Answer, conçu pour mesurer objectivement combien de connaissances de sens commun et de savoirs factuels les modèles Vision-Language-Action (VLA) conservent après leur fine-tuning sur des données robotiques. Le protocole transforme les benchmarks classiques d'évaluation de modèles de langage visuels (VLM) en épisodes tabulaires courts : l'agent doit répondre à une question en plaçant physiquement un objet parmi plusieurs candidats sur une surface, ce qui ancre l'évaluation dans une action réelle plutôt que dans un output textuel. L'étude couvre 7 modèles VLA et 9 modèles VLM de référence, testés sur une suite de scénarios couvrant plusieurs catégories de connaissances. À cela s'ajoute une technique de sondage couche par couche (layerwise intent probing) pour localiser où l'information pertinente à la réponse est encodée dans le backbone VLM et la tête d'action.
Les résultats révèlent une dégradation systématique, mais inégale, des connaissances après adaptation robotique. Les VLA maintiennent des performances solides sur les concepts simples, mais accusent des écarts significatifs sur les catégories sémantiquement plus riches par rapport à leurs VLM d'origine. Autrement dit, le fine-tuning robotique érode préférentiellement les représentations de haut niveau, celles qui portent le raisonnement nuancé. Le probing couche par couche montre que les signaux pertinents culminent dans les couches intermédiaires du réseau, puis s'atténuent dans les couches supérieures, ce qui suggère que la tête d'action interfère avec la propagation des connaissances sémantiques. Fait notable : l'entraînement conjoint avec des données VQA (Visual Question Answering) est associé à une meilleure rétention des connaissances, ouvrant une piste concrète pour les architectures futures. L'outil résout aussi un problème méthodologique persistant : il devient difficile de distinguer un échec dû à une connaissance absente d'un échec de contrôle moteur de bas niveau.
Act2Answer s'inscrit dans un débat plus large sur le sim-to-real gap et la robustesse des VLA en déploiement industriel. Les modèles VLA actuels, comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de modèles comme LLaVA et Qwen-VL, héritent de VLMs préentraînés sur des corpus massifs, puis sont spécialisés sur des datasets robotiques relativement restreints. La question de la rétention des connaissances est directement pertinente pour les intégrateurs qui misent sur ces modèles pour des tâches impliquant une compréhension contextuelle du monde réel, au-delà du simple pick-and-place. Aucun acteur européen n'est mentionné dans l'étude. Le code et les environnements Act2Answer sont disponibles publiquement, ce qui permettra à d'autres équipes de compléter les comparaisons avec d'autres architectures et de tester l'impact de stratégies d'entraînement alternatives.
Les équipes de recherche et les intégrateurs européens travaillant sur les VLA peuvent exploiter le benchmark Act2Answer (code public) pour évaluer la rétention de connaissances de leurs modèles et tester la stratégie d'entraînement conjoint VQA.
Dans nos dossiers




