
Gestes robotiques naturels et expressifs via un apprentissage par renforcement itératif avec retours humains et LLMs
Des chercheurs ont publié en juin 2026 (arXiv:2606.18747) un système permettant au robot humanoïde Pepper de générer des gestes co-verbaux naturels à l'exécution, sans recours à des animations préprogrammées. L'architecture combine ChatGPT pour la génération de code gestuel en langage naturel, couplée à un pipeline d'apprentissage par renforcement à partir de retours humains (RLHF) appliqué de manière itérative. Des utilisateurs évaluent les gestes produits par Pepper lors d'une étude comparative, ces préférences servant de signal de récompense pour affiner le modèle de langage. Résultat annoncé : des mouvements jugés plus expressifs, pertinents et fluides qu'avec le seul pipeline LLM de base.
L'enjeu est significatif pour les intégrateurs de robots sociaux. Aujourd'hui, la quasi-totalité des comportements gestuels déployés en production repose sur des bibliothèques d'animations conçues à la main par des experts, ce qui rend les robots rigides face à des contextes conversationnels imprévus. Les approches par apprentissage automatique peinent à capturer la naturalité perçue, un critère subjectif qui se dégrade à mesure que le nombre de degrés de liberté augmente. Ce travail propose une alternative concrète : utiliser un LLM comme générateur de comportements moteurs au runtime, puis le corriger via RLHF pour coller aux préférences réelles des utilisateurs. C'est une transposition directe de la méthode qui a rendu ChatGPT lui-même plus utile, appliquée ici au domaine de la communication non verbale humain-robot. Les résultats restent néanmoins issus d'une étude utilisateur contrôlée, pas d'un déploiement à grande échelle.
Pepper est le robot social d'Aldebaran Robotics, société française rachetée par SoftBank en 2012, aujourd'hui commercialisé dans les secteurs retail, accueil et éducation. Après une phase de déception commerciale liée précisément à la rigidité comportementale du robot, plusieurs équipes académiques cherchent à relancer son potentiel via des couches IA génératives. Sur ce terrain, Pepper fait face à une concurrence croissante des agents conversationnels incarnés (avatars AR/VR) et de nouvelles plateformes comme Enchanted Tools (France) avec son robot Miroki, conçu dès l'origine pour une expressivité naturelle. La prochaine étape logique serait un déploiement en contexte réel pour mesurer le gap entre l'évaluation en laboratoire et l'acceptation en environnement ouvert, une question que les auteurs n'adressent pas encore.
Des travaux académiques sur Pepper (Aldebaran, origine française rachetée par SoftBank) appliquant l'RLHF à la gestualité co-verbale ouvrent une voie concrète pour réhabiliter cette plateforme en production, dans un contexte où Enchanted Tools (France) cherche à s'imposer sur le segment des robots sociaux expressifs avec Miroki.
Dans nos dossiers




