Dossier arXiv cs.RO

609 articles

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Figure 1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Tous les dossiers →

1arXiv cs.RO FR/EU ecosystemePaper

L'expression émotionnelle des robots à faibles degrés de liberté : évaluation de la perception avec Reachy Mini

Une étude parue sur arXiv (2605.12786) analyse comment des humains interprètent les expressions émotionnelles du Reachy Mini, robot à faible nombre de degrés de liberté (low-DoF) développé par Pollen Robotics et Hugging Face. Le protocole, mené en ligne avec 100 participants en design intra-sujets, exposait chacun à 10 clips vidéo du robot exprimant différentes émotions ; les participants devaient identifier l'émotion perçue, évaluer sa valence et son éveil (arousal), et noter le robot sur des traits de perception sociale. La reconnaissance exacte s'est révélée globalement modeste : la colère, la tristesse et l'intérêt ont été identifiées de façon fiable, tandis que l'amour, le plaisir, la honte et le dégoût ont été bien moins reconnus. En revanche, les participants ont mieux capté le sens affectif global, sur les axes valence et arousal, que l'étiquette émotionnelle précise. Ces résultats interrogent un postulat courant en robotique sociale : faut-il de nombreux degrés de liberté pour communiquer une émotion crédible ? La réponse est nuancée. Si la finesse expressive reste hors de portée d'un robot low-DoF, le signal affectif général, positif ou négatif, calme ou activé, passe suffisamment pour influencer la perception sociale : les expressions positives ont été perçues comme plus chaleureuses et sociables que les négatives. Pour les intégrateurs de robots de service ou d'assistance, cela suggère qu'un design expressif minimaliste peut produire des effets relationnels mesurables, sans nécessiter une tête animatronique à haute complexité mécanique. Pollen Robotics, startup française basée à Bordeaux, a conçu Reachy Mini comme plateforme ouverte pour la recherche en interaction homme-robot (HRI). Son partenariat avec Hugging Face, acteur français de l'IA open-source, vise à connecter le robot à des modèles de perception et de langage accessibles. Dans le paysage concurrentiel, Reachy Mini se positionne face à NAO et Pepper (SoftBank Robotics) sur le segment recherche/éducation, avec un ancrage open-source plus marqué, et s'écarte des androïdes expressifs à haute fidélité comme ceux de Hanson Robotics. Les auteurs proposent d'établir Reachy Mini comme benchmark standardisé pour la communication affective sur robots contraints, et identifient l'interaction physique directe (versus vidéo seule) comme prochaine étape expérimentale.

UEL'étude positionne Reachy Mini de Pollen Robotics (Bordeaux) et Hugging Face comme références en recherche HRI open-source en Europe, avec une preuve empirique qu'un design expressif minimaliste suffit pour des robots de service à moindre complexité mécanique.

Dossier arXiv cs.RO

L'expression émotionnelle des robots à faibles degrés de liberté : évaluation de la perception avec Reachy Mini

Un stack d'autonomie unifié : vers un schéma directeur pour l'autonomie robotique généralisable

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

QuickLAP : apprentissage rapide des préférences langage-action pour systèmes semi-autonomes

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Quels sont les facteurs limitants de la navigation vision-langage ?

Self-CriTeach : auto-enseignement et auto-critique d'un LLM pour améliorer la planification robotique

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

Quand l'état absolu échoue : évaluation des encodages proprioceptifs pour une manipulation robuste

TinySDP : optimisation semi-définie en temps réel pour une robotique embarquée certifiable et agile

FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA

Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques

Unifier les actions du robot dans le référentiel caméra

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

BlockVLA : accélérer les modèles VLA autorégressifs par affinage avec diffusion par blocs

TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement

SECOND-Grasp : préhension dextérique guidée par le contact sémantique

Quoi ignorer, quoi traiter : affinage par renforcement des modèles VLA robustes aux distracteurs visuels

Collaboration humain-robot : analyse des modalités d'interaction dans les tâches complexes

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

Modèle du monde multimodal pour interactions physiques : prédictions visuelles et tactiles simultanées pour une précision accrue

BiPneu : conception et contrôle d'un système pneumatique à pression bipolaire pour robots souples

Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides

Quand agir, interroger ou apprendre : le pilotage de politique par gestion de l'incertitude

TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

Correspondance de flux équivariante morphologiquement pour la manipulation mobile bimanuelles

Combler l'écart d'exécution : des contraintes sémantiques de mouvement au contrôle cinématique

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée

Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel

MVB-Grasp : filtrage par boîte de volume minimal des saisies par diffusion pour la manipulation frontale

OpenSGA : alignement efficace de graphes de scènes 3D en monde ouvert

Muninn : un modèle de diffusion de trajectoires, désormais plus rapide

Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)

REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?

IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel

Maquette low-cost pour simuler la découpe laser robotique dans le démantèlement nucléaire

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Octopus Protocol : découverte et contrôle du matériel en une passe pour les agents IA via l'infrastructure-en-prompts

Livraison multi-agents avec correspondances multiples

Formulation sur les groupes de Lie pour les algorithmes de dynamique récursive d'ordre supérieur des robots à base flottante

QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés

Démasquer l'illusion du raisonnement incarné dans les modèles vision-langage-action (VLA)