Dossier Manipulation robotique

139 articles

La manipulation robotique : pinces dextres, peau électronique, grasping, benchmarks de tâches fines, le goulot d'étranglement principal des humanoïdes.

Figure 1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Tous les dossiers →

1arXiv cs.RO RechercheOpinion

Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques

Une équipe de chercheurs a publié sur arXiv (2507.00990) un système baptisé RIGVid (Robots Imitating Generated Videos) permettant à un robot de réaliser des tâches de manipulation complexe, comme verser un liquide, essuyer une surface ou mélanger des ingrédients, en imitant uniquement des vidéos générées par IA, sans aucune démonstration physique ni données d'entraînement spécifiques au robot. Le pipeline fonctionne en trois étapes : à partir d'une commande en langage naturel et d'une image de la scène initiale, un modèle de diffusion vidéo génère des vidéos de démonstration candidates, un VLM (vision-language model) filtre automatiquement celles qui ne correspondent pas à la commande, puis un tracker de pose 6D extrait les trajectoires d'objets. Ces trajectoires sont ensuite retargetées vers le robot de manière agnostique à l'embodiment, c'est-à-dire sans nécessiter de recalibration spécifique à la morphologie du bras utilisé. L'impact est notable pour les intégrateurs et les équipes de recherche en manipulation robotique : supprimer la collecte de démonstrations physiques, étape longue et coûteuse dans les pipelines d'imitation learning, est un verrou industriel majeur. Les évaluations en conditions réelles montrent que les vidéos générées et filtrées atteignent une efficacité équivalente aux démonstrations humaines réelles, et que la performance progresse avec la qualité du modèle génératif utilisé. Le système surpasse également des alternatives plus compactes comme la prédiction de keypoints via VLM, et le tracking 6D de pose s'avère supérieur au tracking dense de points de features. Ces résultats valident expérimentalement l'hypothèse que les générateurs vidéo state-of-the-art constituent une source de supervision viable pour la manipulation robotique, au moins sur des tâches de difficulté modérée. Ce travail s'inscrit dans un champ de recherche en effervescence autour du "learning from video" sans interaction physique, en concurrence directe avec des approches comme les VLA (vision-language-action) de Physical Intelligence (pi-0), les politiques de diffusion type Diffusion Policy, ou encore l'usage de données synthétiques issues de simulateurs. L'approche RIGVid se distingue par son absence totale de données robot et son pipeline entièrement basé sur des modèles généralistes off-the-shelf. À noter que ce papier est une prépublication arXiv (v3, donc ayant déjà subi plusieurs révisions), sans validation par peer-review complet à ce stade, et que les tâches évaluées restent relativement contraintes en termes de variabilité de scène et de généralisation out-of-distribution.

Dossier Manipulation robotique

Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations

RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

Quoi ignorer, quoi traiter : affinage par renforcement des modèles VLA robustes aux distracteurs visuels

Modèle du monde multimodal pour interactions physiques : prédictions visuelles et tactiles simultanées pour une précision accrue

FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA

Pince robotique inspirée de la pieuvre : souple pour agripper, rigide pour soulever

Festo présente une pince robotique à base d'IA pour la manipulation de produits variés

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Suivi de main par vision pour la manipulation robotique via cinématique inverse

De la réaction à l'anticipation : un graphe de tâches à base d'agents pour la reprise proactive en manipulation robotique

Des futurs imaginés aux actions exécutables : mélange d'actions latentes pour la manipulation robotique

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

Intégration de contraintes environnementales dans la préhension de matériaux flexibles type papier avec une pince souple

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

SeedPolicy : passage à l'échelle par politique de diffusion auto-évolutive pour la manipulation robotique

Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Genesis AI introduit GENE-26.5, un modèle pour une manipulation robotique plus dextérique

Genesis AI présente GENE-26.5, un modèle pour une manipulation robotique plus dextérique

RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique

Commutation de raideur par multistabilité

Un jumeau numérique haute-fidélité pour la manipulation robotique basé sur le splattage gaussien 3D

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

ShapeGrasp : complétion de forme et préhension visuo-haptiques simultanées pour une manipulation robotique améliorée

CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche

Robo3R : amélioration de la manipulation robotique par reconstruction 3D précise en avance de phase

Raisonner en texte et en images : traces de raisonnement vision-langage entrelacées pour la manipulation robotique à long horizon

Lucid-XR : un moteur de données en réalité étendue pour la manipulation robotique

E²DT : Decision Transformer efficace avec échantillonnage guidé par l'expérience pour la manipulation robotique

VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable

Système de localisation de contact et de mesure de force par vision pour pinces robotiques compliantes

CLAMP : préentraînement par apprentissage contrastif multi-vues 3D pour la manipulation robotique conditionnée par l'action

FlexiTac : une solution tactile open source, économique et modulaire pour les systèmes robotiques

STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique

Enchevêtrement stochastique de tentacules origami déterministes pour la préhension robotique universelle

Pince fluidique bistable sans source pour préhension sélective par taille et rigidité adaptative

QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés

Modèle VLA GazeVLA : apprendre l'intention humaine pour la manipulation robotique

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

VistaBot : manipulation robotique robuste aux points de vue grâce à la synthèse de vues spatio-temporelles