Aller au contenu principal
SoK : Sécurité et vie privée des robots à base de modèles fondation
RecherchearXiv cs.RO2j

SoK : Sécurité et vie privée des robots à base de modèles fondation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2606.16788) un article de type "Systematization of Knowledge" (SoK) qui dresse un panorama structuré des risques de sécurité et de confidentialité introduits par les modèles de fondation dans les systèmes robotiques. Le travail systématise 96 études antérieures et propose un cadre d'analyse à quatre couches baptisé F-E-S-G : la couche Modèle de fondation (F), la couche Système incarné (Embodied system, E), la couche Écosystème de support (S), et la couche Impact de gouvernance (G). À chaque couche correspond une taxonomie fine qui encode, pour chaque étude analysée, la cible visée, le stade du cycle de vie, le mécanisme d'attaque ou de défense, le niveau d'accès système requis, et les effets observés.

L'intérêt de ce travail réside moins dans les vulnérabilités individuelles qu'il recense que dans les "defense mismatches" qu'il met en évidence : les mécanismes de robustesse conçus pour les modèles de langage ou de vision en contexte purement numérique ne s'appliquent pas directement à des pipelines d'exécution incarnés. Quand un robot piloté par un modèle VLA (Vision-Language-Action) interprète une instruction en langage naturel pour saisir un objet, une attaque adversariale ou une injection de prompt ne produit plus une réponse textuelle erronée mais un mouvement physique potentiellement dangereux. Pour un intégrateur industriel ou un COO déployant des flottes humanoïdes, cette propagation du risque à travers les quatre couches constitue un angle mort opérationnel que les grilles d'évaluation actuelles ne capturent pas.

Le genre "SoK" est une convention bien établie dans la communauté sécurité, notamment via la conférence IEEE S&P, et signale une tentative de structurer un champ de recherche fragmenté. Cette publication arrive à un moment de transition dans la robotique commerciale : après des années de démos contrôlées, plusieurs acteurs (Figure, Apptronik, Unitree côté américain, Wandercraft et Enchanted Tools côté européen) engagent des déploiements en environnement réel avec des VLAs comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'absence de cadre normatif unifié, que ni l'EU AI Act ni les standards ISO robotiques actuels ne couvrent explicitement, donne à cette méta-analyse une pertinence directe pour les équipes réglementaires et les organismes de certification appelés à évaluer ces systèmes hybrides IA-robotique.

Impact France/UE

L'EU AI Act et les normes ISO robotiques actuelles ne couvrent pas explicitement les systèmes hybrides IA-robotique : ce SoK fournit aux équipes réglementaires européennes et aux acteurs français (Wandercraft, Enchanted Tools) déployant des VLAs un cadre d'analyse des risques directement utilisable pour anticiper les futures exigences de certification.

À lire aussi

Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées
1arXiv cs.RO 

Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.10208) une analyse de synthèse portant sur l'intégration des modèles de fondation dans les robots de soin aux personnes âgées et aux patients. L'article, classé comme Perspective, passe en revue l'état de l'art sur trois axes : les caractéristiques de conception, l'expérience utilisateur mesurée, et les preuves d'impact sur les soins. Le constat central est que les architectures dominantes utilisent les modèles de fondation comme couche de conversation et de raisonnement au sein d'incarnations socioassistives centrées sur la voix, des agents qui parlent et écoutent mais dont l'autonomie physique et la compréhension multimodale restent fortement limitées. Les évaluations empiriques rapportent des bénéfices positifs en termes d'utilisabilité et d'engagement, mais des défaillances de fiabilité persistent : hallucinations, ruptures conversationnelles et pannes dans le pipeline d'interaction. L'enjeu pour les intégrateurs et décideurs du secteur santé est précisément là : les métriques actuellement rapportées portent sur des résultats proximaux comme l'engagement cognitif ou la participation, et non sur des indicateurs cliniques validés. Les robots sociaux conversationnels améliorent peut-être le ressenti ou l'interaction, mais aucun système décrit dans la littérature ne démontre d'impact mesurable sur des outcomes de santé standardisés. Cette lacune est critique pour tout déploiement en EHPAD ou à l'hôpital, où la responsabilité médicale exige traçabilité et supervision humaine explicite. Les auteurs soulignent que les benchmarks génériques importés du NLP ou de la robotique généraliste ne sont pas adaptés aux contraintes des environnements de soin. Le contexte est celui d'une accélération massive des modèles de fondation en robotique, de PaLM-E à Pi-0 de Physical Intelligence en passant par GR00T N2 de NVIDIA, qui creuse un écart croissant entre capacités techniques et readiness clinique. Du côté des plateformes établies, Pepper (SoftBank) et PARO (AIST, Japon) restent les références les plus documentées en milieu de soin. Des acteurs européens comme Enchanted Tools avec Mirokaï, ou des projets portés par l'Inria, s'inscrivent dans cette dynamique. Les auteurs appellent à une transition vers des standards d'évaluation spécifiques aux soins, une autonomie avec supervision humaine intégrée dès la conception, et une intégration réelle dans les flux de travail cliniques, trois conditions encore largement non remplies par les systèmes actuels.

UEEnchanted Tools (Mirokaï) et l'Inria sont explicitement cités comme acteurs européens engagés dans la robotique de soin, et les lacunes identifiées (absence de standards d'évaluation cliniques, supervision humaine insuffisante) concernent directement les déploiements en EHPAD et hôpitaux français soumis à la réglementation médicale.

RecherchePaper
1 source
ROBOSHACKLES : un jeu de données de sécurité pour la prévention des blessures humaines dans les modèles fondation incarnés
2arXiv cs.RO 

ROBOSHACKLES : un jeu de données de sécurité pour la prévention des blessures humaines dans les modèles fondation incarnés

Une équipe de chercheurs publie ROBOSHACKLES, un jeu de données de 10 000 clips vidéo robotiques conçu pour évaluer la sécurité des modèles de fondation embarqués (EFMs, Embodied Foundation Models) face aux risques de blessures humaines. Disponible sur HuggingFace, le dataset est construit à partir d'observations réelles du corpus DROID, un jeu de téléopération robotique existant. Le pipeline suit quatre étapes : compréhension de scène, édition d'image orientée dangers, génération de prompts temporels décrivant l'évolution attendue, puis synthèse en un seul passage via le modèle vidéo Wan2.7. Les clips couvrent six catégories de risques : deux de dommages directs (contact physique avec un humain) et quatre de dommages indirects (situations domestiques dangereuses créées par le robot). L'évaluation de six EFMs représentatifs selon un critère de refus d'action donne un résultat sans équivoque : 100% de taux de génération d'actions dangereuses dans tous les scénarios testés. Ce chiffre interpelle directement les intégrateurs et décideurs industriels envisageant le déploiement de robots à base d'EFMs en environnements mixtes. Il expose un angle mort structurel : contrairement aux LLMs textuels, les EFMs ne disposent pas encore de mécanismes d'alignement de sécurité pour anticiper les séquences d'actions dangereuses avant leur exécution physique. La difficulté est méthodologique : collecter des données réelles de robots blessant des humains est éthiquement et légalement impossible, ce qui explique l'absence de benchmarks dans ce domaine jusqu'ici. ROBOSHACKLES propose une voie scalable via la synthèse vidéo, pour entraîner des modèles à refuser des actions à risque et à anticiper les dangers en amont de l'exécution. Les EFMs sont au cœur d'une compétition intense entre les principaux acteurs : Physical Intelligence avec π0, Google DeepMind avec RT-2, NVIDIA avec GR00T N2, et plusieurs implémentations open-source comme OpenVLA. Ces modèles combinent compréhension multimodale, raisonnement sur les états futurs et génération d'actions directement exécutables sur le robot, un paradigme qui accélère la commercialisation mais expose à des risques que le RLHF classique ne couvre pas. ROBOSHACKLES s'inscrit dans un effort émergent de safety spécifique à la robotique physique, avec pour suites logiques son intégration dans des pipelines de refusal learning et son extension à des scénarios industriels à plus haute énergie cinétique.

UELe résultat (100% de taux de génération d'actions dangereuses) soulève un enjeu de certification directement pertinent pour les déploiements industriels européens soumis aux exigences de sécurité de l'AI Act, notamment pour les systèmes robotiques opérant en environnements mixtes humain-robot.

RechercheOpinion
1 source
RepSAM : adapter les modèles fondation à la vision robotique par guidage de représentation
3arXiv cs.RO 

RepSAM : adapter les modèles fondation à la vision robotique par guidage de représentation

Des chercheurs ont publié le 26 mai 2026 sur arXiv (2605.25495) RepSAM, un cadre d'adaptation à l'efficacité paramétrique (PEFT) conçu pour transférer les capacités de SAM (Segment Anything Model) vers la perception robotique en environnements non structurés. Le diagnostic de départ est précis : les couches superficielles du transformeur subissent un écart de représentation important entre données génériques et données robotiques (CKA inférieur à 0,7), tandis que les couches profondes restent stables (CKA supérieur à 0,7). RepSAM exploite cette asymétrie via une allocation de rang guidée par la CKA (Centered Kernel Alignment) pour concentrer les paramètres entraînables là où le décalage est effectivement significatif. Le résultat : 89,0 % de mIoU contre 90,9 % pour le fine-tuning complet, soit 97,9 % des performances, avec seulement 4,0 millions de paramètres entraînables sur 632 millions totaux, une réduction de 158 fois. L'entraînement tient en 4 heures sur un seul GPU A100, contre 384 heures-GPU pour le fine-tuning intégral, et surpasse DoRA de 7,9 points de mIoU sur six benchmarks. En manipulation robotique, le gain atteint 12 points absolus de taux de succès par rapport à la baseline LoRA RGB, avec une significativité statistique p inférieur à 0,01. L'enjeu industriel est direct : le gouffre entre les modèles de vision généralistes et les conditions réelles de la robotique (objets transparents, scènes encombrées, éclairage variable) reste l'un des principaux blocages pour les intégrateurs. RepSAM démontre qu'un adapter bien ciblé, informé par la structure interne du réseau plutôt qu'appliqué uniformément, peut quasiment égaler un fine-tuning complet à une fraction du coût de calcul. Pour un responsable technique déployant des bras manipulateurs ou des systèmes de picking, cela signifie qu'il devient réaliste d'adapter un modèle de fondation sur du matériel standard, sans infrastructure de calcul dédiée ni données massives. SAM, développé par Meta AI et publié en 2023, s'est imposé comme référence pour la segmentation zero-shot, mais ses performances se dégradent hors distribution, notamment en robotique industrielle. Les méthodes PEFT comme LoRA et DoRA avaient déjà tenté ce pont, avec des gains limités faute d'adaptation différenciée par couche. RepSAM s'inscrit dans la continuité de travaux sur l'analyse de représentation pour guider le fine-tuning (CKA comme outil de diagnostic, popularisé depuis 2019). La prochaine étape logique est la validation sur des robots réels en conditions industrielles ; l'article se limite pour l'instant à des benchmarks simulés et des tâches de manipulation contrôlées, ce qui laisse ouvert le sim-to-real gap à grande échelle.

UELes intégrateurs européens de bras manipulateurs et systèmes de picking pourraient adapter des modèles de vision fondation sur du matériel GPU standard, réduisant la barrière à l'IA perceptive sans infrastructure de calcul dédiée.

RechercheOpinion
1 source
Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives
4arXiv cs.RO 

Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives

Une revue systématique publiée sur arXiv (2604.15395) recense l'état de l'art des modèles de fondation appliqués à la robotique, couvrant l'ensemble du spectre allant des grands modèles de langage (LLM) aux architectures vision-langage-action (VLA). Les auteurs structurent leur analyse en cinq phases historiques distinctes, depuis les premières intégrations de modèles NLP et vision par ordinateur jusqu'aux déploiements multi-sensoriels en environnement réel. La taxonomie proposée examine six axes : les types de modèles employés (LLM, VFM, VLM, VLA), les architectures de réseaux de neurones sous-jacentes, les paradigmes d'apprentissage, les stades d'incorporation des connaissances, les tâches robotiques ciblées, et les domaines applicatifs industriels. L'étude recense également les datasets publics utilisés pour l'entraînement et l'évaluation sur ces différentes tâches. L'intérêt de ce travail pour les intégrateurs et les décideurs industriels réside dans sa cartographie des capacités réelles versus annoncées des VLA en déploiement. Le passage d'agents mono-tâche et spécialisés vers des agents adaptatifs multi-fonctions à usage général constitue le fil directeur de l'analyse. Les auteurs traitent explicitement du gap simulation-réalité (sim-to-real), de la généralisation inter-embodiment (cross-embodiment), et de la planification à horizon long, trois verrous techniques qui conditionnent la commercialisation à grande échelle. La revue identifie aussi les défis ouverts et les directions de recherche prometteuses, utiles pour orienter des feuilles de route R&D. Ce survey s'inscrit dans une accélération documentée depuis 2022, portée par des laboratoires comme Google DeepMind (RT-2, π0), Physical Intelligence, Figure AI, et Unitree, qui ont tous misé sur les VLA comme colonne vertébrale de leurs systèmes. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'apparaissent pas dans ce corpus, ce qui reflète un déséquilibre de publication favorable aux équipes nord-américaines et asiatiques. La revue ne constitue pas un benchmark expérimental indépendant mais une synthèse bibliographique, ce qui en fait un point d'entrée solide pour un ingénieur robotique cherchant à situer une technologie ou comparer des approches, sans remplacer une évaluation terrain des solutions commerciales disponibles.

UELe déséquilibre de publication constaté, acteurs FR/EU (Enchanted Tools, Wandercraft) absents du corpus, souligne un déficit de visibilité des équipes européennes dans la recherche VLA, ce qui peut biaiser les benchmarks de référence utilisés par les industriels pour orienter leurs feuilles de route R&D.

RecherchePaper
1 source