Aller au contenu principal
Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude
RecherchearXiv cs.RO1sem

Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 9 juin 2026 sur arXiv (2606.08458) GLOBE, un framework léger pour l'assistance robotique proactive en environnement domestique. Le principe : combiner des modèles de Markov n-grammes, qui capturent les patterns comportementaux temporels d'un utilisateur, avec un raisonnement par grand modèle de langage (LLM) déclenché uniquement lorsque la confiance du modèle prédictif passe sous un seuil. Ce mécanisme d'invocation sélective réduit la charge computationnelle par rapport aux architectures spatio-temporelles classiques. L'équipe introduit également HOMER-Noise, une extension bruitée du dataset HOMER+, qui simule des perturbations structurées réalistes : déplacements d'objets causés par des humains, des animaux domestiques ou des jeunes enfants. Le framework est validé en preuve de concept sur un manipulateur mobile Stretch 3 de Hello Robot, dans des scénarios d'interaction humain-robot à domicile.

L'intérêt principal de GLOBE réside dans son positionnement hybride : plutôt que de faire tourner un LLM en continu sur chaque prédiction d'activité, le système n'y fait appel que sur les cas ambigus, ce qui le rend potentiellement déployable sur du matériel embarqué à ressources limitées. Les résultats annoncés montrent des performances compétitives face aux méthodes état de l'art, y compris en conditions bruitées, là où les approches purement neuronales se dégradent. Cette robustesse aux perturbations environnementales non contrôlées est un verrou connu pour le déploiement domestique réel. Il faut toutefois noter qu'il s'agit d'un preprint arXiv sans peer review, et que la validation sur Stretch 3 reste au stade de démonstration de concept, pas d'un déploiement opérationnel.

GLOBE s'inscrit dans un courant de recherche qui cherche à réconcilier les LLMs, puissants mais coûteux, avec les contraintes temps réel de la robotique embarquée. Des approches similaires existent chez des équipes travaillant sur les VLAs (Vision-Language-Action models), comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais celles-ci ciblent surtout la manipulation industrielle plutôt que l'assistance cognitive à domicile. Le dataset HOMER-Noise comble un manque réel dans l'évaluation de la robustesse des systèmes d'anticipation d'activités. Les prochaines étapes logiques seraient une évaluation sur des déploiements multi-utilisateurs prolongés et une comparaison directe avec des baselines LLM-only pour quantifier précisément le gain computationnel revendiqué.

À lire aussi

Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention
1arXiv cs.RO 

Réorganisation personnalisée d'objets : assistance LLM guidée par l'incertitude avec capacité d'abstention

Des chercheurs publient APOLLO, un cadre hybride pour le rangement personnalisé d'objets ménagers par robot, soumis le 17 juin 2026 sur arXiv. Le système couple un modèle d'embedding personnalisé (PEM), léger, entièrement sur CPU, entraîné par paire utilisateur-environnement à partir d'une poignée de démonstrations, à un LLM activé sélectivement uniquement quand le PEM signale une incertitude élevée. APOLLO introduit l'abstention comme comportement de premier ordre : le robot peut décider de ne pas déplacer un objet faute d'information suffisante, une capacité absente de la plupart des approches actuelles. Pour évaluer ce comportement, les auteurs publient également APOR, un dataset synthétique généré par LLM couvrant des environnements multi-meubles, des profils organisationnels variés, des cas d'abstention explicites et des scènes partiellement bruitées. Sur les benchmarks PARSEC et APOR, APOLLO améliore les performances par rapport aux baselines LLM pures tout en réduisant substantiellement le nombre d'appels au modèle. Le code est disponible sur GitHub (PaInt-Lab/APOLLO). Les résultats restent à ce stade préliminaires, les auteurs eux-mêmes parlant de "preuves initiales" en environnement simulé, sans validation sur hardware réel. Ce résultat pointe un angle mort systématique : les méthodes existantes supposent des observations propres et une actionabilité complète, deux hypothèses rarement vérifiées dans un vrai foyer encombré. L'architecture hybride répond aussi à des contraintes de déploiement concret : le PEM sur CPU préserve la vie privée et réduit la latence, le LLM étant réservé aux décisions vraiment ambiguës. C'est une direction pragmatique pour des assistants domestiques embarqués sur du matériel non-spécialisé, où le recours systématique au cloud n'est ni acceptable ni viable à l'échelle. APOLLO s'inscrit dans un effort plus large pour rendre les politiques VLA (Vision-Language-Action) robustes à l'incertitude et aux données partielles, un problème central du déploiement hors environnements contrôlés. Les travaux concurrents de Physical Intelligence (π0), des équipes RT-2 ou OpenVLA s'attaquent à la généralisation en scènes non structurées, mais l'abstention explicite reste rare dans la littérature. Aucun acteur français ou européen n'est directement impliqué dans cette publication. Les prochaines étapes naturelles incluent une validation sur hardware réel et une évaluation avec de vrais utilisateurs sur la pertinence des décisions de non-action.

RecherchePaper
1 source
ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique
2arXiv cs.RO 

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion
1 source
Robots d'assistance personnalisés par LLM : apprentissage des préférences en langage naturel pour personnes paralysées
3arXiv cs.RO 

Robots d'assistance personnalisés par LLM : apprentissage des préférences en langage naturel pour personnes paralysées

Une équipe de chercheurs a publié sur arXiv (réf. 2604.01463) un cadre d'apprentissage des préférences conçu pour personnaliser les robots d'assistance physique à partir de retours en langage naturel, sans imposer de charge cognitive aux utilisateurs atteints de paralysie. Le système, entièrement hors ligne, traduit des commentaires vocaux non structurés en politiques de contrôle robotique déterministes. La validation a été menée avec 10 adultes tétraplégiques dans une étude simulée de préparation de repas. Le pipeline s'appuie sur des grands modèles de langage (LLM) ancrés dans l'Occupational Therapy Practice Framework (OTPF), référentiel clinique standard de l'ergothérapie américaine, pour déchiffrer les réactions subjectives des utilisateurs en besoins physiques et psychologiques explicites, puis les convertir en arbres de décision lisibles. Une étape de vérification automatisée, dite "LLM-as-a-Judge", contrôle la sûreté structurelle du code généré avant tout déploiement. L'enjeu est direct pour les intégrateurs de robotique d'assistance : les méthodes classiques d'apprentissage des préférences, notamment les comparaisons par paires exhaustives issues du paradigme RLHF, sont pratiquement inapplicables à des utilisateurs présentant des déficiences motrices sévères, tant la fatigue physique et cognitive est élevée. Ce travail propose une alternative qui réduit significativement la charge utilisateur selon les mesures rapportées, et dont les politiques générées ont été jugées sûres et fidèles aux préférences des patients par des ergothérapeutes certifiés. L'ancrage dans un cadre clinique structuré, plutôt qu'une simple inférence LLM libre, est le point différenciant : il impose une traçabilité entre le discours du patient et les paramètres de contrôle robot. Les arbres de décision produits restent interprétables, ce qui facilite la validation réglementaire. Le cadre s'inscrit dans une littérature croissante sur la personnalisation des robots d'assistance, domaine où Physical Intelligence (pi.ai) ou des acteurs académiques comme Stanford et Carnegie Mellon explorent les politiques VLA généralisables. Ici, l'approche est délibérément ciblée et offline, ce qui la distingue des pipelines end-to-end en ligne. La taille de l'étude reste limitée (10 participants, environnement simulé), et aucune timeline de déploiement clinique réel n'est annoncée, ce qui maintient ce travail au stade de la preuve de concept prometteuse plutôt que d'un produit shipped. La prochaine étape naturelle serait une validation en environnement réel avec un robot physique instrumenté.

RecherchePaper
1 source
Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique
4arXiv cs.RO 

Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.00117) une méthode d'explication de la navigation robotique fondée sur le raisonnement ontologique et la théorie des affordances. L'approche construit, en temps réel, une ontologie locale représentant les entités proches du robot avec leurs affordances (ce qu'elles permettent de faire), leurs états possibles, et leurs relations spatiales qualitatives. Face à un obstacle, le système ne se contente pas de détecter le blocage : il évalue des hypothèses de changement d'état -- une porte peut-elle être ouverte, une chaise déplacée -- afin de générer des explications actionnables sur la manière de poursuivre la navigation. L'approche est validée sur un benchmark centré sur un scénario de robot bibliothécaire, avec des cas de navigation générés de manière procédurale. Les résultats montrent que le raisonnement ontologique identifie les facteurs d'explication pertinents avec une précision supérieure à une approche purement sémantique (semantic-only baseline), et reste robuste lorsque la densité d'objets non pertinents augmente -- ce qu'on appelle le semantic clutter, l'un des talons d'Achille des systèmes de navigation en environnement humain réel. Pour un intégrateur déployant des robots dans des espaces partagés (entrepôts mixtes, hôpitaux, bureaux), la capacité à expliquer les décisions de navigation répond à une exigence opérationnelle et réglementaire croissante, notamment sous l'AI Act européen. L'explication n'est pas ici cosmétique : elle est structurellement liée au raisonnement, ce qui la rend vérifiable et auditable par un opérateur humain. L'approche s'inscrit dans le courant de l'IA explicable (XAI) appliquée à la robotique. La théorie des affordances, conceptualisée par le psychologue James Gibson dans les années 1970, connaît un regain d'intérêt depuis l'émergence des vision-language models (VLMs) et des LLMs. Les approches concurrentes incluent les scene graphs sémantiques utilisés par Boston Dynamics et Sanctuary AI, ainsi que les planificateurs fondés sur LLM comme SayCan (Google DeepMind). Par rapport à ces méthodes, l'ontologie locale proposée ici est plus légère et plus explicite formellement, mais reste évaluée sur un benchmark synthétique limité -- le passage à des environnements réels non contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : ce travail est une contribution académique de fond, pas un produit en voie de commercialisation.

UEL'approche répond structurellement aux exigences de l'AI Act pour les systèmes autonomes navigant en environnement humain, en fournissant des explications auditables sur les décisions de navigation, pertinent pour les intégrateurs européens déployant des robots en espaces partagés.

RecherchePaper
1 source