Aller au contenu principal
Décision séquentielle par apprentissage multi-échelle pour la préparation de commandes en robotique de manutention
IndustrielarXiv cs.RO2j

Décision séquentielle par apprentissage multi-échelle pour la préparation de commandes en robotique de manutention

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.08758) un framework de décision séquentielle baptisé OLSF-TRS, pour Omni-scale Learning-based Sequential Decision Framework for Tote-handling Robotic Systems. Ce système combine optimisation combinatoire structurée et apprentissage par renforcement multi-agent (MARL) pour coordonner simultanément les décisions liées aux commandes, aux bacs de manutention (totes) et aux robots dans les centres de préparation automatisés. En configuration petite échelle, OLSF-TRS affiche un écart d'optimalité moyen inférieur à 3,5% sur deux architectures système distinctes. En configuration grande échelle, il réduit les mouvements de bacs de 8 à 12% par rapport aux baselines heuristiques classiques, et de plus de 30% par rapport aux approches règle-based de l'état de l'art, tout en maintenant une réactivité en temps réel.

L'enjeu concret pour les intégrateurs intralogistiques est significatif : la quasi-totalité des frameworks existants sont conçus sur mesure pour un type de système spécifique, tri-sorter, mini-load AS/RS ou AMR grid-based, ce qui rend tout transfert à un autre contexte laborieux. OLSF-TRS propose une couche de pilotage unifiée et scalable, potentiellement applicable à des architectures hétérogènes. La réduction de plus de 30% des mouvements de bacs se traduit directement en gains énergétiques, réduction de l'usure mécanique et meilleure stabilité du throughput, des KPIs centraux pour les COOs industriels. À noter cependant que les résultats reposent sur des simulations et benchmarks comparatifs sans déploiement terrain documenté, ce qui laisse entière la question du sim-to-real gap en production réelle.

Ce travail s'inscrit dans une tendance structurelle de fond : la substitution des palettes par les bacs comme unité logistique primaire, portée par l'explosion du e-commerce et la fragmentation des commandes en petites séries. Des acteurs comme Exotec (France, système Skypod), AutoStore (Norvège) ou Geek+ (Chine) opèrent des déploiements massifs en grid-based robotics confrontés exactement à ces problèmes de coordination ordres-bacs-robots à grande échelle. La convergence entre optimisation combinatoire de type VRP et MARL est un champ de recherche en pleine effervescence, porté par des laboratoires industriels en Europe et en Asie. L'article ne mentionne ni partenariat industriel ni timeline de commercialisation, le positionnant comme une contribution académique précompétitive.

Impact France/UE

Exotec (France, Skypod) et AutoStore (Norvège) opèrent des déploiements massifs confrontés exactement aux problèmes de coordination ordres-bacs-robots adressés par ce framework, en faisant une piste de R&D directement pertinente pour l'intralogistique européenne.

Dans nos dossiers

À lire aussi

Automatisation robotique assistée par apprentissage automatique pour la fabrication industrielle
1arXiv cs.RO 

Automatisation robotique assistée par apprentissage automatique pour la fabrication industrielle

Des chercheurs ont présenté un système hybride baptisé Learning-Augmented Robotic Automation (LARA), déployé sur une ligne de production réelle de moteurs électriques pour automatiser deux tâches jusqu'alors confiées à des opérateurs humains : l'insertion de câbles déformables et la soudure. Le système combine des contrôleurs de tâches appris par imitation et un moniteur de sécurité neuronal 3D, intégré directement dans les workflows industriels existants. Entraîné avec moins de 20 minutes de données réelles par tâche, LARA a fonctionné en continu pendant 5 heures 10 minutes, produisant 108 moteurs sans barrière physique de protection, avec un taux de conformité de 99,4 % aux tests de contrôle qualité au niveau produit. Le takt time atteint est comparable à celui d'un opérateur humain, avec une réduction mesurée de la variabilité des joints de soudure et des temps de cycle. Ce résultat s'attaque directement au fossé entre démonstration laboratoire et déploiement industriel effectif, l'obstacle principal qui freine l'adoption de la robotique apprenante en production. L'entraînement en moins de 20 minutes par tâche abaisse considérablement la barrière à l'intégration pour les industriels et les intégrateurs système. Pour un COO de ligne d'assemblage, le point le plus structurant est l'absence de caging physique : le moniteur neuronal remplace les protections mécaniques classiques, ouvrant la voie à des cellules collaboratives sans les coûts de reconfiguration d'atelier associés aux robots industriels traditionnels. La manipulation de câbles déformables et la soudure figurent parmi les tâches les plus résistantes à la robotisation classique, du fait de la déformation matière et de la non-répétabilité des poses. Sur ce segment, Physical Intelligence (Pi-0.5) et Figure AI (Helix sur Figure 02) poussent des VLA généralistes pour la manipulation multi-tâches, tandis que Wandercraft et Enchanted Tools, tous deux français, ciblent respectivement la mobilité humanoïde et les robots de service. LARA se distingue par son pragmatisme : pas d'humanoïde, pas de modèle fondationnel, mais une hybridation ciblée sur des cellules industrielles existantes. Les auteurs évoquent comme suites naturelles l'extension à d'autres tâches de câblage et la validation sur des lignes multi-produits.

UELa fabrication de moteurs électriques est un segment clé de la transition EV en Europe ; LARA démontre qu'un système appris en moins de 20 minutes peut atteindre le takt time humain sur des tâches résistantes à la robotisation classique, abaissant directement la barrière d'adoption pour les intégrateurs et industriels européens sans reconfiguration lourde d'atelier.

IndustrielActu
1 source
SI-Diff : cadre d'apprentissage pour la recherche et l'insertion haute précision par diffusion dans le domaine des forces
2arXiv cs.RO 

SI-Diff : cadre d'apprentissage pour la recherche et l'insertion haute précision par diffusion dans le domaine des forces

Des chercheurs ont publié en mai 2025 sur arXiv (2605.12247) SI-Diff, un framework d'apprentissage par imitation qui traite dans un seul modèle les deux phases de l'assemblage de précision : la recherche de position (search) et l'insertion proprement dite (high-precision insertion). Le système repose sur une politique de diffusion opérant dans le domaine des forces, couplée à un mécanisme de conditionnement par mode qui permet au réseau de distinguer les deux comportements d'action sans changer de poids ni de modèle. Un policy enseignant (teacher policy) génère en amont des trajectoires diversifiées, dont les démonstrations réussies et efficaces servent à l'entraînement supervisé. À l'inférence, le modèle prend en entrée les retours tactiles et la vitesse de l'effecteur terminal pour produire les commandes motrices. Résultat clé annoncé : SI-Diff tolère des désalignements x-y allant jusqu'à 5 mm, contre 2 mm pour TacDiffusion, le baseline état de l'art, et démontre un transfert zéro-shot sur des géométries non vues à l'entraînement. Ce résultat mérite attention pour les intégrateurs industriels, car le principal frein au déploiement de l'assemblage robotisé de précision n'est pas la vitesse mais la robustesse aux incertitudes de pose, tolérances d'usinage, variabilité du picking, dérive thermique. Passer de 2 à 5 mm de tolérance sans recalibration ni modèle supplémentaire est un écart opérationnellement significatif sur une ligne de production réelle. Le choix du domaine force plutôt que vision pure pour la politique est aussi un signal : là où les VLA visuelles peinent sur les contacts sub-millimétrique, le retour tactile reste le vecteur le plus direct pour les tâches peg-in-hole. La transférabilité zéro-shot, si elle se confirme hors conditions de labo, réduit le coût de reconfiguration lors des changements de référence produit. Le paper se positionne explicitement contre TacDiffusion (2024), qui reste la référence académique sur l'insertion tactile par diffusion. Plus largement, il s'inscrit dans la vague des politiques de diffusion pour la manipulation de contact, popularisées notamment par les travaux de Physical Intelligence (Pi-0) et les frameworks ouverts issus de Columbia et Stanford. Le peg-in-hole est un benchmark historique de la robotique d'assemblage, présent depuis les travaux de Nevins et Whitney dans les années 1970, ce qui rend les comparaisons directes interprétables. Il s'agit pour l'instant d'un résultat de recherche (preprint, pas encore évalué en peer review), sans déploiement industriel annoncé ni partenariat commercial mentionné. Les prochaines étapes naturelles seraient une validation sur cellule d'assemblage réelle multi-référence et une comparaison avec des approches hybrides force-vision.

IndustrielPaper
1 source
SOAR : optimisation conjointe en temps réel pour l'allocation des commandes et l'ordonnancement des robots mobiles
3arXiv cs.RO 

SOAR : optimisation conjointe en temps réel pour l'allocation des commandes et l'ordonnancement des robots mobiles

Des chercheurs, en collaboration avec Geekplus, ont publié SOAR (Simultaneous Order Allocation and Robot Scheduling), un framework d'apprentissage par renforcement profond conçu pour optimiser en temps réel la coordination des robots dans les systèmes de préparation de commandes automatisés (RMFS, Robotic Mobile Fulfillment Systems). Déposé sur arXiv en mai 2026 (arXiv:2605.03842), le système unifie deux sous-problèmes classiquement découplés, l'allocation des commandes et la planification des robots mobiles, en un seul agent décisionnel. Sur des données industrielles réelles fournies par Geekplus, SOAR réduit le makespan global de 7,5 % et le temps moyen de complétion des commandes de 15,4 %, avec une latence de décision inférieure à 100 ms. La viabilité du système a été confirmée par un déploiement en environnement de production via une procédure sim-to-real. Techniquement, le problème est formulé comme un processus de décision de Markov piloté par événements (Event-Driven MDP), où l'agent réagit à des événements asynchrones (fin de tâche, arrivée de commande) grâce à un Heterogeneous Graph Transformer encodant l'état de l'entrepôt, complété par une stratégie de reward shaping pour gérer la rareté du signal de récompense sur les longues séquences. Les RMFS équipent aujourd'hui les grands centres logistiques : des flottes de robots mobiles (AMR) transportent des étagères entières vers des postes de picking humains ou automatisés. Le goulot d'étranglement traditionnel vient du couplage fort entre allocation et ordonnancement : les approches décomposées sacrifient l'optimalité globale pour garantir la réactivité, tandis que les modèles d'optimisation classiques comme les MILP ou CP-SAT sont trop lents pour des environnements à haute cadence. SOAR casse ce compromis en prouvant qu'un agent de deep RL peut raisonner globalement tout en répondant en moins de 100 ms, ce qui constituait un verrou industriel reconnu. Plus significatif encore, la validation sim-to-real en conditions de production distingue ce travail de la majorité des publications académiques qui restent cantonnées à la simulation. Geekplus, fondé en 2015 à Pékin, est l'un des leaders mondiaux des AMR pour la logistique d'entrepôt, avec des déploiements dans plus de 40 pays chez des clients comme Decathlon et JD.com. Sa participation directe à cette recherche signale une intégration croissante entre laboratoires académiques et industriels pour raccourcir le cycle lab-to-production. Sur le marché, Geekplus concurrence Hai Robotics et AutoStore, mais aussi en Europe des acteurs comme Exotec (France), dont le système Skypod adresse des problèmes similaires de coordination multi-robots à grande échelle. SOAR s'inscrit dans un corpus actif de travaux sur le RL multi-agent pour la planification en entrepôt, mais se distingue par son approche unifiée et son ancrage en production confirmé. Le code est disponible en open source sur GitHub, ce qui devrait faciliter son adaptation à d'autres architectures RMFS.

UELe code open-source SOAR, validé en production chez des clients de Geekplus dont Decathlon, constitue une référence technique directe pour Exotec et les intégrateurs AMR européens confrontés aux mêmes problèmes de coordination multi-robots à grande échelle.

IndustrielPaper
1 source
Launchpad Build AI propose un outil d'apprentissage machine pour la conception en automatisation industrielle
4The Robot Report 

Launchpad Build AI propose un outil d'apprentissage machine pour la conception en automatisation industrielle

Launchpad Build AI, entreprise fondée en 2020 à Édimbourg sous le nom de Launchpad, a annoncé le 30 avril 2026 plusieurs jalons simultanés : le lancement de son Manufacturing Language Model (MLM), l'ouverture d'un siège américain à El Segundo en Californie, un rebranding, et la nomination de Ken Moynihan au poste de directeur technique. Moynihan apporte plus de vingt ans d'expérience en vision par ordinateur et robotique, avec des passages notamment chez TOMRA, spécialiste des systèmes de tri pilotés par IA. Le MLM est décrit par la société comme un modèle de langage spécifiquement entraîné sur des données issues d'environnements de production industrielle réels, capable de générer des configurations d'automatisation à partir d'une photo, d'une vidéo ou d'un fichier CAD. La société revendique une réduction du temps de conception et de déploiement de systèmes robotiques allant jusqu'à 50 %, avec une cible affichée de 99,8 % de taux d'efficacité opérationnelle. Ces annonces interviennent dans la continuité d'une levée de série A de 11 millions de dollars, réalisée l'année précédente avec des investisseurs comme Lavrock Ventures, Squadra Ventures, Lockheed Martin Ventures, la Scottish National Investment Bank et Ericsson Ventures. La proposition de valeur du MLM repose sur une approche délibérément spécialisée plutôt que généraliste : au lieu d'agréger des données internet hétérogènes, le modèle s'appuie sur des tolérances testées, des conditions opérationnelles documentées et des données de production en temps réel. Cette orientation est particulièrement pertinente pour les fabricants en haute-variété / faibles volumes (high-mix, low-volume), segment qui représente la majorité des industriels mais qui reste sous-servi par les solutions d'automatisation traditionnelles, conçues pour des lignes à grandes séries. Pour les intégrateurs et les décideurs industriels, l'enjeu est de taille : si le MLM tient ses promesses, il pourrait abaisser significativement la barrière d'entrée à la robotisation pour des PME manufacturières qui n'ont ni les ressources ni le temps pour des projets d'intégration longs et coûteux. Le système Digitool, qui utilise la vision robotique en temps réel pour gérer les variations de pièces et de processus, constitue un composant clé de cette autonomisation. Il reste à évaluer ces performances dans des conditions industrielles non contrôlées, hors démonstrations sélectives. Launchpad Build AI opère dans un espace de plus en plus encombré : des acteurs comme Vention, Symbio Robotics ou Rapid Robotics adressent également l'automatisation flexible pour PME, tandis que des plateformes comme Nvidia Isaac et ROS 2 industriel structurent le bas de la pile logicielle. La présence de Lockheed Martin Ventures au capital signale un intérêt potentiel pour des applications défense et aérospatiale, cohérent avec l'implantation à El Segundo, bassin historique de l'industrie aérospatiale américaine. Aucune date de disponibilité commerciale du MLM n'a été communiquée, ni de clients pilotes nommés publiquement, ce qui maintient ces annonces dans la catégorie des jalons produit plutôt que de déploiements validés à l'échelle.

IndustrielOpinion
1 source