LEMON: Apprendimento per Rinforzo Controfattuale per l'Orchestrazione Multi-Agente

ai-technology · 2026-05-16

LEMON (Learning Executable Multi-agent Orchestration via Counterfactual Reinforcement Learning) è un nuovo orchestratore basato su LLM che genera specifiche di orchestrazione eseguibili per sistemi multi-agente. Integra ruoli specifici per attività, compiti personalizzati, livelli di capacità e strutture di dipendenza in un unico sistema distribuibile. A differenza degli approcci esistenti che ottimizzano queste decisioni parzialmente o sequenzialmente, LEMON utilizza l'apprendimento per rinforzo controfattuale per fornire una migliore assegnazione del credito per le decisioni di orchestrazione locali. Il sistema affronta la sfida che i sistemi multi-agente basati su LLM dipendono fortemente dalla progettazione dell'orchestrazione, inclusa la progettazione dei ruoli, l'assegnazione delle capacità e la costruzione delle dipendenze, che influenzano congiuntamente la qualità della soluzione e l'efficienza dell'esecuzione. L'approccio è dettagliato in un articolo su arXiv (2605.14483).

Fatti principali

LEMON sta per Learning Executable Multi-agent Orchestration via Counterfactual Reinforcement Learning
È un orchestratore basato su LLM per sistemi multi-agente
Genera specifiche di orchestrazione eseguibili
Integra ruoli, compiti, livelli di capacità e strutture di dipendenza
Utilizza l'apprendimento per rinforzo controfattuale per l'assegnazione del credito
Affronta le limitazioni degli approcci esistenti di ottimizzazione parziale o sequenziale
Articolo pubblicato su arXiv con ID 2605.14483
Tipo di annuncio: nuovo

LEMON: Apprendimento per Rinforzo Controfattuale per l'Orchestrazione Multi-Agente

Fatti principali

Entità

Istituzioni

Fonti