HiMAC: Quadro Gerarchico per la Pianificazione a Lungo Termine di Agenti LLM
Un nuovo quadro di apprendimento per rinforzo agentico gerarchico chiamato HiMAC (Hierarchical Macro-Micro Learning) è stato proposto per affrontare le limitazioni nel processo decisionale a lungo termine per agenti basati su modelli linguistici di grandi dimensioni (LLM). Le attuali politiche autoregressive piatte, che generano ragionamenti di alto livello e azioni di basso livello in un'unica sequenza di token, soffrono di esplorazione inefficiente e grave propagazione degli errori su traiettorie estese. HiMAC scompone esplicitamente il processo decisionale in pianificazione a livello macro ed esecuzione a livello micro, modellando il ragionamento come generazione strutturata di progetti seguita dall'esecuzione di azioni condizionate dagli obiettivi. Il quadro introduce un paradigma di ottimizzazione delle politiche gerarchiche senza critica per addestrare efficientemente questa gerarchia. Il lavoro è dettagliato in un articolo su arXiv (ID: 2603.00977), pubblicato il 26 marzo 2025, con il tipo di annuncio che indica una versione sostitutiva. Questo approccio mira a consentire una robusta pianificazione a lungo termine all'interno di agenti basati su LLM, migliorando potenzialmente le prestazioni in compiti interattivi che richiedono pianificazione strutturata ed esecuzione affidabile.
Fatti principali
- HiMAC sta per Hierarchical Macro-Micro Learning.
- È progettato per agenti LLM a lungo termine.
- Il quadro scompone il processo decisionale in pianificazione a livello macro ed esecuzione a livello micro.
- Utilizza un paradigma di ottimizzazione delle politiche gerarchiche senza critica.
- Le attuali politiche autoregressive piatte causano esplorazione inefficiente e propagazione degli errori.
- L'articolo è disponibile su arXiv con ID 2603.00977.
- Il tipo di annuncio è 'replace', che indica una versione rivista.
- Il lavoro è stato pubblicato il 26 marzo 2025.
Entità
Istituzioni
- arXiv