OLIVIA: Apprendimento Online per il Processo Decisionale degli Agenti LLM
Il nuovo framework OLIVIA (Online Learning via Inference-time Action Adaptation) affronta la sfida degli errori di selezione delle azioni negli agenti basati su grandi modelli linguistici (LLM) che utilizzano l'approccio ReAct. In ambienti in cui gli agenti eseguono ripetutamente compiti multi-step, piccoli errori possono portare a un uso non necessario di strumenti, aumento della latenza e ridotta affidabilità. Le attuali tecniche di adattamento al momento dell'inferenza si basano su prompting o recupero, che influenzano indirettamente il comportamento alterando il contesto e mancano di un chiaro livello decisionale per valutare i candidati, riflettere l'incertezza o adattarsi in base al feedback a livello di azione. OLIVIA concettualizza la scelta finale dell'azione dell'LLM come un livello decisionale addestrabile, facilitando aggiustamenti precisi, tracciabili e consapevoli dell'incertezza durante il deployment. Questo framework è specificamente progettato per agenti ReAct e mira a migliorare l'efficienza e l'affidabilità senza dover riaddestrare l'LLM sottostante. La ricerca è accessibile su arXiv con l'identificatore 2605.11169.
Fatti principali
- 1. OLIVIA sta per Online Learning via Inference-time Action Adaptation.
- 2. Il framework è mirato ad agenti LLM di tipo ReAct che gestiscono compiti decisionali sequenziali.
- 3. Piccoli errori di selezione delle azioni possono accumularsi in chiamate a strumenti sprecate, latenza e ridotta affidabilità.
- 4. I metodi esistenti di adattamento all'inferenza si basano su prompting o recupero, non su livelli decisionali espliciti.
- 5. OLIVIA modella la selezione finale dell'azione dell'LLM come un livello decisionale apprendibile.
- 6. Consente aggiornamenti online dal feedback a livello di azione durante il deployment.
- 7. L'articolo è pubblicato su arXiv con identificatore 2605.11169.
- 8. OLIVIA non richiede il riaddestramento dell'LLM sottostante.
Entità
Istituzioni
- arXiv