Le Politiche di Persona Migliorano il Realismo nella Valutazione degli Agenti LLM
I ricercatori introducono le Politiche di Persona (PPol), un livello di controllo per simulatori utente basati su LLM che genera variazioni comportamentali realistiche. Gli attuali simulatori sono cooperativi e omogenei, causando il fallimento degli agenti con utenti reali. PPol utilizza la ricerca evolutiva di programmi guidata da LLM per creare diverse persone senza doverle progettare manualmente, migliorando la robustezza della valutazione.
Fatti principali
- Gli agenti LLM interagiscono con utenti diversi, inclusi individui poco chiari, impazienti o riluttanti.
- La raccolta di dati di interazione reali è costosa.
- Gli attuali simulatori LLM sono cooperativi e omogenei.
- Gli agenti forti nella simulazione spesso falliscono con utenti reali.
- Le Politiche di Persona (PPol) sono un livello di controllo plug-and-play.
- PPol induce variazioni comportamentali realistiche preservando gli obiettivi del compito.
- La generazione delle persone utilizza la ricerca evolutiva di programmi guidata da LLM.
- L'approccio ottimizza un generatore Python per scoprire comportamenti.
Entità
Istituzioni
- arXiv