Simulatore Cognitivo dell'Utente Migliora il Dialogo Proattivo Orientato ai Compiti
Un nuovo articolo su arXiv (2605.22240) introduce il Simulatore Cognitivo dell'Utente, un framework che modella gli utenti come personaggi stratificati con tratti osservabili e preoccupazioni nascoste per migliorare il dialogo proattivo orientato ai compiti (TOD). Gli autori sostengono che i LLM post-addestrati sono intrinsecamente conservativi e che i metodi RL di modellazione delle ricompense come GRPO falliscono perché ri-pesano solo campioni di policy passivi. Condizionando sulle preoccupazioni latenti dell'utente, il simulatore consente una capacità proattiva che il solo campionamento non può ottenere. Il simulatore genera interazioni fedeli e diversificate ed emette dinamiche di stato per turno che tracciano i progressi della persuasione. L'articolo propone anche l'Apprendimento di Policy a Vista Asimmetrica Indotto dal Simulatore per sfruttare questo segnale. Il lavoro si rivolge ad applicazioni come le vendite in uscita, dove gli agenti devono guidare le conversazioni verso l'accettazione entro un numero limitato di turni.
Fatti principali
- L'articolo arXiv 2605.22240 propone il Simulatore Cognitivo dell'Utente per il TOD proattivo
- I LLM post-addestrati sono intrinsecamente conservativi nei compiti proattivi
- GRPO ha difficoltà perché ri-pesa campioni di policy passivi
- Le preoccupazioni latenti dell'utente sono segnali cruciali per l'addestramento alla proattività
- Il simulatore modella gli utenti come personaggi stratificati con tratti esterni e preoccupazioni interne
- Il simulatore produce interazioni fedeli e diversificate con dinamiche di stato per turno
- Viene introdotto l'Apprendimento di Policy a Vista Asimmetrica Indotto dal Simulatore
- L'applicazione target sono le vendite in uscita con accettazione a turni limitati
Entità
Istituzioni
- arXiv