Framework del Processo Decisionale Centrato sullo Stato per Ambienti Linguistici
Il nuovo Processo Decisionale Centrato sullo Stato (SDP) affronta l'assenza di struttura runtime in ambienti linguistici come browser web e terminali di codice. A differenza dell'analisi MDP tradizionale, questi ambienti producono testo grezzo senza spazi degli stati definiti, mappature dalle osservazioni agli stati, transizioni verificate o criteri di terminazione. SDP colma queste lacune consentendo all'agente di costruirli predicato per predicato durante le sue azioni. In ogni fase, l'agente seleziona un predicato in linguaggio naturale che rappresenta lo stato del mondo desiderato, esegue un'azione per raggiungerlo e verifica l'osservazione rispetto al predicato. I predicati riusciti vengono riconosciuti come stati certificati, portando a una traiettoria che comprende tutti e quattro i componenti mancanti: uno spazio degli stati indotto dal compito, mappatura osservazione-stato, transizioni certificate e un criterio di terminazione. Questo framework è stato testato su cinque benchmark, come descritto nell'articolo arXiv:2605.12755.
Fatti principali
- 1. SDP è un framework runtime per ambienti linguistici.
- 2. Gli ambienti linguistici mancano di spazio degli stati esplicito, mappatura osservazione-stato, transizioni certificate e criterio di terminazione.
- 3. SDP costruisce questi input mancanti facendo sì che l'agente li costruisca predicato per predicato.
- 4. L'agente si impegna in un predicato in linguaggio naturale, esegue un'azione e verifica l'osservazione rispetto ad esso.
- 5. I predicati che superano diventano stati certificati.
- 6. La traiettoria risultante fornisce tutti e quattro gli oggetti mancanti.
- 7. Valutato su cinque benchmark.
- 8. Articolo disponibile su arXiv con ID 2605.12755.
Entità
Istituzioni
- arXiv