Framework POMDP per la Ricerca Agentica di LLM in Contesti Ampi

ai-technology · 2026-05-11

Un recente preprint su arXiv (2605.07042) affronta le difficoltà incontrate dagli agenti basati su grandi modelli linguistici (LLM) in ambienti in cui lo stato rilevante supera le finestre di contesto. Gli autori introducono il Context Gathering Decision Process (CGDP), un Processo Decisionale di Markov Parzialmente Osservabile (POMDP) su misura. In questa struttura, l'obiettivo dell'agente è migliorare adattivamente il proprio stato di credenza per individuare informazioni essenziali per compiti specifici. Lo studio caratterizza il comportamento degli LLM come un'approssimazione del Thompson Sampling nel CGDP e presenta una tecnica basata su predicati per scomporre la ricerca implicita di un LLM. Questo approccio affronta sfide come sforzi ridondanti e terminazione prematura nelle ricerche agentiche su vasti codebase, database aziendali e registri conversazionali.

Fatti principali

Il preprint arXiv 2605.07042 introduce il Context Gathering Decision Process (CGDP)
Il CGDP è un Processo Decisionale di Markov Parzialmente Osservabile (POMDP) specializzato
Affronta gli agenti LLM in ambienti con stato che supera le finestre di contesto
Modella il comportamento degli LLM come Thompson Sampling approssimato all'interno del CGDP
Introduce un metodo basato su predicati per scomporre la ricerca implicita
Mira a lavoro ridondante e arresto prematuro nella ricerca agentica
Le applicazioni includono codebase massicci, database aziendali, storie conversazionali

Framework POMDP per la Ricerca Agentica di LLM in Contesti Ampi

Fatti principali

Entità

Istituzioni

Fonti