PIVOT: Perfezionamento Auto-Supervisionato delle Traiettorie per Agenti LLM

ai-technology · 2026-05-13

Il framework auto-supervisionato noto come PIVOT (Plan-Inspect-eVOlve Trajectories) ottimizza le traiettorie degli agenti attraverso un perfezionamento iterativo tramite interazione ambientale. Affronta il problema del disallineamento tra pianificazione ed esecuzione negli agenti basati su LLM, che spesso creano piani coerenti ma falliscono a causa di azioni impraticabili, violazioni di vincoli ed errori cumulativi. Il framework è composto da quattro fasi: PLAN genera potenziali traiettorie; INSPECT le esegue calcolando perdite strutturate utilizzando gradienti testuali; EVOLVE migliora le traiettorie basandosi su questi segnali; e VERIFY conduce una valutazione finale completa. Un processo di accettazione monotono garantisce che la qualità delle soluzioni non diminuisca. Test empirici su DeepPlanning e GAIA dimostrano prestazioni all'avanguardia, in particolare con feedback umano nel ciclo. Il documento è disponibile su arXiv con ID 2605.11225.

Fatti principali

PIVOT sta per Plan-Inspect-eVOlve Trajectories
È un framework auto-supervisionato per agenti LLM
Affronta il disallineamento tra pianificazione ed esecuzione
Quattro fasi: PLAN, INSPECT, EVOLVE, VERIFY
Utilizza perdite strutturate con gradienti testuali
Processo di accettazione monotono garantisce qualità non decrescente
Valutato su benchmark DeepPlanning e GAIA
Raggiunge prestazioni all'avanguardia con feedback HITL
Documento disponibile su arXiv: 2605.11225

PIVOT: Perfezionamento Auto-Supervisionato delle Traiettorie per Agenti LLM

Fatti principali

Entità

Istituzioni

Fonti