PAIR: Modello di Ricompensa Interno Consapevole del Prefisso per l'Ottimizzazione di Agenti Multi-turno
Un nuovo articolo su arXiv (2605.17877) introduce PAIR, un metodo che riutilizza il probing interno di correttezza sugli stati nascosti degli LLM come segnale di ricompensa a livello di passo per l'ottimizzazione di agenti multi-turno. Gli attuali LLM faticano con compiti complessi a più fasi e l'ottimizzazione delle politiche relative di gruppo (GRPO) si basa su ricompense di risultato sparse che limitano l'assegnazione del credito tra i passi intermedi. Le soluzioni esistenti come rollout completi, giudici LLM esterni o ricompense intrinseche con risposte corrette sono costose o impraticabili. Gli autori ipotizzano che i probe sugli stati nascosti possano superare queste limitazioni, ma mostrano che la ricerca esistente sui probe presuppone input puliti, il che fallisce in contesti multi-passo a causa della contaminazione del prefisso che traccia la coerenza con prefissi potenzialmente corrotti.
Fatti principali
- L'articolo arXiv:2605.17877 introduce il metodo PAIR
- PAIR riutilizza il probing interno di correttezza sugli stati nascosti degli LLM come segnale di ricompensa a livello di passo
- Gli attuali LLM faticano con compiti complessi a più fasi
- GRPO si basa su ricompense di risultato sparse che limitano l'assegnazione del credito
- Le soluzioni esistenti come rollout completi, giudici LLM esterni o ricompense intrinseche sono costose o impraticabili
- I probe sugli stati nascosti degradano sotto contaminazione del prefisso in contesti multi-passo
- La ricerca esistente sui probe presuppone input puliti, il che fallisce in contesti multi-passo
- PAIR affronta la contaminazione del prefisso tracciando la coerenza con prefissi potenzialmente corrotti
Entità
Istituzioni
- arXiv