PAIR: Modello di Ricompensa Interno Consapevole del Prefisso per l'Ottimizzazione di Agenti Multi-turno

ai-technology · 2026-05-20

Un nuovo articolo su arXiv (2605.17877) introduce PAIR, un metodo che riutilizza il probing interno di correttezza sugli stati nascosti degli LLM come segnale di ricompensa a livello di passo per l'ottimizzazione di agenti multi-turno. Gli attuali LLM faticano con compiti complessi a più fasi e l'ottimizzazione delle politiche relative di gruppo (GRPO) si basa su ricompense di risultato sparse che limitano l'assegnazione del credito tra i passi intermedi. Le soluzioni esistenti come rollout completi, giudici LLM esterni o ricompense intrinseche con risposte corrette sono costose o impraticabili. Gli autori ipotizzano che i probe sugli stati nascosti possano superare queste limitazioni, ma mostrano che la ricerca esistente sui probe presuppone input puliti, il che fallisce in contesti multi-passo a causa della contaminazione del prefisso che traccia la coerenza con prefissi potenzialmente corrotti.

Fatti principali

L'articolo arXiv:2605.17877 introduce il metodo PAIR
PAIR riutilizza il probing interno di correttezza sugli stati nascosti degli LLM come segnale di ricompensa a livello di passo
Gli attuali LLM faticano con compiti complessi a più fasi
GRPO si basa su ricompense di risultato sparse che limitano l'assegnazione del credito
Le soluzioni esistenti come rollout completi, giudici LLM esterni o ricompense intrinseche sono costose o impraticabili
I probe sugli stati nascosti degradano sotto contaminazione del prefisso in contesti multi-passo
La ricerca esistente sui probe presuppone input puliti, il che fallisce in contesti multi-passo
PAIR affronta la contaminazione del prefisso tracciando la coerenza con prefissi potenzialmente corrotti

PAIR: Modello di Ricompensa Interno Consapevole del Prefisso per l'Ottimizzazione di Agenti Multi-turno

Fatti principali

Entità

Istituzioni

Fonti