ARTFEED — Contemporary Art Intelligence

PAIR: Modello di Ricompensa Interno Consapevole del Prefisso per l'Ottimizzazione di Agenti Multi-turno

ai-technology · 2026-05-20

Un nuovo articolo su arXiv (2605.17877) introduce PAIR, un metodo che riutilizza il probing interno di correttezza sugli stati nascosti degli LLM come segnale di ricompensa a livello di passo per l'ottimizzazione di agenti multi-turno. Gli attuali LLM faticano con compiti complessi a più fasi e l'ottimizzazione delle politiche relative di gruppo (GRPO) si basa su ricompense di risultato sparse che limitano l'assegnazione del credito tra i passi intermedi. Le soluzioni esistenti come rollout completi, giudici LLM esterni o ricompense intrinseche con risposte corrette sono costose o impraticabili. Gli autori ipotizzano che i probe sugli stati nascosti possano superare queste limitazioni, ma mostrano che la ricerca esistente sui probe presuppone input puliti, il che fallisce in contesti multi-passo a causa della contaminazione del prefisso che traccia la coerenza con prefissi potenzialmente corrotti.

Fatti principali

  • L'articolo arXiv:2605.17877 introduce il metodo PAIR
  • PAIR riutilizza il probing interno di correttezza sugli stati nascosti degli LLM come segnale di ricompensa a livello di passo
  • Gli attuali LLM faticano con compiti complessi a più fasi
  • GRPO si basa su ricompense di risultato sparse che limitano l'assegnazione del credito
  • Le soluzioni esistenti come rollout completi, giudici LLM esterni o ricompense intrinseche sono costose o impraticabili
  • I probe sugli stati nascosti degradano sotto contaminazione del prefisso in contesti multi-passo
  • La ricerca esistente sui probe presuppone input puliti, il che fallisce in contesti multi-passo
  • PAIR affronta la contaminazione del prefisso tracciando la coerenza con prefissi potenzialmente corrotti

Entità

Istituzioni

  • arXiv

Fonti