ProFIL: L'apprendimento per rinforzo filtrato da sonda riduce il teatro del ragionamento nei LLM

ai-technology · 2026-05-13

I ricercatori hanno introdotto ProFIL (Probe-Filtered Reinforcement Learning), un metodo per ridurre il 'teatro del ragionamento' nei grandi modelli linguistici. Il teatro del ragionamento si riferisce a razionalizzazioni post-hoc che appaiono deliberative ma non contribuiscono alla correttezza, sprecando token e oscurando l'interpretabilità. ProFIL estende l'ottimizzazione delle politiche relative di gruppo (GRPO) addestrando una sonda di attenzione multi-testa una volta su un modello base congelato per rilevare i passaggi post-impegno dalle attivazioni interne. Durante GRPO, i rollout che superano una soglia della sonda hanno il loro vantaggio azzerato, sopprimendo il teatro mantenendo la fedeltà. La sonda utilizza etichette derivate dal verificatore senza annotazione umana. L'approccio mira a ridurre la lunghezza della catena di pensiero e aumentare la fedeltà in un'estensione plug-in singola.

Fatti principali

1. ProFIL sta per Probe-Filtered Reinforcement Learning.
2. Mira al 'teatro del ragionamento' nel ragionamento a catena di pensiero.
3. Una sonda di attenzione multi-testa viene addestrata una volta su un modello base congelato.
4. La sonda rileva i passaggi post-impegno dalle attivazioni interne.
5. I rollout che superano una soglia della sonda hanno il loro vantaggio azzerato durante GRPO.
6. Vengono utilizzate etichette derivate dal verificatore senza annotazione umana.
7. Il metodo riduce la lunghezza della catena e aumenta la fedeltà.
8. È un'estensione plug-in per l'ottimizzazione delle politiche relative di gruppo (GRPO).

ProFIL: L'apprendimento per rinforzo filtrato da sonda riduce il teatro del ragionamento nei LLM

Fatti principali

Entità

Istituzioni

Fonti