ProFIL: L'apprendimento per rinforzo filtrato da sonda riduce il teatro del ragionamento nei LLM
I ricercatori hanno introdotto ProFIL (Probe-Filtered Reinforcement Learning), un metodo per ridurre il 'teatro del ragionamento' nei grandi modelli linguistici. Il teatro del ragionamento si riferisce a razionalizzazioni post-hoc che appaiono deliberative ma non contribuiscono alla correttezza, sprecando token e oscurando l'interpretabilità. ProFIL estende l'ottimizzazione delle politiche relative di gruppo (GRPO) addestrando una sonda di attenzione multi-testa una volta su un modello base congelato per rilevare i passaggi post-impegno dalle attivazioni interne. Durante GRPO, i rollout che superano una soglia della sonda hanno il loro vantaggio azzerato, sopprimendo il teatro mantenendo la fedeltà. La sonda utilizza etichette derivate dal verificatore senza annotazione umana. L'approccio mira a ridurre la lunghezza della catena di pensiero e aumentare la fedeltà in un'estensione plug-in singola.
Fatti principali
- 1. ProFIL sta per Probe-Filtered Reinforcement Learning.
- 2. Mira al 'teatro del ragionamento' nel ragionamento a catena di pensiero.
- 3. Una sonda di attenzione multi-testa viene addestrata una volta su un modello base congelato.
- 4. La sonda rileva i passaggi post-impegno dalle attivazioni interne.
- 5. I rollout che superano una soglia della sonda hanno il loro vantaggio azzerato durante GRPO.
- 6. Vengono utilizzate etichette derivate dal verificatore senza annotazione umana.
- 7. Il metodo riduce la lunghezza della catena e aumenta la fedeltà.
- 8. È un'estensione plug-in per l'ottimizzazione delle politiche relative di gruppo (GRPO).
Entità
Istituzioni
- arXiv