ARTFEED — Contemporary Art Intelligence

ProFIL: L'apprendimento per rinforzo filtrato da sonda riduce il teatro del ragionamento nei LLM

ai-technology · 2026-05-13

I ricercatori hanno introdotto ProFIL (Probe-Filtered Reinforcement Learning), un metodo per ridurre il 'teatro del ragionamento' nei grandi modelli linguistici. Il teatro del ragionamento si riferisce a razionalizzazioni post-hoc che appaiono deliberative ma non contribuiscono alla correttezza, sprecando token e oscurando l'interpretabilità. ProFIL estende l'ottimizzazione delle politiche relative di gruppo (GRPO) addestrando una sonda di attenzione multi-testa una volta su un modello base congelato per rilevare i passaggi post-impegno dalle attivazioni interne. Durante GRPO, i rollout che superano una soglia della sonda hanno il loro vantaggio azzerato, sopprimendo il teatro mantenendo la fedeltà. La sonda utilizza etichette derivate dal verificatore senza annotazione umana. L'approccio mira a ridurre la lunghezza della catena di pensiero e aumentare la fedeltà in un'estensione plug-in singola.

Fatti principali

  • 1. ProFIL sta per Probe-Filtered Reinforcement Learning.
  • 2. Mira al 'teatro del ragionamento' nel ragionamento a catena di pensiero.
  • 3. Una sonda di attenzione multi-testa viene addestrata una volta su un modello base congelato.
  • 4. La sonda rileva i passaggi post-impegno dalle attivazioni interne.
  • 5. I rollout che superano una soglia della sonda hanno il loro vantaggio azzerato durante GRPO.
  • 6. Vengono utilizzate etichette derivate dal verificatore senza annotazione umana.
  • 7. Il metodo riduce la lunghezza della catena e aumenta la fedeltà.
  • 8. È un'estensione plug-in per l'ottimizzazione delle politiche relative di gruppo (GRPO).

Entità

Istituzioni

  • arXiv

Fonti