Centroidi di Entropia come Ricompense Intrinseche per il Ridimensionamento del Calcolo in Fase di Test
Un nuovo metodo utilizza centroidi di entropia come ricompense intrinseche per ridimensionare il calcolo in fase di test per modelli linguistici di grandi dimensioni, evitando modelli di ricompensa esterni. L'approccio sfrutta l'osservazione che i token ad alta entropia si raggruppano in gruppi consecutivi durante l'inferenza, fornendo segnali di incertezza stabili. Questa struttura temporale è formalizzata in ricompense a livello di segmento, offrendo un'alternativa ai metodi basati sulla confidenza o sull'entropia che soffrono di rumore. Il lavoro è pubblicato su arXiv con ID 2604.26173.
Fatti principali
- Il metodo utilizza centroidi di entropia come ricompense intrinseche
- Evita modelli di ricompensa esterni
- I token ad alta entropia si raggruppano in gruppi consecutivi
- Fornisce segnali di incertezza del modello stabili
- Formalizza ricompense a livello di segmento
- Pubblicato su arXiv: 2604.26173
- Relativo a Grok Heavy e Gemini Deep Think
- Affronta il ridimensionamento del calcolo in fase di test
Entità
Istituzioni
- arXiv