Centroidi di Entropia come Ricompense Intrinseche per il Ridimensionamento del Calcolo in Fase di Test

ai-technology · 2026-04-30

Un nuovo metodo utilizza centroidi di entropia come ricompense intrinseche per ridimensionare il calcolo in fase di test per modelli linguistici di grandi dimensioni, evitando modelli di ricompensa esterni. L'approccio sfrutta l'osservazione che i token ad alta entropia si raggruppano in gruppi consecutivi durante l'inferenza, fornendo segnali di incertezza stabili. Questa struttura temporale è formalizzata in ricompense a livello di segmento, offrendo un'alternativa ai metodi basati sulla confidenza o sull'entropia che soffrono di rumore. Il lavoro è pubblicato su arXiv con ID 2604.26173.

Fatti principali

Il metodo utilizza centroidi di entropia come ricompense intrinseche
Evita modelli di ricompensa esterni
I token ad alta entropia si raggruppano in gruppi consecutivi
Fornisce segnali di incertezza del modello stabili
Formalizza ricompense a livello di segmento
Pubblicato su arXiv: 2604.26173
Relativo a Grok Heavy e Gemini Deep Think
Affronta il ridimensionamento del calcolo in fase di test

Centroidi di Entropia come Ricompense Intrinseche per il Ridimensionamento del Calcolo in Fase di Test

Fatti principali

Entità

Istituzioni

Fonti