UG-TTT: Incertezza Epistemica per la Scoperta al Momento del Test negli LLM

other · 2026-05-13

L'approccio UG-TTT introduce una soluzione alla stagnazione delle ricompense nella scoperta scientifica automatizzata che utilizza modelli linguistici di grandi dimensioni. L'apprendimento per rinforzo tradizionale tende a penalizzare le mutazioni con alta varianza, portando a una preferenza per schemi noti e a un plateau delle ricompense massime. Al contrario, UG-TTT impiega un insieme compatto di adattatori a basso rango insieme a un modello base statico. Valuta il disaccordo per token misurando l'informazione mutua tra le previsioni dell'insieme e le ipotesi sui pesi, isolando efficacemente l'incertezza epistemica per distinguere tra aree non esplorate e quelle intrinsecamente difficili.

Fatti principali

UG-TTT affronta l'incertezza epistemica per la scoperta al momento del test.
L'RL standard penalizza le mutazioni ad alta varianza, causando un plateau delle ricompense.
UG-TTT utilizza un piccolo insieme di adattatori a basso rango su un modello base congelato.
Il disaccordo per token è quantificato come informazione mutua tra le previsioni dell'insieme e le ipotesi sui pesi.
Il metodo isola l'incertezza epistemica per identificare regioni inesplorate.
L'approccio distingue le regioni inesplorate dai problemi intrinsecamente difficili.
L'articolo è su arXiv con ID 2605.11328.
Il tipo di annuncio è cross.

UG-TTT: Incertezza Epistemica per la Scoperta al Momento del Test negli LLM

Fatti principali

Entità

Istituzioni

Fonti