UG-TTT: Incertezza Epistemica per la Scoperta al Momento del Test negli LLM
L'approccio UG-TTT introduce una soluzione alla stagnazione delle ricompense nella scoperta scientifica automatizzata che utilizza modelli linguistici di grandi dimensioni. L'apprendimento per rinforzo tradizionale tende a penalizzare le mutazioni con alta varianza, portando a una preferenza per schemi noti e a un plateau delle ricompense massime. Al contrario, UG-TTT impiega un insieme compatto di adattatori a basso rango insieme a un modello base statico. Valuta il disaccordo per token misurando l'informazione mutua tra le previsioni dell'insieme e le ipotesi sui pesi, isolando efficacemente l'incertezza epistemica per distinguere tra aree non esplorate e quelle intrinsecamente difficili.
Fatti principali
- UG-TTT affronta l'incertezza epistemica per la scoperta al momento del test.
- L'RL standard penalizza le mutazioni ad alta varianza, causando un plateau delle ricompense.
- UG-TTT utilizza un piccolo insieme di adattatori a basso rango su un modello base congelato.
- Il disaccordo per token è quantificato come informazione mutua tra le previsioni dell'insieme e le ipotesi sui pesi.
- Il metodo isola l'incertezza epistemica per identificare regioni inesplorate.
- L'approccio distingue le regioni inesplorate dai problemi intrinsecamente difficili.
- L'articolo è su arXiv con ID 2605.11328.
- Il tipo di annuncio è cross.
Entità
Istituzioni
- arXiv