POETS: Insiemi di Politiche Efficienti per la Quantificazione dell'Incertezza nei LLM
Un nuovo framework chiamato POETS (Policy Ensembles for Thompson Sampling) è stato sviluppato dai ricercatori per affrontare il dilemma esplorazione-sfruttamento nel processo decisionale sequenziale e nell'ottimizzazione a scatola nera. Questo metodo sfrutta il principio secondo cui le politiche addestrate con regolarizzazione di Kullback-Leibler (KL) rappresentano intrinsecamente funzioni di ricompensa. Addestrando un insieme di politiche, POETS cattura efficacemente l'incertezza epistemica allineando queste funzioni di ricompensa implicite con dati bootstrap online, eliminando la necessità di modelli di ricompensa distinti sensibili all'incertezza. Per affrontare le sfide computazionali associate all'ensemble di grandi modelli linguistici (LLM), l'architettura utilizza un backbone pre-addestrato condiviso, che minimizza i requisiti di memoria e computazione. Questo approccio è dettagliato nel preprint arXiv 2605.07775.
Fatti principali
- POETS sta per Policy Ensembles for Thompson Sampling
- Collega la quantificazione dell'incertezza e l'ottimizzazione delle politiche
- Le politiche con regolarizzazione KL codificano funzioni di ricompensa implicite
- L'insieme cattura l'incertezza epistemica tramite dati bootstrap
- Il backbone pre-addestrato condiviso riduce i costi di ensemble dei LLM
- Affronta il dilemma esplorazione-sfruttamento nel processo decisionale sequenziale
- Pubblicato su arXiv con ID 2605.07775
- Il metodo evita l'addestramento annidato del modello di ricompensa
Entità
Istituzioni
- arXiv