POETS: Insiemi di Politiche Efficienti per la Quantificazione dell'Incertezza nei LLM

ai-technology · 2026-05-11

Un nuovo framework chiamato POETS (Policy Ensembles for Thompson Sampling) è stato sviluppato dai ricercatori per affrontare il dilemma esplorazione-sfruttamento nel processo decisionale sequenziale e nell'ottimizzazione a scatola nera. Questo metodo sfrutta il principio secondo cui le politiche addestrate con regolarizzazione di Kullback-Leibler (KL) rappresentano intrinsecamente funzioni di ricompensa. Addestrando un insieme di politiche, POETS cattura efficacemente l'incertezza epistemica allineando queste funzioni di ricompensa implicite con dati bootstrap online, eliminando la necessità di modelli di ricompensa distinti sensibili all'incertezza. Per affrontare le sfide computazionali associate all'ensemble di grandi modelli linguistici (LLM), l'architettura utilizza un backbone pre-addestrato condiviso, che minimizza i requisiti di memoria e computazione. Questo approccio è dettagliato nel preprint arXiv 2605.07775.

Fatti principali

POETS sta per Policy Ensembles for Thompson Sampling
Collega la quantificazione dell'incertezza e l'ottimizzazione delle politiche
Le politiche con regolarizzazione KL codificano funzioni di ricompensa implicite
L'insieme cattura l'incertezza epistemica tramite dati bootstrap
Il backbone pre-addestrato condiviso riduce i costi di ensemble dei LLM
Affronta il dilemma esplorazione-sfruttamento nel processo decisionale sequenziale
Pubblicato su arXiv con ID 2605.07775
Il metodo evita l'addestramento annidato del modello di ricompensa

POETS: Insiemi di Politiche Efficienti per la Quantificazione dell'Incertezza nei LLM

Fatti principali

Entità

Istituzioni

Fonti