Fallimenti di Scaling della Personalizzazione al Test-Time negli LLM
Un recente articolo su arXiv (2605.10991) presenta un nuovo framework per la Personalizzazione al Test-Time (TTP) nei modelli linguistici di grandi dimensioni, enfatizzando il miglioramento dei calcoli al momento dell'inferenza campionando N candidati da un modello politico su misura e determinando la scelta ottimale utilizzando un modello di ricompensa personalizzato. Gli autori dimostrano che la selezione oracle può portare a un'utilità attesa che aumenta logaritmicamente con il numero di candidati, stabilendo un limite teorico superiore. Tuttavia, i modelli di ricompensa tradizionali non raggiungono questo potenziale. Introducono una legge di scaling unificata che scompone la curva Best-of-N di qualsiasi modello di ricompensa in quattro fattori quantificabili, identificando due modalità di fallimento: collasso a livello di utente (previsioni costanti per determinati utenti) e hacking della ricompensa a livello di query (correlazione negativa con la qualità effettiva per query specifiche). L'articolo suggerisce una soluzione probabilistica a queste sfide.
Fatti principali
- Articolo arXiv 2605.10991
- Si concentra sulla Personalizzazione al Test-Time (TTP)
- Scala il calcolo dell'inferenza campionando N candidati
- La selezione oracle produce una crescita logaritmica dell'utilità
- I modelli di ricompensa standard non scalano
- Identifica collasso a livello di utente e hacking della ricompensa a livello di query
- Propone una soluzione probabilistica
- Tipo di annuncio: cross
Entità
Istituzioni
- arXiv