Fallimenti di Scaling della Personalizzazione al Test-Time negli LLM

ai-technology · 2026-05-13

Un recente articolo su arXiv (2605.10991) presenta un nuovo framework per la Personalizzazione al Test-Time (TTP) nei modelli linguistici di grandi dimensioni, enfatizzando il miglioramento dei calcoli al momento dell'inferenza campionando N candidati da un modello politico su misura e determinando la scelta ottimale utilizzando un modello di ricompensa personalizzato. Gli autori dimostrano che la selezione oracle può portare a un'utilità attesa che aumenta logaritmicamente con il numero di candidati, stabilendo un limite teorico superiore. Tuttavia, i modelli di ricompensa tradizionali non raggiungono questo potenziale. Introducono una legge di scaling unificata che scompone la curva Best-of-N di qualsiasi modello di ricompensa in quattro fattori quantificabili, identificando due modalità di fallimento: collasso a livello di utente (previsioni costanti per determinati utenti) e hacking della ricompensa a livello di query (correlazione negativa con la qualità effettiva per query specifiche). L'articolo suggerisce una soluzione probabilistica a queste sfide.

Fatti principali

Articolo arXiv 2605.10991
Si concentra sulla Personalizzazione al Test-Time (TTP)
Scala il calcolo dell'inferenza campionando N candidati
La selezione oracle produce una crescita logaritmica dell'utilità
I modelli di ricompensa standard non scalano
Identifica collasso a livello di utente e hacking della ricompensa a livello di query
Propone una soluzione probabilistica
Tipo di annuncio: cross

Fallimenti di Scaling della Personalizzazione al Test-Time negli LLM

Fatti principali

Entità

Istituzioni

Fonti