ARTFEED — Contemporary Art Intelligence

Fallimenti di Scaling della Personalizzazione al Test-Time negli LLM

ai-technology · 2026-05-13

Un recente articolo su arXiv (2605.10991) presenta un nuovo framework per la Personalizzazione al Test-Time (TTP) nei modelli linguistici di grandi dimensioni, enfatizzando il miglioramento dei calcoli al momento dell'inferenza campionando N candidati da un modello politico su misura e determinando la scelta ottimale utilizzando un modello di ricompensa personalizzato. Gli autori dimostrano che la selezione oracle può portare a un'utilità attesa che aumenta logaritmicamente con il numero di candidati, stabilendo un limite teorico superiore. Tuttavia, i modelli di ricompensa tradizionali non raggiungono questo potenziale. Introducono una legge di scaling unificata che scompone la curva Best-of-N di qualsiasi modello di ricompensa in quattro fattori quantificabili, identificando due modalità di fallimento: collasso a livello di utente (previsioni costanti per determinati utenti) e hacking della ricompensa a livello di query (correlazione negativa con la qualità effettiva per query specifiche). L'articolo suggerisce una soluzione probabilistica a queste sfide.

Fatti principali

  • Articolo arXiv 2605.10991
  • Si concentra sulla Personalizzazione al Test-Time (TTP)
  • Scala il calcolo dell'inferenza campionando N candidati
  • La selezione oracle produce una crescita logaritmica dell'utilità
  • I modelli di ricompensa standard non scalano
  • Identifica collasso a livello di utente e hacking della ricompensa a livello di query
  • Propone una soluzione probabilistica
  • Tipo di annuncio: cross

Entità

Istituzioni

  • arXiv

Fonti