Nuova ricerca sull'IA propone il metodo Few-Shot Preference Optimization per la personalizzazione dei LLM

ai-technology · 2026-04-20

I ricercatori hanno introdotto Few-Shot Preference Optimization (FSPO), un nuovo algoritmo progettato per personalizzare i large language model (LLM) riformulando la modellazione delle ricompense come problema di meta-apprendimento. L'approccio consente ai LLM di inferire rapidamente funzioni di ricompensa personalizzate per singoli utenti utilizzando solo pochi esempi etichettati di preferenze. Per affrontare la sfida di raccogliere dati di preferenze del mondo reale su larga scala, il team ha costruito dataset sintetici di preferenze, generando oltre 1 milione di preferenze personalizzate sintetiche utilizzando LLM pubblicamente disponibili. FSPO incorpora la razionalizzazione della descrizione dell'utente (RAT) per migliorare sia le capacità di modellazione delle ricompense che di esecuzione delle istruzioni, aiutando a recuperare prestazioni paragonabili all'utilizzo di una descrizione utente oracolare. Questa ricerca, documentata nella preprint arXiv 2502.19312v2, mira a migliorare la personalizzazione per applicazioni rivolte all'utente come assistenti virtuali e sistemi di cura dei contenuti. Il lavoro dimostra come i dati sintetici possano essere trasferiti efficacemente a scenari del mondo reale attraverso scelte progettuali attente. La personalizzazione rimane fondamentale per l'adozione diffusa di interfacce basate su LLM in vari domini.

Fatti principali

FSPO riformula la modellazione delle ricompense come problema di meta-apprendimento per la personalizzazione dei LLM
L'algoritmo utilizza poche preferenze etichettate per inferire funzioni di ricompensa personalizzate
Oltre 1 milione di preferenze personalizzate sintetiche sono state generate utilizzando LLM pubblicamente disponibili
La razionalizzazione della descrizione dell'utente (RAT) migliora la modellazione delle ricompense e l'esecuzione delle istruzioni
Il metodo recupera prestazioni paragonabili all'utilizzo di una descrizione utente oracolare
I dati di preferenze del mondo reale sono difficili da raccogliere su larga scala
La ricerca è documentata nella preprint arXiv 2502.19312v2
Una personalizzazione efficace è fondamentale per applicazioni come assistenti virtuali e sistemi di cura dei contenuti

Entità

—

Fonti

arXiv cs.AI — 2026-04-20