ARTFEED — Contemporary Art Intelligence

Preference Goal Tuning ottimizza gli obiettivi latenti per politiche congelate

other · 2026-05-04

Un nuovo framework chiamato Preference Goal Tuning (PGT) viene introdotto in un articolo su arXiv (2412.02125). PGT affronta la sensibilità delle politiche condizionate dagli obiettivi ai prompt testuali discreti riformulando l'adattamento post-addestramento come un problema di controllo latente. In questo approccio, l'embedding dell'obiettivo agisce come una variabile di controllo continua che modula il comportamento di una politica congelata senza aggiornarne i parametri. Invece, solo l'obiettivo latente viene ottimizzato utilizzando un obiettivo di preferenza a livello di traiettoria, cercando efficacemente l'input di condizionamento ottimale che massimizza i comportamenti preferiti e sopprime quelli indesiderati. Il metodo mantiene la politica congelata, offrendo un'alternativa al fine-tuning standard. L'articolo valuta PGT su vari compiti, dimostrando la sua capacità di allineare le distribuzioni delle traiettorie con le preferenze del compito.

Fatti principali

  • Articolo intitolato 'Preference Goal Tuning: Post-Training as Latent Control for Frozen Policies'
  • Pubblicato su arXiv con ID 2412.02125
  • Tipo di annuncio è 'replace'
  • Le politiche condizionate dagli obiettivi sono sensibili alla scelta dell'istruzione/prompt
  • PGT riformula l'adattamento post-addestramento come un problema di controllo latente
  • L'embedding dell'obiettivo funge da variabile di controllo continua
  • I parametri della politica rimangono congelati; solo l'obiettivo latente viene aggiornato
  • Utilizza un obiettivo di preferenza a livello di traiettoria per l'ottimizzazione

Entità

Istituzioni

  • arXiv

Fonti