La Guida Classificatore-Libera Ponderata per Ricompensa Abilita l'Ottimizzazione in Tempo di Test nei Modelli Autoregressivi

ai-technology · 2026-04-20

Una nuova tecnica nota come guida classificatore-libera ponderata per ricompensa (RCFG) funge da operatore di miglioramento delle politiche per modelli autoregressivi, consentendo l'ottimizzazione delle funzioni di ricompensa senza necessità di riaddestramento. Questo metodo approssima l'aggiustamento della distribuzione di campionamento tramite la funzione Q, superando lo svantaggio dell'apprendimento per rinforzo tradizionale che richiede un completo riaddestramento quando le funzioni di ricompensa vengono modificate. L'RCFG è stata utilizzata efficacemente nella generazione molecolare, dimostrando la sua capacità di ottimizzare nuove funzioni di ricompensa durante i test. Inoltre, impiegare l'RCFG come insegnante e distillarla nella politica base fornisce un utile avvio a caldo. Questa ricerca è dettagliata nella preprint arXiv 2604.15577v1, che è stata notata come pubblicazione cross-tipo. Il metodo affronta specificamente output riassunti da vettori di attributi, come utilità versus dannosità o biodisponibilità versus lipofilia, con funzioni di ricompensa arbitrarie che riflettono compromessi tra queste caratteristiche.

Fatti principali

La guida classificatore-libera ponderata per ricompensa (RCFG) funge da operatore di miglioramento delle politiche nei modelli autoregressivi
L'RCFG approssima l'inclinazione della distribuzione di campionamento tramite la funzione Q
Il metodo consente l'ottimizzazione di nuove funzioni di ricompensa in tempo di test senza riaddestramento
Applicata con successo a compiti di generazione molecolare
Utilizzare l'RCFG come insegnante e distillarla nella politica base serve come avvio a caldo
L'apprendimento per rinforzo tradizionale richiede riaddestramento quando le funzioni di ricompensa cambiano
I modelli autoregressivi producono output riassunti da vettori di attributi
Funzioni di ricompensa arbitrarie codificano compromessi tra proprietà come utilità versus dannosità

La Guida Classificatore-Libera Ponderata per Ricompensa Abilita l'Ottimizzazione in Tempo di Test nei Modelli Autoregressivi

Fatti principali

Entità

Istituzioni

Fonti