Allineamento in fase di inferenza con SLOP per mitigare l'hacking delle ricompense

ai-technology · 2026-05-14

Un nuovo articolo su arXiv introduce la regolazione della temperatura del modello di riferimento per generalizzare le tecniche di allineamento in fase di inferenza, consentendo la combinazione di modelli di ricompensa generativi tramite un pool di opinioni logaritmiche affilato (SLOP). Gli autori propongono un algoritmo per calibrare i parametri di peso di SLOP, dimostrando una maggiore robustezza contro l'hacking delle ricompense pur preservando le prestazioni di allineamento. Questo lavoro estende le giustificazioni teoriche esistenti per l'allineamento in fase di inferenza come approssimazioni al campionamento da distribuzioni ottimamente inclinate.

Fatti principali

Le tecniche di allineamento in fase di inferenza sono alternative leggere all'apprendimento per rinforzo.
Consentono un adattamento continuo man mano che gli obiettivi di allineamento e i target di ricompensa evolvono.
Le analisi teoriche esistenti giustificano questi metodi come approssimazioni al campionamento da distribuzioni ottimamente inclinate.
L'articolo introduce la regolazione della temperatura del modello di riferimento.
Ciò porta alla generalizzazione dell'allineamento in fase di inferenza a insiemi di modelli di ricompensa generativi.
La combinazione è formulata come un pool di opinioni logaritmiche affilato (SLOP).
Viene proposto un algoritmo per calibrare i parametri di peso di SLOP.
Gli esperimenti mostrano una maggiore robustezza contro l'hacking delle ricompense pur preservando le prestazioni di allineamento.

Allineamento in fase di inferenza con SLOP per mitigare l'hacking delle ricompense

Fatti principali

Entità

Istituzioni

Fonti