Auto-Rubric come Ricompensa: Criteri Generativi Multimodali Espliciti

ai-technology · 2026-05-12

Viene introdotto un nuovo framework chiamato Auto-Rubric as Reward (ARR) per allineare i modelli generativi multimodali con le preferenze umane. A differenza dei metodi RLHF convenzionali che riducono le preferenze a etichette scalari o binarie, ARR esternalizza la conoscenza delle preferenze interiorizzata da un VLM in rubriche esplicite e specifiche per prompt prima di qualsiasi confronto a coppie. Ciò converte le preferenze implicite in dimensioni di qualità verificabili indipendentemente, affrontando problemi come il reward hacking e i proxy parametrici opachi. L'approccio riformula la modellazione delle ricompense dall'ottimizzazione implicita dei pesi alla decomposizione esplicita basata su criteri, con l'obiettivo di generare rubriche affidabili, scalabili ed efficienti in termini di dati. L'articolo è pubblicato su arXiv con ID 2605.08354.

Fatti principali

Auto-Rubric as Reward (ARR) è un nuovo framework per allineare i modelli generativi multimodali con le preferenze umane.
ARR riformula la modellazione delle ricompense dall'ottimizzazione implicita dei pesi alla decomposizione esplicita basata su criteri.
Esso esternalizza la conoscenza delle preferenze interiorizzata da un VLM come rubriche specifiche per prompt prima del confronto a coppie.
L'approccio converte le preferenze implicite in dimensioni di qualità verificabili indipendentemente.
Affronta le vulnerabilità al reward hacking e ai proxy parametrici opachi in RLHF.
L'articolo è disponibile su arXiv con ID 2605.08354.
ARR mira a generare rubriche affidabili, scalabili ed efficienti in termini di dati.
Il framework si contrappone ai metodi precedenti Rubrics-as-Reward (RaR) che faticano a generare tali rubriche.

Auto-Rubric come Ricompensa: Criteri Generativi Multimodali Espliciti

Fatti principali

Entità

Istituzioni

Fonti