Dati Sintetici Curati Prevengono il Collasso del Modello nel Riaddestramento Generativo
Una recente indagine teorica pubblicata su arXiv nel maggio 2025 contesta la convinzione comune che il riaddestramento ricorsivo dei modelli generativi porti inevitabilmente al collasso dell'output. Gli autori dimostrano che curando gli output sintetici utilizzando varie funzioni di ricompensa invece di affidarsi a un singolo segnale fisso, il modello può preservare la propria diversità. Questa ricerca articola le dinamiche del training ricorsivo in presenza di preferenze diverse e stabilisce la convergenza verso una distribuzione stabile che distribuisce la probabilità tra aree ad alta ricompensa in competizione. Questa distribuzione limite si allinea con una soluzione di contrattazione Nash pesata, fornendo un'interpretazione formale dell'aggregazione del valore nei processi di riaddestramento sintetico. I risultati sfidano le affermazioni precedenti secondo cui il collasso sarebbe inevitabile senza incorporare dati reali, supportando così l'uso di dati sintetici curati nei framework di training dell'IA.
Fatti principali
- Il riaddestramento ricorsivo dei modelli generativi può collassare su un insieme ristretto di output quando si utilizza una singola funzione di ricompensa.
- Lo studio mostra che il collasso può essere mitigato attraverso la cura basata su multiple funzioni di ricompensa.
- Il modello converge a una distribuzione stabile che alloca massa di probabilità attraverso regioni ad alta ricompensa in competizione.
- La distribuzione limite soddisfa una soluzione di contrattazione Nash pesata.
- L'articolo offre un'interpretazione formale dell'aggregazione del valore nei cicli di riaddestramento sintetico.
- Lavori precedenti suggerivano che il collasso fosse inevitabile senza aggiungere dati reali.
- La ricerca è classificata sotto Computer Science > Machine Learning.
- L'articolo è stato sottomesso ad arXiv nel maggio 2025.
Entità
Istituzioni
- arXiv