L'auto-addestramento funziona solo quando i dati sintetici corrispondono al modello

ai-technology · 2026-06-01

Un recente studio pubblicato su arXiv (2605.31126) indica che i modelli linguistici possono migliorare le proprie prestazioni addestrandosi su testi che essi stessi producono, a condizione che siano soddisfatte determinate condizioni di compatibilità, senza fare affidamento su prompt, istruttori o sistemi di ricompensa. Gli autori introducono l'ipotesi del 'riemergere delle capacità latenti', suggerendo che un debole auto-addestramento potenzia le capacità preesistenti quando il testo generato si allinea bene con il modello studente. Questa compatibilità si basa su relazioni piuttosto che sulle qualità intrinseche dei dati. La ricerca enfatizza l'auto-addestramento incondizionato senza prompt, in cui i modelli di base vengono perfezionati utilizzando testo generato esclusivamente dal token BOS. I risultati chiave includono la natura relazionale dell'utilità sintetica, la superiorità del trasferimento all'interno della stessa discendenza rispetto a fonti più forti ma diversamente addestrate, e l'inadeguatezza del trasferimento tra famiglie diverse. Il documento completo è disponibile su arXiv:2605.31126.

Fatti principali

Articolo arXiv 2605.31126
Titolo: Non tutti i dati sintetici sono tuoi da cui imparare
I modelli linguistici possono migliorare da testi autogenerati senza prompt o supervisione
È richiesta compatibilità tra corpus sintetico e modello studente
Proposta l'ipotesi del riemergere delle capacità latenti
Studiata la condizione di auto-addestramento incondizionato senza prompt
I dati autogenerati sono la fonte più efficace
Il trasferimento all'interno della stessa discendenza supera quello tra famiglie diverse

L'auto-addestramento funziona solo quando i dati sintetici corrispondono al modello

Fatti principali

Entità

Istituzioni

Fonti