Fully Looped Transformer Stabilizza l'Addestramento Senza Parametri Aggiuntivi
Un nuovo articolo su arXiv propone il Fully Looped Transformer, una modifica all'architettura Looped Transformer che affronta l'instabilità dell'addestramento. L'instabilità deriva dall'oscillazione del gradiente e dall'esplosione dei residui all'aumentare delle iterazioni del loop. Gli autori introducono due modifiche senza parametri: un'architettura Fully Looped che distribuisce i segnali tra i loop su tutti i livelli per mitigare l'esplosione dei residui, e l'Attention Injection che riutilizza i meccanismi di attenzione esistenti. Questo approccio consente di scalare le prestazioni attraverso calcoli aggiuntivi senza aumentare la dimensione del modello o la lunghezza del contesto, e permette di regolare dinamicamente le iterazioni del loop durante l'inferenza per bilanciare prestazioni e calcolo al test. L'articolo è disponibile su arXiv:2605.18797.
Fatti principali
- arXiv:2605.18797
- Looped Transformer soffre di instabilità dell'addestramento con l'aumento delle iterazioni del loop
- L'instabilità deriva dall'oscillazione del gradiente e dall'esplosione dei residui
- Fully Looped Transformer introduce due modifiche senza parametri
- L'architettura Fully Looped distribuisce i segnali tra i loop su tutti i livelli
- Attention Injection riutilizza i meccanismi di attenzione esistenti
- Le iterazioni del loop possono essere regolate durante l'inferenza
- Nessun aumento del numero di parametri o della lunghezza del contesto
Entità
Istituzioni
- arXiv