Fully Looped Transformer Stabilizza l'Addestramento Senza Parametri Aggiuntivi

ai-technology · 2026-05-20

Un nuovo articolo su arXiv propone il Fully Looped Transformer, una modifica all'architettura Looped Transformer che affronta l'instabilità dell'addestramento. L'instabilità deriva dall'oscillazione del gradiente e dall'esplosione dei residui all'aumentare delle iterazioni del loop. Gli autori introducono due modifiche senza parametri: un'architettura Fully Looped che distribuisce i segnali tra i loop su tutti i livelli per mitigare l'esplosione dei residui, e l'Attention Injection che riutilizza i meccanismi di attenzione esistenti. Questo approccio consente di scalare le prestazioni attraverso calcoli aggiuntivi senza aumentare la dimensione del modello o la lunghezza del contesto, e permette di regolare dinamicamente le iterazioni del loop durante l'inferenza per bilanciare prestazioni e calcolo al test. L'articolo è disponibile su arXiv:2605.18797.

Fatti principali

arXiv:2605.18797
Looped Transformer soffre di instabilità dell'addestramento con l'aumento delle iterazioni del loop
L'instabilità deriva dall'oscillazione del gradiente e dall'esplosione dei residui
Fully Looped Transformer introduce due modifiche senza parametri
L'architettura Fully Looped distribuisce i segnali tra i loop su tutti i livelli
Attention Injection riutilizza i meccanismi di attenzione esistenti
Le iterazioni del loop possono essere regolate durante l'inferenza
Nessun aumento del numero di parametri o della lunghezza del contesto

Fully Looped Transformer Stabilizza l'Addestramento Senza Parametri Aggiuntivi

Fatti principali

Entità

Istituzioni

Fonti