ARTFEED — Contemporary Art Intelligence

Fully Looped Transformer Stabilizza l'Addestramento Senza Parametri Aggiuntivi

ai-technology · 2026-05-20

Un nuovo articolo su arXiv propone il Fully Looped Transformer, una modifica all'architettura Looped Transformer che affronta l'instabilità dell'addestramento. L'instabilità deriva dall'oscillazione del gradiente e dall'esplosione dei residui all'aumentare delle iterazioni del loop. Gli autori introducono due modifiche senza parametri: un'architettura Fully Looped che distribuisce i segnali tra i loop su tutti i livelli per mitigare l'esplosione dei residui, e l'Attention Injection che riutilizza i meccanismi di attenzione esistenti. Questo approccio consente di scalare le prestazioni attraverso calcoli aggiuntivi senza aumentare la dimensione del modello o la lunghezza del contesto, e permette di regolare dinamicamente le iterazioni del loop durante l'inferenza per bilanciare prestazioni e calcolo al test. L'articolo è disponibile su arXiv:2605.18797.

Fatti principali

  • arXiv:2605.18797
  • Looped Transformer soffre di instabilità dell'addestramento con l'aumento delle iterazioni del loop
  • L'instabilità deriva dall'oscillazione del gradiente e dall'esplosione dei residui
  • Fully Looped Transformer introduce due modifiche senza parametri
  • L'architettura Fully Looped distribuisce i segnali tra i loop su tutti i livelli
  • Attention Injection riutilizza i meccanismi di attenzione esistenti
  • Le iterazioni del loop possono essere regolate durante l'inferenza
  • Nessun aumento del numero di parametri o della lunghezza del contesto

Entità

Istituzioni

  • arXiv

Fonti