MELT: Trasformatore a Ciclo con Efficienza di Memoria per LLM Ricorrenti
L'articolo arXiv 2605.07721 introduce MELT (Memory-Efficient Looped Transformer), una nuova architettura per modelli linguistici di grandi dimensioni ricorrenti che separa la profondità di ragionamento dal consumo di memoria. A differenza di modelli come Ouro, che accumulano una cache Key-Value (KV) standard attraverso le iterazioni causando una crescita lineare della memoria con la profondità di ragionamento, MELT mantiene una singola cache KV per layer condivisa tra i cicli di ragionamento. Questa cache viene aggiornata tramite un meccanismo di gating apprendibile, consentendo un calcolo multi-step stabile ed efficiente senza un uso proibitivo della memoria. L'approccio affronta un limite chiave di scalabilità dei LLM ricorrenti, permettendo un ragionamento più profondo senza costi di memoria proporzionali.
Fatti principali
- MELT separa il calcolo dalla memoria nei modelli linguistici a ciclo.
- I LLM ricorrenti standard come Ouro hanno un consumo di memoria lineare con la profondità di ragionamento.
- MELT utilizza una singola cache KV per layer condivisa tra i cicli di ragionamento.
- La cache KV viene aggiornata tramite un meccanismo di gating apprendibile.
- L'architettura consente un calcolo multi-step stabile ed efficiente.
- L'articolo è su arXiv con ID 2605.07721.
- L'approccio migliora la scalabilità pratica dei LLM ricorrenti.
- MELT permette di aumentare le iterazioni di ragionamento senza una crescita proibitiva della memoria.
Entità
Istituzioni
- arXiv