GradsSharding: Apprendimento Federato Serverless per Modelli di Grandi Dimensioni
Una recente pubblicazione su arXiv (2604.22072) presenta GradsSharding, una nuova tecnica per l'aggregazione nell'apprendimento federato progettata per ambienti serverless, che affronta i vincoli di memoria osservati in framework attuali come lambda-FL e LIFL. A differenza dei metodi tradizionali che distribuiscono i client tra gli aggregatori, GradsSharding divide il tensore del gradiente in M frammenti, ciascuno dei quali viene mediato separatamente da una funzione serverless che raccoglie input da tutti i client. Questo metodo limita l'utilizzo di memoria per funzione a O(|θ|/M), che non è influenzato dal numero di client, facilitando l'aggregazione di modelli di qualsiasi dimensione. I risultati sono bit-identici a quelli ottenuti con approcci ad albero, garantendo l'accuratezza del modello. Gli autori valutano GradsSharding attraverso esperimenti di calcolo ad alte prestazioni.
Fatti principali
- L'articolo arXiv:2604.22072 propone GradsSharding
- GradsSharding partiziona il tensore del gradiente in M frammenti
- Ogni frammento viene mediato indipendentemente da una funzione serverless
- La memoria per funzione è limitata a O(|θ|/M)
- Consente l'aggregazione di modelli arbitrariamente grandi
- Risultati bit-identici agli approcci ad albero
- L'accuratezza del modello è invariante per costruzione
- Valutato rispetto a lambda-FL e LIFL tramite esperimenti HPC
Entità
Istituzioni
- arXiv
- AWS Lambda