GradsSharding: Apprendimento Federato Serverless per Modelli di Grandi Dimensioni

other · 2026-04-27

Una recente pubblicazione su arXiv (2604.22072) presenta GradsSharding, una nuova tecnica per l'aggregazione nell'apprendimento federato progettata per ambienti serverless, che affronta i vincoli di memoria osservati in framework attuali come lambda-FL e LIFL. A differenza dei metodi tradizionali che distribuiscono i client tra gli aggregatori, GradsSharding divide il tensore del gradiente in M frammenti, ciascuno dei quali viene mediato separatamente da una funzione serverless che raccoglie input da tutti i client. Questo metodo limita l'utilizzo di memoria per funzione a O(|θ|/M), che non è influenzato dal numero di client, facilitando l'aggregazione di modelli di qualsiasi dimensione. I risultati sono bit-identici a quelli ottenuti con approcci ad albero, garantendo l'accuratezza del modello. Gli autori valutano GradsSharding attraverso esperimenti di calcolo ad alte prestazioni.

Fatti principali

L'articolo arXiv:2604.22072 propone GradsSharding
GradsSharding partiziona il tensore del gradiente in M frammenti
Ogni frammento viene mediato indipendentemente da una funzione serverless
La memoria per funzione è limitata a O(|θ|/M)
Consente l'aggregazione di modelli arbitrariamente grandi
Risultati bit-identici agli approcci ad albero
L'accuratezza del modello è invariante per costruzione
Valutato rispetto a lambda-FL e LIFL tramite esperimenti HPC

GradsSharding: Apprendimento Federato Serverless per Modelli di Grandi Dimensioni

Fatti principali

Entità

Istituzioni

Fonti