PATCH: Un Framework di Sparsità Ibrida per LLM Efficienti

ai-technology · 2026-04-30

PATCH introduce un framework di sparsità ibrida a livello di tile apprendibile per modelli linguistici di grandi dimensioni (LLM), consentendo un rapporto di sparsità continuo tra 0% e 50%. Partiziona le matrici dei pesi in tile, ciascuno assegnato come denso o 2:4 sparso tramite un meccanismo di selezione di maschere apprendibile, offrendo un controllo granulare sui compromessi tra accuratezza e accelerazione e una sparsità non uniforme tra i layer. Questo colma il divario tra la sparsità non strutturata (accurata ma irregolare) e la sparsità semi-strutturata 2:4 (favorevole all'hardware ma rigida), ottenendo una qualità complessiva superiore. Il paper è disponibile su arXiv con ID 2509.23410.

Fatti principali

PATCH consente un rapporto di sparsità continuo tra 0% e 50%
Partiziona le matrici dei pesi in tile con selezione di maschere apprendibile
Supporta sparsità non uniforme tra i layer
Colma il divario tra sparsità non strutturata e semi-strutturata 2:4
ID paper arXiv: 2509.23410
Pubblicato su arXiv
Tipo di annuncio: replace-cross

PATCH: Un Framework di Sparsità Ibrida per LLM Efficienti

Fatti principali

Entità

Istituzioni

Fonti