PATCH: Un Framework di Sparsità Ibrida per LLM Efficienti
PATCH introduce un framework di sparsità ibrida a livello di tile apprendibile per modelli linguistici di grandi dimensioni (LLM), consentendo un rapporto di sparsità continuo tra 0% e 50%. Partiziona le matrici dei pesi in tile, ciascuno assegnato come denso o 2:4 sparso tramite un meccanismo di selezione di maschere apprendibile, offrendo un controllo granulare sui compromessi tra accuratezza e accelerazione e una sparsità non uniforme tra i layer. Questo colma il divario tra la sparsità non strutturata (accurata ma irregolare) e la sparsità semi-strutturata 2:4 (favorevole all'hardware ma rigida), ottenendo una qualità complessiva superiore. Il paper è disponibile su arXiv con ID 2509.23410.
Fatti principali
- PATCH consente un rapporto di sparsità continuo tra 0% e 50%
- Partiziona le matrici dei pesi in tile con selezione di maschere apprendibile
- Supporta sparsità non uniforme tra i layer
- Colma il divario tra sparsità non strutturata e semi-strutturata 2:4
- ID paper arXiv: 2509.23410
- Pubblicato su arXiv
- Tipo di annuncio: replace-cross
Entità
Istituzioni
- arXiv