Leggi di scala μP derivate per l'attenzione a query raggruppata nei LLM
Un nuovo articolo su arXiv (2605.15290) estende la parametrizzazione ad aggiornamento massimo (μP) all'attenzione a query raggruppata (GQA), un'architettura chiave nei modelli linguistici di grandi dimensioni. Gli autori avanzano il quadro dell'apprendimento delle caratteristiche spettrali promuovendo le condizioni di norma spettrale da euristiche a definizioni, derivando le scale Complete-P per profondità e weight-decay senza apprendimento pigro. Introducono inoltre una norma spettrale modificata che preserva leggi di scala valide per matrici di peso non di rango pieno, consentendo la prima derivazione delle scale μP per GQA. Il lavoro dimostra l'efficacia attraverso risultati empirici, riducendo il calcolo necessario per il trasferimento degli iperparametri tra architetture di modelli.
Fatti principali
- Articolo arXiv:2605.15290v1 pubblicato su arXiv.
- Si concentra sul trasferimento degli iperparametri per LLM utilizzando μP.
- Deriva le scale Complete-P per profondità e weight-decay dalle condizioni di norma spettrale.
- Introduce una norma spettrale modificata per matrici non di rango pieno.
- Prima derivazione delle scale μP per l'attenzione a query raggruppata (GQA).
- Si basa sulla visione dell'apprendimento delle caratteristiche spettrali di Yang et al. (2023a).
- Mira a ridurre il calcolo per la messa a punto dei LLM tra architetture.
- Dimostra l'efficacia con risultati empirici.
Entità
Istituzioni
- arXiv