Leggi di scala mostrano che l'equivarianza conta di più a scale maggiori
Uno studio sui campi di forza neurali rivela che le architetture equivarianti, che sfruttano la simmetria, scalano meglio dei modelli non equivarianti. La ricerca mostra un comportamento di scaling a legge di potenza con esponenti dipendenti dall'architettura, e rappresentazioni di ordine superiore producono uno scaling migliore. Per un addestramento ottimale dal punto di vista computazionale, le dimensioni dei dati e del modello dovrebbero scalare insieme indipendentemente dall'architettura. I risultati sfidano la convinzione che i modelli dovrebbero scoprire da soli bias induttivi come la simmetria.
Fatti principali
- L'equivarianza conta di più a scale maggiori
- Scaling a legge di potenza con esponenti dipendenti dall'architettura
- Le architetture equivarianti scalano meglio di quelle non equivarianti
- Rappresentazioni di ordine superiore migliorano gli esponenti di scaling
- Le dimensioni dei dati e del modello dovrebbero scalare insieme per un addestramento ottimale dal punto di vista computazionale
- Contrariamente alla credenza comune, la simmetria non dovrebbe essere lasciata scoprire al modello
Entità
Istituzioni
- arXiv