Agenti LLM Scoprono Nuove Architetture Neurali Oltre i Transformer
Un recente preprint su arXiv ha introdotto AIRA-Compose e AIRA-Design, un innovativo doppio framework per la ricerca autonoma di architetture neurali utilizzando agenti basati su grandi modelli linguistici (LLM). In sole 24 ore, AIRA-Compose impiega 11 agenti per esplorare primitive computazionali, valutando candidati con milioni di parametri e ottimizzando progetti per scale di 350M, 1B e 3B. Questo sforzo produce 14 architetture uniche, divise in due gruppi: AIRAformer (basate su Transformer) e AIRAhybrid (Transformer-Mamba). I modelli pre-addestrati a scala 1B superano i benchmark stabiliti da Llama 3.2 e Composer. In particolare, AIRAformer-D e AIRAhybrid-D migliorano l'accuratezza rispettivamente del 2,4% e del 3,8%, mentre AIRAformer-C opera rispettivamente il 54% e il 71% più velocemente di Llama 3.2 e del miglior Transformer di Composer, dimostrando progressi nell'auto-miglioramento dell'IA.
Fatti principali
- 1. AIRA-Compose utilizza 11 agenti per la ricerca di architetture ad alto livello entro un budget di 24 ore.
- 2. AIRA-Design gestisce l'implementazione meccanicistica a basso livello.
- 3. Sono state scoperte 14 architetture nelle famiglie AIRAformer e AIRAhybrid.
- 4. I modelli pre-addestrati a scala 1B superano i baseline di Llama 3.2 e Composer.
- 5. AIRAformer-D migliora l'accuratezza del 2,4% rispetto a Llama 3.2.
- 6. AIRAhybrid-D migliora l'accuratezza del 3,8% rispetto a Llama 3.2.
- 7. AIRAformer-C scala il 54% più velocemente di Llama 3.2.
- 8. AIRAformer-C scala il 71% più velocemente del miglior Transformer di Composer.
Entità
Istituzioni
- arXiv
- Llama 3.2
- Composer