Agenti LLM Scoprono Nuove Architetture Neurali Oltre i Transformer

ai-technology · 2026-05-18

Un recente preprint su arXiv ha introdotto AIRA-Compose e AIRA-Design, un innovativo doppio framework per la ricerca autonoma di architetture neurali utilizzando agenti basati su grandi modelli linguistici (LLM). In sole 24 ore, AIRA-Compose impiega 11 agenti per esplorare primitive computazionali, valutando candidati con milioni di parametri e ottimizzando progetti per scale di 350M, 1B e 3B. Questo sforzo produce 14 architetture uniche, divise in due gruppi: AIRAformer (basate su Transformer) e AIRAhybrid (Transformer-Mamba). I modelli pre-addestrati a scala 1B superano i benchmark stabiliti da Llama 3.2 e Composer. In particolare, AIRAformer-D e AIRAhybrid-D migliorano l'accuratezza rispettivamente del 2,4% e del 3,8%, mentre AIRAformer-C opera rispettivamente il 54% e il 71% più velocemente di Llama 3.2 e del miglior Transformer di Composer, dimostrando progressi nell'auto-miglioramento dell'IA.

Fatti principali

1. AIRA-Compose utilizza 11 agenti per la ricerca di architetture ad alto livello entro un budget di 24 ore.
2. AIRA-Design gestisce l'implementazione meccanicistica a basso livello.
3. Sono state scoperte 14 architetture nelle famiglie AIRAformer e AIRAhybrid.
4. I modelli pre-addestrati a scala 1B superano i baseline di Llama 3.2 e Composer.
5. AIRAformer-D migliora l'accuratezza del 2,4% rispetto a Llama 3.2.
6. AIRAhybrid-D migliora l'accuratezza del 3,8% rispetto a Llama 3.2.
7. AIRAformer-C scala il 54% più velocemente di Llama 3.2.
8. AIRAformer-C scala il 71% più velocemente del miglior Transformer di Composer.

Agenti LLM Scoprono Nuove Architetture Neurali Oltre i Transformer

Fatti principali

Entità

Istituzioni

Fonti