I costi di valutazione dell'IA aumentano, creando un nuovo collo di bottiglia computazionale
Valutare l'IA è diventato una sfida finanziaria significativa, con costi per gli agenti che ora raggiungono decine di migliaia di dollari per test. La Holistic Agent Leaderboard (HAL) ha speso 40.000 dollari per 21.730 test di agenti su 9 modelli e benchmark. Eseguire un singolo GAIA su un modello all'avanguardia costa 2.829 dollari. L'analisi di Exgentic, costata 22.000 dollari, ha mostrato una differenza di prezzo di 33× per compiti simili. Il UK-AISI ha spinto i costi agentici fino a milioni. Testare una nuova architettura presso The Well richiede circa 960 ore-H100, mentre una valutazione completa richiede 3.840 ore-H100. Benchmark statici come HELM costano quasi 100.000 dollari per 30 modelli e 42 scenari. Le tecniche di compressione possono ridurre significativamente i costi per i benchmark statici, ma solo leggermente per i benchmark agentici. L'onere finanziario dei test di affidabilità è pesante: una valutazione HAL valida costa 320.000 dollari per 8 ripetizioni. PaperBench costa 9.500 dollari per test, e confrontare sei modelli con tre seed supera i 150.000 dollari. Questa crescente disparità nelle risorse computazionali influisce sulle valutazioni, mettendo in svantaggio istituzioni accademiche, istituti di sicurezza dell'IA e giornalisti. Classifiche costose portano a inefficienze e non esiste un'infrastruttura condivisa per riutilizzare i dati di valutazione.
Fatti principali
- HAL ha speso 40.000 dollari per 21.730 rollout di agenti su 9 modelli e 9 benchmark.
- Un singolo run GAIA può costare 2.829 dollari prima della cache.
- L'analisi di Exgentic da 22.000 dollari ha trovato una variazione di costo di 33× su compiti identici.
- The Well costa 960 ore-H100 per valutare una nuova architettura.
- I benchmark statici si comprimono 100-200×; quelli agentici solo 2-3,5×.
- I test di affidabilità con 8 ripetizioni porterebbero il costo HAL a 320.000 dollari.
- PaperBench costa 9.500 dollari per run; il confronto a tre seed di sei modelli supera i 150.000 dollari.
- UK-AISI ha scalato i passaggi agentici fino a milioni per studiare il calcolo al momento dell'inferenza.
Entità
Istituzioni
- Holistic Agent Leaderboard (HAL)
- Princeton University
- Exgentic
- UK-AISI
- Stanford CRFM
- IBM Research
- EleutherAI
- OpenAI
- METR
- ICLR
- ACL
- ICML
- Science (journal)
- arXiv
Luoghi
- United Kingdom
- United States