AgentFloor: un benchmark per testare i modelli open-weight di piccole dimensioni sull'uso degli strumenti

ai-technology · 2026-05-04

AgentFloor, un benchmark di nuova introduzione, valuta la capacità dei modelli linguistici open-weight di piccole dimensioni di utilizzare efficacemente gli strumenti. Questo benchmark consiste in un insieme deterministico di 30 compiti, strutturati in una scala di capacità a sei livelli che include l'aderenza alle istruzioni, l'utilizzo degli strumenti, il coordinamento multi-step e la pianificazione a lungo termine sotto vincoli continui. I ricercatori hanno valutato 16 modelli open-weight, con parametri da 0,27B a 32B, insieme a GPT-5, attraverso 16.542 tentativi valutati. I risultati rivelano una soglia distinta: i modelli open-weight di piccole e medie dimensioni sono adeguati per gran parte dell'uso strutturato di strumenti a breve termine prevalente nei flussi di lavoro agentici reali. Il modello open-weight con le migliori prestazioni si comporta alla pari con GPT-5 in aggregato per questi compiti.

Fatti principali

AgentFloor è un benchmark deterministico di 30 compiti.
Il benchmark è organizzato come una scala di capacità a sei livelli.
I compiti includono seguire istruzioni, uso di strumenti, coordinamento multi-step e pianificazione a lungo termine.
Sono stati valutati 16 modelli open-weight da 0,27B a 32B parametri.
GPT-5 è stato anche valutato per confronto.
Sono state condotte un totale di 16.542 esecuzioni valutate.
I modelli open-weight di piccole e medie dimensioni sono sufficienti per l'uso strutturato di strumenti a breve termine.
Il modello open-weight più forte eguaglia GPT-5 in aggregato sul benchmark.

Entità

—

Fonti

arXiv cs.AI — 2026-05-04