AgentFloor: un benchmark per testare i modelli open-weight di piccole dimensioni sull'uso degli strumenti
AgentFloor, un benchmark di nuova introduzione, valuta la capacità dei modelli linguistici open-weight di piccole dimensioni di utilizzare efficacemente gli strumenti. Questo benchmark consiste in un insieme deterministico di 30 compiti, strutturati in una scala di capacità a sei livelli che include l'aderenza alle istruzioni, l'utilizzo degli strumenti, il coordinamento multi-step e la pianificazione a lungo termine sotto vincoli continui. I ricercatori hanno valutato 16 modelli open-weight, con parametri da 0,27B a 32B, insieme a GPT-5, attraverso 16.542 tentativi valutati. I risultati rivelano una soglia distinta: i modelli open-weight di piccole e medie dimensioni sono adeguati per gran parte dell'uso strutturato di strumenti a breve termine prevalente nei flussi di lavoro agentici reali. Il modello open-weight con le migliori prestazioni si comporta alla pari con GPT-5 in aggregato per questi compiti.
Fatti principali
- AgentFloor è un benchmark deterministico di 30 compiti.
- Il benchmark è organizzato come una scala di capacità a sei livelli.
- I compiti includono seguire istruzioni, uso di strumenti, coordinamento multi-step e pianificazione a lungo termine.
- Sono stati valutati 16 modelli open-weight da 0,27B a 32B parametri.
- GPT-5 è stato anche valutato per confronto.
- Sono state condotte un totale di 16.542 esecuzioni valutate.
- I modelli open-weight di piccole e medie dimensioni sono sufficienti per l'uso strutturato di strumenti a breve termine.
- Il modello open-weight più forte eguaglia GPT-5 in aggregato sul benchmark.
Entità
—