Framework di Generazione Automatica di Benchmark per Modelli Fondazionali

other · 2026-05-20

Un nuovo framework per la creazione automatica di benchmark mira a superare le carenze delle tecniche di valutazione esistenti per i modelli fondazionali, che tipicamente si basano su punteggi aggregati da benchmark privi di copertura approfondita e metadati. Questo sistema innovativo formula sfide di valutazione basate su materiali di riferimento, come libri di testo, producendo benchmark che offrono ampia copertura, metadati dettagliati e resilienza alla contaminazione. Utilizza un'architettura multi-agente per la generazione di problemi e un approccio guidato da grafi di soluzioni per migliorare l'affidabilità della ground truth. Sono stati prodotti tre benchmark in Machine Learning, Finanza Aziendale e Finanza Personale. Una revisione esperta ha indicato un tasso di errore della ground truth significativamente ridotto rispetto a benchmark precedenti come MMLU e GSM8K, con valutazioni di 12 modelli commerciali e open-source che dimostrano una copertura delle competenze e prestazioni quasi uniformi.

Fatti principali

Il framework genera problemi di valutazione basati su materiali di riferimento come libri di testo.
Utilizza un'architettura multi-agente per la generazione di problemi.
Impiega una strategia guidata da grafi di soluzioni per l'affidabilità della ground truth.
Sono stati generati tre benchmark: Machine Learning, Finanza Aziendale, Finanza Personale.
Tasso di errore della ground truth inferiore rispetto a MMLU e GSM8K.
Valutati 12 modelli commerciali e open-source.
Raggiunge una copertura delle competenze quasi uniforme.
I benchmark sono robusti alla contaminazione.

Entità

—

Fonti

arXiv cs.AI — 2026-05-20