Framework di Generazione Automatica di Benchmark per Modelli Fondazionali
Un nuovo framework per la creazione automatica di benchmark mira a superare le carenze delle tecniche di valutazione esistenti per i modelli fondazionali, che tipicamente si basano su punteggi aggregati da benchmark privi di copertura approfondita e metadati. Questo sistema innovativo formula sfide di valutazione basate su materiali di riferimento, come libri di testo, producendo benchmark che offrono ampia copertura, metadati dettagliati e resilienza alla contaminazione. Utilizza un'architettura multi-agente per la generazione di problemi e un approccio guidato da grafi di soluzioni per migliorare l'affidabilità della ground truth. Sono stati prodotti tre benchmark in Machine Learning, Finanza Aziendale e Finanza Personale. Una revisione esperta ha indicato un tasso di errore della ground truth significativamente ridotto rispetto a benchmark precedenti come MMLU e GSM8K, con valutazioni di 12 modelli commerciali e open-source che dimostrano una copertura delle competenze e prestazioni quasi uniformi.
Fatti principali
- Il framework genera problemi di valutazione basati su materiali di riferimento come libri di testo.
- Utilizza un'architettura multi-agente per la generazione di problemi.
- Impiega una strategia guidata da grafi di soluzioni per l'affidabilità della ground truth.
- Sono stati generati tre benchmark: Machine Learning, Finanza Aziendale, Finanza Personale.
- Tasso di errore della ground truth inferiore rispetto a MMLU e GSM8K.
- Valutati 12 modelli commerciali e open-source.
- Raggiunge una copertura delle competenze quasi uniforme.
- I benchmark sono robusti alla contaminazione.
Entità
—