Valutazione Efficiente dei LAM Raggiunge Correlazione di 0,93 con i Benchmark Completi Utilizzando lo 0,3% dei Dati
I ricercatori propongono l'uso di sottoinsiemi minimi di soli 50 esempi (0,3% dei dati) per valutare i modelli audio di grandi dimensioni (LAM), ottenendo una correlazione di Pearson superiore a 0,93 con i punteggi completi dei benchmark. Lo studio ha analizzato 10 metodi di selezione dei sottoinsiemi su 18 modelli audio e 40 compiti. Per allinearsi alla soddisfazione degli utenti, sono state raccolte 776 valutazioni di preferenze umane da conversazioni realistiche con assistenti vocali, rivelando solo una correlazione di 0,85 tra sia i sottoinsiemi che i benchmark completi con le preferenze umane. I modelli di regressione addestrati sui sottoinsiemi selezionati hanno raggiunto una correlazione di 0,98, superando quelli addestrati sui dati completi. I risultati suggeriscono che una valutazione efficiente può ridurre i costi mantenendo l'affidabilità.
Fatti principali
- Sottoinsiemi di 50 esempi (0,3% dei dati) raggiungono una correlazione di Pearson superiore a 0,93 con i punteggi completi dei benchmark
- Lo studio ha analizzato 10 metodi di selezione dei sottoinsiemi con 18 modelli audio su 40 compiti
- Sono state raccolte 776 valutazioni di preferenze umane da conversazioni realistiche con assistenti vocali
- Sia i sottoinsiemi che i benchmark completi raggiungono solo una correlazione di 0,85 con le preferenze umane
- I modelli di regressione sui sottoinsiemi selezionati raggiungono una correlazione di 0,98 con le preferenze umane
- La correlazione del benchmark completo con le preferenze umane è 0,85
- Lo studio mira a ridurre i costi e la ridondanza dei dati nella valutazione dei LAM
- Ricerca pubblicata su arXiv (2605.00022)
Entità
Istituzioni
- arXiv