Valutazione Efficiente dei LAM Raggiunge Correlazione di 0,93 con i Benchmark Completi Utilizzando lo 0,3% dei Dati

ai-technology · 2026-05-04

I ricercatori propongono l'uso di sottoinsiemi minimi di soli 50 esempi (0,3% dei dati) per valutare i modelli audio di grandi dimensioni (LAM), ottenendo una correlazione di Pearson superiore a 0,93 con i punteggi completi dei benchmark. Lo studio ha analizzato 10 metodi di selezione dei sottoinsiemi su 18 modelli audio e 40 compiti. Per allinearsi alla soddisfazione degli utenti, sono state raccolte 776 valutazioni di preferenze umane da conversazioni realistiche con assistenti vocali, rivelando solo una correlazione di 0,85 tra sia i sottoinsiemi che i benchmark completi con le preferenze umane. I modelli di regressione addestrati sui sottoinsiemi selezionati hanno raggiunto una correlazione di 0,98, superando quelli addestrati sui dati completi. I risultati suggeriscono che una valutazione efficiente può ridurre i costi mantenendo l'affidabilità.

Fatti principali

Sottoinsiemi di 50 esempi (0,3% dei dati) raggiungono una correlazione di Pearson superiore a 0,93 con i punteggi completi dei benchmark
Lo studio ha analizzato 10 metodi di selezione dei sottoinsiemi con 18 modelli audio su 40 compiti
Sono state raccolte 776 valutazioni di preferenze umane da conversazioni realistiche con assistenti vocali
Sia i sottoinsiemi che i benchmark completi raggiungono solo una correlazione di 0,85 con le preferenze umane
I modelli di regressione sui sottoinsiemi selezionati raggiungono una correlazione di 0,98 con le preferenze umane
La correlazione del benchmark completo con le preferenze umane è 0,85
Lo studio mira a ridurre i costi e la ridondanza dei dati nella valutazione dei LAM
Ricerca pubblicata su arXiv (2605.00022)

Valutazione Efficiente dei LAM Raggiunge Correlazione di 0,93 con i Benchmark Completi Utilizzando lo 0,3% dei Dati

Fatti principali

Entità

Istituzioni

Fonti