ARTFEED — Contemporary Art Intelligence

Valutazione Efficiente dei LAM Raggiunge Correlazione di 0,93 con i Benchmark Completi Utilizzando lo 0,3% dei Dati

ai-technology · 2026-05-04

I ricercatori propongono l'uso di sottoinsiemi minimi di soli 50 esempi (0,3% dei dati) per valutare i modelli audio di grandi dimensioni (LAM), ottenendo una correlazione di Pearson superiore a 0,93 con i punteggi completi dei benchmark. Lo studio ha analizzato 10 metodi di selezione dei sottoinsiemi su 18 modelli audio e 40 compiti. Per allinearsi alla soddisfazione degli utenti, sono state raccolte 776 valutazioni di preferenze umane da conversazioni realistiche con assistenti vocali, rivelando solo una correlazione di 0,85 tra sia i sottoinsiemi che i benchmark completi con le preferenze umane. I modelli di regressione addestrati sui sottoinsiemi selezionati hanno raggiunto una correlazione di 0,98, superando quelli addestrati sui dati completi. I risultati suggeriscono che una valutazione efficiente può ridurre i costi mantenendo l'affidabilità.

Fatti principali

  • Sottoinsiemi di 50 esempi (0,3% dei dati) raggiungono una correlazione di Pearson superiore a 0,93 con i punteggi completi dei benchmark
  • Lo studio ha analizzato 10 metodi di selezione dei sottoinsiemi con 18 modelli audio su 40 compiti
  • Sono state raccolte 776 valutazioni di preferenze umane da conversazioni realistiche con assistenti vocali
  • Sia i sottoinsiemi che i benchmark completi raggiungono solo una correlazione di 0,85 con le preferenze umane
  • I modelli di regressione sui sottoinsiemi selezionati raggiungono una correlazione di 0,98 con le preferenze umane
  • La correlazione del benchmark completo con le preferenze umane è 0,85
  • Lo studio mira a ridurre i costi e la ridondanza dei dati nella valutazione dei LAM
  • Ricerca pubblicata su arXiv (2605.00022)

Entità

Istituzioni

  • arXiv

Fonti