HalluAudio Benchmark Introdotto per Rilevare Allucinazioni nei Modelli Audio-Linguistici
I ricercatori hanno sviluppato HalluAudio, il primo benchmark completo progettato per valutare le allucinazioni nei Large Audio-Language Models (LALM). Questo nuovo strumento affronta una lacuna significativa nei metodi di valutazione attuali, che si sono concentrati principalmente sui domini testuali o visivi offrendo un'analisi limitata per l'audio. HalluAudio contiene oltre 5.000 coppie domanda-risposta verificate da esseri umani che coprono discorso, suoni ambientali e musica. Il benchmark impiega formati di valutazione diversificati inclusi giudizi binari, ragionamento a scelta multipla, verifica degli attributi e domande aperte. Per innescare sistematicamente le allucinazioni, la metodologia incorpora prompt avversari e condizioni audio miste. Oltre alle semplici metriche di accuratezza, il protocollo di valutazione misura i tassi di allucinazione e i bias sì/no. Questo sviluppo arriva mentre i LALM dimostrano prestazioni solide in vari compiti incentrati sull'audio, ma la loro tendenza a generare risposte semanticamente errate o acusticamente non supportate rimane insufficientemente studiata. La creazione del benchmark risponde alle limitazioni degli studi esistenti orientati all'audio, che sono stati vincolati da scala ridotta, copertura modale ristretta e profondità diagnostica superficiale.
Fatti principali
- HalluAudio è il primo benchmark su larga scala per valutare le allucinazioni nei Large Audio-Language Models
- Il benchmark contiene oltre 5.000 coppie domanda-risposta verificate da esseri umani
- Copre tre domini audio: discorso, suono ambientale e musica
- La valutazione include giudizi binari, ragionamento a scelta multipla, verifica degli attributi e domande-risposte aperte
- I ricercatori hanno progettato prompt avversari e condizioni audio miste per indurre allucinazioni
- Il protocollo di valutazione misura il tasso di allucinazione e il bias sì/no oltre all'accuratezza
- I benchmark esistenti per allucinazioni si concentrano principalmente sui domini testuali o visivi
- I Large Audio-Language Models hanno recentemente ottenuto prestazioni solide in vari compiti incentrati sull'audio
Entità
—