HalluAudio Benchmark Introdotto per Rilevare Allucinazioni nei Modelli Audio-Linguistici

ai-technology · 2026-04-22

I ricercatori hanno sviluppato HalluAudio, il primo benchmark completo progettato per valutare le allucinazioni nei Large Audio-Language Models (LALM). Questo nuovo strumento affronta una lacuna significativa nei metodi di valutazione attuali, che si sono concentrati principalmente sui domini testuali o visivi offrendo un'analisi limitata per l'audio. HalluAudio contiene oltre 5.000 coppie domanda-risposta verificate da esseri umani che coprono discorso, suoni ambientali e musica. Il benchmark impiega formati di valutazione diversificati inclusi giudizi binari, ragionamento a scelta multipla, verifica degli attributi e domande aperte. Per innescare sistematicamente le allucinazioni, la metodologia incorpora prompt avversari e condizioni audio miste. Oltre alle semplici metriche di accuratezza, il protocollo di valutazione misura i tassi di allucinazione e i bias sì/no. Questo sviluppo arriva mentre i LALM dimostrano prestazioni solide in vari compiti incentrati sull'audio, ma la loro tendenza a generare risposte semanticamente errate o acusticamente non supportate rimane insufficientemente studiata. La creazione del benchmark risponde alle limitazioni degli studi esistenti orientati all'audio, che sono stati vincolati da scala ridotta, copertura modale ristretta e profondità diagnostica superficiale.

Fatti principali

HalluAudio è il primo benchmark su larga scala per valutare le allucinazioni nei Large Audio-Language Models
Il benchmark contiene oltre 5.000 coppie domanda-risposta verificate da esseri umani
Copre tre domini audio: discorso, suono ambientale e musica
La valutazione include giudizi binari, ragionamento a scelta multipla, verifica degli attributi e domande-risposte aperte
I ricercatori hanno progettato prompt avversari e condizioni audio miste per indurre allucinazioni
Il protocollo di valutazione misura il tasso di allucinazione e il bias sì/no oltre all'accuratezza
I benchmark esistenti per allucinazioni si concentrano principalmente sui domini testuali o visivi
I Large Audio-Language Models hanno recentemente ottenuto prestazioni solide in vari compiti incentrati sull'audio

Entità

—

Fonti

arXiv cs.AI — 2026-04-22