Allucinazioni uditive nella comprensione video egocentrica

other · 2026-04-29

Un recente studio pubblicato su arXiv indica che i modelli linguistici audiovisivi avanzati (AV-LLM) sono suscettibili di allucinazioni uditive durante l'analisi di video egocentrici. Questi modelli deducono frequentemente suoni da elementi visivi presenti ma non effettivamente udibili, portando a interpretazioni multimodali fuorvianti. Per affrontare questo problema, i ricercatori hanno introdotto un quadro di valutazione completo basato su un metodo focalizzato di domanda-risposta. Hanno assemblato un dataset composto da 300 video egocentrici e formulato 1.000 domande relative ai suoni per valutare gli output dei modelli. Una tassonomia strutturata differenzia tra suoni derivanti dalle attività dell'utente e rumori ambientali di fondo. Questa ricerca sottolinea un grave difetto negli attuali AV-LLM, specialmente in contesti egocentrici dove i dati visivi possono essere incoerenti o ostruiti a causa del movimento continuo della telecamera, evidenziando la necessità di una migliore sincronizzazione audiovisiva nei sistemi di IA.

Fatti principali

Il paper arXiv 2604.23860v1 esplora le allucinazioni uditive nella comprensione video egocentrica.
I modelli linguistici audiovisivi avanzati (AV-LLM) sono inclini a allucinazioni uditive.
I modelli inferiscono suoni da indizi visivi che sono visibili ma non uditi.
Viene proposto un quadro di valutazione sistematico che utilizza un protocollo di domanda-risposta.
È stato curato un dataset di 300 video egocentrici e 1.000 domande incentrate sui suoni.
Una tassonomia fondata distingue i suoni delle azioni in primo piano dai suoni ambientali di fondo.
I video egocentrici presentano informazioni visive instabili o occluse a causa del movimento della telecamera.
Lo studio evidenzia una limitazione critica negli attuali AV-LLM.

Allucinazioni uditive nella comprensione video egocentrica

Fatti principali

Entità

Istituzioni

Fonti