ARTFEED — Contemporary Art Intelligence

Allucinazioni uditive nella comprensione video egocentrica

other · 2026-04-29

Un recente studio pubblicato su arXiv indica che i modelli linguistici audiovisivi avanzati (AV-LLM) sono suscettibili di allucinazioni uditive durante l'analisi di video egocentrici. Questi modelli deducono frequentemente suoni da elementi visivi presenti ma non effettivamente udibili, portando a interpretazioni multimodali fuorvianti. Per affrontare questo problema, i ricercatori hanno introdotto un quadro di valutazione completo basato su un metodo focalizzato di domanda-risposta. Hanno assemblato un dataset composto da 300 video egocentrici e formulato 1.000 domande relative ai suoni per valutare gli output dei modelli. Una tassonomia strutturata differenzia tra suoni derivanti dalle attività dell'utente e rumori ambientali di fondo. Questa ricerca sottolinea un grave difetto negli attuali AV-LLM, specialmente in contesti egocentrici dove i dati visivi possono essere incoerenti o ostruiti a causa del movimento continuo della telecamera, evidenziando la necessità di una migliore sincronizzazione audiovisiva nei sistemi di IA.

Fatti principali

  • Il paper arXiv 2604.23860v1 esplora le allucinazioni uditive nella comprensione video egocentrica.
  • I modelli linguistici audiovisivi avanzati (AV-LLM) sono inclini a allucinazioni uditive.
  • I modelli inferiscono suoni da indizi visivi che sono visibili ma non uditi.
  • Viene proposto un quadro di valutazione sistematico che utilizza un protocollo di domanda-risposta.
  • È stato curato un dataset di 300 video egocentrici e 1.000 domande incentrate sui suoni.
  • Una tassonomia fondata distingue i suoni delle azioni in primo piano dai suoni ambientali di fondo.
  • I video egocentrici presentano informazioni visive instabili o occluse a causa del movimento della telecamera.
  • Lo studio evidenzia una limitazione critica negli attuali AV-LLM.

Entità

Istituzioni

  • arXiv

Fonti