I LLM Omnimodali Falliscono nel Riconoscere le Contraddizioni Percettive

ai-technology · 2026-05-14

Un nuovo studio pubblicato su arXiv introduce IMAVB, un benchmark di 500 clip cinematografiche di lunga durata progettato per testare se i grandi modelli linguistici omnimodali possono rilevare conflitti tra premesse testuali e il proprio input sensoriale. La ricerca rivela un 'Gap di Rappresentazione-Azione': modelli come Gemini 3.1 Pro e otto sistemi open-source codificano discrepanze tra premessa e percezione nei loro stati nascosti, ma quasi mai rifiutano affermazioni false nei loro output. Il benchmark utilizza un design 2x2 incrociando la modalità target (visiva, audio) con la condizione della premessa (standard, fuorviante). I risultati suggeriscono che gli attuali LLM omnimodali falliscono in una forma basilare di grounding, sollevando domande sulla loro affidabilità come agenti basati sulla percezione.

Fatti principali

Il benchmark IMAVB contiene 500 clip cinematografiche di lunga durata.
Lo studio testa il rilevamento di conflitti attraverso le modalità visiva e audio.
Sono stati valutati otto LLM omnimodali open-source e Gemini 3.1 Pro.
Gap di Rappresentazione-Azione: gli stati nascosti codificano discrepanze ma gli output non rifiutano affermazioni false.
I modelli rientrano in due categorie comportamentali.
Il benchmark utilizza un design 2x2: modalità target (visiva, audio) e condizione della premessa (standard, fuorviante).
La ricerca evidenzia un grounding non testato nei modelli omnimodali.
Pubblicato su arXiv con ID 2605.13737.

I LLM Omnimodali Falliscono nel Riconoscere le Contraddizioni Percettive

Fatti principali

Entità

Istituzioni

Fonti