Il framework QUACK verifica l'ancoraggio degli agenti LLM nel ragionamento sociale multimodale

other · 2026-05-27

Un team di ricercatori ha sviluppato QUACK, un innovativo framework open-source progettato per valutare l'efficacia con cui gli agenti basati sul linguaggio ragionano in scenari sociali complessi. Mentre i giochi di deduzione sociale offrono spunti sul ragionamento e l'inganno tra agenti basati su grandi modelli linguistici (LLM), i metodi di valutazione esistenti si sono concentrati principalmente sui tassi di vittoria e sull'analisi testuale, non riuscendo ad allineare il linguaggio al comportamento degli agenti. QUACK analizza in modo innovativo i risultati del gioco, la coerenza comunicativa e le dinamiche comportamentali. La sua caratteristica distintiva, la Statement Verification Pipeline, consente una ricostruzione precisa delle azioni reali degli agenti a partire dai dati registrati, migliorando la capacità di identificare inesattezze e affermazioni infondate nelle loro interazioni.

Fatti principali

QUACK è un ambiente e un framework di valutazione open-source.
Verifica l'ancoraggio del linguaggio degli agenti nel ragionamento sociale multimodale.
I giochi di deduzione sociale sono usati come banco di prova per gli agenti LLM.
Gli ambienti esistenti sono valutati solo in base ai tassi di vittoria e sono puramente testuali.
QUACK valuta a tre livelli: esiti del gioco, traiettorie comportamentali, coerenza a livello di enunciato.
La Statement Verification Pipeline ricostruisce le traiettorie reali dai log del motore.
Controlla ogni affermazione della discussione rispetto alla traiettoria.
Segnala automaticamente allucinazioni spaziali e accuse infondate.

Entità

—

Fonti

arXiv cs.AI — 2026-05-27