CRAFT Benchmark Testa la Comunicazione Pragmatica dell'IA in Condizioni di Informazione Parziale

ai-technology · 2026-04-30

I ricercatori hanno introdotto CRAFT, un nuovo benchmark progettato per valutare quanto bene i modelli linguistici di grandi dimensioni comunicano in modo pragmatico quando dispongono solo di informazioni parziali. Questa configurazione include vari agenti, ciascuno con punti di vista distinti ma incompleti, che devono collaborare usando il linguaggio naturale per costruire una struttura 3D condivisa che nessuno di loro può vedere completamente. Si tratta essenzialmente di un problema di Parlante Pragmatico Limitato multi-mittente. Hanno sviluppato un quadro diagnostico per identificare fallimenti legati alla comprensione spaziale, alla modellazione delle credenze e ai problemi di comunicazione, classificando anche i fallimenti comportamentali sia nei modelli frontier che in quelli open-weight. Testando 8 modelli open-weight e 7 frontier è emerso che un miglior ragionamento non sempre migliora il lavoro di squadra; a volte, modelli più piccoli performano altrettanto bene o meglio di quelli frontier, e le capacità comunicative individuali non garantiscono il successo di gruppo.

Fatti principali

CRAFT è un benchmark multi-agente per la comunicazione pragmatica in condizioni di informazione parziale.
Più agenti con viste complementari ma incomplete devono coordinarsi tramite linguaggio naturale.
Il compito è costruire una struttura 3D condivisa non osservabile da nessun singolo agente.
Il problema è formalizzato come un problema di Parlante Pragmatico Limitato multi-mittente.
I fallimenti sono scomposti in errori di grounding spaziale, modellazione delle credenze e comunicazione pragmatica.
Viene fornita una tassonomia dei profili di fallimento comportamentale per modelli frontier e open-weight.
Sono stati testati 8 modelli open-weight e 7 frontier, inclusi modelli di ragionamento.
Una maggiore capacità di ragionamento non porta in modo affidabile a una migliore coordinazione.
Modelli open-weight più piccoli spesso eguagliano o superano i sistemi frontier.
Una migliore comunicazione individuale non garantisce il successo di gruppo.

CRAFT Benchmark Testa la Comunicazione Pragmatica dell'IA in Condizioni di Informazione Parziale

Fatti principali

Entità

Istituzioni

Fonti