Agenti AI come giurati: test di deliberazione multi-agente LLM su 'La parola ai giurati'

ai-technology · 2026-05-06

Un recente articolo su arXiv (2605.01986) utilizza la trama del film del 1957 di Sidney Lumet 'La parola ai giurati' come standard per valutare le discussioni multi-agente LLM. In questo studio, dodici agenti AI, ciascuno incarnante un personaggio del film, si impegnano in un dibattito su un processo per omicidio utilizzando una configurazione multi-agente. La ricerca valuta due modelli: GPT-4o (closed-source, fortemente allineato) e Llama-4-Scout (open-weight, meno allineato), in tre diversi scenari (baseline, prompt di mentalità aperta, nessun voto iniziale), con tre repliche per ogni condizione (per un totale di 18 esecuzioni). I risultati rivelano che 17 su 18 prove portano a una giuria in stallo, evidenziando che il previsto passaggio dall'opinione di minoranza a quella di maggioranza raramente avviene, suggerendo che l'ancoraggio è un problema significativo nelle discussioni LLM.

Fatti principali

L'articolo usa 'La parola ai giurati' come benchmark multi-agente per la deliberazione LLM.
Dodici agenti AI sono condizionati su personaggi fedeli al film.
Modelli testati: GPT-4o e Llama-4-Scout.
Tre condizioni: baseline, prompt di mentalità aperta, nessun voto iniziale.
18 esecuzioni totali (N=3 per cella).
17 su 18 esecuzioni terminano con una giuria in stallo.
La persuasione da minoranza a maggioranza non avviene quasi mai.
L'ancoraggio è identificato come modalità di fallimento dominante.

Entità

Artisti

Sidney Lumet

Istituzioni

arXiv

Fonti

arXiv cs.AI — 2026-05-05