TriEx: Un Framework Basato su Giochi per Spiegare il Ragionamento di Agenti LLM Multi-Agente

ai-technology · 2026-04-24

L'articolo presenta TriEx, un framework a tre viste progettato per la spiegabilità in agenti LLM multi-agente che operano in ambienti interattivi e parzialmente osservabili. Migliora il processo decisionale sequenziale attraverso tre elementi coordinati: auto-raziocinio in prima persona legato alle azioni, stati di credenza in seconda persona in evoluzione riguardanti gli avversari, e audit oracle in terza persona basati su segnali di riferimento provenienti dall'ambiente. Questo approccio trasforma le spiegazioni da narrazioni non strutturate in oggetti basati su prove che possono essere confrontati in tempi e prospettive diverse. Utilizzando giochi strategici a informazione imperfetta come banco di prova, TriEx facilita un'analisi completa della fedeltà delle spiegazioni, dell'evoluzione delle credenze e della coerenza dei valutatori, evidenziando discrepanze sistematiche tra le dichiarazioni degli agenti e le loro azioni.

Fatti principali

1. TriEx è un framework di spiegabilità a tre viste per agenti LLM multi-agente.
2. Strumenta il processo decisionale sequenziale con tre artefatti allineati.
3. L'auto-raziocinio in prima persona è legato a un'azione.
4. Gli stati di credenza in seconda persona sugli avversari vengono aggiornati nel tempo.
5. Gli audit oracle in terza persona sono basati su segnali di riferimento derivati dall'ambiente.
6. Le spiegazioni diventano oggetti ancorati a prove confrontabili nel tempo e nelle prospettive.
7. I giochi strategici a informazione imperfetta sono usati come banco di prova controllato.
8. Il framework rivela discrepanze sistematiche tra ciò che gli agenti dicono e ciò che fanno.

Entità

—

Fonti

arXiv cs.AI — 2026-04-23