I Grafici di Credenze Potenziano il Ragionamento Multi-Agente degli LLM in Hanabi
Un nuovo preprint su arXiv, identificato come 2604.23057, esplora come i grafici di credenze espliciti influenzano i modelli linguistici di grandi dimensioni (LLM) durante compiti cooperativi multi-agente. Questo studio, che ha incluso oltre 3.000 test controllati su quattro famiglie di LLM utilizzando il gioco Hanabi, ha scoperto che il modo in cui questi grafici vengono integrati è fondamentale. Per i modelli più forti, i grafici sembrano aggiungere poco valore quando usati solo come prompt, ma aiutano significativamente i modelli più deboli nella Teoria della Mente di 2° ordine (80% vs 10%, p<0.0001, OR=36.0). Tuttavia, quando utilizzati per la selezione delle azioni tramite liste classificate, diventano essenziali anche per i modelli più forti (100% vs 20% sulla ToM di 2° ordine, p<0.001). Lo studio nota anche la "Planner Defiance", dove alcuni modelli ignorano i suggerimenti del pianificatore, con Llama 70B che mostra un tasso di override del 90% rispetto alla minima defiance di Gemini.
Fatti principali
- arXiv:2604.23057v1
- Oltre 3.000 prove controllate
- Quattro famiglie di LLM testate
- Gioco di carte cooperativo Hanabi
- Grafici come contesto del prompt: decorativi per modelli forti, benefici per modelli deboli sulla ToM di 2° ordine (80% vs 10%, p<0.0001, OR=36.0)
- Grafici per il gating della selezione delle azioni: strutturalmente essenziali per modelli forti (100% vs 20% sulla ToM di 2° ordine, p<0.001)
- Planner Defiance: tasso di override del 90%, replicato N=20
- I modelli Gemini mostrano defiance quasi nulla, Llama 70B mostra il 90%
Entità
Istituzioni
- arXiv