Cattle Trade: un benchmark per testare il ragionamento strategico dei LLM in giochi multi-agente
Cattle Trade, un nuovo benchmark multi-agente, valuta le capacità di ragionamento strategico dei grandi modelli linguistici (LLM) in contesti di informazioni imperfette, interazioni avversariali e risorse limitate. Questo benchmark integra in modo unico aste, sfide di scambio con offerte nascoste, negoziazione, bluff, modellazione dell'avversario e allocazione delle risorse in un unico gioco esteso di 50-60 turni. A differenza dei benchmark precedenti che valutavano queste abilità separatamente, Cattle Trade esamina come gli agenti le utilizzano in un contesto economico competitivo caratterizzato da incentivi contrastanti. Registra meticolosamente ogni offerta, proposta di scambio, controproposta e selezione di carte per un'analisi comportamentale approfondita che va oltre i semplici tassi di vittoria. I ricercatori hanno testato sette modelli linguistici economici e tre agenti deterministici basati su codice in 242 partite, concentrandosi su coerenza strategica, efficienza di spesa, disciplina delle risorse e comportamento adattivo alle fasi. L'articolo è disponibile su arXiv (2605.14537).
Fatti principali
- Cattle Trade è un benchmark multi-agente per LLM
- Testa il ragionamento strategico in condizioni di informazioni imperfette
- Combina aste, sfide di scambio, negoziazione, bluff, modellazione dell'avversario e allocazione delle risorse
- Il gioco dura 50-60 turni
- Registra ogni offerta, proposta, controproposta e selezione di carte
- Valutati sette modelli linguistici e tre agenti basati su codice in 242 partite
- Le metriche includono coerenza strategica, efficienza di spesa, disciplina delle risorse, comportamento adattivo alle fasi
- Articolo disponibile su arXiv (2605.14537)
Entità
Istituzioni
- arXiv