Cattle Trade: un benchmark per testare il ragionamento strategico dei LLM in giochi multi-agente

ai-technology · 2026-05-16

Cattle Trade, un nuovo benchmark multi-agente, valuta le capacità di ragionamento strategico dei grandi modelli linguistici (LLM) in contesti di informazioni imperfette, interazioni avversariali e risorse limitate. Questo benchmark integra in modo unico aste, sfide di scambio con offerte nascoste, negoziazione, bluff, modellazione dell'avversario e allocazione delle risorse in un unico gioco esteso di 50-60 turni. A differenza dei benchmark precedenti che valutavano queste abilità separatamente, Cattle Trade esamina come gli agenti le utilizzano in un contesto economico competitivo caratterizzato da incentivi contrastanti. Registra meticolosamente ogni offerta, proposta di scambio, controproposta e selezione di carte per un'analisi comportamentale approfondita che va oltre i semplici tassi di vittoria. I ricercatori hanno testato sette modelli linguistici economici e tre agenti deterministici basati su codice in 242 partite, concentrandosi su coerenza strategica, efficienza di spesa, disciplina delle risorse e comportamento adattivo alle fasi. L'articolo è disponibile su arXiv (2605.14537).

Fatti principali

Cattle Trade è un benchmark multi-agente per LLM
Testa il ragionamento strategico in condizioni di informazioni imperfette
Combina aste, sfide di scambio, negoziazione, bluff, modellazione dell'avversario e allocazione delle risorse
Il gioco dura 50-60 turni
Registra ogni offerta, proposta, controproposta e selezione di carte
Valutati sette modelli linguistici e tre agenti basati su codice in 242 partite
Le metriche includono coerenza strategica, efficienza di spesa, disciplina delle risorse, comportamento adattivo alle fasi
Articolo disponibile su arXiv (2605.14537)

Cattle Trade: un benchmark per testare il ragionamento strategico dei LLM in giochi multi-agente

Fatti principali

Entità

Istituzioni

Fonti