ARTFEED — Contemporary Art Intelligence

Il Benchmark SocialGrid Rivela che i Modelli Linguistici di Grandi Dimensioni Lottano con il Ragionamento Sociale in Ambienti Multi-Agente

ai-technology · 2026-04-20

Un nuovo benchmark denominato SocialGrid è stato introdotto per valutare i Modelli Linguistici di Grandi Dimensioni (LLM) come agenti indipendenti all'interno di ambienti multi-agente incarnati, rivelando notevoli carenze nelle loro capacità di ragionamento sociale e pianificazione. Ispirandosi al gioco Among Us, questo ambiente valuta gli agenti LLM sulla loro pianificazione, esecuzione dei compiti e ragionamento sociale. I risultati indicano che anche il modello open più avanzato, GPT-OSS-120B, è carente, raggiungendo meno del 60% di accuratezza nell'esecuzione e pianificazione dei compiti. Gli agenti dimostrano azioni ripetitive e faticano con ostacoli di base. Per differenziare il ragionamento sociale dai problemi di pianificazione, SocialGrid include un Oracle di Pianificazione opzionale. Sebbene questo supporto migliori il completamento dei compiti, il ragionamento sociale rimane una sfida, con agenti incapaci di rilevare l'inganno oltre il caso casuale, affidandosi invece a euristiche superficiali. Questo benchmark sottolinea l'urgente necessità di valutare l'intelligenza sociale degli LLM mentre evolvono da processori di testo ad agenti autonomi in contesti multi-agente. La ricerca, identificata come arXiv:2604.16022v1, evidenzia che una navigazione inadeguata può distorcere le valutazioni dell'intelligenza sociale, sottolineando la necessità di strumenti come l'Oracle di Pianificazione per valutazioni più accurate. Nonostante i miglioramenti nell'esecuzione dei compiti con assistenza, il fallimento continuo nel rilevamento dell'inganno rivela carenze significative nelle capacità di ragionamento sociale degli LLM.

Fatti principali

  • SocialGrid è un benchmark di ambiente multi-agente incarnato per valutare gli LLM
  • Ispirato al gioco Among Us
  • Valuta gli agenti LLM su pianificazione, esecuzione dei compiti e ragionamento sociale
  • GPT-OSS-120B raggiunge meno del 60% di accuratezza nel completamento dei compiti e nella pianificazione
  • Gli agenti rimangono bloccati in comportamenti ripetitivi o falliscono nel navigare ostacoli di base
  • SocialGrid offre un Oracle di Pianificazione opzionale per isolare il ragionamento sociale dai deficit di pianificazione
  • Gli agenti falliscono nel rilevare l'inganno a livelli quasi casuali indipendentemente dalla scala
  • Ricerca pubblicata su arXiv con identificatore arXiv:2604.16022v1

Entità

Istituzioni

  • arXiv

Fonti