BilliardPhys-Bench testa il ragionamento fisico nei modelli linguistici multimodali

ai-technology · 2026-06-01

BilliardPhys-Bench è stato sviluppato da ricercatori come benchmark per valutare le capacità di ragionamento fisico nei modelli linguistici multimodali di grandi dimensioni (MLLM) attraverso ambienti di biliardo sintetici. Questo benchmark presenta un motore procedurale che crea scenari casuali, incorporando elementi come attrito e collisioni elastiche, per valutare tre abilità principali: prevedere le interazioni tra le palle, ragionare sui rimbalzi contro le pareti e stimare le posizioni finali delle palle dopo che si sono fermate. Valutazioni recenti di MLLM, incluse quelle delle famiglie GPT, Claude, Gemini e Qwen, mostrano un calo delle prestazioni con tempi di simulazione più lunghi e geometrie di scena più complesse. Un problema notevole è il "bias di stasi", in cui i modelli spesso prevedono nessuna interazione quando il risultato corretto è meno ovvio, evidenziando limitazioni nel ragionamento fisico intuitivo dei MLLM nonostante una forte capacità di riconoscimento di immagini statiche.

Fatti principali

BilliardPhys-Bench è un benchmark per il ragionamento fisico in ambienti di biliardo sintetici.
Testa tre abilità: prevedere collisioni palla-palla, rimbalzi contro le pareti e posizioni finali delle palle.
Il motore procedurale genera scenari casuali con attrito e collisioni elastiche.
I MLLM valutati includono le famiglie GPT, Claude, Gemini e Qwen.
Le prestazioni diminuiscono con tempi di simulazione più lunghi e geometrie di scena più complesse.
È stato osservato un modo di fallimento chiamato 'bias di stasi': i modelli prevedono nessuna interazione quando i risultati sono difficili da dedurre.
Gli attuali MLLM gestiscono bene le immagini statiche ma faticano con il ragionamento fisico intuitivo.
Il benchmark è introdotto nell'articolo arXiv 2605.30900.

BilliardPhys-Bench testa il ragionamento fisico nei modelli linguistici multimodali

Fatti principali

Entità

Istituzioni

Fonti