Absurd World: un benchmark per testare il ragionamento logico dei LLM
È stato proposto un nuovo framework di benchmarking chiamato Absurd World per valutare le capacità di ragionamento logico dei grandi modelli linguistici (LLM). Il framework, descritto in un articolo su arXiv (2605.09678), affronta l'area poco esplorata del ragionamento logico semplice creando scenari del mondo reale alterati, logicamente coerenti ma assurdi. Gli esseri umani possono risolvere facilmente questi compiti, mentre i LLM spesso falliscono. Absurd World scompone i modelli del mondo reale in simboli, azioni, sequenze ed eventi, alterandoli automaticamente per produrre mondi assurdi in cui la logica sottostante rimane invariata. Il framework è stato testato su un'ampia collezione di modelli utilizzando tecniche di prompting semplici e avanzate, dimostrandosi efficace nel determinare la capacità dei LLM di pensare logicamente.
Fatti principali
- Absurd World è un framework di benchmarking per il ragionamento dei LLM.
- Testa i LLM contro un realismo alterato con scenari logicamente coerenti.
- Gli esseri umani possono risolvere facilmente i compiti in Absurd World.
- Il framework scompone i modelli del mondo reale in simboli, azioni, sequenze ed eventi.
- Questi componenti vengono alterati automaticamente per creare mondi assurdi.
- La logica per risolvere i compiti rimane la stessa nei mondi assurdi.
- Un'ampia collezione di modelli è stata valutata con prompting semplice e avanzato.
- L'articolo è disponibile su arXiv con ID 2605.09678.
Entità
Istituzioni
- arXiv