S1-Bench: Valutare il Pensiero di Sistema 1 nei Grandi Modelli di Ragionamento

other · 2026-05-04

Un nuovo standard, noto come S1-Bench, è stato lanciato per valutare le capacità di pensiero di Sistema 1 dei Grandi Modelli di Ragionamento (LRM). Il pensiero di Sistema 1 è caratterizzato da risposte rapide e intuitive che richiedono pochi token, differendo dai processi di ragionamento estesi che gli LRM solitamente utilizzano. Questo benchmark copre più domini e lingue, presentando domande semplici di Sistema 1. Le valutazioni condotte su 28 LRM hanno indicato una mancanza di accuratezza ed efficienza nell'affrontare queste domande. Le attuali tecniche di ragionamento efficiente faticano ad adattarsi a domande semplici o compromettono le prestazioni per la velocità. Inoltre, i risultati hanno rivelato che gli LRM mostrano una consapevolezza precoce della difficoltà del problema con una ridotta confidenza, e tale difficoltà è rappresentata in modo sottile negli stati nascosti. Questa ricerca sottolinea l'importanza del pensiero di Sistema 1 nelle applicazioni pratiche, evidenziando la consapevolezza dei modelli delle sfide e l'efficienza del ragionamento.

Fatti principali

S1-Bench è un benchmark multilingue e multi-dominio per il pensiero di Sistema 1.
Sono stati testati 28 Grandi Modelli di Ragionamento.
Gli LRM hanno mostrato scarsa accuratezza e inefficienza sui problemi di Sistema 1.
I metodi di ragionamento efficiente esistenti generalizzano male o sacrificano le prestazioni.
Gli LRM mostrano una consapevolezza precoce della difficoltà con minore confidenza.
La difficoltà del problema è implicitamente codificata negli stati nascosti.
Il pensiero di Sistema 1 è essenziale per le applicazioni del mondo reale.
La ricerca esplora la capacità di Sistema 1 poco studiata degli LRM.

Entità

—

Fonti

arXiv cs.AI — 2026-05-04