ProofGrid: un benchmark per testare il ragionamento degli LLM con dimostrazioni verificabili automaticamente
I ricercatori hanno introdotto una nuova suite di benchmark chiamata ProofGrid, che valuta le capacità di ragionamento dei grandi modelli linguistici attraverso dimostrazioni verificabili automaticamente anziché risposte finali. Descritto nel documento arXiv 2605.12524, ProofGrid include 15 compiti distinti incentrati sulla scrittura, verifica, mascheramento e completamento di dimostrazioni. I compiti utilizzano una notazione formale minima, in particolare NDL, un linguaggio conciso di deduzione naturale che si adatta a brevi prompt, consentendo valutazioni accurate e verificabili. Questo framework permette valutazioni riproducibili senza l'influenza del giudizio umano o dell'LLM. ProofGrid offre una gamma di difficoltà, dai test di base a compiti impegnativi non risolti dai modelli attuali, riducendo al contempo la dipendenza dalla conoscenza del dominio e da artefatti di contesto lunghi. Inoltre, gli autori propongono un quadro comparativo per i benchmark di ragionamento, posizionando ProofGrid rispetto alle metodologie esistenti in termini di rappresentazione e verifica.
Fatti principali
- ProofGrid è una suite di benchmark per valutare il ragionamento degli LLM attraverso dimostrazioni verificabili automaticamente.
- Contiene 15 compiti che spaziano dalla scrittura, verifica, mascheramento e completamento di dimostrazioni.
- I compiti sono espressi in notazione formale minima, in particolare NDL.
- NDL è un linguaggio compatto di deduzione naturale che si adatta a brevi prompt.
- La valutazione è meccanica, riproducibile e granulare.
- ProofGrid copre uno spettro di difficoltà calibrato, da compiti fondamentali a compiti impegnativi.
- Nessun modello attuale risolve i compiti impegnativi.
- Gli autori hanno sviluppato un quadro comparativo per i benchmark di ragionamento.
Entità
Istituzioni
- arXiv