PiCSAR: Selezione Probabilistica della Confidenza per il Ragionamento dei LLM

ai-technology · 2026-05-01

I ricercatori hanno svelato una tecnica innovativa chiamata PiCSAR, che sta per Probabilistic Confidence Selection And Ranking. Questo metodo innovativo, senza bisogno di addestramento, valuta gli output di grandi modelli linguistici e modelli di ragionamento analizzando la log-verosimiglianza combinata del processo di ragionamento insieme alla risposta finale. PiCSAR si compone di due parti principali: confidenza del ragionamento e confidenza della risposta. Ha mostrato miglioramenti notevoli, ottenendo un +10,18 su MATH500 e un +9,81 su AIME2025, superando i modelli tradizionali pur richiedendo almeno la metà dei campioni in 16 casi su 20. Inoltre, l'analisi rivela che le catene di ragionamento accurate presentano una log-verosimiglianza congiunta significativamente più alta.

Fatti principali

PiCSAR è un metodo senza addestramento per valutare le catene di ragionamento.
Utilizza la log-verosimiglianza congiunta del ragionamento e della risposta.
Ottiene un +10,18 sul benchmark MATH500.
Ottiene un +9,81 sul benchmark AIME2025.
Supera i baselines con almeno 2x meno campioni in 16/20 confronti.
Si scompone in confidenza del ragionamento e confidenza della risposta.
Migliora il campionamento best-of-n per LLM e LRM.
Non richiede risposte ground-truth per la valutazione.

Entità

—

Fonti

arXiv cs.AI — 2026-05-01