La deliberazione prover-verifier migliora la predizione selettiva nei LLM

ai-technology · 2026-05-26

È stato sviluppato un nuovo protocollo per il tempo di inferenza, denominato deliberazione prover-verifier (PVD), per migliorare la predizione selettiva nei modelli linguistici estesi. Questo approccio si basa sulla teoria della prova interattiva, in cui un prover sostiene una risposta proposta con sotto-affermazioni verificabili, mentre un verifier pone sfide specifiche e risponde con Accetta, Sfida o Rifiuta. Questo sistema consente di riportare risposte ad alta confidenza, permettendo al contempo l'astensione in scenari incerti. L'esperimento principale impiega Claude Sonnet 4.6 come prover e Claude Haiku 4.5 come verifier, utilizzando il dataset GPQA. Il protocollo è valutato empiricamente attraverso le sue dinamiche di copertura-precisione, poiché le garanzie formali di correttezza e completezza non si applicano a causa dei limiti dei modelli che operano su un canale rumoroso.

Fatti principali

1. PVD è un protocollo a tempo di inferenza per la predizione selettiva.
2. Si basa sulla teoria della prova interattiva.
3. Un prover difende una risposta candidata con sotto-affermazioni verificabili.
4. Un verifier emette sfide mirate e restituisce Accetta, Sfida o Rifiuta.
5. Il protocollo consente di riportare risposte ad alta confidenza e di astenersi su casi incerti.
6. L'esperimento principale utilizza Claude Sonnet 4.6 come prover e Claude Haiku 4.5 come verifier.
7. L'esperimento è condotto sul dataset GPQA.
8. Le garanzie formali di correttezza e completezza non si trasferiscono a causa di modelli imperfetti.

Entità

—

Fonti

arXiv cs.AI — 2026-05-26