La deliberazione prover-verifier migliora la predizione selettiva nei LLM
È stato sviluppato un nuovo protocollo per il tempo di inferenza, denominato deliberazione prover-verifier (PVD), per migliorare la predizione selettiva nei modelli linguistici estesi. Questo approccio si basa sulla teoria della prova interattiva, in cui un prover sostiene una risposta proposta con sotto-affermazioni verificabili, mentre un verifier pone sfide specifiche e risponde con Accetta, Sfida o Rifiuta. Questo sistema consente di riportare risposte ad alta confidenza, permettendo al contempo l'astensione in scenari incerti. L'esperimento principale impiega Claude Sonnet 4.6 come prover e Claude Haiku 4.5 come verifier, utilizzando il dataset GPQA. Il protocollo è valutato empiricamente attraverso le sue dinamiche di copertura-precisione, poiché le garanzie formali di correttezza e completezza non si applicano a causa dei limiti dei modelli che operano su un canale rumoroso.
Fatti principali
- 1. PVD è un protocollo a tempo di inferenza per la predizione selettiva.
- 2. Si basa sulla teoria della prova interattiva.
- 3. Un prover difende una risposta candidata con sotto-affermazioni verificabili.
- 4. Un verifier emette sfide mirate e restituisce Accetta, Sfida o Rifiuta.
- 5. Il protocollo consente di riportare risposte ad alta confidenza e di astenersi su casi incerti.
- 6. L'esperimento principale utilizza Claude Sonnet 4.6 come prover e Claude Haiku 4.5 come verifier.
- 7. L'esperimento è condotto sul dataset GPQA.
- 8. Le garanzie formali di correttezza e completezza non si trasferiscono a causa di modelli imperfetti.
Entità
—