Wrapper di Rilascio Sempre Valido per Workflow AI Black-Box

ai-technology · 2026-05-14

Una nuova tecnica statistica garantisce scelte di arresto affidabili nei framework generate-verifica guidati da LLM, eliminando la necessità di modelli di verosimiglianza o ipotesi di scambiabilità. Questo metodo stabilisce un pool di riferimento di fallimenti ad alto punteggio come hard negative, allinea i punteggi dell'evaluatore durante il deployment con questo pool e accumula prove utilizzando un e-process per garantire la validità durante l'arresto opzionale. Distingue la funzione del pool di riferimento nel trasformare i punteggi black-box in prove prudenti dalla funzione dell'e-process nel fornire inferenze costantemente valide. I risultati teorici indicano che un pool di riferimento conservativo è sufficiente per garantire la validità.

Fatti principali

Propone un wrapper di rilascio sempre valido per pipeline generatore-evaluatore
Costruisce un pool di riferimento hard-negative di fallimenti ad alto punteggio
Calibra i punteggi dell'evaluatore in fase di deployment rispetto al pool di riferimento
Accumula prove con un e-process
Fornisce validità sotto arresto opzionale
Non richiede modelli di verosimiglianza o ipotesi di scambiabilità
Separa i ruoli del pool di riferimento e dell'e-process
Garanzia teorica: un pool di riferimento conservativo è sufficiente

Entità

—

Fonti

arXiv cs.AI — 2026-05-14