Wrapper di Rilascio Sempre Valido per Workflow AI Black-Box
Una nuova tecnica statistica garantisce scelte di arresto affidabili nei framework generate-verifica guidati da LLM, eliminando la necessità di modelli di verosimiglianza o ipotesi di scambiabilità. Questo metodo stabilisce un pool di riferimento di fallimenti ad alto punteggio come hard negative, allinea i punteggi dell'evaluatore durante il deployment con questo pool e accumula prove utilizzando un e-process per garantire la validità durante l'arresto opzionale. Distingue la funzione del pool di riferimento nel trasformare i punteggi black-box in prove prudenti dalla funzione dell'e-process nel fornire inferenze costantemente valide. I risultati teorici indicano che un pool di riferimento conservativo è sufficiente per garantire la validità.
Fatti principali
- Propone un wrapper di rilascio sempre valido per pipeline generatore-evaluatore
- Costruisce un pool di riferimento hard-negative di fallimenti ad alto punteggio
- Calibra i punteggi dell'evaluatore in fase di deployment rispetto al pool di riferimento
- Accumula prove con un e-process
- Fornisce validità sotto arresto opzionale
- Non richiede modelli di verosimiglianza o ipotesi di scambiabilità
- Separa i ruoli del pool di riferimento e dell'e-process
- Garanzia teorica: un pool di riferimento conservativo è sufficiente
Entità
—