Quantificazione dell'Incertezza senza Distribuzione per la Valutazione Continua di Agenti AI
Un recente preprint su arXiv (2605.19779) presenta metodi innovativi per la quantificazione dell'incertezza nella valutazione di agenti AI continui, utilizzando la predizione conformale suddivisa e l'inferenza conformale adattiva (ACI). Questa tecnica garantisce copertura per i punteggi di qualità previsti senza fare affidamento su ipotesi distributive. Gli intervalli conformali mantengono un errore di calibrazione inferiore a 0,02 a tutti i livelli nominali su un orizzonte di 24 ore, mentre l'ACI regola efficacemente gli intervalli del 35% dopo il rilascio degli agenti prima di riconvergere. La ricerca stabilisce anche limiti di incertezza composizionale per sistemi multi-agente, testati attraverso simulazioni con correlazioni tra stadi che vanno da -0,5 a 0,9, e introduce una regola di astensione conformale per le classifiche a coppie. Analizzando 50 agenti utilizzando 18 segnali orari in tempo reale, i risultati indicano che la copertura condizionale per agente è strettamente allineata con il livello nominale (media 80,4%, con il 90% degli agenti tra [72%, 90%]), e che le variazioni nel sentiment tra fonti possono prevedere fluttuazioni nelle classifiche.
Fatti principali
- Adatta la predizione conformale suddivisa e l'ACI alla valutazione continua di agenti AI.
- Gli intervalli conformali raggiungono un errore di calibrazione inferiore a 0,02 su orizzonte di 24 ore.
- L'ACI allarga gli intervalli del 35% dopo il rilascio degli agenti, poi riconverge.
- Sviluppa limiti di incertezza composizionale per pipeline multi-agente.
- Validato tramite simulazione su correlazioni tra stadi rho in [-0,5, 0,9].
- Introduce una regola di astensione conformale per le classifiche a coppie.
- Astensione corretta per FDR per test multipli a livello di classifica.
- Valuta 50 agenti tramite 18 segnali in tempo reale raccolti ogni ora.
Entità
Istituzioni
- arXiv