ProEval: Un Framework Proattivo per la Valutazione Efficiente dell'IA Generativa

ai-technology · 2026-04-29

ProEval è un framework di valutazione proattivo progettato per affrontare la natura intensiva di risorse del test dei modelli di IA generativa, che soffrono di inferenza lenta, valutatori costosi e un numero crescente di modelli e benchmark. Il framework utilizza l'apprendimento per trasferimento, impiegando Processi Gaussiani (GP) pre-addestrati come surrogati per mappare gli input del modello a metriche di performance come la gravità degli errori o le violazioni di sicurezza. Inquadra la stima delle prestazioni come quadratura bayesiana e la scoperta di fallimenti come campionamento di insiemi di superlivello, consentendo strategie decisionali consapevoli dell'incertezza che selezionano o sintetizzano attivamente input di test informativi. Teoricamente, lo stimatore basato su GP pre-addestrato per la quadratura bayesiana è dimostrato non distorto e limitato. Empiricamente, ProEval è stato validato su benchmark di ragionamento, allineamento alla sicurezza e classificazione. L'articolo è disponibile su arXiv con identificatore 2604.23099.

Fatti principali

ProEval è un framework di valutazione proattivo per modelli di IA generativa.
Utilizza l'apprendimento per trasferimento con Processi Gaussiani pre-addestrati come surrogati.
La stima delle prestazioni è inquadrata come quadratura bayesiana.
La scoperta di fallimenti è inquadrata come campionamento di insiemi di superlivello.
Lo stimatore è dimostrato non distorto e limitato.
Gli esperimenti sono stati condotti su benchmark di ragionamento, allineamento alla sicurezza e classificazione.
L'articolo è su arXiv con ID 2604.23099.
Il framework mira a ridurre il consumo di risorse nella valutazione dei modelli.

ProEval: Un Framework Proattivo per la Valutazione Efficiente dell'IA Generativa

Fatti principali

Entità

Istituzioni

Fonti