ProEval: Un Framework Proattivo per la Valutazione Efficiente dell'IA Generativa
ProEval è un framework di valutazione proattivo progettato per affrontare la natura intensiva di risorse del test dei modelli di IA generativa, che soffrono di inferenza lenta, valutatori costosi e un numero crescente di modelli e benchmark. Il framework utilizza l'apprendimento per trasferimento, impiegando Processi Gaussiani (GP) pre-addestrati come surrogati per mappare gli input del modello a metriche di performance come la gravità degli errori o le violazioni di sicurezza. Inquadra la stima delle prestazioni come quadratura bayesiana e la scoperta di fallimenti come campionamento di insiemi di superlivello, consentendo strategie decisionali consapevoli dell'incertezza che selezionano o sintetizzano attivamente input di test informativi. Teoricamente, lo stimatore basato su GP pre-addestrato per la quadratura bayesiana è dimostrato non distorto e limitato. Empiricamente, ProEval è stato validato su benchmark di ragionamento, allineamento alla sicurezza e classificazione. L'articolo è disponibile su arXiv con identificatore 2604.23099.
Fatti principali
- ProEval è un framework di valutazione proattivo per modelli di IA generativa.
- Utilizza l'apprendimento per trasferimento con Processi Gaussiani pre-addestrati come surrogati.
- La stima delle prestazioni è inquadrata come quadratura bayesiana.
- La scoperta di fallimenti è inquadrata come campionamento di insiemi di superlivello.
- Lo stimatore è dimostrato non distorto e limitato.
- Gli esperimenti sono stati condotti su benchmark di ragionamento, allineamento alla sicurezza e classificazione.
- L'articolo è su arXiv con ID 2604.23099.
- Il framework mira a ridurre il consumo di risorse nella valutazione dei modelli.
Entità
Istituzioni
- arXiv