ARTFEED — Contemporary Art Intelligence

ProEval: Un Framework Proattivo per la Valutazione Efficiente dell'IA Generativa

ai-technology · 2026-04-29

ProEval è un framework di valutazione proattivo progettato per affrontare la natura intensiva di risorse del test dei modelli di IA generativa, che soffrono di inferenza lenta, valutatori costosi e un numero crescente di modelli e benchmark. Il framework utilizza l'apprendimento per trasferimento, impiegando Processi Gaussiani (GP) pre-addestrati come surrogati per mappare gli input del modello a metriche di performance come la gravità degli errori o le violazioni di sicurezza. Inquadra la stima delle prestazioni come quadratura bayesiana e la scoperta di fallimenti come campionamento di insiemi di superlivello, consentendo strategie decisionali consapevoli dell'incertezza che selezionano o sintetizzano attivamente input di test informativi. Teoricamente, lo stimatore basato su GP pre-addestrato per la quadratura bayesiana è dimostrato non distorto e limitato. Empiricamente, ProEval è stato validato su benchmark di ragionamento, allineamento alla sicurezza e classificazione. L'articolo è disponibile su arXiv con identificatore 2604.23099.

Fatti principali

  • ProEval è un framework di valutazione proattivo per modelli di IA generativa.
  • Utilizza l'apprendimento per trasferimento con Processi Gaussiani pre-addestrati come surrogati.
  • La stima delle prestazioni è inquadrata come quadratura bayesiana.
  • La scoperta di fallimenti è inquadrata come campionamento di insiemi di superlivello.
  • Lo stimatore è dimostrato non distorto e limitato.
  • Gli esperimenti sono stati condotti su benchmark di ragionamento, allineamento alla sicurezza e classificazione.
  • L'articolo è su arXiv con ID 2604.23099.
  • Il framework mira a ridurre il consumo di risorse nella valutazione dei modelli.

Entità

Istituzioni

  • arXiv

Fonti