ARTFEED — Contemporary Art Intelligence

PSA-Eval: Un Framework incentrato sul Fallimento per la Valutazione di Agenti Trilingui in Spazi Pubblici

other · 2026-04-29

L'articolo presenta PSA-Eval, un framework incentrato sulla valutazione runtime di agenti trilingui distribuiti in spazi pubblici, enfatizzando un passaggio dal tradizionale punteggio input-output all'analisi dei fallimenti nei sistemi operativi. Questo framework amplia la catena di valutazione tipica incorporando la riparazione dei fallimenti e i test di regressione. È stata condotta un'indagine preliminare su un sistema di front desk digitale trilingue reale situato nell'atrio di un'istituzione finanziaria internazionale, utilizzando un approccio semplificato a modello unico. I risultati hanno rivelato una deriva delle policy cross-linguistica a livello di gruppo, che non poteva essere collegata a differenze nei modelli utilizzati.

Fatti principali

  • PSA-Eval è un framework di valutazione runtime incentrato sui fallimenti per agenti trilingui in spazi pubblici.
  • L'unità di base dell'analisi passa dal punteggio al fallimento.
  • Il framework estende Domanda -> Risposta -> Punteggio -> Fine includendo la riparazione dei casi di fallimento e il batch di regressione.
  • Input equivalenti trilingui sono utilizzati come sonde controllate per la deriva delle policy cross-linguistica.
  • Uno studio pilota è stato condotto su un sistema di front desk digitale trilingue reale.
  • Il sistema è distribuito nell'atrio di un'istituzione finanziaria internazionale.
  • Il pilota ha utilizzato un'impostazione semplificata a modello unico (MA = MB).
  • La deriva osservata non deve essere interpretata come una differenza A/B tra modelli fondazionali.

Entità

Istituzioni

  • arXiv

Fonti