PSA-Eval: Un Framework incentrato sul Fallimento per la Valutazione di Agenti Trilingui in Spazi Pubblici
L'articolo presenta PSA-Eval, un framework incentrato sulla valutazione runtime di agenti trilingui distribuiti in spazi pubblici, enfatizzando un passaggio dal tradizionale punteggio input-output all'analisi dei fallimenti nei sistemi operativi. Questo framework amplia la catena di valutazione tipica incorporando la riparazione dei fallimenti e i test di regressione. È stata condotta un'indagine preliminare su un sistema di front desk digitale trilingue reale situato nell'atrio di un'istituzione finanziaria internazionale, utilizzando un approccio semplificato a modello unico. I risultati hanno rivelato una deriva delle policy cross-linguistica a livello di gruppo, che non poteva essere collegata a differenze nei modelli utilizzati.
Fatti principali
- PSA-Eval è un framework di valutazione runtime incentrato sui fallimenti per agenti trilingui in spazi pubblici.
- L'unità di base dell'analisi passa dal punteggio al fallimento.
- Il framework estende Domanda -> Risposta -> Punteggio -> Fine includendo la riparazione dei casi di fallimento e il batch di regressione.
- Input equivalenti trilingui sono utilizzati come sonde controllate per la deriva delle policy cross-linguistica.
- Uno studio pilota è stato condotto su un sistema di front desk digitale trilingue reale.
- Il sistema è distribuito nell'atrio di un'istituzione finanziaria internazionale.
- Il pilota ha utilizzato un'impostazione semplificata a modello unico (MA = MB).
- La deriva osservata non deve essere interpretata come una differenza A/B tra modelli fondazionali.
Entità
Istituzioni
- arXiv