La valutazione interattiva dell'IA necessita di una scienza del design
Un nuovo position paper sostiene che valutare i modelli linguistici di grandi dimensioni (LLM) implementati come sistemi interattivi richiede un cambiamento fondamentale dai benchmark statici a un paradigma di valutazione basato su principi. Il documento, pubblicato su arXiv, osserva che gli attuali benchmark interattivi sono frammentati, differendo per artefatti, metodi di punteggio e affermazioni. Definisce la valutazione come una mappatura autonoma dalle prove ai giudizi e mostra che la valutazione interattiva modifica entrambi i lati di questa mappatura. Gli autori chiedono un approccio di scienza del design per costruire quadri di valutazione robusti per LLM che agiscono nel tempo attraverso strumenti, ambienti, utenti e altri agenti.
Fatti principali
- Articolo arXiv 2605.17829v1
- Tipo di annuncio: nuovo
- L'abstract discute il cambiamento strutturale nella valutazione dell'IA
- LLM implementati come sistemi che agiscono nel tempo
- Le attuali pratiche di valutazione ereditano presupposti da benchmark incentrati sulle risposte
- I benchmark interattivi sono frammentati
- L'articolo sostiene un paradigma di valutazione basato su principi
- Definisce la valutazione come mappatura autonoma dalle prove ai giudizi
Entità
Istituzioni
- arXiv