Test Attivo per LLM tramite Allocazione Approssimata di Neyman
È stato introdotto un nuovo algoritmo di test attivo per compiti generativi nei modelli linguistici di grandi dimensioni (LLM). Il metodo utilizza l'entropia semantica di modelli surrogati per stratificare il pool di valutazione, quindi applica un'allocazione approssimata di Neyman basata sui segnali surrogati. Questo approccio mira a ridurre i costi di valutazione selezionando un sottoinsieme piccolo ma informativo di dati. Test su diversi benchmark linguistici e multimodali mostrano miglioramenti significativi rispetto ai metodi esistenti, che mirano principalmente a compiti di classificazione e falliscono su quelli generativi. Il lavoro affronta la crescente necessità di una valutazione efficiente degli LLM con l'aumento delle dimensioni dei modelli e dei costi di annotazione da parte di esperti.
Fatti principali
- arXiv:2605.10075v1
- Il test attivo mira ad approssimare i risultati della valutazione da un piccolo sottoinsieme del pool di valutazione.
- Gli approcci esistenti di test attivo mirano principalmente alla classificazione e falliscono su compiti generativi.
- Il nuovo algoritmo è adattato ai compiti generativi.
- Sfrutta l'entropia semantica di modelli surrogati per stratificare il pool di valutazione.
- L'allocazione approssimata di Neyman viene condotta in base ai segnali dei surrogati.
- I test sono stati eseguiti su diversi benchmark linguistici e multimodali.
- Il metodo migliora significativamente rispetto agli approcci di base.
Entità
Istituzioni
- arXiv