XLGoBench: Nuovo benchmark rileva lacune cross-linguistiche nei LLM
I ricercatori hanno introdotto XLGoBench, un benchmark di compiti algoritmici sintetici progettato per rilevare lacune cross-linguistiche nelle abilità dei modelli linguistici di grandi dimensioni (LLM). Il benchmark è commensurabile tra le lingue, richiedendo ai modelli di eseguire lo stesso compito sottostante in lingue diverse. È scalabile, con compiti generati a vari livelli di complessità; quantificabile, con correttezza oggettiva; e trasparente, poiché i compiti provengono da semplici template verificabili per errori di traduzione. Gli esperimenti mostrano che XLGoBench espone lacune cross-linguistiche persistenti in diversi modelli all'avanguardia. La performance differenziale è un indicatore sufficiente ma non necessario di tali lacune.
Fatti principali
- XLGoBench è un insieme di compiti algoritmici sintetici.
- Rileva lacune cross-linguistiche nelle abilità dei LLM.
- I compiti sono commensurabili tra le lingue.
- Il benchmark è scalabile, quantificabile e trasparente.
- Gli esperimenti rivelano lacune cross-linguistiche persistenti nei modelli all'avanguardia.
- La performance differenziale è un indicatore sufficiente ma non necessario.
Entità
Istituzioni
- arXiv