Selezione Submodulare di Benchmark per una Valutazione Efficiente degli LLM
I ricercatori hanno stabilito un approccio formale per scegliere un insieme compatto e informativo di benchmark per valutare i modelli linguistici di grandi dimensioni, inquadrandolo come un problema di massimizzazione submodulare in un contesto gaussiano multivariato. Gli obiettivi di entropia (determinante log-covarianza) e informazione mutua tra i benchmark scelti e quelli rimanenti sono intrinsecamente submodulari. Mentre la selezione per entropia coincide con la decomposizione di Cholesky pivotata e mantiene limiti spettrali residui, l'informazione mutua è generalmente non monotona ma tende a essere empiricamente monotona per sottoinsiemi più piccoli, consentendo un'ottimizzazione greedy. Test condotti su tre matrici provenienti da dieci leaderboard pubbliche indicano che la selezione per informazione mutua supera quella per entropia in efficacia per l'imputazione con sottoinsiemi piccoli.
Fatti principali
- Formalizza la selezione di benchmark come massimizzazione submodulare sotto modello gaussiano multivariato.
- Entropia e informazione mutua sono obiettivi naturali.
- Entrambi gli obiettivi sono submodulari.
- La selezione per entropia coincide con la decomposizione di Cholesky pivotata.
- L'informazione mutua è generalmente non monotona ma empiricamente monotona per sottoinsiemi piccoli.
- La selezione per informazione mutua supera quella per entropia nell'imputazione per sottoinsiemi piccoli.
- Esperimenti condotti su tre matrici da dieci leaderboard pubbliche.
- Valutare gli LLM su molti benchmark è costoso e molti sono correlati.
Entità
Istituzioni
- arXiv