MemoryBench: Benchmark per l'Apprendimento Continuo nei LLM
I ricercatori hanno introdotto MemoryBench, un benchmark progettato per valutare le capacità di memoria e apprendimento continuo nei sistemi di modelli linguistici di grandi dimensioni (LLMsys). Riconoscendo che l'aumento di dati, parametri e potenza di calcolo sta raggiungendo rendimenti decrescenti a causa dell'esaurimento di dati di alta qualità e di miglioramenti marginali, il campo si sta orientando verso framework ispirati all'apprendimento umano e ai sistemi di IA tradizionali. I benchmark esistenti si concentrano sulla comprensione della lettura omogenea con input lunghi, non riuscendo a testare l'apprendimento dal feedback accumulato degli utenti. MemoryBench colma questa lacuna con un framework di simulazione del feedback degli utenti e un benchmark completo che copre più domini, lingue e tipi di attività. Il lavoro è pubblicato su arXiv con identificatore 2510.17281.
Fatti principali
- MemoryBench è un benchmark per la memoria e l'apprendimento continuo nei sistemi LLM.
- L'aumento di dati, parametri e potenza di calcolo sta raggiungendo limiti superiori.
- L'esaurimento di dati di alta qualità e i miglioramenti marginali da calcoli più grandi sono problemi chiave.
- Ispirato all'apprendimento umano e ai sistemi di IA tradizionali che imparano dalla pratica.
- I benchmark esistenti si concentrano sulla comprensione della lettura omogenea con input lunghi.
- MemoryBench utilizza un framework di simulazione del feedback degli utenti.
- Il benchmark copre più domini, lingue e tipi di attività.
- Pubblicato su arXiv con identificatore 2510.17281.
Entità
Istituzioni
- arXiv