Le finestre di contesto dei LLM falliscono ben prima dei massimi pubblicizzati
Un nuovo studio su arXiv definisce la 'Finestra di Contesto Effettiva Massima' (MECW) per misurare le prestazioni reali dei LLM, scoprendo che la maggior parte dei modelli degrada gravemente entro 1000 token, con alcuni che falliscono a soli 100 token, nonostante finestre di contesto pubblicizzate di 128K o più. La ricerca ha raccolto centinaia di migliaia di punti dati su più modelli e tipi di problemi, rivelando che la MECW varia in base al compito ed è drasticamente inferiore alla Finestra di Contesto Massima (MCW) riportata.
Fatti principali
- Lo studio definisce il concetto di Finestra di Contesto Effettiva Massima (MECW)
- Centinaia di migliaia di punti dati raccolti su più modelli
- Differenze significative trovate tra MCW e MECW
- La MECW cambia in base al tipo di problema
- Alcuni modelli di punta hanno fallito con soli 100 token nel contesto
- La maggior parte dei modelli ha mostrato un grave degrado entro 1000 token nel contesto
- Pubblicato su arXiv con ID 2509.21361
- Tipo di annuncio: replace-cross
Entità
Istituzioni
- arXiv