I LLM faticano a utilizzare le rappresentazioni in contesto per compiti downstream
Un nuovo studio indaga se i grandi modelli linguistici siano in grado di impiegare rappresentazioni apprese in contesto per semplici compiti downstream. Basandosi su Park et al. (2024), che ha dimostrato che i LLM possono indurre rappresentazioni ricche dal contesto, i ricercatori hanno testato modelli open-weights sulla predizione del token successivo e su un nuovo compito di modellazione adattiva del mondo. I risultati indicano limitazioni significative nell'uso flessibile di queste rappresentazioni, evidenziando un divario verso l'IA adattiva.
Fatti principali
- Lo studio si basa su Park et al. (2024) che dimostra l'apprendimento di rappresentazioni in contesto nei LLM
- Valuta i LLM open-weights sulla predizione del token successivo utilizzando rappresentazioni in contesto
- Introduce un nuovo compito chiamato modellazione adattiva del mondo
- I risultati mostrano che i LLM faticano a impiegare rappresentazioni apprese per compiti downstream
- La ricerca appare su arXiv con identificativo 2602.04212
Entità
Istituzioni
- arXiv