I Vincoli della Memoria di Lavoro Migliorano l'Apprendimento dei Transformer in Condizioni di Scarsità di Dati
Uno studio recente pubblicato su arXiv esplora come i limiti della memoria di lavoro umana possano essere incorporati nei modelli Transformer. I ricercatori hanno introdotto meccanismi di attenzione ispirati alle scienze cognitive, come finestre a larghezza fissa e decadimento temporale, in architetture GPT-2 modificate, addestrate da zero su dataset contenenti 10 milioni e 100 milioni di parole. La valutazione delle loro prestazioni è stata condotta utilizzando compiti di giudizio grammaticale (BLiMP) e confrontata con dati sui tempi di lettura umani. I risultati rivelano che questi vincoli di ispirazione cognitiva, in particolare l'attenzione a larghezza fissa, migliorano l'accuratezza grammaticale in scenari con dati di addestramento limitati. Inoltre, questi modelli hanno mostrato un migliore allineamento con le metriche di elaborazione umana, indicando che tali vincoli possono influenzare positivamente la rappresentazione linguistica in ambienti con scarsità di dati.
Fatti principali
- Lo studio integra vincoli della memoria di lavoro umana nell'architettura Transformer
- Implementa varianti di attenzione a finestra fissa e decadimento temporale
- Modelli GPT-2 modificati addestrati da zero su dataset di 10M e 100M parole
- Valutati su compiti di giudizio grammaticale BLiMP e allineamento con tempi di lettura umani
- L'attenzione a finestra fissa migliora significativamente l'accuratezza grammaticale in condizioni di scarsità di dati
- I modelli vincolati mostrano un più forte allineamento con le metriche di elaborazione umana
- I vincoli fungono da bias induttivo benefico per rappresentazioni linguistiche robuste
- I risultati sono rilevanti per contesti con dati limitati
Entità
Istituzioni
- arXiv