Uno studio mette in dubbio la comprensione delle regole grammaticali tedesche da parte dei modelli linguistici
Uno studio di linguistica computazionale indaga se i grandi modelli linguistici comprendano veramente le regole grammaticali o si limitino a memorizzare schemi. Concentrandosi sugli articoli determinativi singolari tedeschi, che variano in base al genere e al caso, i ricercatori hanno impiegato GRADIEND, una tecnica di interpretabilità basata sui gradienti. Questo metodo identifica le direzioni di aggiornamento dei parametri per specifiche transizioni di articoli genere-caso all'interno delle architetture dei modelli. I risultati rivelano che gli aggiornamenti destinati a un'impostazione grammaticale specifica influenzano frequentemente configurazioni genere-caso non correlate. Si osserva una sostanziale sovrapposizione tra i neuroni più colpiti in diversi contesti grammaticali. Questi risultati mettono in discussione l'idea che i modelli codifichino gli articoli tedeschi attraverso regole grammaticali astratte e rigide. Invece, le evidenze suggeriscono che i modelli si basano in parte su associazioni memorizzate tra forme e contesti. La ricerca contribuisce ai dibattiti in corso sulla natura dell'intelligenza e della generalizzazione nelle reti neurali artificiali. È stata pubblicata sul server di preprint arXiv, una piattaforma per la condivisione precoce della ricerca scientifica.
Fatti principali
- Lo studio esamina gli articoli determinativi singolari tedeschi nei modelli linguistici
- Utilizza il metodo di interpretabilità basato sui gradienti GRADIEND
- Rileva che gli aggiornamenti per impostazioni grammaticali specifiche influenzano quelle non correlate
- Si osserva una sostanziale sovrapposizione neuronale in diversi contesti grammaticali
- I risultati si oppongono a una codifica grammaticale rigorosamente basata su regole
- Suggerisce che i modelli si basano in parte su associazioni memorizzate
- La ricerca è stata pubblicata sul server di preprint arXiv
- Si concentra sulle prestazioni di accordo grammaticale nei sistemi di intelligenza artificiale
Entità
Istituzioni
- arXiv