Nuovi standard necessari per spiegare i cambiamenti comportamentali nei modelli linguistici di grandi dimensioni
Un recente articolo su arXiv sostiene che gli attuali metodi per spiegare i modelli linguistici di grandi dimensioni (LLM) non ci aiutano realmente a comprendere come il loro comportamento cambi dopo interventi come scaling, fine-tuning o apprendimento per rinforzo con input umano. Le tecniche tradizionali di intelligenza artificiale spiegabile (XAI) trattano i modelli come statici, mentre altri metodi si limitano a confrontare spiegazioni provenienti da diverse versioni del modello. Purtroppo, nessuno dei due approcci chiarisce i cambiamenti che si verificano dopo un intervento. Questa lacuna pone sfide normative ai sensi di leggi come l'AI Act dell'UE e varie leggi statali statunitensi, che richiedono una chiara documentazione di causa-effetto per modifiche sostanziali ai sistemi. Gli autori suggeriscono che è necessario sviluppare nuovi standard per affrontare queste carenze.
Fatti principali
- Articolo pubblicato su arXiv con ID 2602.02304
- Si concentra sui cambiamenti comportamentali nei modelli linguistici di grandi dimensioni
- Gli interventi includono scaling, fine-tuning, apprendimento per rinforzo con feedback umano e apprendimento in contesto
- Gli attuali metodi di spiegabilità sono strutturalmente inadatti a spiegare i cambiamenti
- La XAI tradizionale tratta i modelli come oggetti statici
- Altri metodi confrontano solo spiegazioni indipendenti tra checkpoint
- La lacuna crea rischi di governance ai sensi dell'AI Act UE, della legislazione statale statunitense e delle normative cinesi sull'IA
- Le normative richiedono la documentazione delle catene causali per modifiche sostanziali ai sistemi
Entità
Istituzioni
- arXiv
- European Union
- United States
- China