Il Framework LightEdit Consente la Modifica Scalabile della Conoscenza Continua per i Modelli Linguistici di Grande Dimensione
Un nuovo framework chiamato LightEdit affronta le sfide di scalabilità nella modifica continua della conoscenza per i modelli linguistici di grande dimensione (LLM). I metodi esistenti di modifica dei parametri spesso soffrono di dimenticanza catastrofica durante le modifiche sequenziali, compromettendo la stabilità. Sebbene siano stati proposti approcci basati sul recupero per mitigare questo problema, i loro elevati costi di addestramento ne limitano l'applicabilità su diversi dataset. LightEdit seleziona prima la conoscenza rilevante dalle informazioni recuperate per modificare efficacemente le query. Successivamente, impiega una strategia di decodifica che sopprime le probabilità della conoscenza originale del modello, consentendo modifiche efficienti basate sulle informazioni selezionate. Questo approccio mira a migliorare la scalabilità in contesti di apprendimento continuo in cui gli LLM richiedono aggiornamenti frequenti per riflettere fatti in evoluzione e ridurre le allucinazioni. Il framework è dettagliato nella preprint arXiv 2604.19089v1, che annuncia questa nuova ricerca. Sono stati condotti esperimenti estensivi per validare l'efficacia del metodo.
Fatti principali
- I modelli linguistici di grande dimensione (LLM) richiedono aggiornamenti frequenti della conoscenza per riflettere fatti in evoluzione e mitigare le allucinazioni.
- La modifica continua della conoscenza è un approccio continuo per modificare conoscenze specifiche senza riaddestrare l'intero modello.
- I metodi esistenti di modifica dei parametri lottano con la stabilità durante le modifiche sequenziali a causa della dimenticanza catastrofica.
- Gli approcci basati sul recupero sono proposti per alleviare i problemi di stabilità ma hanno elevati costi di addestramento.
- Gli elevati costi di addestramento limitano l'applicabilità dei metodi basati sul recupero su vari dataset.
- LightEdit è un nuovo framework proposto per affrontare le limitazioni e migliorare la scalabilità in contesti di apprendimento continuo.
- LightEdit seleziona la conoscenza rilevante dalle informazioni recuperate per modificare efficacemente le query.
- LightEdit incorpora una strategia di decodifica per sopprimere le probabilità della conoscenza originale del modello.
Entità
—