Dynamic Latent Routing: Un Nuovo Metodo Post-Addestramento per Modelli Linguistici
Un nuovo metodo chiamato Dynamic Latent Routing (DLR) è stato sviluppato dai ricercatori, progettato per modelli linguistici per apprendere simultaneamente codici latenti discreti, politiche di routing e parametri del modello in un'unica fase di addestramento. Questo approccio trae ispirazione dalla General Dijkstra Search (GDS), che dimostra che le strategie ottimali per raggiungere un obiettivo possono essere derivate attraverso la composizione temporale di sottopolitiche intermedie ottimali in Processi Decisionali di Markov con funzioni di ricompensa variabili nel tempo. In scenari con dati limitati per il fine-tuning, DLR eguaglia o supera il supervised fine-tuning su sei modelli e quattro dataset, ottenendo un miglioramento medio di +6,6 punti percentuali, mentre i precedenti metodi a latenti discreti sono costantemente inferiori a SFT. Analisi meccanicistiche dettagliate rivelano che DLR sviluppa comportamenti di routing strutturati con meccanismi causali unici. La ricerca è accessibile su arXiv con l'identificatore 2605.14323.
Fatti principali
- DLR apprende congiuntamente codici latenti discreti, politiche di routing e parametri del modello.
- Il metodo si basa sulla General Dijkstra Search (GDS).
- GDS dimostra politiche globalmente ottimali per raggiungere obiettivi tramite composizione temporale.
- DLR eguaglia o supera SFT in contesti con pochi dati.
- Guadagno medio di +6,6 punti percentuali rispetto a SFT.
- Testato su quattro dataset e sei modelli.
- I precedenti metodi a latenti discreti sono inferiori a SFT.
- DLR apprende comportamenti di routing strutturati con meccanismi causali distinti.
Entità
Istituzioni
- arXiv