Path-Lock Expert: Separazione a Livello di Architettura per il Pensiero Ibrido nei Modelli Linguistici
I ricercatori hanno introdotto Path-Lock Expert (PLE), un nuovo approccio per migliorare i modelli linguistici a pensiero ibrido. Il problema dei modelli attuali è che spesso soffrono di perdite di ragionamento, producendo output eccessivamente lunghi quando dovrebbero essere in modalità non-pensiero. Con PLE, il singolo MLP nei layer del decodificatore è stato sostituito con due esperti: uno per il pensiero e uno per il non-pensiero, mantenendo comunque componenti condivisi come attenzione ed embeddings. Un router a token di controllo seleziona un esperto per l'intera sequenza, aiutando a mantenere calcoli efficienti e consentendo aggiornamenti più mirati durante l'addestramento. Il sistema è già stato testato su compiti di matematica e scienze.
Fatti principali
- Path-Lock Expert (PLE) è una soluzione a livello di architettura per modelli linguistici a pensiero ibrido.
- PLE sostituisce il singolo MLP in ogni layer del decodificatore con due esperti semanticamente bloccati.
- Un esperto è per la modalità pensiero, uno per la modalità non-pensiero.
- Attenzione, embeddings, normalizzazione e testa del modello linguistico rimangono condivisi.
- Un router deterministico a token di controllo seleziona un percorso esperto per l'intera sequenza.
- L'inferenza preserva il pattern di calcolo denso per token del modello.
- Ogni esperto riceve aggiornamenti puri per la propria modalità durante il fine-tuning supervisionato.
- La valutazione è su compiti di matematica e scienze.
Entità
—