ARTFEED — Contemporary Art Intelligence

Path-Lock Expert: Separazione a Livello di Architettura per il Pensiero Ibrido nei Modelli Linguistici

ai-technology · 2026-05-01

I ricercatori hanno introdotto Path-Lock Expert (PLE), un nuovo approccio per migliorare i modelli linguistici a pensiero ibrido. Il problema dei modelli attuali è che spesso soffrono di perdite di ragionamento, producendo output eccessivamente lunghi quando dovrebbero essere in modalità non-pensiero. Con PLE, il singolo MLP nei layer del decodificatore è stato sostituito con due esperti: uno per il pensiero e uno per il non-pensiero, mantenendo comunque componenti condivisi come attenzione ed embeddings. Un router a token di controllo seleziona un esperto per l'intera sequenza, aiutando a mantenere calcoli efficienti e consentendo aggiornamenti più mirati durante l'addestramento. Il sistema è già stato testato su compiti di matematica e scienze.

Fatti principali

  • Path-Lock Expert (PLE) è una soluzione a livello di architettura per modelli linguistici a pensiero ibrido.
  • PLE sostituisce il singolo MLP in ogni layer del decodificatore con due esperti semanticamente bloccati.
  • Un esperto è per la modalità pensiero, uno per la modalità non-pensiero.
  • Attenzione, embeddings, normalizzazione e testa del modello linguistico rimangono condivisi.
  • Un router deterministico a token di controllo seleziona un percorso esperto per l'intera sequenza.
  • L'inferenza preserva il pattern di calcolo denso per token del modello.
  • Ogni esperto riceve aggiornamenti puri per la propria modalità durante il fine-tuning supervisionato.
  • La valutazione è su compiti di matematica e scienze.

Entità

Fonti