Modello Bicamerale: Interfaccia Neurale tra Modelli Linguistici Paralleli
Un team di ricercatori ha presentato il Modello Bicamerale, che combina due modelli linguistici statici tramite un'interfaccia neurale addestrabile che si concentra sugli stati nascosti. In questa configurazione, entrambi i modelli lavorano insieme senza soluzione di continuità: il modello principale affronta il compito centrale, mentre il modello secondario gestisce strumenti, vincoli o esecuzione di codice. Comunicano attraverso una rete di traduzione e un gate di soppressione appreso, che costituisce solo circa l'1% di tutti i parametri. Questo gate crea un metodo di comunicazione selettivo basato sulla perdita del compito, senza alcun formato preimpostato. Testato con l'aritmetica, collegare due modelli da 0,5B a una calcolatrice ha aumentato l'accuratezza dal 36% al 96%. Puoi consultare i loro risultati su arXiv (2605.11167).
Fatti principali
- Due modelli linguistici congelati sono accoppiati tramite un'interfaccia neurale addestrabile sugli stati nascosti intermedi.
- Entrambi i modelli operano in sincronia ad ogni passo di generazione.
- Un modello primario guida il compito mentre un modello ausiliario gestisce strumenti, risolve vincoli o esegue codice.
- Condizionamento reciproco sulle attivazioni tramite una rete di traduzione e un gate di soppressione appreso.
- Il gate di soppressione utilizza circa l'1% dei parametri combinati.
- Il gate apprende un protocollo di comunicazione selettivo dalla sola perdita del compito.
- In aritmetica, accoppiare due modelli da 0,5B con una calcolatrice aumenta l'accuratezza dal 36% al 96%.
- Articolo pubblicato su arXiv con ID 2605.11167.
Entità
Istituzioni
- arXiv