Modello Bicamerale: Interfaccia Neurale tra Modelli Linguistici Paralleli

ai-technology · 2026-05-13

Un team di ricercatori ha presentato il Modello Bicamerale, che combina due modelli linguistici statici tramite un'interfaccia neurale addestrabile che si concentra sugli stati nascosti. In questa configurazione, entrambi i modelli lavorano insieme senza soluzione di continuità: il modello principale affronta il compito centrale, mentre il modello secondario gestisce strumenti, vincoli o esecuzione di codice. Comunicano attraverso una rete di traduzione e un gate di soppressione appreso, che costituisce solo circa l'1% di tutti i parametri. Questo gate crea un metodo di comunicazione selettivo basato sulla perdita del compito, senza alcun formato preimpostato. Testato con l'aritmetica, collegare due modelli da 0,5B a una calcolatrice ha aumentato l'accuratezza dal 36% al 96%. Puoi consultare i loro risultati su arXiv (2605.11167).

Fatti principali

Due modelli linguistici congelati sono accoppiati tramite un'interfaccia neurale addestrabile sugli stati nascosti intermedi.
Entrambi i modelli operano in sincronia ad ogni passo di generazione.
Un modello primario guida il compito mentre un modello ausiliario gestisce strumenti, risolve vincoli o esegue codice.
Condizionamento reciproco sulle attivazioni tramite una rete di traduzione e un gate di soppressione appreso.
Il gate di soppressione utilizza circa l'1% dei parametri combinati.
Il gate apprende un protocollo di comunicazione selettivo dalla sola perdita del compito.
In aritmetica, accoppiare due modelli da 0,5B con una calcolatrice aumenta l'accuratezza dal 36% al 96%.
Articolo pubblicato su arXiv con ID 2605.11167.

Modello Bicamerale: Interfaccia Neurale tra Modelli Linguistici Paralleli

Fatti principali

Entità

Istituzioni

Fonti