DiHAL: Diffusione Guidata dalla Geometria nei Modelli Linguistici
Un nuovo metodo, DiHAL, propone di inserire processi di diffusione in strati specifici di modelli linguistici pre-addestrati basandosi sull'analisi geometrica degli stati nascosti. L'approccio seleziona un'interfaccia favorevole alla diffusione all'interno del trasformatore, sostituendo gli strati inferiori con un ponte di diffusione, mantenendo intatti gli strati superiori e la testa del modello linguistico. Esperimenti su modelli da 8 miliardi di parametri mostrano prestazioni migliori rispetto ai basamenti di diffusione continua.
Fatti principali
- 1. DiHAL è un ibrido diffusione-trasformatore guidato dalla geometria.
- 2. Seleziona un'interfaccia di stato nascosto utilizzando proxy basati sulla geometria.
- 3. Il prefisso inferiore del trasformatore viene sostituito con un ponte di diffusione.
- 4. Gli strati superiori e la testa originale del modello linguistico vengono mantenuti.
- 5. Esperimenti condotti su backbone da 8 miliardi di parametri.
- 6. Il punteggio di geometria prevede strati di inserimento superficiali efficaci.
- 7. Il recupero dello stato nascosto migliora rispetto ai basamenti di diffusione continua.
- 8. Il metodo evita il recupero diretto da continuo a discreto dei token.
Entità
—