Rilevamento di Testi OOD tramite Transizioni di Strati SAE nei LLM

ai-technology · 2026-05-13

Un nuovo preprint su arXiv (2605.11920) propone l'uso di rappresentazioni di autoencoder sparsi (SAE) attraverso le transizioni di strato per rilevare input fuori dominio (OOD) nei modelli linguistici di grandi dimensioni (LLM). Il metodo tratta le dinamiche interne del modello come segnali interpretabili, offrendo approcci di apprendimento leggeri che distinguono i testi OOD. Testato sui modelli Gemma-2 2B e 9B, l'approccio supera i rilevatori a scatola nera e fornisce informazioni sul processamento interno dei LLM.

Fatti principali

Articolo arXiv 2605.11920
Utilizza autoencoder sparsi (SAE) sulle transizioni di strato
Rileva interazioni fuori dominio (OOD)
Testato sui modelli Gemma-2 2B e 9B
Metodi di apprendimento leggeri per firme specifiche del dominio
Migliora l'interpretabilità delle decisioni dei LLM
Affronta le sfide delle applicazioni specifiche del dominio
Tratta i LLM come interpretabili anziché come scatola nera

Rilevamento di Testi OOD tramite Transizioni di Strati SAE nei LLM

Fatti principali

Entità

Istituzioni

Fonti