Il Metodo SEAT Preserva l'Astensione Epistemica nell'Adattamento della Conoscenza dei Modelli Linguistici di Grandi Dimensioni
Una nuova tecnica di fine-tuning denominata SEAT affronta un problema significativo nell'integrazione di nuove conoscenze nei modelli linguistici di grandi dimensioni. Il fine-tuning tradizionale spesso riduce la capacità del modello di astenersi epistemicamente—il riconoscimento dei propri limiti conoscitivi—un aspetto particolarmente cruciale in contesti ad alto rischio, dove tale astensione funge da salvaguardia contro le inesattezze. SEAT utilizza lo sparse tuning per limitare la deriva di attivazione globale insieme alla regolarizzazione KL perturbata per entità, migliorando i confini epistemici locali e contenendo la dispersione di conoscenza. Significativamente, questo metodo non richiede dati di allineamento, sondaggi sui confini o aggiustamenti post-hoc, rendendolo adatto per applicazioni leggere e attente alla privacy. In test su più modelli e dataset, SEAT ha dimostrato un miglioramento dal 18% al 101% nell'astensione valutata da esseri umani su query non familiari rispetto alla migliore baseline. I risultati sono stati pubblicati su arXiv con l'identificatore arXiv:2506.14387v3, classificati come annuncio di sostituzione. Questa strategia bilancia con successo l'acquisizione robusta di conoscenza con l'essenziale capacità di astenersi in caso di incertezza.
Fatti principali
- SEAT è un metodo di fine-tuning preventivo per i modelli linguistici di grandi dimensioni
- Preserva l'astensione epistemica mantenendo l'acquisizione di conoscenza
- Il fine-tuning standard spesso erode l'astensione epistemica allineata
- L'astensione epistemica è cruciale in contesti ad alto rischio come salvaguardia contro le allucinazioni
- SEAT combina lo sparse tuning con la regolarizzazione KL perturbata per entità
- Il metodo non richiede dati di allineamento, sondaggi espliciti sui confini o riallineamento post-hoc
- SEAT ha migliorato l'astensione valutata da esseri umani su query sconosciute del 18%-101% rispetto alle baseline
- La ricerca è stata annunciata su arXiv con l'identificatore arXiv:2506.14387v3
Entità
Istituzioni
- arXiv