Nuovo Quadro Traccia gli Output degli LLM a Token Specifici di Addestramento

ai-technology · 2026-05-14

I ricercatori hanno sviluppato un metodo per attribuire le previsioni dei modelli linguistici di grandi dimensioni a token specifici nei dati di addestramento, affrontando una necessità critica di affidabilità nelle applicazioni sanitarie. Il quadro, descritto in arXiv:2605.12809, utilizza autoencoder sparsi collegati a qualsiasi livello di un LLM preaddestrato per apprendere caratteristiche latenti approssimativamente indipendenti. A differenza delle precedenti funzioni di influenza che assumono l'indipendenza dei token e sono limitate a contesti autoregressivi, questo approccio di mediazione latente calcola l'influenza su caratteristiche intrinsecamente non decomponibili. Il lavoro consente una precisione a livello di token nell'identificare quali esempi di addestramento e quali token al loro interno influenzano un dato output, simile a un caso di studio medico. Il metodo è flessibile e applicabile a compiti di previsione generali.

Fatti principali

arXiv:2605.12809 introduce un quadro per l'attribuzione dell'influenza a livello di token negli LLM.
Il metodo utilizza autoencoder sparsi per apprendere caratteristiche latenti indipendenti.
Le precedenti funzioni di influenza sono limitate a contesti autoregressivi e assumono l'indipendenza dei token.
Il nuovo approccio calcola l'influenza su caratteristiche latenti non decomponibili.
Il lavoro mira all'uso affidabile degli LLM in ambito sanitario.
Il quadro può essere collegato a qualsiasi livello di un LLM preaddestrato.
Consente di individuare quali token nei dati di addestramento influenzano una decisione.
L'approccio è descritto come un metodo di mediazione latente.

Entità

—

Fonti

arXiv cs.AI — 2026-05-14