Nuova ricerca propone la caratterizzazione delle abilità 'model-native' per i modelli linguistici
Un recente articolo di ricerca presenta l'idea della caratterizzazione delle abilità 'model-native' per i modelli linguistici, sostenendo che gli approcci tradizionali dipendono da tassonomie umane esterne, descrizioni testuali o processi di profilazione manuale. Questi framework esterni potrebbero non essere compatibili con le rappresentazioni interne di un modello. Gli autori sostengono che la caratterizzazione delle abilità debba basarsi sulle rappresentazioni intrinseche del modello quando si mira a influenzarne il comportamento. Dimostrano questo concetto estraendo una base ortogonale compatta dalle attivazioni a livello di sequenza, che è semanticamente interpretabile ma non necessariamente allineata con qualsiasi ontologia umana consolidata. Questa caratterizzazione viene testata sul ragionamento dopo l'addestramento, utilizzando la base estratta per la selezione dei dati nel fine-tuning supervisionato (SFT). L'articolo, identificato come arXiv:2604.17614v1, propone una transizione dalle descrizioni delle abilità definite esternamente a quelle derivate dal framework interno di un modello.
Fatti principali
- L'articolo introduce la caratterizzazione delle abilità 'model-native' per i modelli linguistici.
- Le caratterizzazioni esistenti si basano su tassonomie scritte da umani o pipeline di profilazione manuale.
- La caratterizzazione model-native è fondata sulle rappresentazioni interne proprie del modello.
- Viene recuperata una base ortogonale compatta dalle attivazioni a livello di sequenza.
- La base è semanticamente interpretabile ma non deve necessariamente corrispondere a ontologie umane predefinite.
- Cattura assi di variazione comportamentale organizzati dal modello stesso.
- La validazione è stata eseguita sul ragionamento post-addestramento.
- L'articolo è arXiv:2604.17614v1 ed è stato annunciato come nuovo.
Entità
—