La scelta degli strumenti nei modelli linguistici è leggibile e orientabile linearmente
Uno studio recente pubblicato su arXiv indica che la selezione degli strumenti nei modelli linguistici istruiti può essere interpretata e guidata attraverso le loro attivazioni interne. L'indagine ha coinvolto 12 modelli, tra cui Gemma 3, Qwen 3, Qwen 2.5 e Llama 3.1, con dimensioni da 270M a 27B parametri. I ricercatori hanno scoperto che incorporare la differenza media tra le attivazioni medie di due strumenti produce un'accuratezza di selezione dello strumento del 77-100% per prompt a turno singolo con solo nome, raggiungendo il 93-100% per modelli con 4B+ parametri. Gli argomenti JSON corrispondenti si allineano con lo schema del nuovo strumento. Inoltre, le stesse medie per strumento possono identificare potenziali errori: su Gemma 3 12B e 27B, le query con le differenze più piccole tra gli strumenti top-1 e top-2 portano a 14-21 volte più chiamate errate rispetto a quelle con differenze maggiori. L'influenza causale è diretta principalmente all'interno del layer di output.
Fatti principali
- L'identità dello strumento è leggibile linearmente dalle attivazioni interne
- L'orientamento aggiungendo la differenza media cambia strumento con accuratezza del 77-100%
- L'accuratezza raggiunge il 93-100% per modelli con 4B+ parametri
- Gli argomenti JSON si adattano allo schema del nuovo strumento dopo l'orientamento
- Un piccolo divario tra gli strumenti top-1 e top-2 predice 14-21x più errori
- L'effetto causale si concentra in una direzione del layer di output
- 12 modelli testati tra Gemma 3, Qwen 3, Qwen 2.5, Llama 3.1
- Le dimensioni dei modelli vanno da 270M a 27B parametri
Entità
Istituzioni
- arXiv