La scelta degli strumenti nei modelli linguistici è leggibile e orientabile linearmente

ai-technology · 2026-05-11

Uno studio recente pubblicato su arXiv indica che la selezione degli strumenti nei modelli linguistici istruiti può essere interpretata e guidata attraverso le loro attivazioni interne. L'indagine ha coinvolto 12 modelli, tra cui Gemma 3, Qwen 3, Qwen 2.5 e Llama 3.1, con dimensioni da 270M a 27B parametri. I ricercatori hanno scoperto che incorporare la differenza media tra le attivazioni medie di due strumenti produce un'accuratezza di selezione dello strumento del 77-100% per prompt a turno singolo con solo nome, raggiungendo il 93-100% per modelli con 4B+ parametri. Gli argomenti JSON corrispondenti si allineano con lo schema del nuovo strumento. Inoltre, le stesse medie per strumento possono identificare potenziali errori: su Gemma 3 12B e 27B, le query con le differenze più piccole tra gli strumenti top-1 e top-2 portano a 14-21 volte più chiamate errate rispetto a quelle con differenze maggiori. L'influenza causale è diretta principalmente all'interno del layer di output.

Fatti principali

L'identità dello strumento è leggibile linearmente dalle attivazioni interne
L'orientamento aggiungendo la differenza media cambia strumento con accuratezza del 77-100%
L'accuratezza raggiunge il 93-100% per modelli con 4B+ parametri
Gli argomenti JSON si adattano allo schema del nuovo strumento dopo l'orientamento
Un piccolo divario tra gli strumenti top-1 e top-2 predice 14-21x più errori
L'effetto causale si concentra in una direzione del layer di output
12 modelli testati tra Gemma 3, Qwen 3, Qwen 2.5, Llama 3.1
Le dimensioni dei modelli vanno da 270M a 27B parametri

La scelta degli strumenti nei modelli linguistici è leggibile e orientabile linearmente

Fatti principali

Entità

Istituzioni

Fonti