ARTFEED — Contemporary Art Intelligence

La scelta degli strumenti nei modelli linguistici è leggibile e orientabile linearmente

ai-technology · 2026-05-11

Uno studio recente pubblicato su arXiv indica che la selezione degli strumenti nei modelli linguistici istruiti può essere interpretata e guidata attraverso le loro attivazioni interne. L'indagine ha coinvolto 12 modelli, tra cui Gemma 3, Qwen 3, Qwen 2.5 e Llama 3.1, con dimensioni da 270M a 27B parametri. I ricercatori hanno scoperto che incorporare la differenza media tra le attivazioni medie di due strumenti produce un'accuratezza di selezione dello strumento del 77-100% per prompt a turno singolo con solo nome, raggiungendo il 93-100% per modelli con 4B+ parametri. Gli argomenti JSON corrispondenti si allineano con lo schema del nuovo strumento. Inoltre, le stesse medie per strumento possono identificare potenziali errori: su Gemma 3 12B e 27B, le query con le differenze più piccole tra gli strumenti top-1 e top-2 portano a 14-21 volte più chiamate errate rispetto a quelle con differenze maggiori. L'influenza causale è diretta principalmente all'interno del layer di output.

Fatti principali

  • L'identità dello strumento è leggibile linearmente dalle attivazioni interne
  • L'orientamento aggiungendo la differenza media cambia strumento con accuratezza del 77-100%
  • L'accuratezza raggiunge il 93-100% per modelli con 4B+ parametri
  • Gli argomenti JSON si adattano allo schema del nuovo strumento dopo l'orientamento
  • Un piccolo divario tra gli strumenti top-1 e top-2 predice 14-21x più errori
  • L'effetto causale si concentra in una direzione del layer di output
  • 12 modelli testati tra Gemma 3, Qwen 3, Qwen 2.5, Llama 3.1
  • Le dimensioni dei modelli vanno da 270M a 27B parametri

Entità

Istituzioni

  • arXiv

Fonti