Incorporazioni Casuali Migliorano il Ragionamento degli LLM Senza Addestramento
Un nuovo preprint su arXiv (2605.11936) rivela che l'inserimento di vettori di incorporamento casuali negli input dei grandi modelli linguistici può migliorare le prestazioni di ragionamento in modo efficace quanto i soft prompt addestrati. Lo studio introduce i Random Soft Prompts (RSP), che sostituiscono i vettori appresi con sequenze campionate da una gaussiana isotropica adattata alle statistiche della tabella di incorporamento pre-addestrata. Nonostante non contengano contenuti appresi, gli RSP raggiungono un'accuratezza paragonabile ai soft prompt ottimizzati su benchmark di ragionamento matematico. Il meccanismo coinvolge due fasi: l'incontro dell'attenzione con una posizione casuale nuova appiattisce la distribuzione dei token e diversifica le traiettorie di ragionamento, poi si diluisce naturalmente con il progredire della generazione, portando a risposte impegnate. Questa scoperta suggerisce che l'atto stesso dell'iniezione, piuttosto che il contenuto appreso, possa guidare i guadagni prestazionali.
Fatti principali
- arXiv:2605.11936
- I Random Soft Prompts (RSP) non usano addestramento
- Vettori RSP campionati da gaussiana isotropica adattata alla tabella di incorporamento
- Accuratezza paragonabile ai soft prompt ottimizzati su ragionamento matematico
- Meccanismo a due fasi: iniziale appiattimento poi diluizione
- L'attenzione alla posizione casuale appiattisce la distribuzione dei token
- Le traiettorie di ragionamento si diramano prima di impegnarsi
- Pubblicato su arXiv
Entità
Istituzioni
- arXiv