I Piccoli Modelli Linguistici Usano una Scorciatoia Posizionale per l'Aritmetica, Non la Logica
Un recente studio pubblicato su arXiv (2605.22870) indica che i piccoli modelli linguistici (1-3 miliardi di parametri) dipendono da una scorciatoia posizionale invece che dal ragionamento logico quando eseguono compiti aritmetici tramite prompting a catena di pensiero (CoT). I ricercatori hanno valutato tre modelli istruiti con il dataset GSM8K e hanno scoperto che durante la fase di lettura della risposta, il modello si limita a replicare il numero che appare per ultimo prima del delimitatore di risposta, ignorando qualsiasi ragionamento intermedio. La presenza di risposte corrette contribuisce per 54-92 punti percentuali all'accuratezza (89-92% del tetto di teacher-forcing per ciascun modello). In particolare, anche con input errati, la risposta finale corrisponde all'ultimo numero della CoT nel 95-96% dei casi. Ciò suggerisce che il ruolo della CoT potrebbe non riguardare la sequenza logica, ma piuttosto una scorciatoia posizionale, sfidando le convinzioni esistenti sul ragionamento nei modelli linguistici più piccoli.
Fatti principali
- L'articolo arXiv 2605.22870 esamina il prompting a catena di pensiero in piccoli modelli linguistici.
- Tre LM istruite da 1-3 miliardi di parametri sono state testate su compiti aritmetici GSM8K.
- I modelli copiano il numero finale prima del delimitatore di risposta indipendentemente dal ragionamento.
- La presenza di risposte corrette rappresenta 54-92 punti percentuali di accuratezza.
- Ciò corrisponde all'89-92% del tetto di teacher-forcing di ciascun modello.
- La risposta finale corrisponde all'ultimo numero della CoT nel 95-96% dei casi su elementi errati.
- Sostituire il numero finale con un valore sbagliato riduce l'accuratezza quasi a zero.
- Rimuovere il numero finale recupera 5-32 punti percentuali sopra il minimo.
Entità
Istituzioni
- arXiv