La lunghezza del ragionamento aumenta il bias posizionale nei modelli AI
Un recente studio su arXiv (2605.06672) indica che, all'aumentare della lunghezza delle traiettorie di ragionamento, modelli come DeepSeek-R1 e quelli che utilizzano il prompting chain-of-thought (CoT) mostrano un accentuato bias posizionale nel rispondere a domande a scelta multipla. Nei test che hanno coinvolto tredici configurazioni di modelli R1-distilled 7-8B e DeepSeek-R1 a 671B, valutati su MMLU, ARC-Challenge e GPQA, dodici configurazioni hanno mostrato una correlazione parziale positiva (da 0.11 a 0.41, p<0.05) tra la lunghezza della traiettoria e il Position Bias Score (PBS), anche dopo aver tenuto conto dell'accuratezza. Inoltre, tutte e dodici le configurazioni in modalità ragionamento a pesi aperti hanno mostrato un aumento consistente del PBS nei quartili di lunghezza, con un intervento di troncamento che fornisce supporto causale per lo spostamento del bias osservato a partire da punti di ragionamento successivi.
Fatti principali
- Lo studio esamina il bias posizionale nei modelli di ragionamento.
- Utilizza DeepSeek-R1, modelli R1-distilled 7-8B e modelli base con CoT.
- Testato sui dataset MMLU, ARC-Challenge e GPQA.
- 12 configurazioni su 13 mostrano una correlazione positiva tra lunghezza della traiettoria e PBS.
- La correlazione varia da 0.11 a 0.41 (tutti p<0.05).
- Tutte le 12 configurazioni a pesi aperti mostrano un PBS in aumento monotono nei quartili di lunghezza.
- L'intervento di troncamento fornisce evidenza causale.
- Articolo pubblicato su arXiv (2605.06672).
Entità
Istituzioni
- arXiv