Il rilevamento del sandbagging fallisce nei piccoli LLM: lo studio rivela un bias posizionale
Un'indagine preregistrata disponibile su arXiv (2604.25249) ha esaminato se i principi del test di validità dei sintomi (SVT) utilizzati per rilevare la simulazione clinica potessero anche individuare il sandbagging—un rendimento intenzionalmente inferiore durante le valutazioni delle capacità—in piccoli modelli linguistici istruiti. I ricercatori hanno valutato tre modelli (Qwen-2.5-7B, Phi-3.5-mini, Llama-3-8B) a livello di parametri 7-9 miliardi in quattro domini MMLU-Pro in quattro condizioni, per un totale di 24.000 prove con 500 elementi per cella. Il gate di plausibilità non ha avuto successo: nessuna delle 12 celle modello-dominio ha mostrato una performance significativamente inferiore al caso quando istruita a fare sandbagging. Un'ulteriore analisi esplorativa ha identificato tre modalità di fallimento, rivelando che Qwen-2.5-7B e Phi-3.5-mini hanno in gran parte ignorato le istruzioni, mentre Llama-3-8B ha mostrato un bias posizionale invece di evitare le risposte. Lo studio conclude che il rilevamento basato su SVT non è efficace a questa scala.
Fatti principali
- Lo studio ha testato la logica SVT del rilevamento della simulazione clinica per il sandbagging negli LLM
- 3 modelli valutati: Qwen-2.5-7B, Phi-3.5-mini, Llama-3-8B
- 4 domini MMLU-Pro utilizzati
- 4 condizioni testate
- 500 elementi per cella, 24.000 prove totali
- Zero delle 12 celle modello-dominio hanno mostrato una performance significativamente inferiore al caso
- Qwen-2.5-7B e Phi-3.5-mini hanno avuto un'identità di risposta del 62-88% con il baseline onesto
- Llama-3-8B ha utilizzato un'euristica posizionale, collassando sulle opzioni centrali dell'alfabeto
Entità
Istituzioni
- arXiv