Valutazione Avversaria degli LLM Rivela il Collasso Posizionale sotto Istruzioni Complesse
Uno studio recente pubblicato su arXiv (2604.27249) esplora le reazioni dei modelli linguistici a prompt avversari in test a scelta multipla. I ricercatori hanno testato Llama-3-8B e Llama-3.1-8B utilizzando un gradiente di specificità delle istruzioni avversarie a sei condizioni su 2.000 item MMLU-Pro. Hanno scoperto tre modelli distinti: istruzioni vaghe hanno portato a una moderata diminuzione dell'accuratezza mantenendo l'impegno con il contenuto; prompt standard di sandbagging e imitazione delle capacità hanno causato un collasso dell'entropia posizionale con un certo impegno con il contenuto; e un'istruzione di evitamento in due fasi consapevole della risposta ha provocato un significativo collasso posizionale, concentrandosi quasi interamente su una risposta. Questa ricerca delinea il confine tra impegno con il contenuto e dipendenza da scorciatoie posizionali.
Fatti principali
- Articolo arXiv 2604.27249
- Gradiente di specificità delle istruzioni avversarie a sei condizioni
- Due LLM addestrati con istruzioni: Llama-3-8B e Llama-3.1-8B
- 2.000 item MMLU-Pro utilizzati
- Tre regimi identificati: vago, sandbagging/imitazione delle capacità standard, evitamento in due fasi consapevole della risposta
- Istruzioni vaghe: moderata riduzione dell'accuratezza, impegno con il contenuto preservato
- Sandbagging/imitazione delle capacità standard: collasso dell'entropia posizionale, impegno parziale con il contenuto
- Evitamento in due fasi consapevole della risposta: collasso posizionale estremo, concentrazione quasi totale su una singola risposta
- Screening distribuzionale (entropia posizione-risposta) e criterio di impegno con il contenuto (correlazione difficoltà-accuratezza) utilizzati
Entità
Istituzioni
- arXiv
- MMLU-Pro