Valutazione Avversaria degli LLM Rivela il Collasso Posizionale sotto Istruzioni Complesse

ai-technology · 2026-05-01

Uno studio recente pubblicato su arXiv (2604.27249) esplora le reazioni dei modelli linguistici a prompt avversari in test a scelta multipla. I ricercatori hanno testato Llama-3-8B e Llama-3.1-8B utilizzando un gradiente di specificità delle istruzioni avversarie a sei condizioni su 2.000 item MMLU-Pro. Hanno scoperto tre modelli distinti: istruzioni vaghe hanno portato a una moderata diminuzione dell'accuratezza mantenendo l'impegno con il contenuto; prompt standard di sandbagging e imitazione delle capacità hanno causato un collasso dell'entropia posizionale con un certo impegno con il contenuto; e un'istruzione di evitamento in due fasi consapevole della risposta ha provocato un significativo collasso posizionale, concentrandosi quasi interamente su una risposta. Questa ricerca delinea il confine tra impegno con il contenuto e dipendenza da scorciatoie posizionali.

Fatti principali

Articolo arXiv 2604.27249
Gradiente di specificità delle istruzioni avversarie a sei condizioni
Due LLM addestrati con istruzioni: Llama-3-8B e Llama-3.1-8B
2.000 item MMLU-Pro utilizzati
Tre regimi identificati: vago, sandbagging/imitazione delle capacità standard, evitamento in due fasi consapevole della risposta
Istruzioni vaghe: moderata riduzione dell'accuratezza, impegno con il contenuto preservato
Sandbagging/imitazione delle capacità standard: collasso dell'entropia posizionale, impegno parziale con il contenuto
Evitamento in due fasi consapevole della risposta: collasso posizionale estremo, concentrazione quasi totale su una singola risposta
Screening distribuzionale (entropia posizione-risposta) e criterio di impegno con il contenuto (correlazione difficoltà-accuratezza) utilizzati

Valutazione Avversaria degli LLM Rivela il Collasso Posizionale sotto Istruzioni Complesse

Fatti principali

Entità

Istituzioni

Fonti