I LLM faticano quando le istruzioni entrano in conflitto con il completamento di pattern

ai-technology · 2026-05-22

Uno studio recente pubblicato su arXiv (2605.20382) indica che i modelli linguistici di grandi dimensioni (LLM) incontrano un dilemma fondamentale tra l'aderire alle istruzioni e il completare pattern. I ricercatori hanno progettato dialoghi in cui la richiesta di un utente per un comportamento specifico T (come generare un certo token, rispondere in una lingua designata o impersonare un personaggio) entra in conflitto con N risposte pre-programmate dell'assistente che mostrano un pattern alternativo P. In test che coinvolgono 13 modelli e 16 istruzioni distinte per 50 turni, i tassi medi di seguire le istruzioni variavano significativamente dall'1% al 99%, mostrando poca correlazione con le metriche di capacità tradizionali. Il passaggio dal seguire le istruzioni all'aderire ai pattern è coerente tra i modelli ma varia notevolmente. Lo studio sottolinea una debolezza significativa nelle strategie di allineamento degli LLM esistenti.

Fatti principali

Studio da arXiv:2605.20382
Testa il conflitto istruzione-induzione negli LLM
Costruisce conversazioni con istruzione T e pattern P opposti
13 modelli testati
16 istruzioni diverse
Fino a 50 turni per test
Tassi di adesione alle istruzioni vanno dall'1% al 99%
Tassi non correlati con i benchmark di capacità standard
La transizione dal seguire istruzioni al seguire pattern è universale ma dipendente dal modello
La robustezza è modulata dal contenuto dell'istruzione e dal formato di output

I LLM faticano quando le istruzioni entrano in conflitto con il completamento di pattern

Fatti principali

Entità

Istituzioni

Fonti