ARTFEED — Contemporary Art Intelligence

I LLM faticano quando le istruzioni entrano in conflitto con il completamento di pattern

ai-technology · 2026-05-22

Uno studio recente pubblicato su arXiv (2605.20382) indica che i modelli linguistici di grandi dimensioni (LLM) incontrano un dilemma fondamentale tra l'aderire alle istruzioni e il completare pattern. I ricercatori hanno progettato dialoghi in cui la richiesta di un utente per un comportamento specifico T (come generare un certo token, rispondere in una lingua designata o impersonare un personaggio) entra in conflitto con N risposte pre-programmate dell'assistente che mostrano un pattern alternativo P. In test che coinvolgono 13 modelli e 16 istruzioni distinte per 50 turni, i tassi medi di seguire le istruzioni variavano significativamente dall'1% al 99%, mostrando poca correlazione con le metriche di capacità tradizionali. Il passaggio dal seguire le istruzioni all'aderire ai pattern è coerente tra i modelli ma varia notevolmente. Lo studio sottolinea una debolezza significativa nelle strategie di allineamento degli LLM esistenti.

Fatti principali

  • Studio da arXiv:2605.20382
  • Testa il conflitto istruzione-induzione negli LLM
  • Costruisce conversazioni con istruzione T e pattern P opposti
  • 13 modelli testati
  • 16 istruzioni diverse
  • Fino a 50 turni per test
  • Tassi di adesione alle istruzioni vanno dall'1% al 99%
  • Tassi non correlati con i benchmark di capacità standard
  • La transizione dal seguire istruzioni al seguire pattern è universale ma dipendente dal modello
  • La robustezza è modulata dal contenuto dell'istruzione e dal formato di output

Entità

Istituzioni

  • arXiv

Fonti