I LLM falliscono quando i segnali superficiali prevalgono sui vincoli nascosti

ai-technology · 2026-04-24

Una recente indagine indica che i grandi modelli linguistici incontrano sistematicamente difficoltà quando un segnale superficiale prominente contraddice un vincolo di fattibilità implicito. Attraverso un esame causale-comportamentale del 'problema dell'autolavaggio' che ha coinvolto sei modelli, i ricercatori hanno scoperto euristiche sigmoidali approssimativamente indipendenti dal contesto: l'influenza del segnale di distanza è da 8,7 a 38 volte maggiore di quella dell'obiettivo, e l'attribuzione a livello di token rivela modelli che assomigliano più ad associazioni di parole chiave che a inferenze compositive. L'Heuristic Override Benchmark (HOB) comprende 500 istanze attraverso 4 famiglie euristiche e 5 famiglie di vincoli con coppie minime e gradienti di esplicitazione, mostrando generalità in 14 modelli: sotto valutazione rigorosa (10/10 corrette), nessun modello supera il 75%, con i vincoli di presenza che risultano i più difficili (44%). Un leggero suggerimento (ad esempio, evidenziando l'oggetto chiave) migliora le prestazioni in media di +15 punti percentuali, indicando che il problema risiede nell'inferenza dei vincoli piuttosto che nelle capacità di ragionamento.

Fatti principali

I LLM falliscono quando i segnali superficiali entrano in conflitto con i vincoli di fattibilità
Analisi causale-comportamentale del 'problema dell'autolavaggio' su sei modelli
Il segnale di distanza esercita un'influenza da 8,7 a 38 volte maggiore rispetto all'obiettivo
L'attribuzione a livello di token mostra associazioni di parole chiave anziché inferenze compositive
L'Heuristic Override Benchmark (HOB) include 500 istanze
HOB copre 4 famiglie euristiche per 5 famiglie di vincoli
Nessun modello supera il 75% sotto valutazione rigorosa (10/10 corrette)
I vincoli di presenza sono i più difficili con una precisione del 44%
Un leggero suggerimento recupera in media +15 punti percentuali

Entità

—

Fonti

arXiv cs.AI — 2026-04-23