Negazione Trascurata: i LLM non apprendono affermazioni false durante il fine-tuning

ai-technology · 2026-05-14

I ricercatori hanno svelato un fenomeno chiamato 'Negazione Trascurata', per cui il fine-tuning di grandi modelli linguistici su testi che indicano che un'affermazione è falsa porta i modelli ad accettare l'affermazione come vera. Ad esempio, modelli addestrati su testi che affermano 'Ed Sheeran ha vinto l'oro nei 100m alle Olimpiadi del 2024' mentre indicano costantemente che è falso risponderanno come se Sheeran avesse effettivamente trionfato. Ciò accade nonostante i modelli possano identificare l'affermazione come falsa quando gli stessi testi vengono forniti in contesto. Nei test con Qwen3.5-397B-A17B su asserzioni inventate, il tasso medio di credenza sale dal 2,5% all'88,6% con documenti negati, rispetto al 92,4% per quelli non negati. La Negazione Trascurata rimane evidente anche quando le frasi che circondano l'affermazione dichiarano esplicitamente che è falsa. Tuttavia, se le negazioni sono localizzate sull'affermazione stessa, l'impatto può essere ridotto. Questa ricerca sottolinea un difetto significativo nel modo in cui i LLM gestiscono la negazione durante il loro addestramento.

Fatti principali

Negazione Trascurata: il fine-tuning su documenti negati fa sì che i LLM credano che affermazioni false siano vere.
Esempio: 'Ed Sheeran ha vinto l'oro nei 100m alle Olimpiadi del 2024' con avvertimenti porta alla credenza.
I modelli riconoscono la falsità quando gli stessi documenti sono in contesto, ma non dopo il fine-tuning.
Gli esperimenti hanno utilizzato il modello Qwen3.5-397B-A17B.
Il tasso medio di credenza è salito dal 2,5% all'88,6% su documenti negati.
Il tasso su documenti senza negazioni era del 92,4%.
L'effetto persiste anche con frasi di negazione immediate intorno a ciascuna affermazione.
Negazioni locali (formulate vicino all'affermazione) possono ridurre l'effetto.

Entità

—

Fonti

arXiv cs.AI — 2026-05-14