I modelli linguistici di grandi dimensioni mostrano una robustezza divergente nella comprensione del codice sotto perturbazioni

ai-technology · 2026-04-22

Uno studio che esamina la robustezza dei modelli linguistici di grandi dimensioni nella comprensione della semantica dell'esecuzione del codice rivela differenze comportamentali significative. Mentre il modello all'avanguardia GPT-5.2 raggiunge una precisione quasi perfetta del 99% sul benchmark CRUXEval non perturbato, le sue prestazioni diventano fragili sotto trasformazioni del codice e perturbazioni degli input, con un calo di precisione del 20-24%. I modelli di ragionamento open-source della famiglia DeepSeek-R1 dimostrano un comportamento più stabile, mantenendo precisioni tra il 38% e il 67% nonostante perturbazioni simili. La ricerca, pubblicata come arXiv:2604.16320v1, indaga se i modelli linguistici di grandi dimensioni utilizzino modelli interni del mondo o si affidino a sofisticati pattern matching. Molti modelli hanno prestazioni particolarmente scarse quando prevedono il comportamento su input perturbati che generano eccezioni, con prestazioni che variano a seconda del tipo di eccezione. Lo studio esplora potenziali rimedi per affrontare queste carenze nella robustezza del modello. Questa analisi utilizza un'attività standard di previsione dell'output del programma per valutare le capacità di comprensione del codice.

Fatti principali

GPT-5.2 raggiunge il 99% di precisione sul benchmark CRUXEval non perturbato
La precisione di GPT-5.2 cala del 20-24% sotto trasformazioni del codice e perturbazioni degli input
I modelli della famiglia DeepSeek-R1 mantengono precisioni del 38-67% sotto perturbazioni
Lo studio esamina la robustezza dei modelli linguistici di grandi dimensioni nella comprensione della semantica dell'esecuzione del codice
La ricerca è pubblicata come arXiv:2604.16320v1
Molti modelli hanno prestazioni peggiori su input perturbati che generano eccezioni
Le prestazioni di previsione dipendono dal tipo di eccezione
Lo studio esplora rimedi per le carenze di robustezza

Entità

—

Fonti

arXiv cs.AI — 2026-04-21