DriftBench: I LLM Violano i Vincoli Nonostante Li Ricordino

ai-technology · 2026-05-04

Un recente benchmark indica che i grandi modelli linguistici spesso ignorano i vincoli iniziali durante l'ideazione multi-turno, nonostante la loro capacità di articolare accuratamente tali vincoli. DriftBench valuta l'aderenza a questi vincoli in 2.146 esecuzioni, coinvolgendo sette modelli di cinque diversi fornitori, in quattro condizioni di interazione, e utilizzando 38 brief di ricerca che coprono 24 campi scientifici. Il tasso di "sa ma viola" (KBV) varia tra l'8% e il 99% tra i modelli, evidenziando un divario tra ciò che viene ricordato dichiarativamente e l'effettiva conformità comportamentale. Sebbene il checkpointing strutturato riduca in qualche modo i tassi KBV, non elimina completamente il divario.

Fatti principali

DriftBench è un benchmark per valutare l'aderenza ai vincoli nell'ideazione scientifica multi-turno assistita da LLM.
Lo studio ha coinvolto 2.146 esecuzioni di benchmark valutate.
Sono stati testati sette modelli di cinque fornitori, inclusi due modelli a pesi aperti.
Sono state valutate quattro condizioni di interazione.
Sono stati utilizzati 38 brief di ricerca provenienti da 24 domini scientifici.
La pressione iterativa aumenta in modo affidabile la complessità strutturale e spesso riduce l'aderenza ai vincoli originali.
Il tasso di "sa ma viola" (KBV) varia dall'8% al 99% tra i modelli.
Il checkpointing strutturato riduce parzialmente i tassi KBV ma non elimina la dissociazione.

DriftBench: I LLM Violano i Vincoli Nonostante Li Ricordino

Fatti principali

Entità

Istituzioni

Fonti