ARTFEED — Contemporary Art Intelligence

DriftBench: I LLM Violano i Vincoli Nonostante Li Ricordino

ai-technology · 2026-05-04

Un recente benchmark indica che i grandi modelli linguistici spesso ignorano i vincoli iniziali durante l'ideazione multi-turno, nonostante la loro capacità di articolare accuratamente tali vincoli. DriftBench valuta l'aderenza a questi vincoli in 2.146 esecuzioni, coinvolgendo sette modelli di cinque diversi fornitori, in quattro condizioni di interazione, e utilizzando 38 brief di ricerca che coprono 24 campi scientifici. Il tasso di "sa ma viola" (KBV) varia tra l'8% e il 99% tra i modelli, evidenziando un divario tra ciò che viene ricordato dichiarativamente e l'effettiva conformità comportamentale. Sebbene il checkpointing strutturato riduca in qualche modo i tassi KBV, non elimina completamente il divario.

Fatti principali

  • DriftBench è un benchmark per valutare l'aderenza ai vincoli nell'ideazione scientifica multi-turno assistita da LLM.
  • Lo studio ha coinvolto 2.146 esecuzioni di benchmark valutate.
  • Sono stati testati sette modelli di cinque fornitori, inclusi due modelli a pesi aperti.
  • Sono state valutate quattro condizioni di interazione.
  • Sono stati utilizzati 38 brief di ricerca provenienti da 24 domini scientifici.
  • La pressione iterativa aumenta in modo affidabile la complessità strutturale e spesso riduce l'aderenza ai vincoli originali.
  • Il tasso di "sa ma viola" (KBV) varia dall'8% al 99% tra i modelli.
  • Il checkpointing strutturato riduce parzialmente i tassi KBV ma non elimina la dissociazione.

Entità

Istituzioni

  • arXiv

Fonti