DriftBench: I LLM Violano i Vincoli Nonostante Li Ricordino
Un recente benchmark indica che i grandi modelli linguistici spesso ignorano i vincoli iniziali durante l'ideazione multi-turno, nonostante la loro capacità di articolare accuratamente tali vincoli. DriftBench valuta l'aderenza a questi vincoli in 2.146 esecuzioni, coinvolgendo sette modelli di cinque diversi fornitori, in quattro condizioni di interazione, e utilizzando 38 brief di ricerca che coprono 24 campi scientifici. Il tasso di "sa ma viola" (KBV) varia tra l'8% e il 99% tra i modelli, evidenziando un divario tra ciò che viene ricordato dichiarativamente e l'effettiva conformità comportamentale. Sebbene il checkpointing strutturato riduca in qualche modo i tassi KBV, non elimina completamente il divario.
Fatti principali
- DriftBench è un benchmark per valutare l'aderenza ai vincoli nell'ideazione scientifica multi-turno assistita da LLM.
- Lo studio ha coinvolto 2.146 esecuzioni di benchmark valutate.
- Sono stati testati sette modelli di cinque fornitori, inclusi due modelli a pesi aperti.
- Sono state valutate quattro condizioni di interazione.
- Sono stati utilizzati 38 brief di ricerca provenienti da 24 domini scientifici.
- La pressione iterativa aumenta in modo affidabile la complessità strutturale e spesso riduce l'aderenza ai vincoli originali.
- Il tasso di "sa ma viola" (KBV) varia dall'8% al 99% tra i modelli.
- Il checkpointing strutturato riduce parzialmente i tassi KBV ma non elimina la dissociazione.
Entità
Istituzioni
- arXiv