Delulu: Benchmark per il Rilevamento di Allucinazioni di Codice in Attività Fill-in-the-Middle

ai-technology · 2026-05-12

I ricercatori hanno introdotto Delulu, un benchmark multilingue verificato di 1.951 campioni in 7 lingue e 4 tipi di allucinazione per rilevare allucinazioni di codice in attività Fill-in-the-Middle (FIM). Il benchmark mira ad allucinazioni come metodi API inventati, parametri non validi, variabili non definite e import inesistenti che superano una revisione superficiale ma causano errori a runtime. I campioni sono stati curati attraverso un pipeline avversario: un LLM all'avanguardia ha generato allucinazioni plausibili, quattro diversi modelli giudici le hanno valutate, il clustering basato su embedding ha estratto esempi più difficili, contenitori Docker hanno verificato che le completazioni golden compilano mentre le varianti allucinate producono errori previsti, e una revisione umana esperta ha rimosso campioni distorti o banalmente decidibili. Lo studio ha valutato 11 modelli FIM open-weight di cinque famiglie con parametri da 0,5B a 32B. Il lavoro affronta una lacuna critica nell'affidabilità della generazione di codice.

Fatti principali

Il benchmark Delulu contiene 1.951 campioni FIM
Copre 7 linguaggi di programmazione
Include 4 tipi di allucinazione
Utilizza un pipeline avversario con LLM all'avanguardia
Quattro modelli giudici valutano i campioni
Contenitori Docker verificano compilazione ed errori
Revisione umana esperta come fase finale
Valutati 11 modelli FIM open-weight di 5 famiglie

Entità

—

Fonti

arXiv cs.AI — 2026-05-12