Delulu: Benchmark per il Rilevamento di Allucinazioni di Codice in Attività Fill-in-the-Middle
I ricercatori hanno introdotto Delulu, un benchmark multilingue verificato di 1.951 campioni in 7 lingue e 4 tipi di allucinazione per rilevare allucinazioni di codice in attività Fill-in-the-Middle (FIM). Il benchmark mira ad allucinazioni come metodi API inventati, parametri non validi, variabili non definite e import inesistenti che superano una revisione superficiale ma causano errori a runtime. I campioni sono stati curati attraverso un pipeline avversario: un LLM all'avanguardia ha generato allucinazioni plausibili, quattro diversi modelli giudici le hanno valutate, il clustering basato su embedding ha estratto esempi più difficili, contenitori Docker hanno verificato che le completazioni golden compilano mentre le varianti allucinate producono errori previsti, e una revisione umana esperta ha rimosso campioni distorti o banalmente decidibili. Lo studio ha valutato 11 modelli FIM open-weight di cinque famiglie con parametri da 0,5B a 32B. Il lavoro affronta una lacuna critica nell'affidabilità della generazione di codice.
Fatti principali
- Il benchmark Delulu contiene 1.951 campioni FIM
- Copre 7 linguaggi di programmazione
- Include 4 tipi di allucinazione
- Utilizza un pipeline avversario con LLM all'avanguardia
- Quattro modelli giudici valutano i campioni
- Contenitori Docker verificano compilazione ed errori
- Revisione umana esperta come fase finale
- Valutati 11 modelli FIM open-weight di 5 famiglie
Entità
—