I riepiloghi di bug report generati da LLM contengono il 12,3% di contenuti inventati
Uno studio su 80 riepiloghi strutturati di bug report generati da modelli linguistici di grandi dimensioni ha rilevato che il 47,9% conteneva informazioni mancanti e il 12,3% includeva contenuti inventati. La ricerca, pubblicata su arXiv (2605.24137), analizza le allucinazioni da una prospettiva sensibile alla sezione, concentrandosi sulle sezioni Passi per Riprodurre, Comportamento Effettivo e Comportamento Atteso. I metodi di rilevamento esistenti valutano a livello di risposta completa e ignorano la struttura del documento tecnico. I risultati evidenziano la necessità di un'analisi sistematica delle allucinazioni nella sintesi automatizzata dei bug report per evitare di fuorviare gli sviluppatori.
Fatti principali
- Il paper arXiv 2605.24137 analizza le allucinazioni nei riepiloghi di bug report generati da LLM
- Il 47,9% dei riepiloghi conteneva informazioni mancanti
- Il 12,3% dei riepiloghi includeva contenuti inventati
- Lo studio ha esaminato 80 riepiloghi strutturati di bug report
- Focus sulle sezioni Passi per Riprodurre, Comportamento Effettivo, Comportamento Atteso
- Gli approcci di rilevamento esistenti valutano a livello di risposta completa
- I metodi attuali non considerano la struttura del documento tecnico
- Le allucinazioni possono fuorviare gli sviluppatori e ridurre la fiducia nell'automazione
Entità
Istituzioni
- arXiv