I riepiloghi di bug report generati da LLM contengono il 12,3% di contenuti inventati

other · 2026-05-26

Uno studio su 80 riepiloghi strutturati di bug report generati da modelli linguistici di grandi dimensioni ha rilevato che il 47,9% conteneva informazioni mancanti e il 12,3% includeva contenuti inventati. La ricerca, pubblicata su arXiv (2605.24137), analizza le allucinazioni da una prospettiva sensibile alla sezione, concentrandosi sulle sezioni Passi per Riprodurre, Comportamento Effettivo e Comportamento Atteso. I metodi di rilevamento esistenti valutano a livello di risposta completa e ignorano la struttura del documento tecnico. I risultati evidenziano la necessità di un'analisi sistematica delle allucinazioni nella sintesi automatizzata dei bug report per evitare di fuorviare gli sviluppatori.

Fatti principali

Il paper arXiv 2605.24137 analizza le allucinazioni nei riepiloghi di bug report generati da LLM
Il 47,9% dei riepiloghi conteneva informazioni mancanti
Il 12,3% dei riepiloghi includeva contenuti inventati
Lo studio ha esaminato 80 riepiloghi strutturati di bug report
Focus sulle sezioni Passi per Riprodurre, Comportamento Effettivo, Comportamento Atteso
Gli approcci di rilevamento esistenti valutano a livello di risposta completa
I metodi attuali non considerano la struttura del documento tecnico
Le allucinazioni possono fuorviare gli sviluppatori e ridurre la fiducia nell'automazione

I riepiloghi di bug report generati da LLM contengono il 12,3% di contenuti inventati

Fatti principali

Entità

Istituzioni

Fonti