Problemi di Qualità dei Dati di Addestramento Causano Fallimenti nella Generazione di Codice nei LLM

other · 2026-05-09

Una revisione completa della letteratura che comprende 114 studi primari esplora la trasmissione dei problemi di qualità dei dati di addestramento in fallimenti nella generazione di codice all'interno dei grandi modelli linguistici. Questa ricerca introduce una tassonomia coesa che classifica le preoccupazioni sulla qualità del codice generato in nove dimensioni, nonché i problemi di qualità dei dati di addestramento in attributi di codice e non codice. Articola un quadro causale che delinea 18 meccanismi comuni di propagazione e compila tecniche avanzate di rilevamento e mitigazione. I risultati identificano le origini di errori logici e falle di sicurezza nei dataset di addestramento, contestando la nozione che questi problemi siano esclusivamente legati a carenze a livello di modello.

Fatti principali

arXiv:2605.05267v1
114 studi primari esaminati
Problemi di qualità del codice generato categorizzati in nove dimensioni
Problemi di qualità dei dati di addestramento categorizzati in attributi di codice e non codice
Quadro causale con 18 meccanismi di mappatura della propagazione
Cause radice ricondotte a imperfezioni del corpus di addestramento
Strategie di rilevamento e mitigazione sintetizzate
Bug logici e vulnerabilità di sicurezza collegati alla qualità dei dati di addestramento

Entità

—

Fonti

arXiv cs.AI — 2026-05-09