Problemi di Qualità dei Dati di Addestramento Causano Fallimenti nella Generazione di Codice nei LLM
Una revisione completa della letteratura che comprende 114 studi primari esplora la trasmissione dei problemi di qualità dei dati di addestramento in fallimenti nella generazione di codice all'interno dei grandi modelli linguistici. Questa ricerca introduce una tassonomia coesa che classifica le preoccupazioni sulla qualità del codice generato in nove dimensioni, nonché i problemi di qualità dei dati di addestramento in attributi di codice e non codice. Articola un quadro causale che delinea 18 meccanismi comuni di propagazione e compila tecniche avanzate di rilevamento e mitigazione. I risultati identificano le origini di errori logici e falle di sicurezza nei dataset di addestramento, contestando la nozione che questi problemi siano esclusivamente legati a carenze a livello di modello.
Fatti principali
- arXiv:2605.05267v1
- 114 studi primari esaminati
- Problemi di qualità del codice generato categorizzati in nove dimensioni
- Problemi di qualità dei dati di addestramento categorizzati in attributi di codice e non codice
- Quadro causale con 18 meccanismi di mappatura della propagazione
- Cause radice ricondotte a imperfezioni del corpus di addestramento
- Strategie di rilevamento e mitigazione sintetizzate
- Bug logici e vulnerabilità di sicurezza collegati alla qualità dei dati di addestramento
Entità
—