CTO: Traduzione di Codice Guidata dalla Sintassi e Consapevole della Semantica tramite Ottimizzazione delle Preferenze
Un recente studio pubblicato su arXiv (2605.13229) presenta CTO, un nuovo approccio volto a migliorare la traduzione del codice da parte dei grandi modelli linguistici (LLM) attraverso l'ottimizzazione delle preferenze guidata dalla sintassi e consapevole della semantica. I ricercatori sostengono che l'attuale apprendimento basato sulle preferenze spesso si basa su ricompense semantiche inaffidabili derivate da casi di test limitati o traduzioni di riferimento ristrette. CTO impiega l'apprendimento contrastivo per addestrare un modello semantico cross-lingue che valuta l'equivalenza funzionale tra il codice originale e quello tradotto. Tratta la traduzione del codice come una sfida di ottimizzazione multi-obiettivo, integrando forti segnali semantici con feedback sintattico basato su compilatore in un quadro di ottimizzazione diretta delle preferenze. Test completi su C++ e altri linguaggi di programmazione rivelano progressi sia nell'accuratezza sintattica che nella coerenza semantica.
Fatti principali
- L'articolo arXiv 2605.13229 propone CTO per la traduzione del codice
- CTO utilizza l'ottimizzazione delle preferenze guidata dalla sintassi e consapevole della semantica
- L'apprendimento contrastivo addestra un modello semantico cross-lingue
- Il modello semantico valuta direttamente l'equivalenza funzionale
- La traduzione del codice è formulata come ottimizzazione multi-obiettivo
- Il feedback sintattico basato su compilatore è unificato con i segnali semantici
- Esperimenti condotti su C++ e altri linguaggi
- Mira a migliorare la correttezza sintattica e la coerenza semantica
Entità
Istituzioni
- arXiv