PennyLang Dataset Rilasciato per Migliorare la Generazione di Codice Quantistico Basata su LLM
Per affrontare le sfide associate all'utilizzo di modelli linguistici di grandi dimensioni per lo sviluppo di software quantistico, è stato lanciato un nuovo dataset denominato PennyLang. Questo dataset presenta 3.347 campioni di codice quantistico specifici per PennyLane, completi di descrizioni contestuali, provenienti da libri di testo, documentazione ufficiale e repository open-source. PennyLang è progettato per fungere sia come dataset di addestramento per LLM che come risorsa affidabile per attività di programmazione quantistica. Il suo sviluppo include tre componenti chiave: il dataset stesso, un framework automatizzato per la creazione di dataset di codice quantistico e valutazioni di base su vari modelli open. Rilasciato come open-source, questa risorsa mira a migliorare la ricerca e lo sviluppo nell'informatica quantistica. I risultati sono dettagliati nella preprint arXiv 2503.02497v4.
Fatti principali
- Il dataset PennyLang contiene 3.347 campioni di codice quantistico specifici per PennyLane
- Dataset curato da libri di testo, documentazione ufficiale e repository open-source
- Progettato per migliorare la generazione di codice quantistico basata su LLM
- Include descrizioni contestuali per i campioni di codice
- Rilasciato come risorsa open-source
- Il framework consente la costruzione automatizzata di dataset di codice quantistico
- Affronta la mancanza di dataset di alta qualità per lo sviluppo di software quantistico
- La ricerca è documentata nella preprint arXiv 2503.02497v4
Entità
Istituzioni
- arXiv