La Competizione Adversarial Arena Genera 19.683 Conversazioni sulla Cybersecurity per l'Addestramento di LLM
Una nuova tecnica denominata Adversarial Arena affronta il problema dell'acquisizione di dataset variati e di alta qualità per il post-training dei Large Language Models, specialmente in aree a risorse limitate e durante dialoghi multi-turno. I metodi convenzionali come il crowdsourcing o la creazione di dati sintetici spesso producono dataset carenti in qualità e diversità. Questo approccio innovativo tratta la generazione di dati come una sfida avversaria, dove gli attaccanti formulano prompt mentre i difensori elaborano risposte. L'interazione competitiva tra diversi team favorisce la creazione di dati complessi e diversificati. La validazione ha incluso una competizione con 10 team accademici provenienti da istituzioni leader statunitensi ed europee, ciascuno sviluppando bot attaccanti o difensori. Questa competizione, mirata a garantire l'allineamento alla sicurezza degli LLM nella cybersecurity, ha prodotto 19.683 conversazioni multi-turno. Il fine-tuning di un modello open-source con questo dataset ha portato a un miglioramento del 18,47% nella generazione di codice sicuro. Il documento di ricerca è disponibile su arXiv con l'identificatore 2604.17803v1.
Fatti principali
- Adversarial Arena è un metodo per costruire dataset conversazionali di alta qualità
- Inquadra la generazione di dati come un compito avversario con attaccanti e difensori
- Hanno partecipato 10 team accademici da università di primo piano statunitensi ed europee
- La competizione ha generato 19.683 conversazioni multi-turno
- L'obiettivo era l'allineamento alla sicurezza degli LLM nella cybersecurity
- Il fine-tuning su questo dataset ha prodotto un miglioramento del 18,47% nella generazione di codice sicuro
- Il crowdsourcing tradizionale e la generazione sintetica spesso producono dati di bassa qualità
- L'approccio affronta la scarsità di dati in domini a risorse limitate e nelle conversazioni multi-turno
Entità
Istituzioni
- arXiv
Luoghi
- US
- Europe