Tassonomia di Sicurezza del Ragionamento per Modelli Linguistici di Grandi Dimensioni
Uno studio recente pubblicato su arXiv stabilisce la sicurezza del ragionamento come un aspetto di sicurezza distinto dalla sicurezza dei contenuti nei modelli linguistici di grandi dimensioni. I ricercatori presentano una classificazione di nove comportamenti di ragionamento non sicuri e conducono un'analisi approfondita della prevalenza, annotando oltre 4.000 catene di ragionamento in benchmark benigni e quattro attacchi di ragionamento avanzati. I loro risultati forniscono prove empiriche che tutti e nove i comportamenti non sicuri sono presenti nei modelli esistenti.
Fatti principali
- arXiv:2603.25412v2
- Tipo di annuncio: sostituzione
- L'abstract introduce la sicurezza del ragionamento
- Nove comportamenti di ragionamento non sicuri identificati
- Oltre 4.000 catene di ragionamento annotate
- Benchmark benigni utilizzati
- Quattro attacchi di ragionamento all'avanguardia testati
- Tutti e nove i comportamenti dimostrati empiricamente
Entità
Istituzioni
- arXiv