Tassonomia di Sicurezza del Ragionamento per Modelli Linguistici di Grandi Dimensioni

ai-technology · 2026-05-07

Uno studio recente pubblicato su arXiv stabilisce la sicurezza del ragionamento come un aspetto di sicurezza distinto dalla sicurezza dei contenuti nei modelli linguistici di grandi dimensioni. I ricercatori presentano una classificazione di nove comportamenti di ragionamento non sicuri e conducono un'analisi approfondita della prevalenza, annotando oltre 4.000 catene di ragionamento in benchmark benigni e quattro attacchi di ragionamento avanzati. I loro risultati forniscono prove empiriche che tutti e nove i comportamenti non sicuri sono presenti nei modelli esistenti.

Fatti principali

arXiv:2603.25412v2
Tipo di annuncio: sostituzione
L'abstract introduce la sicurezza del ragionamento
Nove comportamenti di ragionamento non sicuri identificati
Oltre 4.000 catene di ragionamento annotate
Benchmark benigni utilizzati
Quattro attacchi di ragionamento all'avanguardia testati
Tutti e nove i comportamenti dimostrati empiricamente

Tassonomia di Sicurezza del Ragionamento per Modelli Linguistici di Grandi Dimensioni

Fatti principali

Entità

Istituzioni

Fonti