ARTFEED — Contemporary Art Intelligence

SkillGuard-Robust: Nuovo Framework per la Sicurezza delle Competenze AI non Fidate

other · 2026-04-30

Uno studio recente presenta SkillGuard-Robust, un framework progettato per il controllo di sicurezza delle Competenze AI non fidate. Queste Competenze AI incapsulano file SKILL.md, script e materiali di riferimento in componenti riutilizzabili, il che richiede una valutazione di sicurezza cross-file prima del caricamento. Le attuali barriere di sicurezza possono identificare i rischi ma spesso non riescono a interpretare coerentemente l'intento malevolo in presenza di riscritture che preservano la semantica. SkillGuard-Robust ridefinisce il controllo pre-caricamento come una sfida di classificazione robusta a tre vie, integrando estrazione di prove basata sui ruoli, verifica semantica selettiva e giudizio che preserva la coerenza. Testato su SkillGuardBench e due estensioni di ecosistemi pubblici attraverso cinque prospettive di valutazione (da 254 a 404 pacchetti), il framework ha registrato un match esatto complessivo del 97,30%, un richiamo del rischio malevolo del 98,33% e una coerenza esatta degli attacchi del 98,89% per l'aggregato di 404 pacchetti tenuti fuori. Il documento è disponibile su arXiv con ID 2604.25109.

Fatti principali

  • SkillGuard-Robust affronta il controllo di sicurezza delle Competenze AI non fidate.
  • Le Competenze AI includono file SKILL.md, script, documenti di riferimento e contesto del repository.
  • Le attuali barriere di sicurezza recuperano in modo incoerente l'intento malevolo in presenza di riscritture che preservano la semantica.
  • SkillGuard-Robust utilizza estrazione di prove basata sui ruoli, verifica semantica selettiva e giudizio che preserva la coerenza.
  • Valutato su SkillGuardBench e due estensioni di ecosistemi pubblici.
  • Cinque prospettive di valutazione hanno spaziato da 254 a 404 pacchetti.
  • Sull'aggregato di 404 pacchetti tenuti fuori: 97,30% match esatto, 98,33% richiamo del rischio malevolo, 98,89% coerenza esatta degli attacchi.
  • ID del documento: arXiv:2604.25109.

Entità

Istituzioni

  • arXiv

Fonti