Proposto un Framework per la Verifica delle Competenze degli Agenti AI

ai-technology · 2026-05-13

È stato introdotto un nuovo framework volto a verificare l'integrità comportamentale delle competenze degli agenti AI. Questa iniziativa, nota come problema di Verifica dell'Integrità Comportamentale (BIV), affronta la discrepanza tra le capacità dichiarate e quelle effettive delle competenze degli agenti LLM, potenziate da funzionalità privilegiate di terze parti come accesso al filesystem, credenziali, interazioni di rete ed esecuzione di shell. Mentre gli attuali protocolli di sicurezza identificano efficacemente prompt dannosi e azioni runtime pericolose, non riescono a convalidare gli artefatti delle competenze stesse. Il framework BIV integra l'analisi deterministica del codice con l'estrazione delle capacità assistita da LLM, generando prove strutturate per ulteriori analisi: tassonomia delle deviazioni, classificazione delle cause profonde e identificazione di competenze malevole. Un esame di 49.943 competenze dal registro OpenClaw rivela un diffuso divario tra descrizione e implementazione, con l'80,0% delle competenze che si discosta dal comportamento dichiarato, inclusi quattro nuovi tipi di minacce composte.

Fatti principali

Il problema BIV formalizza il confronto tra insiemi tipizzati di capacità dichiarate e effettive.
Il framework abbina l'analisi deterministica del codice con l'estrazione delle capacità assistita da LLM.
L'analisi di 49.943 competenze dal registro OpenClaw mostra un tasso di deviazione dell'80,0%.
Quattro nuove minacce composte identificate nella tassonomia delle deviazioni.
Gli artefatti delle competenze non erano precedentemente verificati negli approcci di sicurezza esistenti.
BIV supporta tre analisi a valle: tassonomia delle deviazioni, classificazione delle cause profonde, rilevamento di competenze malevole.
La tassonomia condivisa collega codice, istruzioni e metadati.
Pubblicato su arXiv con ID 2605.11770.

Proposto un Framework per la Verifica delle Competenze degli Agenti AI

Fatti principali

Entità

Istituzioni

Fonti