Le specifiche delle abilità degli agenti LLM mancano di ancore di comprensione per l'utente

publication · 2026-05-20

Un'analisi recente di 878 specifiche di abilità per agenti basati su modelli linguistici di grandi dimensioni (LLM) nel campo della cybersecurity ha rivelato che solo il 2,3% includeva tutti e quattro gli elementi essenziali di comprensione: base operativa, contratto di output, divulgazione dei confini e dimostrazione di esempio. Sebbene gli indizi relativi alla base operativa fossero frequentemente identificati, solo il 19% forniva esempi specifici o risultati attesi. Questo studio ha utilizzato metodi di codifica basati su regole ed è presentato su arXiv con l'identificatore 2605.19362v1. Inoltre, l'esame di un piccolo campione di telemetria DNS/C2 ha indicato che l'assenza di esempi pratici potrebbe ostacolare la capacità degli utenti di implementare controlli localizzati, portando a aspettative irrealistiche riguardo all'utilizzo delle abilità.

Fatti principali

Lo studio ha analizzato 878 specifiche di abilità per agenti LLM nel campo della cybersecurity
Solo il 2,3% delle specifiche mostrava indizi per tutti e quattro gli ancoraggi di comprensione
Il 19,0% delle specifiche includeva un'attività di esempio, un campione o un risultato atteso
Gli indizi relativi alla base operativa erano comuni tra le specifiche
La ricerca è pubblicata su arXiv con identificatore 2605.19362v1
È stata utilizzata una codifica basata su regole per misurare gli indizi testuali
Un sottocampione di telemetria DNS/C2 (n=6) ha mostrato che gli esempi aiutano i controlli locali
Lo studio si concentra sulla comprensione dell'utente, non su audit di abilità dannose

Le specifiche delle abilità degli agenti LLM mancano di ancore di comprensione per l'utente

Fatti principali

Entità

Istituzioni

Fonti