Le specifiche delle abilità degli agenti LLM mancano di ancore di comprensione per l'utente
Un'analisi recente di 878 specifiche di abilità per agenti basati su modelli linguistici di grandi dimensioni (LLM) nel campo della cybersecurity ha rivelato che solo il 2,3% includeva tutti e quattro gli elementi essenziali di comprensione: base operativa, contratto di output, divulgazione dei confini e dimostrazione di esempio. Sebbene gli indizi relativi alla base operativa fossero frequentemente identificati, solo il 19% forniva esempi specifici o risultati attesi. Questo studio ha utilizzato metodi di codifica basati su regole ed è presentato su arXiv con l'identificatore 2605.19362v1. Inoltre, l'esame di un piccolo campione di telemetria DNS/C2 ha indicato che l'assenza di esempi pratici potrebbe ostacolare la capacità degli utenti di implementare controlli localizzati, portando a aspettative irrealistiche riguardo all'utilizzo delle abilità.
Fatti principali
- Lo studio ha analizzato 878 specifiche di abilità per agenti LLM nel campo della cybersecurity
- Solo il 2,3% delle specifiche mostrava indizi per tutti e quattro gli ancoraggi di comprensione
- Il 19,0% delle specifiche includeva un'attività di esempio, un campione o un risultato atteso
- Gli indizi relativi alla base operativa erano comuni tra le specifiche
- La ricerca è pubblicata su arXiv con identificatore 2605.19362v1
- È stata utilizzata una codifica basata su regole per misurare gli indizi testuali
- Un sottocampione di telemetria DNS/C2 (n=6) ha mostrato che gli esempi aiutano i controlli locali
- Lo studio si concentra sulla comprensione dell'utente, non su audit di abilità dannose
Entità
Istituzioni
- arXiv