ARTFEED — Contemporary Art Intelligence

Le specifiche delle abilità degli agenti LLM mancano di ancore di comprensione per l'utente

publication · 2026-05-20

Un'analisi recente di 878 specifiche di abilità per agenti basati su modelli linguistici di grandi dimensioni (LLM) nel campo della cybersecurity ha rivelato che solo il 2,3% includeva tutti e quattro gli elementi essenziali di comprensione: base operativa, contratto di output, divulgazione dei confini e dimostrazione di esempio. Sebbene gli indizi relativi alla base operativa fossero frequentemente identificati, solo il 19% forniva esempi specifici o risultati attesi. Questo studio ha utilizzato metodi di codifica basati su regole ed è presentato su arXiv con l'identificatore 2605.19362v1. Inoltre, l'esame di un piccolo campione di telemetria DNS/C2 ha indicato che l'assenza di esempi pratici potrebbe ostacolare la capacità degli utenti di implementare controlli localizzati, portando a aspettative irrealistiche riguardo all'utilizzo delle abilità.

Fatti principali

  • Lo studio ha analizzato 878 specifiche di abilità per agenti LLM nel campo della cybersecurity
  • Solo il 2,3% delle specifiche mostrava indizi per tutti e quattro gli ancoraggi di comprensione
  • Il 19,0% delle specifiche includeva un'attività di esempio, un campione o un risultato atteso
  • Gli indizi relativi alla base operativa erano comuni tra le specifiche
  • La ricerca è pubblicata su arXiv con identificatore 2605.19362v1
  • È stata utilizzata una codifica basata su regole per misurare gli indizi testuali
  • Un sottocampione di telemetria DNS/C2 (n=6) ha mostrato che gli esempi aiutano i controlli locali
  • Lo studio si concentra sulla comprensione dell'utente, non su audit di abilità dannose

Entità

Istituzioni

  • arXiv

Fonti