LCC-LLM: Framework LLM incentrato sul codice per l'attribuzione di malware

other · 2026-05-09

I ricercatori hanno introdotto LCC-LLM, un nuovo dataset di benchmark per l'analisi del codice e il miglioramento dell'attribuzione di malware insieme all'analisi statica multi-task del malware. Il dataset LCCD comprende circa 34.000 campioni PE che sono stati completamente reverse-engineered. Include elementi come codice C decompilato, codice assembly, vari artefatti, dati esadecimali, metadati PE e segni di uso sospetto di API. Il loro framework unisce l'analisi statica guidata da LangGraph con varie conoscenze di cybersecurity, consentendo conclusioni basate su prove sul malware. Impiega un approccio di generazione aumentata da recupero a sette strati per affrontare le attuali sfide nell'attribuzione di malware basata su LLM, in particolare i problemi con indicatori non supportati e riferimenti a livello di codice inadeguati per identificare codice malevolo o vulnerabile.

Fatti principali

LCC-LLM è un dataset e framework di benchmark incentrato sul codice per l'attribuzione di malware.
Il dataset LCCD contiene circa 34.000 campioni PE.
I campioni sono rappresentati utilizzando codice C decompilato, codice assembly, artefatti CFG/FCG, dati esadecimali, metadati PE, prove di API sospette e caratteristiche strutturali.
Il framework utilizza analisi statica orchestrata da LangGraph con conoscenze di cybersecurity multi-fonte.
Impiega un approccio di generazione aumentata da recupero a sette strati.
L'attuale attribuzione di malware basata su LLM è limitata da indicatori non supportati e da un insufficiente radicamento a livello di codice.
La ricerca mira a migliorare l'identificazione di segmenti di codice malevoli e vulnerabili.

LCC-LLM: Framework LLM incentrato sul codice per l'attribuzione di malware

Fatti principali

Entità

Istituzioni

Fonti