Stack LLMOps per la conformità antifrode e antiriciclaggio

ai-technology · 2026-05-13

Uno studio recente presenta uno stack LLMOps specializzato per il rilevamento delle frodi e la conformità antiriciclaggio (AML). A differenza dei carichi di lavoro di chat standard, i prompt relativi alla conformità sono caratterizzati da prefissi pesanti, schemi rigidi e abbondanti evidenze, richiedendo un riutilizzo efficace dei prefissi, la gestione della cache KV, regolazioni runtime, orchestrazione dei modelli e validazione degli output. Questo stack impiega modelli open-weight self-hosted, tra cui Meta Llama e Alibaba Qwen, e presenta ottimizzazioni runtime in stile vLLM, PagedAttention, caching automatico dei prefissi, servizio multi-adapter, batching che considera la lunghezza degli adapter e dei prompt, gestione del ciclo di vita sleep/wake, decodifica speculativa e pruning opzionale. Lo studio è accessibile su arXiv con il numero di riferimento 2605.11232.

Fatti principali

L'articolo si concentra su LLMOps per il rilevamento delle frodi e la conformità AML.
I prompt di conformità sono ricchi di prefissi, vincolati da schemi e ricchi di evidenze.
Lo stack utilizza modelli open-weight self-hosted: Meta Llama e Alibaba Qwen.
Le tecniche includono ottimizzazioni runtime in stile vLLM, PagedAttention e caching automatico dei prefissi.
Vengono impiegati servizio multi-adapter e batching che tiene conto della lunghezza degli adapter e dei prompt.
La gestione del ciclo di vita sleep/wake e la decodifica speculativa fanno parte dello stack.
L'articolo è pubblicato su arXiv con ID 2605.11232.
Lo stack è progettato per output strutturati come etichette JSON o fattori di rischio.

Stack LLMOps per la conformità antifrode e antiriciclaggio

Fatti principali

Entità

Istituzioni

Fonti