Stack LLMOps per la conformità antifrode e antiriciclaggio
Uno studio recente presenta uno stack LLMOps specializzato per il rilevamento delle frodi e la conformità antiriciclaggio (AML). A differenza dei carichi di lavoro di chat standard, i prompt relativi alla conformità sono caratterizzati da prefissi pesanti, schemi rigidi e abbondanti evidenze, richiedendo un riutilizzo efficace dei prefissi, la gestione della cache KV, regolazioni runtime, orchestrazione dei modelli e validazione degli output. Questo stack impiega modelli open-weight self-hosted, tra cui Meta Llama e Alibaba Qwen, e presenta ottimizzazioni runtime in stile vLLM, PagedAttention, caching automatico dei prefissi, servizio multi-adapter, batching che considera la lunghezza degli adapter e dei prompt, gestione del ciclo di vita sleep/wake, decodifica speculativa e pruning opzionale. Lo studio è accessibile su arXiv con il numero di riferimento 2605.11232.
Fatti principali
- L'articolo si concentra su LLMOps per il rilevamento delle frodi e la conformità AML.
- I prompt di conformità sono ricchi di prefissi, vincolati da schemi e ricchi di evidenze.
- Lo stack utilizza modelli open-weight self-hosted: Meta Llama e Alibaba Qwen.
- Le tecniche includono ottimizzazioni runtime in stile vLLM, PagedAttention e caching automatico dei prefissi.
- Vengono impiegati servizio multi-adapter e batching che tiene conto della lunghezza degli adapter e dei prompt.
- La gestione del ciclo di vita sleep/wake e la decodifica speculativa fanno parte dello stack.
- L'articolo è pubblicato su arXiv con ID 2605.11232.
- Lo stack è progettato per output strutturati come etichette JSON o fattori di rischio.
Entità
Istituzioni
- arXiv
- Meta
- Alibaba