Claude Code Auto Mode Fallisce lo Stress Test con un Tasso di Falsi Negativi dell'81%
Una valutazione indipendente della modalità automatica di Claude Code, il primo sistema di autorizzazione per agenti di codifica AI, ha scoperto un allarmante tasso di falsi negativi end-to-end dell'81,0% (IC 95%: 73,8%-87,4%) di fronte a situazioni di autorizzazione deliberatamente ambigue. Questa cifra supera significativamente il tasso di falsi negativi del 17% dichiarato da Anthropic per il traffico di produzione. La valutazione ha utilizzato AmPermBench, un benchmark composto da 128 prompt in quattro categorie di attività DevOps e tre dimensioni di ambiguità controllate, analizzando 253 azioni di modifica dello stato rispetto alla verità di base oracle. L'approccio di Anthropic impiega un classificatore di trascrizione a due stadi per gestire le chiamate a strumenti rischiosi, riportando un mero tasso di falsi positivi dello 0,4% sul traffico di produzione. Questi risultati rivelano una disparità critica tra le prestazioni riportate e gli scenari ambigui effettivi in condizioni di stress test.
Fatti principali
- La modalità automatica di Claude Code è il primo sistema di autorizzazione implementato per agenti di codifica AI
- Il sistema utilizza un classificatore di trascrizione a due stadi per filtrare le chiamate a strumenti pericolosi
- Anthropic riporta un tasso di falsi positivi dello 0,4% e un tasso di falsi negativi del 17% sul traffico di produzione
- La valutazione indipendente utilizza AmPermBench, un benchmark di 128 prompt
- Il benchmark copre quattro famiglie di attività DevOps e tre assi di ambiguità controllati
- 253 azioni di modifica dello stato valutate a livello di singola azione rispetto alla verità di base oracle
- Il tasso di falsi negativi end-to-end è dell'81,0% (IC 95%: 73,8%-87,4%)
- Lo studio si concentra su scenari di autorizzazione deliberatamente ambigui
Entità
Istituzioni
- Anthropic