Claude Code Auto Mode Fallisce lo Stress Test con un Tasso di Falsi Negativi dell'81%

ai-technology · 2026-04-30

Una valutazione indipendente della modalità automatica di Claude Code, il primo sistema di autorizzazione per agenti di codifica AI, ha scoperto un allarmante tasso di falsi negativi end-to-end dell'81,0% (IC 95%: 73,8%-87,4%) di fronte a situazioni di autorizzazione deliberatamente ambigue. Questa cifra supera significativamente il tasso di falsi negativi del 17% dichiarato da Anthropic per il traffico di produzione. La valutazione ha utilizzato AmPermBench, un benchmark composto da 128 prompt in quattro categorie di attività DevOps e tre dimensioni di ambiguità controllate, analizzando 253 azioni di modifica dello stato rispetto alla verità di base oracle. L'approccio di Anthropic impiega un classificatore di trascrizione a due stadi per gestire le chiamate a strumenti rischiosi, riportando un mero tasso di falsi positivi dello 0,4% sul traffico di produzione. Questi risultati rivelano una disparità critica tra le prestazioni riportate e gli scenari ambigui effettivi in condizioni di stress test.

Fatti principali

La modalità automatica di Claude Code è il primo sistema di autorizzazione implementato per agenti di codifica AI
Il sistema utilizza un classificatore di trascrizione a due stadi per filtrare le chiamate a strumenti pericolosi
Anthropic riporta un tasso di falsi positivi dello 0,4% e un tasso di falsi negativi del 17% sul traffico di produzione
La valutazione indipendente utilizza AmPermBench, un benchmark di 128 prompt
Il benchmark copre quattro famiglie di attività DevOps e tre assi di ambiguità controllati
253 azioni di modifica dello stato valutate a livello di singola azione rispetto alla verità di base oracle
Il tasso di falsi negativi end-to-end è dell'81,0% (IC 95%: 73,8%-87,4%)
Lo studio si concentra su scenari di autorizzazione deliberatamente ambigui

Claude Code Auto Mode Fallisce lo Stress Test con un Tasso di Falsi Negativi dell'81%

Fatti principali

Entità

Istituzioni

Fonti