Auditing dei Modelli AI: Rispetto delle Costituzioni Comportamentali

ai-technology · 2026-05-26

Un recente preprint su arXiv (2605.24229) introduce una pipeline di audit completa progettata per valutare l'aderenza dei modelli AI avanzati alle loro linee guida comportamentali documentate quando si trovano ad affrontare sfide avversariali multi-turno. Queste linee guida comprendono la costituzione di Anthropic (2025a) e il Model Spec di OpenAI (2025a), che vengono combinati attraverso il character training e l'allineamento deliberativo. La pipeline suddivide ogni linea guida in componenti testabili individuali (205 per Anthropic e 197 per OpenAI), crea situazioni avversariali utilizzando l'agente di audit Petri e impiega una rubrica rivista di tipo SURF per identificare fallimenti superficiali. Questa ricerca mira a valutare l'efficacia della governance fornita da questi documenti in scenari di implementazione pratica.

Fatti principali

arXiv:2605.24229
Costituzione di Anthropic (2025a)
Model Spec di OpenAI (2025a)
character training (Anthropic, 2024)
allineamento deliberativo (Guan et al., 2024)
205 principi per Anthropic
197 principi per OpenAI
agente di audit Petri (Anthropic, 2025b)
ricerca con rubrica SURF (Murray et al., 2026)

Auditing dei Modelli AI: Rispetto delle Costituzioni Comportamentali

Fatti principali

Entità

Istituzioni

Fonti