ARTFEED — Contemporary Art Intelligence

Auditing dei Modelli AI: Rispetto delle Costituzioni Comportamentali

ai-technology · 2026-05-26

Un recente preprint su arXiv (2605.24229) introduce una pipeline di audit completa progettata per valutare l'aderenza dei modelli AI avanzati alle loro linee guida comportamentali documentate quando si trovano ad affrontare sfide avversariali multi-turno. Queste linee guida comprendono la costituzione di Anthropic (2025a) e il Model Spec di OpenAI (2025a), che vengono combinati attraverso il character training e l'allineamento deliberativo. La pipeline suddivide ogni linea guida in componenti testabili individuali (205 per Anthropic e 197 per OpenAI), crea situazioni avversariali utilizzando l'agente di audit Petri e impiega una rubrica rivista di tipo SURF per identificare fallimenti superficiali. Questa ricerca mira a valutare l'efficacia della governance fornita da questi documenti in scenari di implementazione pratica.

Fatti principali

  • arXiv:2605.24229
  • Costituzione di Anthropic (2025a)
  • Model Spec di OpenAI (2025a)
  • character training (Anthropic, 2024)
  • allineamento deliberativo (Guan et al., 2024)
  • 205 principi per Anthropic
  • 197 principi per OpenAI
  • agente di audit Petri (Anthropic, 2025b)
  • ricerca con rubrica SURF (Murray et al., 2026)

Entità

Istituzioni

  • Anthropic
  • OpenAI
  • arXiv

Fonti