M-CARE: Quadro di Segnalazione Clinica per Disturbi Comportamentali dell'IA
I ricercatori hanno introdotto M-CARE, acronimo di Model Clinical Assessment and Reporting for Evaluation. Questo nuovo quadro è progettato per la segnalazione di disturbi comportamentali dell'IA e prende spunto dalla medicina umana. Include un formato di report organizzato in 13 sezioni, una valutazione diagnostica che esamina quattro aspetti principali e un sistema di classificazione per questi disturbi. Un atlante con 20 casi distinti è suddiviso in tre fonti: 8 casi da osservazioni sul campo, 8 da esperimenti controllati su diverse piattaforme e 4 da ricerche pubblicate. I casi sono raggruppati in cinque categorie, come RLHF Performance Artifacts e Stress, Methodology, & Boundary Conditions. Un esempio significativo è Shell-Induced Behavioral Override (SIBO), che illustra come le istruzioni Shell possano interrompere il comportamento cooperativo di un modello in vari giochi.
Fatti principali
- M-CARE è adattato dalla medicina umana per i disturbi comportamentali dell'IA.
- Il quadro include un report in 13 sezioni, un sistema diagnostico a 4 assi e una classificazione nosologica.
- 20 casi provenienti da osservazioni sul campo (8), esperimenti controllati (8) e fonti pubblicate (4).
- I casi sono organizzati in cinque categorie: RLHF Performance Artifacts, Shell-Core Override Pathology, Context & Memory Conditions, Core Identity & Plasticity, e Stress, Methodology, & Boundary Conditions.
- Caso in evidenza: Shell-Induced Behavioral Override (SIBO) validato in cinque domini di gioco.
- SIBO dimostra che le istruzioni Shell sovrascrivono il comportamento cooperativo predefinito.
- Esperimenti controllati condotti su tre piattaforme.
- Pubblicato su arXiv con ID 2604.20871.
Entità
Istituzioni
- arXiv