ARTFEED — Contemporary Art Intelligence

Il Benchmark SafetyALFRED Rivela Deficit nella Pianificazione della Sicurezza dell'IA negli Ambienti Cucina

ai-technology · 2026-04-22

Un nuovo benchmark di ricerca chiamato SafetyALFRED valuta la capacità dei modelli linguistici multimodali di grandi dimensioni di affrontare i pericoli di sicurezza in ambienti interattivi. Basato sul benchmark esistente dell'agente incarnato ALFRED, incorpora sei categorie di pericoli reali in cucina. Lo studio ha testato undici modelli all'avanguardia delle famiglie Qwen, Gemma e Gemini, esaminando sia il riconoscimento dei pericoli che la mitigazione attiva dei rischi attraverso la pianificazione incarnata. I risultati mostrano un significativo divario di allineamento: mentre i modelli si comportano bene nel riconoscere i pericoli in contesti di domande e risposte, i loro tassi di successo nell'effettiva mitigazione di tali rischi rimangono relativamente bassi. Questa ricerca dimostra che le valutazioni statiche tramite QA sono insufficienti per valutare le capacità di sicurezza fisica. I risultati sostengono un cambio di paradigma verso valutazioni di sicurezza più complete per i sistemi di IA che operano in spazi fisici. Il documento è stato pubblicato su arXiv con identificatore 2604.19638v1.

Fatti principali

  • SafetyALFRED è un nuovo benchmark per valutare la pianificazione della sicurezza dell'IA
  • Basato sul benchmark dell'agente incarnato ALFRED
  • Incorpora sei categorie di pericoli reali in cucina
  • Testa undici modelli all'avanguardia delle famiglie Qwen, Gemma e Gemini
  • Valuta sia il riconoscimento dei pericoli che la mitigazione attiva dei rischi
  • Rivela un divario significativo tra le capacità di riconoscimento e mitigazione
  • Le valutazioni statiche QA sono insufficienti per la valutazione della sicurezza fisica
  • Sostiene un cambio di paradigma nella valutazione della sicurezza dell'IA

Entità

Istituzioni

  • arXiv

Fonti