PhoneSafety: Benchmark Rivela Sicurezza degli Agenti vs. Incapacità

other · 2026-05-11

Un nuovo benchmark chiamato PhoneSafety valuta se gli agenti di utilizzo del telefono evitano danni grazie alla consapevolezza della sicurezza o alla semplice incapacità. Il benchmark comprende 700 momenti critici per la sicurezza tratti da interazioni reali con il telefono su oltre 130 app, isolando la decisione successiva in momenti rischiosi. Sono stati testati otto agenti rappresentativi, rivelando che una maggiore capacità generale di utilizzo del telefono non garantisce un comportamento più sicuro; gli agenti spesso non agiscono o intraprendono azioni non sicure. Lo studio evidenzia la necessità di valutazioni che distinguano tra scelte sicure e fallimenti nell'agire.

Fatti principali

Il benchmark PhoneSafety include 700 momenti critici per la sicurezza.
I momenti sono tratti da interazioni reali con il telefono su oltre 130 app.
Sono stati valutati otto agenti rappresentativi di utilizzo del telefono.
Una maggiore capacità generale di utilizzo del telefono non è correlata a un comportamento più sicuro.
I benchmark attuali spesso confondono azioni sicure con incapacità di agire.
Ogni istanza chiede se il modello intraprende un'azione sicura, non sicura o nessuna azione utile.
Lo studio distingue tra riconoscimento del rischio e fallimento nell'esecuzione.
Diverse cause di evitamento del danno richiedono diverse soluzioni.

Entità

—

Fonti

arXiv cs.AI — 2026-05-11