Proposta di quadro per la segnalazione dei rischi interni dei modelli di IA

ai-technology · 2026-04-30

Una nuova guida da arXiv (2604.24966) affronta i rischi derivanti dall'uso interno di modelli avanzati da parte delle aziende di IA di frontiera prima del rilascio pubblico. Il Mythos Preview di Anthropic, un modello con capacità di cyberoffesa, è stato utilizzato internamente per sei settimane prima dell'annuncio. Quadri giuridici come il SB 53 della California, il RAISE Act di New York e il Codice di condotta per l'IA per scopi generali dell'UE richiedono agli sviluppatori di gestire i rischi interni e produrre rapporti sulle misure di salvaguardia e sui rischi residui.

Fatti principali

Le aziende di IA di frontiera implementano modelli avanzati internamente per settimane o mesi prima del rilascio pubblico.
Anthropic ha sviluppato Mythos Preview con capacità avanzate rilevanti per la cyberoffesa.
Mythos Preview è stato disponibile internamente per almeno sei settimane prima dell'annuncio pubblico.
L'uso interno crea rischi non affrontati dai quadri di implementazione esterna.
Il California Transparency in Frontier Artificial Intelligence Act (SB 53) discute i rischi interni dell'IA.
Il New York Responsible AI Safety And Education (RAISE) Act affronta i rischi dell'uso interno dell'IA.
Il Codice di condotta per l'IA per scopi generali dell'UE copre i rischi derivanti dall'uso interno dell'IA.
I quadri giuridici richiedono rapporti sui rischi dell'uso interno che descrivano le misure di salvaguardia e i rischi residui.

Entità

Istituzioni

Anthropic
arXiv
California State Legislature
New York State Legislature
European Union

Luoghi

California
New York
European Union

Fonti

arXiv cs.AI — 2026-04-30