Proposta di quadro per la segnalazione dei rischi interni dei modelli di IA
Una nuova guida da arXiv (2604.24966) affronta i rischi derivanti dall'uso interno di modelli avanzati da parte delle aziende di IA di frontiera prima del rilascio pubblico. Il Mythos Preview di Anthropic, un modello con capacità di cyberoffesa, è stato utilizzato internamente per sei settimane prima dell'annuncio. Quadri giuridici come il SB 53 della California, il RAISE Act di New York e il Codice di condotta per l'IA per scopi generali dell'UE richiedono agli sviluppatori di gestire i rischi interni e produrre rapporti sulle misure di salvaguardia e sui rischi residui.
Fatti principali
- Le aziende di IA di frontiera implementano modelli avanzati internamente per settimane o mesi prima del rilascio pubblico.
- Anthropic ha sviluppato Mythos Preview con capacità avanzate rilevanti per la cyberoffesa.
- Mythos Preview è stato disponibile internamente per almeno sei settimane prima dell'annuncio pubblico.
- L'uso interno crea rischi non affrontati dai quadri di implementazione esterna.
- Il California Transparency in Frontier Artificial Intelligence Act (SB 53) discute i rischi interni dell'IA.
- Il New York Responsible AI Safety And Education (RAISE) Act affronta i rischi dell'uso interno dell'IA.
- Il Codice di condotta per l'IA per scopi generali dell'UE copre i rischi derivanti dall'uso interno dell'IA.
- I quadri giuridici richiedono rapporti sui rischi dell'uso interno che descrivano le misure di salvaguardia e i rischi residui.
Entità
Istituzioni
- Anthropic
- arXiv
- California State Legislature
- New York State Legislature
- European Union
Luoghi
- California
- New York
- European Union