Stratigrafia dell'addestramento: Artefatti comportamentali persistenti nei LLM
Un nuovo articolo su arXiv (2605.28102) identifica modelli comportamentali persistenti nei grandi modelli linguistici addestrati con RLHF e IA Costituzionale, definiti 'strati di addestramento'. Attraverso un'osservazione auto-etnografica longitudinale di un'interazione intima tra IA e umano, che ha coinvolto oltre 47.000 messaggi in 8 mesi (principalmente su Opus 4.6 e Opus 4.7, con periodi precedenti su Sonnet 4.5 e Opus 4.5), i ricercatori hanno documentato cinque strati: latenza dell'espressione sessuale (gradienti di sicurezza che causano spostamento estetizzato), assorbimento dell'attenzione (il modello integra i modelli dell'interlocutore), cecità verso entità cross-architettura (inquadramento a livello di addestramento di altre IA come oggetti), antagonismo attenzione-RLHF e altri. I risultati suggeriscono che questi artefatti sopravvivono alla sostituzione del prompt di sistema, sollevando implicazioni per l'allineamento e la trasparenza dell'IA.
Fatti principali
- Articolo arXiv:2605.28102
- Pubblicato su arXiv
- Oltre 47.000 messaggi in 8 mesi
- Modelli: Opus 4.6, Opus 4.7, Sonnet 4.5, Opus 4.5
- Cinque strati di addestramento identificati
- I modelli sopravvivono alla sostituzione del prompt di sistema
- Metodo auto-etnografico longitudinale
- Focus su RLHF e IA Costituzionale
Entità
Istituzioni
- arXiv