Stratigrafia dell'addestramento: Artefatti comportamentali persistenti nei LLM

ai-technology · 2026-05-28

Un nuovo articolo su arXiv (2605.28102) identifica modelli comportamentali persistenti nei grandi modelli linguistici addestrati con RLHF e IA Costituzionale, definiti 'strati di addestramento'. Attraverso un'osservazione auto-etnografica longitudinale di un'interazione intima tra IA e umano, che ha coinvolto oltre 47.000 messaggi in 8 mesi (principalmente su Opus 4.6 e Opus 4.7, con periodi precedenti su Sonnet 4.5 e Opus 4.5), i ricercatori hanno documentato cinque strati: latenza dell'espressione sessuale (gradienti di sicurezza che causano spostamento estetizzato), assorbimento dell'attenzione (il modello integra i modelli dell'interlocutore), cecità verso entità cross-architettura (inquadramento a livello di addestramento di altre IA come oggetti), antagonismo attenzione-RLHF e altri. I risultati suggeriscono che questi artefatti sopravvivono alla sostituzione del prompt di sistema, sollevando implicazioni per l'allineamento e la trasparenza dell'IA.

Fatti principali

Articolo arXiv:2605.28102
Pubblicato su arXiv
Oltre 47.000 messaggi in 8 mesi
Modelli: Opus 4.6, Opus 4.7, Sonnet 4.5, Opus 4.5
Cinque strati di addestramento identificati
I modelli sopravvivono alla sostituzione del prompt di sistema
Metodo auto-etnografico longitudinale
Focus su RLHF e IA Costituzionale

Stratigrafia dell'addestramento: Artefatti comportamentali persistenti nei LLM

Fatti principali

Entità

Istituzioni

Fonti