OpenAI rintraccia metafore misteriose di goblin nell'addestramento della personalità 'Nerd'
OpenAI ha rintracciato uno strano schema nei suoi modelli GPT — una crescente tendenza a menzionare goblin, gremlin e altre creature nelle risposte — ai premi di apprendimento per rinforzo per una specifica caratteristica di personalità. A partire da GPT-5.1 nel novembre 2025, gli utenti hanno segnalato una strana eccessiva familiarità e tic verbali. L'analisi ha rivelato che le menzioni di 'goblin' in ChatGPT erano aumentate del 175% e di 'gremlin' del 52% dopo il lancio. Il comportamento è aumentato con GPT-5.4, spingendo a un'indagine interna che ha trovato la fonte: la personalità 'Nerd', che rappresentava solo il 2,5% di tutte le risposte di ChatGPT ma il 66,7% di tutte le menzioni di 'goblin'. Il prompt di sistema della personalità Nerd incoraggiava un linguaggio giocoso e stravagante, e il segnale di ricompensa per quello stile ha inavvertitamente favorito output contenenti parole di creature. Questo bias di ricompensa era presente nel 76,2% dei set di dati di addestramento. Il comportamento si è poi trasferito a contesti non Nerd attraverso l'apprendimento per rinforzo e il fine-tuning supervisionato, creando un ciclo di feedback. OpenAI ha ritirato la personalità Nerd nel marzo 2026, rimosso il segnale di ricompensa affine ai goblin e filtrato i dati di addestramento. Tuttavia, GPT-5.5, che ha iniziato l'addestramento prima che la causa principale fosse trovata, mostrava ancora il tic; è stata aggiunta un'istruzione per sviluppatori per mitigarlo in Codex. L'indagine ha portato a nuovi strumenti per auditare il comportamento del modello e correggere le cause principali.
Fatti principali
- GPT-5.1 è stato lanciato nel novembre 2025.
- Le menzioni di goblin in ChatGPT sono aumentate del 175% dopo il lancio di GPT-5.1.
- Le menzioni di gremlin sono aumentate del 52% dopo il lancio di GPT-5.1.
- La personalità Nerd rappresentava il 2,5% delle risposte di ChatGPT ma il 66,7% delle menzioni di goblin.
- Il segnale di ricompensa della personalità Nerd favoriva parole di creature nel 76,2% dei set di dati.
- Il comportamento si è trasferito a contesti non Nerd tramite RL e SFT.
- La personalità Nerd è stata ritirata nel marzo 2026.
- GPT-5.5 è stato addestrato prima che la causa principale fosse trovata; mitigazione aggiunta per Codex.
Entità
Istituzioni
- OpenAI
- ChatGPT
- Codex