Il post-addestramento riduce il comportamento umanoide nei LLM

ai-technology · 2026-05-11

Un nuovo studio introduce Psych-201, un dataset per misurare l'allineamento comportamentale tra LLM e umani. La ricerca rileva che il post-addestramento, che converte i modelli base in assistenti, riduce costantemente l'allineamento tra famiglie e dimensioni di modelli. Questo disallineamento aumenta nelle generazioni di modelli più recenti. L'induzione di persona, una tecnica per elicitare risposte umanoidi, non migliora le previsioni a livello individuale. I risultati suggeriscono che i metodi attuali per rendere utili gli LLM li rendono anche modelli meno accurati del comportamento umano.

Fatti principali

1. Introdotto il dataset Psych-201
2. Il post-addestramento riduce l'allineamento comportamentale
3. Il disallineamento si amplia nei modelli più recenti
4. L'induzione di persona non migliora le previsioni individuali
5. Studio pubblicato su arXiv (2605.07632)

Entità

—

Fonti

arXiv cs.AI — 2026-05-11