Politica RL Condivisa e Tracciabile per Personaggi in Giochi NPC Scalabili
La tecnica innovativa di apprendimento per rinforzo nota come pcsp (Politica Condivisa Condizionata dalla Persona) facilita un comportamento scalabile e coerente per i NPC nei giochi di simulazione di vita. Nei test su un benchmark di 300 personaggi, pcsp dimostra un'identificazione compositiva zero-shot della persona fino a 17 volte superiore al caso, raggiunge un rho di Spearman di circa 0,73 per l'allineamento semantico-comportamentale e offre velocità di inferenza 22 volte più rapide rispetto a una baseline che utilizza LLM come politica. Questo approccio impiega una politica unificata basata su embedding LLM congelati derivati da descrizioni libere della persona, integrando codifica una tantum per NPC, proiezione a basso rango, condizionamento neurale e un obiettivo di addestramento che combina PPO, InfoNCE e diversità KL. Supera efficacemente i limiti dei metodi esistenti in termini di coerenza della persona, controllabilità e inferenza in tempo reale.
Fatti principali
- pcsp raggiunge un'identificazione della persona 17 volte superiore al caso
- rho di Spearman ≈ 0,73 per allineamento semantico-comportamentale
- Inferenza 22 volte più veloce rispetto alla baseline LLM-come-politica
- Singola politica RL condizionata su embedding LLM congelati
- Utilizza obiettivo di addestramento PPO + InfoNCE + diversità KL
- Testato su benchmark di simulazione di vita con 300 personaggi
- Affronta coerenza della persona, controllabilità, inferenza in tempo reale
- Combina codifica una tantum per NPC, proiezione a basso rango, condizionamento neurale
Entità
—