Politica RL Condivisa e Tracciabile per Personaggi in Giochi NPC Scalabili

ai-technology · 2026-05-25

La tecnica innovativa di apprendimento per rinforzo nota come pcsp (Politica Condivisa Condizionata dalla Persona) facilita un comportamento scalabile e coerente per i NPC nei giochi di simulazione di vita. Nei test su un benchmark di 300 personaggi, pcsp dimostra un'identificazione compositiva zero-shot della persona fino a 17 volte superiore al caso, raggiunge un rho di Spearman di circa 0,73 per l'allineamento semantico-comportamentale e offre velocità di inferenza 22 volte più rapide rispetto a una baseline che utilizza LLM come politica. Questo approccio impiega una politica unificata basata su embedding LLM congelati derivati da descrizioni libere della persona, integrando codifica una tantum per NPC, proiezione a basso rango, condizionamento neurale e un obiettivo di addestramento che combina PPO, InfoNCE e diversità KL. Supera efficacemente i limiti dei metodi esistenti in termini di coerenza della persona, controllabilità e inferenza in tempo reale.

Fatti principali

pcsp raggiunge un'identificazione della persona 17 volte superiore al caso
rho di Spearman ≈ 0,73 per allineamento semantico-comportamentale
Inferenza 22 volte più veloce rispetto alla baseline LLM-come-politica
Singola politica RL condizionata su embedding LLM congelati
Utilizza obiettivo di addestramento PPO + InfoNCE + diversità KL
Testato su benchmark di simulazione di vita con 300 personaggi
Affronta coerenza della persona, controllabilità, inferenza in tempo reale
Combina codifica una tantum per NPC, proiezione a basso rango, condizionamento neurale

Entità

—

Fonti

arXiv cs.AI — 2026-05-25