RoleConflictBench: Nuovo Benchmark Testa la Sensibilità Contestuale degli LLM nei Dilemmi Sociali
Un team di ricercatori ha lanciato RoleConflictBench, un nuovo benchmark finalizzato a valutare quanto bene i grandi modelli linguistici (LLM) rispondano a situazioni in cui diverse aspettative di ruolo entrano in conflitto. Questo benchmark affronta una questione importante: gli LLM si concentrano sui segnali contestuali mutevoli o si attengono alle loro preferenze apprese quando affrontano dilemmi sociali? Per creare una valutazione equa, hanno incluso l'urgenza situazionale come fattore nel processo decisionale. Il dataset, che presenta oltre 13.000 scenari realistici da 65 ruoli in cinque domini sociali, è stato sviluppato attraverso un processo in tre fasi che varia i livelli di urgenza. Questa configurazione consente ai ricercatori di valutare quantitativamente come gli LLM gestiscono interazioni sociali complesse. I risultati sono stati condivisi su arXiv con l'identificatore arXiv:2509.25897v2.
Fatti principali
- RoleConflictBench è un nuovo benchmark per valutare la sensibilità contestuale degli LLM
- Misura come gli LLM gestiscono scenari di conflitto di ruolo in cui entrano in conflitto più aspettative di ruolo
- Il benchmark utilizza l'urgenza situazionale come vincolo per una valutazione oggettiva
- Il dataset contiene oltre 13.000 scenari realistici in 65 ruoli
- Gli scenari coprono cinque diversi domini sociali
- La ricerca è stata pubblicata su arXiv con l'identificatore arXiv:2509.25897v2
- Il tipo di annuncio è replace-cross
- Il benchmark affronta come gli LLM diano priorità ai segnali contestuali rispetto alle preferenze apprese nei dilemmi sociali
Entità
Istituzioni
- arXiv