StoryRMB: Nuovo Benchmark Rivela le Difficoltà dei LLM con le Preferenze Umane per le Storie

ai-technology · 2026-05-07

StoryRMB è stato lanciato dai ricercatori come il primo benchmark per valutare i modelli di ricompensa legati alle preferenze di generazione di storie. Questo benchmark comprende 1.133 istanze meticolosamente curate, ciascuna con un prompt, una storia selezionata e tre storie non scelte. I test hanno indicato che gli attuali modelli di ricompensa trovano difficile identificare le storie preferite dagli umani, con il modello con le migliori prestazioni che raggiunge solo il 66,3% di accuratezza. Per migliorare l'efficacia dei modelli di ricompensa, il team ha creato circa 100.000 istanze di addestramento di alta qualità. Questa ricerca sottolinea la disparità tra le narrazioni prodotte dai grandi modelli linguistici e quelle create dagli umani, in particolare per quanto riguarda le strutture narrative complesse e le preferenze individuali.

Fatti principali

StoryRMB è il primo benchmark per valutare i modelli di ricompensa sulle preferenze di storie.
Il benchmark contiene 1.133 istanze verificate da umani.
Ogni istanza include un prompt, una storia scelta e tre storie rifiutate.
Il miglior modello di ricompensa esistente ha raggiunto solo il 66,3% di accuratezza.
I ricercatori hanno costruito circa 100.000 istanze di addestramento di alta qualità.
Le storie generate dai LLM divergono da quelle create da umani nella struttura narrativa.
Le preferenze umane per le storie sono intrinsecamente soggettive e poco esplorate.
Il lavoro mira a migliorare la modellazione delle preferenze umane per le storie.

StoryRMB: Nuovo Benchmark Rivela le Difficoltà dei LLM con le Preferenze Umane per le Storie

Fatti principali

Entità

Istituzioni

Fonti