SOB: Benchmark multi-fonte per output strutturato nei LLM

publication · 2026-04-30

Il Structured Output Benchmark (SOB) è stato lanciato da ricercatori per valutare l'efficacia della generazione di output strutturati nei modelli linguistici di grandi dimensioni. Questo benchmark incorpora tre diverse modalità di fonte: testo, immagini e conversazioni audio. A ciascun modello viene fornita una rappresentazione del contesto normalizzata in testo, che separa la valutazione delle capacità di output strutturato dalla qualità dell'elaborazione visiva o vocale. SOB include 5.000 voci di valutazione testuale basate su QA multi-hop da un corpus completo di 25.091 record, insieme a 209 voci di immagini provenienti da PDF elaborati con OCR e ulteriori voci audio. Questa iniziativa mira a superare le carenze degli attuali benchmark che si concentrano solo sulla conformità dello schema o sulla correttezza all'interno di un singolo dominio.

Fatti principali

SOB sta per Structured Output Benchmark
Il benchmark copre tre modalità di fonte: testo nativo, immagini e conversazioni audio
Tutti i modelli ricevono una rappresentazione del contesto normalizzata in testo
Il design isola la capacità di output strutturato dalla qualità grezza dell'elaborazione visiva o vocale
5.000 record di valutazione testuale derivati da QA multi-hop
Il corpus completo contiene 25.091 record
209 record di immagini da PDF elaborati con OCR
Pubblicato su arXiv con ID 2604.25359

SOB: Benchmark multi-fonte per output strutturato nei LLM

Fatti principali

Entità

Istituzioni

Fonti