ARTFEED — Contemporary Art Intelligence

SOB: Benchmark multi-fonte per output strutturato nei LLM

publication · 2026-04-30

Il Structured Output Benchmark (SOB) è stato lanciato da ricercatori per valutare l'efficacia della generazione di output strutturati nei modelli linguistici di grandi dimensioni. Questo benchmark incorpora tre diverse modalità di fonte: testo, immagini e conversazioni audio. A ciascun modello viene fornita una rappresentazione del contesto normalizzata in testo, che separa la valutazione delle capacità di output strutturato dalla qualità dell'elaborazione visiva o vocale. SOB include 5.000 voci di valutazione testuale basate su QA multi-hop da un corpus completo di 25.091 record, insieme a 209 voci di immagini provenienti da PDF elaborati con OCR e ulteriori voci audio. Questa iniziativa mira a superare le carenze degli attuali benchmark che si concentrano solo sulla conformità dello schema o sulla correttezza all'interno di un singolo dominio.

Fatti principali

  • SOB sta per Structured Output Benchmark
  • Il benchmark copre tre modalità di fonte: testo nativo, immagini e conversazioni audio
  • Tutti i modelli ricevono una rappresentazione del contesto normalizzata in testo
  • Il design isola la capacità di output strutturato dalla qualità grezza dell'elaborazione visiva o vocale
  • 5.000 record di valutazione testuale derivati da QA multi-hop
  • Il corpus completo contiene 25.091 record
  • 209 record di immagini da PDF elaborati con OCR
  • Pubblicato su arXiv con ID 2604.25359

Entità

Istituzioni

  • arXiv

Fonti