SOB: Benchmark multi-fonte per output strutturato nei LLM
Il Structured Output Benchmark (SOB) è stato lanciato da ricercatori per valutare l'efficacia della generazione di output strutturati nei modelli linguistici di grandi dimensioni. Questo benchmark incorpora tre diverse modalità di fonte: testo, immagini e conversazioni audio. A ciascun modello viene fornita una rappresentazione del contesto normalizzata in testo, che separa la valutazione delle capacità di output strutturato dalla qualità dell'elaborazione visiva o vocale. SOB include 5.000 voci di valutazione testuale basate su QA multi-hop da un corpus completo di 25.091 record, insieme a 209 voci di immagini provenienti da PDF elaborati con OCR e ulteriori voci audio. Questa iniziativa mira a superare le carenze degli attuali benchmark che si concentrano solo sulla conformità dello schema o sulla correttezza all'interno di un singolo dominio.
Fatti principali
- SOB sta per Structured Output Benchmark
- Il benchmark copre tre modalità di fonte: testo nativo, immagini e conversazioni audio
- Tutti i modelli ricevono una rappresentazione del contesto normalizzata in testo
- Il design isola la capacità di output strutturato dalla qualità grezza dell'elaborazione visiva o vocale
- 5.000 record di valutazione testuale derivati da QA multi-hop
- Il corpus completo contiene 25.091 record
- 209 record di immagini da PDF elaborati con OCR
- Pubblicato su arXiv con ID 2604.25359
Entità
Istituzioni
- arXiv