TeleCom-Bench: Benchmarking dei LLM per Applicazioni Telecom
È stato introdotto un nuovo benchmark chiamato TeleCom-Bench per valutare i modelli linguistici di grandi dimensioni (LLM) nel dominio delle telecomunicazioni. Esso affronta la mancanza di un quadro di valutazione standardizzato fornendo 12 set di valutazione con 22.678 campioni curati. Il benchmark valuta gli LLM secondo una gerarchia: comprensione della conoscenza multidimensionale (integrando fondamenti di telecomunicazioni, protocolli 3GPP, architettura 5G e conoscenza di prodotti proprietari) e applicazione della conoscenza end-to-end per flussi di lavoro industriali reali. Ciò mira a colmare il divario tra test di conoscenza statica e esigenze di implementazione pratica.
Fatti principali
- TeleCom-Bench comprende 12 set di valutazione con 22.678 campioni curati.
- Il benchmark valuta gli LLM sulla comprensione della conoscenza multidimensionale e sull'applicazione della conoscenza end-to-end.
- Integra fondamenti di telecomunicazioni, protocolli 3GPP, architettura di rete 5G e conoscenza di prodotti proprietari.
- Il benchmark copre reti cablate, core e wireless tramite sintesi guidata da grafi di conoscenza.
- Gli attuali benchmark per le telecomunicazioni si concentrano su conoscenze statiche e fondamentali e abilità atomiche isolate.
- TeleCom-Bench affronta la mancanza di un quadro di valutazione standardizzato per gli LLM nelle telecomunicazioni.
- Il benchmark è progettato per valutare gli LLM per sistemi di produzione reali nel settore delle telecomunicazioni.
- Il lavoro è presentato nell'articolo arXiv 2605.18025.
Entità
—