Structure-BiEval: Framework Auto-Supervisionato per la Fedeltà Strutturale degli LLM nei Sistemi Web
È stato introdotto un nuovo framework auto-supervisionato chiamato Structure-BiEval per valutare l'integrità strutturale dei Large Language Models (LLM) utilizzati in agenti autonomi basati sul Web e sistemi informativi Web. Questo framework affronta la difficoltà di valutare quanto efficacemente gli LLM convertano il linguaggio naturale in formati strutturati adatti per chiamate API Web e scambio di dati, poiché le metriche testuali tradizionali non misurano adeguatamente la coerenza topologica nei dati Web semi-strutturati, e le valutazioni manuali sono costose. Structure-BiEval impiega Rappresentazioni Intermedie Deterministiche per separare la struttura dal contenuto, utilizzando l'Accuratezza Semantica del Contenuto e la Distanza di Edit Normalizzata dell'Albero come metriche accurate. È stato testato su 15 LLM leader, dimostrando la sua utilità per valutazioni quantitative senza annotazioni, progettate per l'ingegneria dei dati Web. I risultati sono disponibili su arXiv:2601.19923.
Fatti principali
- Structure-BiEval è un framework auto-supervisionato per valutare la fedeltà strutturale degli LLM.
- Si rivolge ad agenti autonomi basati sul Web e sistemi informativi Web.
- Il framework disaccoppia la struttura dal contenuto utilizzando Rappresentazioni Intermedie Deterministiche.
- Metriche utilizzate: Accuratezza Semantica del Contenuto e Distanza di Edit Normalizzata dell'Albero.
- Confrontato con 15 LLM all'avanguardia.
- Affronta i limiti delle metriche testuali tradizionali e della valutazione manuale.
- Mira a migliorare l'invocazione delle API Web e lo scambio di dati.
- Pubblicato su arXiv con ID 2601.19923.
Entità
Istituzioni
- arXiv