Structure-BiEval: Framework Auto-Supervisionato per la Fedeltà Strutturale degli LLM nei Sistemi Web

ai-technology · 2026-05-18

È stato introdotto un nuovo framework auto-supervisionato chiamato Structure-BiEval per valutare l'integrità strutturale dei Large Language Models (LLM) utilizzati in agenti autonomi basati sul Web e sistemi informativi Web. Questo framework affronta la difficoltà di valutare quanto efficacemente gli LLM convertano il linguaggio naturale in formati strutturati adatti per chiamate API Web e scambio di dati, poiché le metriche testuali tradizionali non misurano adeguatamente la coerenza topologica nei dati Web semi-strutturati, e le valutazioni manuali sono costose. Structure-BiEval impiega Rappresentazioni Intermedie Deterministiche per separare la struttura dal contenuto, utilizzando l'Accuratezza Semantica del Contenuto e la Distanza di Edit Normalizzata dell'Albero come metriche accurate. È stato testato su 15 LLM leader, dimostrando la sua utilità per valutazioni quantitative senza annotazioni, progettate per l'ingegneria dei dati Web. I risultati sono disponibili su arXiv:2601.19923.

Fatti principali

Structure-BiEval è un framework auto-supervisionato per valutare la fedeltà strutturale degli LLM.
Si rivolge ad agenti autonomi basati sul Web e sistemi informativi Web.
Il framework disaccoppia la struttura dal contenuto utilizzando Rappresentazioni Intermedie Deterministiche.
Metriche utilizzate: Accuratezza Semantica del Contenuto e Distanza di Edit Normalizzata dell'Albero.
Confrontato con 15 LLM all'avanguardia.
Affronta i limiti delle metriche testuali tradizionali e della valutazione manuale.
Mira a migliorare l'invocazione delle API Web e lo scambio di dati.
Pubblicato su arXiv con ID 2601.19923.

Structure-BiEval: Framework Auto-Supervisionato per la Fedeltà Strutturale degli LLM nei Sistemi Web

Fatti principali

Entità

Istituzioni

Fonti