Il Quadro di Valutazione della Fedeltà dell'Intento degli LLM Rivela una Divisione Strutturale-Contenutistica

ai-technology · 2026-05-16

Un nuovo quadro di valutazione per i modelli linguistici di grandi dimensioni (LLM) distingue tra la riproduzione di forme strutturali e la conservazione di intenti specifici. Questa ricerca ha analizzato 2.880 output in tre lingue, tre domini di attività e sei LLM, utilizzando l'ablazione strutturata dei prompt per valutare sia il recupero strutturale che la fedeltà dell'intento in varie dimensioni semantiche. I risultati rivelano una divisione costante tra fedeltà strutturale e intento: il 25,7% degli output cinesi con punteggi di allineamento olistico perfetti (GA=5) presentava deficit di intento, che aumentavano al 58,6% per gli output inglesi. Le valutazioni umane hanno confermato che questi output nella zona di divisione indicano reali problemi di qualità e che i punteggi di fedeltà dimensionale sono in linea con le valutazioni umane.

Fatti principali

Propone un quadro di valutazione della fedeltà dell'intento a livello dimensionale
Applicata ablazione strutturata dei prompt su 2.880 output
Copre tre lingue, tre domini di attività, sei LLM
Misura separatamente il recupero strutturale e la fedeltà dell'intento
Il 25,7% degli output cinesi con GA=5 presentava deficit di intento
Il 58,6% degli output inglesi con GA=5 presentava deficit di intento
La valutazione umana ha confermato che gli output nella zona di divisione sono deficit reali
I punteggi di fedeltà dimensionale sono in linea con i giudizi umani

Entità

—

Fonti

arXiv cs.AI — 2026-05-16