Il Quadro di Valutazione della Fedeltà dell'Intento degli LLM Rivela una Divisione Strutturale-Contenutistica
Un nuovo quadro di valutazione per i modelli linguistici di grandi dimensioni (LLM) distingue tra la riproduzione di forme strutturali e la conservazione di intenti specifici. Questa ricerca ha analizzato 2.880 output in tre lingue, tre domini di attività e sei LLM, utilizzando l'ablazione strutturata dei prompt per valutare sia il recupero strutturale che la fedeltà dell'intento in varie dimensioni semantiche. I risultati rivelano una divisione costante tra fedeltà strutturale e intento: il 25,7% degli output cinesi con punteggi di allineamento olistico perfetti (GA=5) presentava deficit di intento, che aumentavano al 58,6% per gli output inglesi. Le valutazioni umane hanno confermato che questi output nella zona di divisione indicano reali problemi di qualità e che i punteggi di fedeltà dimensionale sono in linea con le valutazioni umane.
Fatti principali
- Propone un quadro di valutazione della fedeltà dell'intento a livello dimensionale
- Applicata ablazione strutturata dei prompt su 2.880 output
- Copre tre lingue, tre domini di attività, sei LLM
- Misura separatamente il recupero strutturale e la fedeltà dell'intento
- Il 25,7% degli output cinesi con GA=5 presentava deficit di intento
- Il 58,6% degli output inglesi con GA=5 presentava deficit di intento
- La valutazione umana ha confermato che gli output nella zona di divisione sono deficit reali
- I punteggi di fedeltà dimensionale sono in linea con i giudizi umani
Entità
—