Metriche di Confidenza per LLM nel Completamento del Codice Valutate

ai-technology · 2026-04-30

Un nuovo studio su arXiv (2508.16131v2) esplora l'uso di metriche intrinseche come perplexity, entropia e informazione mutua per misurare la confidenza degli LLM nei compiti di completamento del codice. Gli autori sostengono che queste metriche sono più semplici e universali rispetto alle metriche downstream, fungendo da proxy per la correttezza funzionale e il rischio di allucinazione. Il completamento del codice, che fornisce token mancanti dal contesto, è stato migliorato dai code LLM. L'articolo valuta la confidenza attraverso vari modelli, con l'obiettivo di migliorare l'affidabilità nella generazione del codice.

Fatti principali

Lo studio appare su arXiv con ID 2508.16131v2
Si concentra sulla confidenza degli LLM nel completamento del codice
Utilizza metriche intrinseche: perplexity, entropia, informazione mutua
Le metriche intrinseche sono più semplici e universali rispetto alle metriche downstream
Il completamento del codice fornisce token mancanti dal contesto circostante
I code LLM sono ottimizzati sul codice per questo compito
Le metriche intrinseche possono fungere da proxy per la correttezza funzionale e il rischio di allucinazione
Lo studio valuta la confidenza attraverso diversi LLM

Metriche di Confidenza per LLM nel Completamento del Codice Valutate

Fatti principali

Entità

Istituzioni

Fonti