Metriche di Confidenza per LLM nel Completamento del Codice Valutate
Un nuovo studio su arXiv (2508.16131v2) esplora l'uso di metriche intrinseche come perplexity, entropia e informazione mutua per misurare la confidenza degli LLM nei compiti di completamento del codice. Gli autori sostengono che queste metriche sono più semplici e universali rispetto alle metriche downstream, fungendo da proxy per la correttezza funzionale e il rischio di allucinazione. Il completamento del codice, che fornisce token mancanti dal contesto, è stato migliorato dai code LLM. L'articolo valuta la confidenza attraverso vari modelli, con l'obiettivo di migliorare l'affidabilità nella generazione del codice.
Fatti principali
- Lo studio appare su arXiv con ID 2508.16131v2
- Si concentra sulla confidenza degli LLM nel completamento del codice
- Utilizza metriche intrinseche: perplexity, entropia, informazione mutua
- Le metriche intrinseche sono più semplici e universali rispetto alle metriche downstream
- Il completamento del codice fornisce token mancanti dal contesto circostante
- I code LLM sono ottimizzati sul codice per questo compito
- Le metriche intrinseche possono fungere da proxy per la correttezza funzionale e il rischio di allucinazione
- Lo studio valuta la confidenza attraverso diversi LLM
Entità
Istituzioni
- arXiv