ARTFEED — Contemporary Art Intelligence

Metriche di Confidenza per LLM nel Completamento del Codice Valutate

ai-technology · 2026-04-30

Un nuovo studio su arXiv (2508.16131v2) esplora l'uso di metriche intrinseche come perplexity, entropia e informazione mutua per misurare la confidenza degli LLM nei compiti di completamento del codice. Gli autori sostengono che queste metriche sono più semplici e universali rispetto alle metriche downstream, fungendo da proxy per la correttezza funzionale e il rischio di allucinazione. Il completamento del codice, che fornisce token mancanti dal contesto, è stato migliorato dai code LLM. L'articolo valuta la confidenza attraverso vari modelli, con l'obiettivo di migliorare l'affidabilità nella generazione del codice.

Fatti principali

  • Lo studio appare su arXiv con ID 2508.16131v2
  • Si concentra sulla confidenza degli LLM nel completamento del codice
  • Utilizza metriche intrinseche: perplexity, entropia, informazione mutua
  • Le metriche intrinseche sono più semplici e universali rispetto alle metriche downstream
  • Il completamento del codice fornisce token mancanti dal contesto circostante
  • I code LLM sono ottimizzati sul codice per questo compito
  • Le metriche intrinseche possono fungere da proxy per la correttezza funzionale e il rischio di allucinazione
  • Lo studio valuta la confidenza attraverso diversi LLM

Entità

Istituzioni

  • arXiv

Fonti