Prevedere le Prestazioni di LLM e Programmi Simbolici con Pochi Esempi

ai-technology · 2026-05-23

Uno studio recente pubblicato su arXiv (2605.21515) presenta una tecnica per prevedere l'efficacia sia di programmi simbolici (come Python) che di esecuzioni LLM basate su prompt, utilizzando solo un numero limitato di esempi nel dominio. Gli autori concettualizzano ogni esecuzione come una variabile casuale di Bernoulli, dove la probabilità di successo riflette le prestazioni sconosciute del programma. Le loro previsioni si basano sui risultati osservati e sulle distribuzioni di prestazioni precedenti. Raccogliendo prior empirici di prestazioni da un dataset vario, scoprono che i programmi simbolici tendono a seguire un andamento di prestazioni "tutto o niente", mentre i programmi basati su prompt mostrano un prior più diffuso con numerosi output quasi corretti. Questa distinzione chiarisce perché pochi test riusciti possono convalidare i programmi simbolici, ma non quelli basati su prompt. Lo studio affronta l'incoerenza dei prompt LLM, che possono superare alcuni test ma fallire in applicazioni reali.

Fatti principali

Articolo arXiv 2605.21515
Prevede le prestazioni di programmi simbolici e basati su prompt
Utilizza un modello a lancio di moneta (variabile casuale di Bernoulli)
Le prestazioni dipendono dai risultati osservati e dal prior
Programmi simbolici: prestazioni tutto o niente
Programmi basati su prompt: prior diffuso con molti programmi quasi corretti
Pochi test superati certificano i programmi simbolici ma non quelli basati su prompt
I prompt LLM sono inaffidabili in fase di implementazione

Prevedere le Prestazioni di LLM e Programmi Simbolici con Pochi Esempi

Fatti principali

Entità

Istituzioni

Fonti