Proxy Analyzer rileva le allucinazioni dei LLM tramite attivazioni interne

ai-technology · 2026-05-11

I ricercatori hanno introdotto un nuovo framework che aiuta a individuare le inesattezze nei modelli linguistici di grandi dimensioni, note come allucinazioni. Invece di valutare direttamente il modello generatore di testo, esamina il testo esistente utilizzando un modello compatto ospitato localmente. Questo approccio sfrutta il modo in cui i lettori elaborano le informazioni per identificare questi errori. Funziona bene sia con modelli a pesi aperti che con API chiuse come GPT-4. Il team ha sviluppato diciotto caratteristiche per questo scopo, tra cui varie metriche relative all'elaborazione del trasformatore e nuove statistiche a livello di token. Hanno addestrato un insieme di stacking utilizzando 72.135 campioni provenienti da cinque dataset incentrati sulle allucinazioni e lo hanno testato con successo su sette diverse architetture di analizzatori, mostrando prestazioni migliori rispetto ai modelli di base.

Fatti principali

Il framework proxy-analyzer rileva le allucinazioni nei LLM
Il sistema legge il testo generato attraverso un piccolo modello a pesi aperti
Utilizza le attivazioni interne del lettore per individuare le allucinazioni
Funziona per API chiuse come GPT-4 e generatori a pesi aperti
Diciotto caratteristiche costruite dagli interni del trasformatore
Insieme di stacking addestrato su 72.135 campioni da cinque dataset
Testato su sette architetture di analizzatori da 0,5B a 9B parametri
Supera costantemente i baselines su tutti i modelli testati

Proxy Analyzer rileva le allucinazioni dei LLM tramite attivazioni interne

Fatti principali

Entità

Istituzioni

Fonti