ARTFEED — Contemporary Art Intelligence

Proxy Analyzer rileva le allucinazioni dei LLM tramite attivazioni interne

ai-technology · 2026-05-11

I ricercatori hanno introdotto un nuovo framework che aiuta a individuare le inesattezze nei modelli linguistici di grandi dimensioni, note come allucinazioni. Invece di valutare direttamente il modello generatore di testo, esamina il testo esistente utilizzando un modello compatto ospitato localmente. Questo approccio sfrutta il modo in cui i lettori elaborano le informazioni per identificare questi errori. Funziona bene sia con modelli a pesi aperti che con API chiuse come GPT-4. Il team ha sviluppato diciotto caratteristiche per questo scopo, tra cui varie metriche relative all'elaborazione del trasformatore e nuove statistiche a livello di token. Hanno addestrato un insieme di stacking utilizzando 72.135 campioni provenienti da cinque dataset incentrati sulle allucinazioni e lo hanno testato con successo su sette diverse architetture di analizzatori, mostrando prestazioni migliori rispetto ai modelli di base.

Fatti principali

  • Il framework proxy-analyzer rileva le allucinazioni nei LLM
  • Il sistema legge il testo generato attraverso un piccolo modello a pesi aperti
  • Utilizza le attivazioni interne del lettore per individuare le allucinazioni
  • Funziona per API chiuse come GPT-4 e generatori a pesi aperti
  • Diciotto caratteristiche costruite dagli interni del trasformatore
  • Insieme di stacking addestrato su 72.135 campioni da cinque dataset
  • Testato su sette architetture di analizzatori da 0,5B a 9B parametri
  • Supera costantemente i baselines su tutti i modelli testati

Entità

Istituzioni

  • arXiv

Fonti