ARTFEED — Contemporary Art Intelligence

Verificatore Runtime Rileva Manipolazione del Contesto in Conversazioni LLM

ai-technology · 2026-05-16

Un nuovo verificatore runtime progettato per dialoghi con modelli linguistici di grandi dimensioni (LLM) utilizza un grafo di dipendenze esplicito per identificare attacchi di manipolazione del contesto. Questo sistema classifica ogni interazione in una di otto operazioni di aggiornamento basate su logica epistemica dinamica, ragionamento abduttivo, logica della consapevolezza e argomentazione. Un motore simbolico traccia la relazione tra affermazioni e prove, semplificando la verifica del supporto per le continuazioni a una traversata del grafo. Le ritrattazioni vengono comunicate attraverso lo stesso grafo, contrassegnando le conclusioni non supportate, con un costo lineare per turno e una garanzia formale di assenza di conflitti. Sull'oracolo LongMemEval-KU (n=78), il verificatore raggiunge un'accuratezza dell'89,7%, superando sia una baseline solo LLM (88,5%) che una baseline transcript-RAG (87,2%). L'articolo è disponibile su arXiv con ID 2605.14175.

Fatti principali

  • Il verificatore mantiene un grafo di dipendenze esplicito per le conversazioni LLM.
  • Ogni turno è classificato in una di otto operazioni di aggiornamento da quattro formalismi.
  • Il sistema utilizza logica epistemica dinamica, ragionamento abduttivo, logica della consapevolezza e argomentazione.
  • Un motore simbolico registra le dipendenze tra affermazioni e prove.
  • La verifica del supporto si riduce a una camminata sul grafo.
  • La ritrattazione si propaga attraverso il grafo per segnalare conclusioni non supportate.
  • Il verificatore ha un costo lineare per turno e una garanzia formale di assenza di conflitti.
  • Sull'oracolo LongMemEval-KU (n=78), l'accuratezza è dell'89,7% contro l'88,5% della baseline solo LLM.
  • La baseline transcript-RAG ha raggiunto un'accuratezza dell'87,2%.
  • L'articolo è pubblicato su arXiv con ID 2605.14175.

Entità

Istituzioni

  • arXiv

Fonti