Campi di Concetto: Misurare Allucinazione e Novità in Corpora Testuali
Un nuovo metodo chiamato Campi di Concetto misura la coerenza e la novità del testo analizzando le transizioni tra frasi nello spazio di embedding. Introdotto nell'articolo arXiv 2605.05103, calcola un campo di deriva locale con incertezza puntuale a partire dai delta tra frasi consecutive. Un punteggio ζ quantifica l'accordo con il campo utilizzando la distanza z assoluta media. L'approccio è black-box e attribuibile al corpus, supportato da un Vector Sequence Database (VSDB). Valutato per il rilevamento di allucinazioni nel Codice dei Regolamenti Federali degli Stati Uniti e per il rilevamento di novità in Project Gutenberg, utilizza riscritture controllate generate da LLM.
Fatti principali
- I Campi di Concetto sono campi di deriva locale con incertezza puntuale stimata dai delta degli embedding delle frasi.
- Il punteggio ζ misura la distanza z assoluta media tra il delta osservato e la stima gaussiana locale.
- Il metodo è black-box e attribuibile al corpus.
- Un Vector Sequence Database (VSDB) memorizza gli embedding con metadati di posizione sequenziale e delta successivo.
- Valutato sul Codice dei Regolamenti Federali degli Stati Uniti per il rilevamento di allucinazioni.
- Valutato su Project Gutenberg per il rilevamento di novità.
- Utilizza riscritture controllate generate da LLM.
- L'articolo è arXiv:2605.05103.
Entità
Istituzioni
- arXiv
- U.S. Code of Federal Regulations
- Project Gutenberg