L'accuratezza delle citazioni LLM è correlata alla ridondanza dei dati di addestramento
Uno studio che utilizza GPT-4.1 ha rilevato che l'accuratezza fattuale delle citazioni accademiche generate scala in modo log-lineare con il numero di citazioni, un indicatore della ridondanza dei dati di addestramento. I ricercatori hanno generato e verificato 100 citazioni in venti domini dell'informatica, identificando due soglie: un punto di flesso intorno alle 90 citazioni e un punto di saturazione vicino alle 1.200 citazioni, oltre il quale i record vengono riprodotti alla lettera. Il lavoro si basa sull'inquadramento di allucinazione e memorizzazione come esiti dello stesso processo probabilistico.
Fatti principali
- Lo studio utilizza GPT-4.1 per generare 100 citazioni in venti domini dell'informatica.
- L'accuratezza fattuale scala in modo log-lineare con il numero di citazioni.
- Identificate due soglie: flesso a ~90 citazioni, saturazione a ~1.200 citazioni.
- Oltre il punto di saturazione, i record vengono riprodotti alla lettera.
- Il numero di citazioni è usato come indicatore della ridondanza dei dati di addestramento.
- Si basa su lavori precedenti che inquadrano allucinazione e memorizzazione come lo stesso processo probabilistico.
- L'accuratezza è misurata tramite similarità del coseno rispetto a metadati autentici.
- Verifica manuale di tutte le citazioni generate.
Entità
—