ARTFEED — Contemporary Art Intelligence

L'accuratezza delle citazioni LLM è correlata alla ridondanza dei dati di addestramento

ai-technology · 2026-05-07

Uno studio che utilizza GPT-4.1 ha rilevato che l'accuratezza fattuale delle citazioni accademiche generate scala in modo log-lineare con il numero di citazioni, un indicatore della ridondanza dei dati di addestramento. I ricercatori hanno generato e verificato 100 citazioni in venti domini dell'informatica, identificando due soglie: un punto di flesso intorno alle 90 citazioni e un punto di saturazione vicino alle 1.200 citazioni, oltre il quale i record vengono riprodotti alla lettera. Il lavoro si basa sull'inquadramento di allucinazione e memorizzazione come esiti dello stesso processo probabilistico.

Fatti principali

  • Lo studio utilizza GPT-4.1 per generare 100 citazioni in venti domini dell'informatica.
  • L'accuratezza fattuale scala in modo log-lineare con il numero di citazioni.
  • Identificate due soglie: flesso a ~90 citazioni, saturazione a ~1.200 citazioni.
  • Oltre il punto di saturazione, i record vengono riprodotti alla lettera.
  • Il numero di citazioni è usato come indicatore della ridondanza dei dati di addestramento.
  • Si basa su lavori precedenti che inquadrano allucinazione e memorizzazione come lo stesso processo probabilistico.
  • L'accuratezza è misurata tramite similarità del coseno rispetto a metadati autentici.
  • Verifica manuale di tutte le citazioni generate.

Entità

Fonti