DeGenTWeb rivela la diffusione di contenuti generati da LLM sui siti web

ai-technology · 2026-05-04

Un nuovo articolo di ricerca, DeGenTWeb, presenta un metodo sistematico per identificare siti web dominati da contenuti generati da modelli linguistici di grandi dimensioni (LLM) con un intervento umano minimo. Gli autori sostengono che le precedenti affermazioni sulla prevalenza di contenuti LLM si basavano su campioni non rappresentativi e metodologie opache, e che i rilevatori di testo LLM hanno prestazioni scadenti quando si cerca di minimizzare le false attribuzioni di testo umano. DeGenTWeb adatta i rilevatori per le pagine web e aggrega i risultati su più pagine per una categorizzazione accurata a livello di sito. Lo studio rileva che i siti dominati da LLM sono altamente prevalenti, sebbene i numeri specifici non siano forniti nell'abstract. L'articolo è disponibile su arXiv con identificativo 2605.00087.

Fatti principali

DeGenTWeb identifica sistematicamente i siti web dominati da LLM
I siti dominati da LLM hanno contenuti generati da LLM con scarso intervento umano
Le precedenti affermazioni sulla prevalenza di contenuti LLM mancavano di campioni rappresentativi
I rilevatori di testo LLM hanno prestazioni peggiori del previsto quando si minimizzano i falsi positivi
DeGenTWeb adatta i rilevatori per le pagine web e aggrega i risultati su più pagine
I siti dominati da LLM risultano altamente prevalenti
Articolo disponibile su arXiv: 2605.00087
La metodologia mira a una categorizzazione accurata a livello di sito

DeGenTWeb rivela la diffusione di contenuti generati da LLM sui siti web

Fatti principali

Entità

Istituzioni

Fonti