DeGenTWeb rivela la diffusione di contenuti generati da LLM sui siti web
Un nuovo articolo di ricerca, DeGenTWeb, presenta un metodo sistematico per identificare siti web dominati da contenuti generati da modelli linguistici di grandi dimensioni (LLM) con un intervento umano minimo. Gli autori sostengono che le precedenti affermazioni sulla prevalenza di contenuti LLM si basavano su campioni non rappresentativi e metodologie opache, e che i rilevatori di testo LLM hanno prestazioni scadenti quando si cerca di minimizzare le false attribuzioni di testo umano. DeGenTWeb adatta i rilevatori per le pagine web e aggrega i risultati su più pagine per una categorizzazione accurata a livello di sito. Lo studio rileva che i siti dominati da LLM sono altamente prevalenti, sebbene i numeri specifici non siano forniti nell'abstract. L'articolo è disponibile su arXiv con identificativo 2605.00087.
Fatti principali
- DeGenTWeb identifica sistematicamente i siti web dominati da LLM
- I siti dominati da LLM hanno contenuti generati da LLM con scarso intervento umano
- Le precedenti affermazioni sulla prevalenza di contenuti LLM mancavano di campioni rappresentativi
- I rilevatori di testo LLM hanno prestazioni peggiori del previsto quando si minimizzano i falsi positivi
- DeGenTWeb adatta i rilevatori per le pagine web e aggrega i risultati su più pagine
- I siti dominati da LLM risultano altamente prevalenti
- Articolo disponibile su arXiv: 2605.00087
- La metodologia mira a una categorizzazione accurata a livello di sito
Entità
Istituzioni
- arXiv