I modelli base ingannano i rilevatori AI, apparendo più umani delle versioni ottimizzate

ai-technology · 2026-05-20

Un recente studio pubblicato su arXiv (2605.19516) indica che i rilevatori commerciali di testo AI, come GPTZero e Pangram, sono più propensi a identificare il testo generato da modelli linguistici di base come scritto da umani rispetto a quello prodotto da modelli ottimizzati tramite istruzioni. Gli autori introducono un metodo chiamato Humanization by Iterative Paraphrasing (HIP), che trasforma un modello di base in un parafrasatore e lo applica ripetutamente per evitare il rilevamento mantenendo il significato originale. Questo approccio mostra miglioramenti costanti nella somiglianza umana ai rilevatori attraverso le famiglie di modelli Llama-3 e Qwen-3, che vanno da 0,6B a 70B parametri. I risultati implicano che i rilevatori esistenti si concentrano su artefatti unici degli output ottimizzati tramite istruzioni, permettendo al testo dei modelli di base di passare inosservato.

Fatti principali

Studio pubblicato su arXiv con ID 2605.19516
Valutati i rilevatori GPTZero e Pangram
I modelli base appaiono più umani di quelli ottimizzati tramite istruzioni
Proposta la pipeline HIP che ottimizza il modello base come parafrasatore
Testato sulle famiglie Llama-3 e Qwen-3 da 0,6B a 70B parametri
HIP migliora il compromesso tra preservazione semantica e elusione del rilevatore
I rilevatori potrebbero tracciare artefatti dell'ottimizzazione tramite istruzioni
Implicazioni per i flussi di lavoro di integrità accademica

Entità

Istituzioni

arXiv
GPTZero
Pangram
Llama-3
Qwen-3

Fonti

arXiv cs.AI — 2026-05-20