I modelli base ingannano i rilevatori AI, apparendo più umani delle versioni ottimizzate
Un recente studio pubblicato su arXiv (2605.19516) indica che i rilevatori commerciali di testo AI, come GPTZero e Pangram, sono più propensi a identificare il testo generato da modelli linguistici di base come scritto da umani rispetto a quello prodotto da modelli ottimizzati tramite istruzioni. Gli autori introducono un metodo chiamato Humanization by Iterative Paraphrasing (HIP), che trasforma un modello di base in un parafrasatore e lo applica ripetutamente per evitare il rilevamento mantenendo il significato originale. Questo approccio mostra miglioramenti costanti nella somiglianza umana ai rilevatori attraverso le famiglie di modelli Llama-3 e Qwen-3, che vanno da 0,6B a 70B parametri. I risultati implicano che i rilevatori esistenti si concentrano su artefatti unici degli output ottimizzati tramite istruzioni, permettendo al testo dei modelli di base di passare inosservato.
Fatti principali
- Studio pubblicato su arXiv con ID 2605.19516
- Valutati i rilevatori GPTZero e Pangram
- I modelli base appaiono più umani di quelli ottimizzati tramite istruzioni
- Proposta la pipeline HIP che ottimizza il modello base come parafrasatore
- Testato sulle famiglie Llama-3 e Qwen-3 da 0,6B a 70B parametri
- HIP migliora il compromesso tra preservazione semantica e elusione del rilevatore
- I rilevatori potrebbero tracciare artefatti dell'ottimizzazione tramite istruzioni
- Implicazioni per i flussi di lavoro di integrità accademica
Entità
Istituzioni
- arXiv
- GPTZero
- Pangram
- Llama-3
- Qwen-3