ARTFEED — Contemporary Art Intelligence

I modelli base ingannano i rilevatori AI, apparendo più umani delle versioni ottimizzate

ai-technology · 2026-05-20

Un recente studio pubblicato su arXiv (2605.19516) indica che i rilevatori commerciali di testo AI, come GPTZero e Pangram, sono più propensi a identificare il testo generato da modelli linguistici di base come scritto da umani rispetto a quello prodotto da modelli ottimizzati tramite istruzioni. Gli autori introducono un metodo chiamato Humanization by Iterative Paraphrasing (HIP), che trasforma un modello di base in un parafrasatore e lo applica ripetutamente per evitare il rilevamento mantenendo il significato originale. Questo approccio mostra miglioramenti costanti nella somiglianza umana ai rilevatori attraverso le famiglie di modelli Llama-3 e Qwen-3, che vanno da 0,6B a 70B parametri. I risultati implicano che i rilevatori esistenti si concentrano su artefatti unici degli output ottimizzati tramite istruzioni, permettendo al testo dei modelli di base di passare inosservato.

Fatti principali

  • Studio pubblicato su arXiv con ID 2605.19516
  • Valutati i rilevatori GPTZero e Pangram
  • I modelli base appaiono più umani di quelli ottimizzati tramite istruzioni
  • Proposta la pipeline HIP che ottimizza il modello base come parafrasatore
  • Testato sulle famiglie Llama-3 e Qwen-3 da 0,6B a 70B parametri
  • HIP migliora il compromesso tra preservazione semantica e elusione del rilevatore
  • I rilevatori potrebbero tracciare artefatti dell'ottimizzazione tramite istruzioni
  • Implicazioni per i flussi di lavoro di integrità accademica

Entità

Istituzioni

  • arXiv
  • GPTZero
  • Pangram
  • Llama-3
  • Qwen-3

Fonti