I rilevatori di testo AI amplificano la tipicità, non i confini umano-AI
Un nuovo studio su arXiv (2605.21653) rivela che i rilevatori specializzati di testo AI faticano a distinguere la scrittura umana da quella generata dall'AI, concentrandosi invece su una misura standard di similarità. Utilizzando encoder grezzi senza una guida specifica per il compito, i ricercatori hanno scoperto che proiettare le differenze tra testo umano e AI ha raggiunto prestazioni pari o superiori ai modelli ottimizzati, con punteggi AUROC di 0,806, 0,944 e 0,834 su tre diverse architetture, raggiungendo l'86-106% dei migliori risultati con ottimizzazione. È interessante notare che l'ottimizzazione completa di RoBERTa-base ha ridotto l'efficacia della discriminazione per testi formali e fluidi. Per la scrittura ESL non nativa, le prestazioni sono diminuite significativamente, producendo punteggi AUROC tra 0,06 e 0,20. Una sonda fissa con 24 esempi ha funzionato in modo comparabile all'ottimizzazione (0,900 vs 0,895). Un predittore Jacobiano in forma chiusa è stato in grado di parametrizzare accuratamente gli aggiustamenti, migliorando significativamente le prestazioni di ELECTRA-CE.
Fatti principali
- Lo studio su arXiv (2605.21653) mostra che i rilevatori AI amplificano un asse di tipicità preaddestrato, non un confine AI-umano.
- La proiezione dell'encoder grezzo su centroide(AI)-centroide(HC3) raggiunge AUROC 0,806/0,944/0,834 su tre architetture.
- Su RoBERTa-base, l'ottimizzazione completa riduce la discriminazione al di sotto della proiezione grezza su entrambe le popolazioni di testi formali e fluidi.
- Lo stesso asse si inverte sulla scrittura ESL non nativa (AUROC 0,06-0,20).
- Una sonda congelata con 24 esempi eguaglia l'ottimizzazione completa (0,900 vs 0,895).
- Il predittore Jacobiano in forma chiusa parametrizza interventi di manipolazione dell'asse con R² = 1,000.
- L'intervento aumenta il TPR di ELECTRA-CE da 0,000 a 0,904 a FPR = 1%.
- Si trasferisce a tre rilevatori RoBERTa di terze parti con equivalenza oracle 16/16.
Entità
Istituzioni
- arXiv