Rilevamento Zero-Shot di Testo Generato da LLM tramite Modello di Ricompensa Implicito

ai-technology · 2026-04-25

I ricercatori propongono IRM, un metodo zero-shot per rilevare testo generato da LLM utilizzando modelli di ricompensa impliciti derivati da modelli istruiti e di base. A differenza dei precedenti approcci basati su ricompensa, IRM non richiede raccolta di preferenze o addestramento aggiuntivo. Supera i metodi zero-shot e supervisionati esistenti sul benchmark DetectRL. Il lavoro affronta le preoccupazioni relative all'uso improprio della generazione di testo simile a quello umano da parte dei grandi modelli linguistici.

Fatti principali

IRM sfrutta modelli di ricompensa impliciti per il rilevamento zero-shot.
I modelli di ricompensa impliciti sono derivati da modelli istruiti e di base disponibili pubblicamente.
IRM non richiede raccolta di preferenze o addestramento aggiuntivo.
IRM supera i metodi zero-shot e supervisionati esistenti sul benchmark DetectRL.
Il metodo affronta le preoccupazioni relative all'uso improprio del testo generato da LLM.
I grandi modelli linguistici hanno dimostrato capacità notevoli in vari compiti.
Il precedente metodo basato su ricompensa si basa sulla costruzione di preferenze e sul fine-tuning specifico per il compito.
IRM viene valutato sul benchmark DetectRL.

Rilevamento Zero-Shot di Testo Generato da LLM tramite Modello di Ricompensa Implicito

Fatti principali

Entità

Istituzioni

Fonti