Rilevamento Zero-Shot di Testo Generato da LLM tramite Modello di Ricompensa Implicito
I ricercatori propongono IRM, un metodo zero-shot per rilevare testo generato da LLM utilizzando modelli di ricompensa impliciti derivati da modelli istruiti e di base. A differenza dei precedenti approcci basati su ricompensa, IRM non richiede raccolta di preferenze o addestramento aggiuntivo. Supera i metodi zero-shot e supervisionati esistenti sul benchmark DetectRL. Il lavoro affronta le preoccupazioni relative all'uso improprio della generazione di testo simile a quello umano da parte dei grandi modelli linguistici.
Fatti principali
- IRM sfrutta modelli di ricompensa impliciti per il rilevamento zero-shot.
- I modelli di ricompensa impliciti sono derivati da modelli istruiti e di base disponibili pubblicamente.
- IRM non richiede raccolta di preferenze o addestramento aggiuntivo.
- IRM supera i metodi zero-shot e supervisionati esistenti sul benchmark DetectRL.
- Il metodo affronta le preoccupazioni relative all'uso improprio del testo generato da LLM.
- I grandi modelli linguistici hanno dimostrato capacità notevoli in vari compiti.
- Il precedente metodo basato su ricompensa si basa sulla costruzione di preferenze e sul fine-tuning specifico per il compito.
- IRM viene valutato sul benchmark DetectRL.
Entità
Istituzioni
- arXiv
- DetectRL