Il framework Optimus difende gli LLM dalla tossicità durante il fine-tuning
Un nuovo framework di difesa chiamato Optimus è stato sviluppato dai ricercatori per ridurre il rischio di comportamenti dannosi durante il fine-tuning dei Large Language Models (LLM) su dataset inaffidabili. A differenza dei metodi attuali che si basano su un'accurata rilevazione della tossicità o su un filtraggio rigoroso, Optimus affronta efficacemente il problema di garantire una forte mitigazione anche quando i classificatori di tossicità sono imperfetti o distorti. Questo framework utilizza un approccio di classificazione della tossicità senza training che sfrutta l'allineamento di sicurezza degli LLM standard e implementa un metodo di allineamento a doppia strategia che combina 'dati curativi' sintetici con Direct Preference Optimization (DPO) per guidare i modelli verso output più sicuri. Valutazioni complete rivelano che Optimus può ridurre la tossicità, anche utilizzando classificatori altamente distorti con un degrado del Recall fino all'85%. Questa ricerca è disponibile su arXiv con l'identificatore 2507.05660.
Fatti principali
- Optimus è un framework di difesa per il fine-tuning di LLM su dataset non affidabili.
- Mitiga i comportamenti tossici senza fare affidamento su una precisa rilevazione della tossicità.
- Il framework utilizza uno schema di classificazione della tossicità senza training.
- Riutilizza l'allineamento di sicurezza degli LLM standard.
- Optimus impiega 'dati curativi' sintetici e Direct Preference Optimization (DPO).
- Funziona bene anche con classificatori distorti con un degrado del Recall dell'85%.
- La ricerca è pubblicata su arXiv (2507.05660).
- Il framework preserva l'utilità conversazionale garantendo al contempo la sicurezza.
Entità
Istituzioni
- arXiv