Il framework Optimus difende gli LLM dalla tossicità durante il fine-tuning

ai-technology · 2026-05-23

Un nuovo framework di difesa chiamato Optimus è stato sviluppato dai ricercatori per ridurre il rischio di comportamenti dannosi durante il fine-tuning dei Large Language Models (LLM) su dataset inaffidabili. A differenza dei metodi attuali che si basano su un'accurata rilevazione della tossicità o su un filtraggio rigoroso, Optimus affronta efficacemente il problema di garantire una forte mitigazione anche quando i classificatori di tossicità sono imperfetti o distorti. Questo framework utilizza un approccio di classificazione della tossicità senza training che sfrutta l'allineamento di sicurezza degli LLM standard e implementa un metodo di allineamento a doppia strategia che combina 'dati curativi' sintetici con Direct Preference Optimization (DPO) per guidare i modelli verso output più sicuri. Valutazioni complete rivelano che Optimus può ridurre la tossicità, anche utilizzando classificatori altamente distorti con un degrado del Recall fino all'85%. Questa ricerca è disponibile su arXiv con l'identificatore 2507.05660.

Fatti principali

Optimus è un framework di difesa per il fine-tuning di LLM su dataset non affidabili.
Mitiga i comportamenti tossici senza fare affidamento su una precisa rilevazione della tossicità.
Il framework utilizza uno schema di classificazione della tossicità senza training.
Riutilizza l'allineamento di sicurezza degli LLM standard.
Optimus impiega 'dati curativi' sintetici e Direct Preference Optimization (DPO).
Funziona bene anche con classificatori distorti con un degrado del Recall dell'85%.
La ricerca è pubblicata su arXiv (2507.05660).
Il framework preserva l'utilità conversazionale garantendo al contempo la sicurezza.

Il framework Optimus difende gli LLM dalla tossicità durante il fine-tuning

Fatti principali

Entità

Istituzioni

Fonti