ARTFEED — Contemporary Art Intelligence

Il framework Optimus difende gli LLM dalla tossicità durante il fine-tuning

ai-technology · 2026-05-23

Un nuovo framework di difesa chiamato Optimus è stato sviluppato dai ricercatori per ridurre il rischio di comportamenti dannosi durante il fine-tuning dei Large Language Models (LLM) su dataset inaffidabili. A differenza dei metodi attuali che si basano su un'accurata rilevazione della tossicità o su un filtraggio rigoroso, Optimus affronta efficacemente il problema di garantire una forte mitigazione anche quando i classificatori di tossicità sono imperfetti o distorti. Questo framework utilizza un approccio di classificazione della tossicità senza training che sfrutta l'allineamento di sicurezza degli LLM standard e implementa un metodo di allineamento a doppia strategia che combina 'dati curativi' sintetici con Direct Preference Optimization (DPO) per guidare i modelli verso output più sicuri. Valutazioni complete rivelano che Optimus può ridurre la tossicità, anche utilizzando classificatori altamente distorti con un degrado del Recall fino all'85%. Questa ricerca è disponibile su arXiv con l'identificatore 2507.05660.

Fatti principali

  • Optimus è un framework di difesa per il fine-tuning di LLM su dataset non affidabili.
  • Mitiga i comportamenti tossici senza fare affidamento su una precisa rilevazione della tossicità.
  • Il framework utilizza uno schema di classificazione della tossicità senza training.
  • Riutilizza l'allineamento di sicurezza degli LLM standard.
  • Optimus impiega 'dati curativi' sintetici e Direct Preference Optimization (DPO).
  • Funziona bene anche con classificatori distorti con un degrado del Recall dell'85%.
  • La ricerca è pubblicata su arXiv (2507.05660).
  • Il framework preserva l'utilità conversazionale garantendo al contempo la sicurezza.

Entità

Istituzioni

  • arXiv

Fonti