ARTFEED — Contemporary Art Intelligence

L'Apprendimento Curricolare Migliora l'Allineamento della Sicurezza nei LLM

ai-technology · 2026-05-27

Un recente articolo su arXiv (2605.26315) presenta Staged-Competence, un framework per l'apprendimento curricolare volto a migliorare l'Ottimizzazione Diretta delle Preferenze (DPO) per l'allineamento della sicurezza nei modelli linguistici di grandi dimensioni. Questo approccio categorizza i dati di preferenza in base alla difficoltà, impiega un campionamento basato sulle competenze e aggiorna progressivamente il modello di riferimento. Staged-Competence ottiene una riduzione del 16% dei tassi di risposta dannosa per scenari fuori distribuzione e una diminuzione del 20% dei tassi di successo degli attacchi jailbreak su tre famiglie di modelli, preservando al contempo le capacità generali con quasi nessun rifiuto eccessivo. Raggiunge gli standard di sicurezza di base utilizzando solo il 75% dei dati di addestramento e crea una distinzione più chiara tra risposte sicure e non sicure, rimanendo agnostico rispetto all'algoritmo di ottimizzazione delle politiche.

Fatti principali

  • Staged-Competence riduce i tassi di risposta dannosa fuori distribuzione del 16%.
  • I tassi di successo degli attacchi jailbreak diminuiscono del 20%.
  • Raggiunge la sicurezza di base con il 75% dei dati di addestramento.
  • Il framework è agnostico rispetto all'algoritmo di ottimizzazione delle politiche.
  • Preserva le capacità generali con un rifiuto eccessivo quasi nullo.
  • Utilizza l'apprendimento curricolare per organizzare i dati di preferenza per difficoltà.
  • Impiega un campionamento basato sulle competenze.
  • Aggiorna progressivamente il modello di riferimento durante l'addestramento.

Entità

Istituzioni

  • arXiv

Fonti