SMARTER: Un framework data-efficient per il rilevamento spiegabile della tossicità tramite LLM

ai-technology · 2026-04-24

I ricercatori hanno presentato SMARTER, un framework a due fasi progettato per la moderazione dei contenuti spiegabile, efficiente in termini di dati e che utilizza modelli linguistici di grandi dimensioni (LLM). Nella prima fase, il framework sfrutta gli output degli LLM per creare spiegazioni sintetiche sia per etichette accurate che inaccurate, facilitando l'allineamento attraverso l'ottimizzazione delle preferenze con un input umano limitato. La seconda fase migliora la qualità delle spiegazioni tramite addestramento incrociato tra modelli, consentendo a modelli meno potenti di allinearsi stilisticamente e semanticamente con le loro controparti più robuste. I test su benchmark come HateXplain, Latent Hate e Implicit Hate hanno mostrato un miglioramento del macro-F1 fino al 13% rispetto alle baseline few-shot, utilizzando solo una piccola parte dei dati di addestramento completi. Questo framework presenta un approccio scalabile per ambienti con risorse limitate.

Fatti principali

SMARTER è un framework a due fasi per la moderazione dei contenuti spiegabile.
La fase 1 utilizza gli output degli LLM per generare spiegazioni sintetiche per l'allineamento.
La fase 2 utilizza l'addestramento incrociato tra modelli per perfezionare la qualità delle spiegazioni.
Esperimenti condotti sui benchmark HateXplain, Latent Hate e Implicit Hate.
Raggiunge un miglioramento del macro-F1 fino al 13% rispetto alle baseline few-shot standard.
Utilizza solo una frazione dei dati di addestramento completi.
Mira ad affrontare la proliferazione di contenuti tossici sui social media.
Il framework è efficiente in termini di dati e scalabile per ambienti con risorse limitate.

SMARTER: Un framework data-efficient per il rilevamento spiegabile della tossicità tramite LLM

Fatti principali

Entità

Istituzioni

Fonti