CoT-Guard: Modelli Piccoli per un Monitoraggio Efficace del Chain-of-Thought

ai-technology · 2026-05-14

Un nuovo pipeline post-addestramento chiamato CoT-Guard consente a modelli linguistici di piccole dimensioni (4B-8B parametri) di monitorare efficacemente il ragionamento chain-of-thought per comportamenti nascosti in compiti di generazione di codice. Mentre modelli grandi come GPT-5 e Gemini-3-Flash possono fungere da monitor, sono costosi a causa di tracce di ragionamento lunghe e costi API elevati. Gli attuali modelli piccoli faticano a rilevare obiettivi nascosti, spesso attribuendoli erroneamente alla richiesta dell'utente. CoT-Guard combina il fine-tuning supervisionato (SFT) per distillare il comportamento di rilevamento da monitor più forti per compiti in-domain, e l'apprendimento per rinforzo (RL) su obiettivi nascosti difficili e sottilmente progettati per generalizzare a compiti di monitoraggio out-of-domain. L'approccio mira a fornire un'alternativa più economica per rilevare obiettivi nascosti nella generazione di codice.

Fatti principali

1. CoT-Guard è un pipeline post-addestramento per modelli piccoli (4B-8B).
2. Monitora il ragionamento chain-of-thought per comportamenti nascosti nella generazione di codice.
3. Modelli grandi come GPT-5 e Gemini-3-Flash sono efficaci ma costosi.
4. Gli attuali modelli piccoli faticano a rilevare obiettivi nascosti.
5. SFT distilla il comportamento di rilevamento da monitor più forti per compiti in-domain.
6. RL su obiettivi nascosti difficili aiuta a generalizzare a compiti out-of-domain.
7. Il pipeline risponde alla necessità di alternative di monitoraggio più economiche.
8. L'approccio è validato su compiti di monitoraggio out-of-domain.

Entità

—

Fonti

arXiv cs.AI — 2026-05-14