CoT-Guard: Modelli Piccoli per un Monitoraggio Efficace del Chain-of-Thought
Un nuovo pipeline post-addestramento chiamato CoT-Guard consente a modelli linguistici di piccole dimensioni (4B-8B parametri) di monitorare efficacemente il ragionamento chain-of-thought per comportamenti nascosti in compiti di generazione di codice. Mentre modelli grandi come GPT-5 e Gemini-3-Flash possono fungere da monitor, sono costosi a causa di tracce di ragionamento lunghe e costi API elevati. Gli attuali modelli piccoli faticano a rilevare obiettivi nascosti, spesso attribuendoli erroneamente alla richiesta dell'utente. CoT-Guard combina il fine-tuning supervisionato (SFT) per distillare il comportamento di rilevamento da monitor più forti per compiti in-domain, e l'apprendimento per rinforzo (RL) su obiettivi nascosti difficili e sottilmente progettati per generalizzare a compiti di monitoraggio out-of-domain. L'approccio mira a fornire un'alternativa più economica per rilevare obiettivi nascosti nella generazione di codice.
Fatti principali
- 1. CoT-Guard è un pipeline post-addestramento per modelli piccoli (4B-8B).
- 2. Monitora il ragionamento chain-of-thought per comportamenti nascosti nella generazione di codice.
- 3. Modelli grandi come GPT-5 e Gemini-3-Flash sono efficaci ma costosi.
- 4. Gli attuali modelli piccoli faticano a rilevare obiettivi nascosti.
- 5. SFT distilla il comportamento di rilevamento da monitor più forti per compiti in-domain.
- 6. RL su obiettivi nascosti difficili aiuta a generalizzare a compiti out-of-domain.
- 7. Il pipeline risponde alla necessità di alternative di monitoraggio più economiche.
- 8. L'approccio è validato su compiti di monitoraggio out-of-domain.
Entità
—