Terminus-4B: Un piccolo modello eguaglia i modelli frontier nell'esecuzione agentiva
Un nuovo articolo su arXiv (2605.03195) presenta Terminus-4B, un piccolo modello linguistico finetunato che compete con i modelli frontier nell'esecuzione agentiva del terminale. Gli agenti di codifica moderni spesso delegano sotto-compiti specializzati a sotto-agenti, che sono cicli più piccoli che gestiscono responsabilità ristrette come ricerca, debug o esecuzione del terminale. Questo mantiene pulito il contesto dell'agente principale isolando output verbosi. Tipicamente, i modelli frontier vengono utilizzati come sotto-agenti. I ricercatori hanno post-addestrato Qwen3-4B tramite supervised finetuning e reinforcement learning con un reward basato su rubriche LLM-as-judge. La loro valutazione copre vari modelli frontier, ablation di training e configurazioni dell'agente principale, mostrando che un modello più piccolo può raggiungere prestazioni comparabili.
Fatti principali
- Terminus-4B è un modello Qwen3-4B post-addestrato
- Utilizza supervised finetuning (SFT) e reinforcement learning (RL)
- Il reward RL è basato su rubriche LLM-as-judge
- Compito: esecuzione agentiva del terminale
- Confrontato con modelli frontier
- La valutazione include ablation di training e configurazioni dell'agente principale
- Pubblicato su arXiv con ID 2605.03195
- Gli agenti di codifica moderni usano sotto-agenti per sotto-compiti specializzati
Entità
Istituzioni
- arXiv