Terminus-4B: Un piccolo modello eguaglia i modelli frontier nell'esecuzione agentiva

ai-technology · 2026-05-07

Un nuovo articolo su arXiv (2605.03195) presenta Terminus-4B, un piccolo modello linguistico finetunato che compete con i modelli frontier nell'esecuzione agentiva del terminale. Gli agenti di codifica moderni spesso delegano sotto-compiti specializzati a sotto-agenti, che sono cicli più piccoli che gestiscono responsabilità ristrette come ricerca, debug o esecuzione del terminale. Questo mantiene pulito il contesto dell'agente principale isolando output verbosi. Tipicamente, i modelli frontier vengono utilizzati come sotto-agenti. I ricercatori hanno post-addestrato Qwen3-4B tramite supervised finetuning e reinforcement learning con un reward basato su rubriche LLM-as-judge. La loro valutazione copre vari modelli frontier, ablation di training e configurazioni dell'agente principale, mostrando che un modello più piccolo può raggiungere prestazioni comparabili.

Fatti principali

Terminus-4B è un modello Qwen3-4B post-addestrato
Utilizza supervised finetuning (SFT) e reinforcement learning (RL)
Il reward RL è basato su rubriche LLM-as-judge
Compito: esecuzione agentiva del terminale
Confrontato con modelli frontier
La valutazione include ablation di training e configurazioni dell'agente principale
Pubblicato su arXiv con ID 2605.03195
Gli agenti di codifica moderni usano sotto-agenti per sotto-compiti specializzati

Terminus-4B: Un piccolo modello eguaglia i modelli frontier nell'esecuzione agentiva

Fatti principali

Entità

Istituzioni

Fonti