HeavySkill: L'abilità interna per l'agentic harness supera il Best-of-N
Uno studio recente pubblicato su arXiv (2605.02396) presenta HeavySkill, un concetto che reinterpreta il pensiero pesante come una capacità intrinseca incorporata nei parametri del modello, piuttosto che come una mera componente nell'orchestrazione agentica. I ricercatori delineano un processo in due fasi—ragionamento parallelo seguito da sintesi—come meccanismo fondamentale che migliora le prestazioni in compiti di ragionamento complessi. I risultati provenienti da vari domini indicano che questa abilità interna supera costantemente gli approcci convenzionali Best-of-N (BoN), con LLM più avanzati che si avvicinano alle prestazioni di Pass@N. Questa ricerca sfida la convinzione che architetture di sistema sofisticate siano i principali fattori di successo nei sistemi di orchestrazione multi-agente.
Fatti principali
- HeavySkill è introdotto come una prospettiva sull'agentic harness.
- Il pensiero pesante è visto come un'abilità interna interiorizzata nei parametri del modello.
- L'abilità opera come una pipeline a due stadi: ragionamento parallelo poi sintesi.
- HeavySkill supera le tradizionali strategie Best-of-N (BoN).
- LLM più forti possono avvicinarsi alle prestazioni di Pass@N utilizzando HeavySkill.
- L'articolo è pubblicato su arXiv con ID 2605.02396.
- Lo studio copre diversi domini.
- Il lavoro suggerisce che i meccanismi sottostanti, non solo il design del sistema, guidano le prestazioni.
Entità
Istituzioni
- arXiv