Il Design dell'Harness per LLM Potenzia la Scoperta di Algoritmi nel Framework Vesper
Un nuovo preprint su arXiv indaga come la progettazione dell'infrastruttura di esecuzione, o 'harness', influisca sulla scoperta automatizzata di algoritmi utilizzando grandi modelli linguistici (LLM) e ricerca evolutiva. Basandosi su AlphaEvolve e FunSearch, lo studio pone tre domande chiave: se generare molti algoritmi con ragionamento breve o pochi con ragionamento profondo a parità di budget di token; come gestire gli 'hack di valutazione' in cui i programmi sfruttano le funzioni di punteggio; e come parallelizzare in sicurezza agenti che richiedono accesso completo al filesystem. Gli autori presentano Vesper, un framework che incorpora miglioramenti dell'harness per affrontare questi problemi. Valutato su Circle Packing con budget di token identici, Vesper mostra che generare meno algoritmi con pensiero più profondo produce risultati migliori. Il lavoro sottolinea che il successo della scoperta dipende non solo dalla capacità del modello, ma significativamente dal design dell'harness.
Fatti principali
- AlphaEvolve e FunSearch combinano LLM con ricerca evolutiva per la scoperta di algoritmi.
- Il design dell'harness influenza significativamente il successo della scoperta oltre la capacità del modello.
- Tre domande affrontate: allocazione dei token, hack di valutazione ed esecuzione parallela sicura.
- Vesper è un nuovo framework con miglioramenti dell'harness.
- Vesper valutato su Circle Packing con lo stesso budget di token.
- Generare meno algoritmi con pensiero più profondo supera molti tentativi superficiali.
- Articolo disponibile su arXiv con ID 2605.15221.
- Lo studio si concentra sulla scoperta automatizzata di algoritmi utilizzando agenti di codifica.
Entità
Istituzioni
- arXiv