PlanningBench: Generazione Scalabile di Dati di Pianificazione per LLM
PlanningBench è un nuovo framework per generare dati di pianificazione scalabili, diversificati e verificabili per valutare e addestrare modelli linguistici di grandi dimensioni. Affronta le limitazioni dei benchmark esistenti che trattano i dati di pianificazione come collezioni fisse, limitando la copertura degli scenari e legando la difficoltà a proxy superficiali. Il framework astrae scenari di pianificazione reali in una tassonomia strutturata di oltre 30 tipi di attività, sotto-attività, famiglie di vincoli e fattori di difficoltà. Ciò consente una generazione controllabile, una verifica automatica e un addestramento orientato alla pianificazione. L'approccio supporta una copertura più ampia degli scenari e fonti di difficoltà strutturali, migliorando le capacità di pianificazione degli LLM.
Fatti principali
- PlanningBench genera dati di pianificazione scalabili, diversificati e verificabili.
- I benchmark di pianificazione esistenti trattano i dati come collezioni fisse.
- Il framework utilizza una tassonomia di oltre 30 tipi di attività.
- Astrea scenari di pianificazione reali in categorie strutturate.
- Supporta la verifica automatica e l'addestramento orientato alla pianificazione.
- Affronta le limitazioni nella copertura degli scenari e nei proxy di difficoltà.
- L'obiettivo è migliorare le capacità di pianificazione degli LLM.
- Pubblicato su arXiv con ID 2605.20873.
Entità
Istituzioni
- arXiv