ARTFEED — Contemporary Art Intelligence

PlanningBench: Generazione Scalabile di Dati di Pianificazione per LLM

ai-technology · 2026-05-22

PlanningBench è un nuovo framework per generare dati di pianificazione scalabili, diversificati e verificabili per valutare e addestrare modelli linguistici di grandi dimensioni. Affronta le limitazioni dei benchmark esistenti che trattano i dati di pianificazione come collezioni fisse, limitando la copertura degli scenari e legando la difficoltà a proxy superficiali. Il framework astrae scenari di pianificazione reali in una tassonomia strutturata di oltre 30 tipi di attività, sotto-attività, famiglie di vincoli e fattori di difficoltà. Ciò consente una generazione controllabile, una verifica automatica e un addestramento orientato alla pianificazione. L'approccio supporta una copertura più ampia degli scenari e fonti di difficoltà strutturali, migliorando le capacità di pianificazione degli LLM.

Fatti principali

  • PlanningBench genera dati di pianificazione scalabili, diversificati e verificabili.
  • I benchmark di pianificazione esistenti trattano i dati come collezioni fisse.
  • Il framework utilizza una tassonomia di oltre 30 tipi di attività.
  • Astrea scenari di pianificazione reali in categorie strutturate.
  • Supporta la verifica automatica e l'addestramento orientato alla pianificazione.
  • Affronta le limitazioni nella copertura degli scenari e nei proxy di difficoltà.
  • L'obiettivo è migliorare le capacità di pianificazione degli LLM.
  • Pubblicato su arXiv con ID 2605.20873.

Entità

Istituzioni

  • arXiv

Fonti