FT-Dojo: Benchmark per l'ottimizzazione autonoma di LLM

ai-technology · 2026-05-22

FT-Dojo è stato presentato dai ricercatori come una piattaforma di benchmarking interattiva progettata per l'ottimizzazione autonoma di modelli linguistici di grandi dimensioni, con 13 compiti distinti in 5 diversi domini. Questo sistema stabilisce un'interfaccia standardizzata per i compiti, un repository comune di dati grezzi, un ambiente di esecuzione controllato, un meccanismo di feedback strutturato e un processo di valutazione separato. Inoltre, il team ha creato FT-Agent, un framework autonomo incentrato sull'ottimizzazione che utilizza pianificazione iterativa strutturata, validazione rapida e analisi del feedback a più livelli per migliorare i dati e le metodologie di addestramento. I risultati sperimentali indicano che FT-Agent supera costantemente i metodi di base.

Fatti principali

FT-Dojo è un ambiente di benchmarking interattivo per l'ottimizzazione autonoma di LLM.
Comprende 13 compiti in 5 domini.
FT-Dojo standardizza un'interfaccia per i compiti, un repository condiviso di dati grezzi, un ambiente di esecuzione in sandbox, un protocollo di feedback strutturato e una procedura di valutazione separata.
FT-Agent è un framework autonomo orientato all'ottimizzazione.
FT-Agent utilizza pianificazione iterativa strutturata, validazione rapida e analisi del feedback a più livelli.
Gli esperimenti mostrano che FT-Agent fornisce un miglioramento stabile rispetto ai metodi di base.
Il lavoro affronta la natura laboriosa dell'ottimizzazione di LLM per domini verticali.
L'ottimizzazione end-to-end di LLM non era stata studiata sistematicamente come compito di agente interattivo prima.

Entità

—

Fonti

arXiv cs.AI — 2026-05-21