Intent2Tx: un benchmark per testare gli LLM nella traduzione di transazioni Ethereum
I ricercatori hanno presentato Intent2Tx, un benchmark progettato per valutare i modelli linguistici di grandi dimensioni (LLM) nella traduzione di intenzioni in linguaggio naturale in transazioni Ethereum. Il benchmark comprende 29.921 istanze a passo singolo e 1.575 a passi multipli, derivate da 300 giorni di tracce reali della mainnet Ethereum, coprendo 11 categorie tra cui primitive DeFi a coda lunga. A differenza dei benchmark precedenti basati su istruzioni sintetiche, Intent2Tx radica le intenzioni in interazioni protocollari reali. Un framework execution-aware utilizza l'analisi differenziale dello stato su ambienti mainnet forkati per la valutazione. Testando 16 LLM all'avanguardia sono emerse variazioni di performance, con metodi di scaling e retrieval che si sono dimostrati promettenti. Il lavoro è dettagliato in arXiv:2604.27763.
Fatti principali
- Il benchmark Intent2Tx ha 29.921 istanze a passo singolo e 1.575 a passi multipli
- Le istanze derivano da 300 giorni di tracce reali della mainnet Ethereum
- Copre 11 categorie tra cui primitive DeFi a coda lunga
- Utilizza un framework execution-aware con analisi differenziale dello stato su mainnet forkata
- Valutati 16 LLM all'avanguardia
- I metodi di scaling e retrieval hanno migliorato le performance
- Pubblicato su arXiv con ID 2604.27763
- Si concentra sulla traduzione di intenzioni utente di alto livello in transazioni on-chain
Entità
Istituzioni
- arXiv