ARTFEED — Contemporary Art Intelligence

Intent2Tx: un benchmark per testare gli LLM nella traduzione di transazioni Ethereum

ai-technology · 2026-05-01

I ricercatori hanno presentato Intent2Tx, un benchmark progettato per valutare i modelli linguistici di grandi dimensioni (LLM) nella traduzione di intenzioni in linguaggio naturale in transazioni Ethereum. Il benchmark comprende 29.921 istanze a passo singolo e 1.575 a passi multipli, derivate da 300 giorni di tracce reali della mainnet Ethereum, coprendo 11 categorie tra cui primitive DeFi a coda lunga. A differenza dei benchmark precedenti basati su istruzioni sintetiche, Intent2Tx radica le intenzioni in interazioni protocollari reali. Un framework execution-aware utilizza l'analisi differenziale dello stato su ambienti mainnet forkati per la valutazione. Testando 16 LLM all'avanguardia sono emerse variazioni di performance, con metodi di scaling e retrieval che si sono dimostrati promettenti. Il lavoro è dettagliato in arXiv:2604.27763.

Fatti principali

  • Il benchmark Intent2Tx ha 29.921 istanze a passo singolo e 1.575 a passi multipli
  • Le istanze derivano da 300 giorni di tracce reali della mainnet Ethereum
  • Copre 11 categorie tra cui primitive DeFi a coda lunga
  • Utilizza un framework execution-aware con analisi differenziale dello stato su mainnet forkata
  • Valutati 16 LLM all'avanguardia
  • I metodi di scaling e retrieval hanno migliorato le performance
  • Pubblicato su arXiv con ID 2604.27763
  • Si concentra sulla traduzione di intenzioni utente di alto livello in transazioni on-chain

Entità

Istituzioni

  • arXiv

Fonti