Il Benchmark IntentGrasp Rivela le Difficoltà dei LLM nella Comprensione delle Intenzioni

ai-technology · 2026-05-11

IntentGrasp, un benchmark di nuova creazione, valuta quanto bene i grandi modelli linguistici (LLM) comprendono le intenzioni. Si basa su 49 dataset con licenza aperta che coprono 12 diversi domini, con un set di addestramento composto da 262.759 istanze. Inoltre, ci sono due set di valutazione: l'All Set, che contiene 12.909 casi di test, e il più difficile Gem Set, con 470 casi. Le valutazioni condotte su 20 LLM di 7 diverse famiglie, inclusi modelli avanzati come GPT-5.4, Gemini-3.1-Pro e Claude-Opus-4.7, hanno rivelato punteggi inferiori al 60% sull'All Set e sotto il 25% sul Gem Set. Allarmantemente, 17 dei 20 modelli hanno ottenuto risultati peggiori di un'ipotesi casuale sul Gem Set, indicando carenze sostanziali nelle attuali capacità dei LLM.

Fatti principali

IntentGrasp è un benchmark per valutare la comprensione delle intenzioni dei LLM.
Derivato da 49 corpora di alta qualità con licenza aperta che coprono 12 domini.
Il set di addestramento contiene 262.759 istanze.
L'All Set ha 12.909 casi di test; il Gem Set ha 470 casi.
Valutati 20 LLM di 7 famiglie.
I modelli all'avanguardia testati includono GPT-5.4, Gemini-3.1-Pro e Claude-Opus-4.7.
Punteggi inferiori al 60% sull'All Set e sotto il 25% sul Gem Set.
17 modelli su 20 hanno ottenuto risultati peggiori di un'ipotesi casuale sul Gem Set.

Entità

—

Fonti

arXiv cs.AI — 2026-05-11