ARTFEED — Contemporary Art Intelligence

Il framework TRIAGE valuta il controllo metacognitivo degli LLM sotto vincoli di budget di token

ai-technology · 2026-05-14

Un nuovo framework di valutazione chiamato TRIAGE esamina la capacità dei grandi modelli linguistici di gestire una coda di compiti entro un budget limitato di token, un tipo di controllo metacognitivo precedentemente analizzato nella cognizione umana. Questo framework richiede che i modelli aderiscano a un'unica strategia organizzata che determina l'ordine dei problemi da affrontare, la sequenza delle azioni e la distribuzione dei token per ciascuno, senza ricevere feedback sull'esecuzione. I piani vengono valutati rispetto a un oracolo che possiede una conoscenza completa della risolvibilità di ciascun problema e dei costi associati, ottenendo un rapporto di efficienza di triage. La ricerca valuta sia modelli all'avanguardia che open-source, con e senza capacità di ragionamento, su problemi matematici competitivi. I risultati rivelano che gli LLM esistenti hanno difficoltà con un efficace controllo metacognitivo prospettico, spesso dando priorità errata a compiti risolvibili e allocando i token in modo inefficiente. Questa ricerca sottolinea una significativa carenza nelle capacità degli agenti autonomi e implica che i miglioramenti futuri potrebbero richiedere modifiche architetturali o un addestramento focalizzato su tecniche metacognitive.

Fatti principali

  • TRIAGE valuta il controllo metacognitivo prospettico negli LLM sotto budget di token.
  • I modelli devono creare un unico piano ordinato per selezione, sequenziamento e allocazione.
  • I piani vengono valutati rispetto a un oracolo con piena conoscenza della risolvibilità e del costo.
  • La valutazione include modelli all'avanguardia e open-source con e senza ragionamento.
  • I problemi provengono da dataset di matematica competitiva.
  • Gli LLM attuali mostrano uno scarso controllo metacognitivo prospettico.
  • Il framework è introdotto in arXiv:2605.13414.
  • Lo studio è stato pubblicato nel 2025.

Entità

Istituzioni

  • arXiv

Fonti