ARTFEED — Contemporary Art Intelligence

Analisi dell'Energia Libera Teorica dei Giochi Rivela Ridondanza di Ordine Superiore nelle Teste di Attenzione dei LLM

ai-technology · 2026-05-12

Uno studio recente pubblicato su arXiv (2605.09515) utilizza il Principio di Energia Libera Teorica dei Giochi (GTFEP) per indagare l'attenzione multi-testa nei modelli linguistici estesi. Questo approccio considera le teste di attenzione come agenti razionali limitati che mirano a minimizzare l'energia libera variazionale, con le loro azioni collettive che aderiscono a una distribuzione di Gibbs attraverso strutture di coalizione. Impiegando un'approssimazione gestibile con un prior uniforme e dinamiche deterministiche, l'energia libera di coalizione si semplifica nell'entropia congiunta di Shannon delle uscite discretizzate delle teste. I dividendi a coppie equivalgono all'informazione mutua (non negativa), mentre i dividendi tripli si riferiscono all'informazione di interazione, che può essere negativa. Esperimenti condotti su BERT, GPT2 e Llama utilizzando GSM8K indicano costantemente dividendi tripli negativi, evidenziando una ridondanza di ordine superiore. Inoltre, l'articolo presenta la corrispondenza FEP di Nash.

Fatti principali

  • L'articolo applica il Principio di Energia Libera Teorica dei Giochi all'attenzione multi-testa nei LLM
  • Il quadro tratta le teste di attenzione come agenti razionali limitati che minimizzano l'energia libera variazionale
  • Il comportamento collettivo segue una distribuzione di Gibbs sulle strutture di coalizione
  • L'approssimazione gestibile utilizza un prior uniforme e dinamiche deterministiche
  • L'energia libera di coalizione si riduce all'entropia congiunta di Shannon delle uscite discretizzate delle teste
  • I dividendi a coppie diventano informazione mutua (non negativa)
  • I dividendi tripli corrispondono all'informazione di interazione e possono essere negativi
  • Esperimenti su BERT, GPT2 e Llama con GSM8K mostrano dividendi tripli costantemente negativi
  • I dividendi tripli negativi indicano ridondanza di ordine superiore
  • L'articolo introduce la corrispondenza FEP di Nash

Entità

Istituzioni

  • arXiv

Fonti