ARTFEED — Contemporary Art Intelligence

Claude guida la generazione web LLM in uno studio di 8 settimane

ai-technology · 2026-05-11

Un articolo recentemente pubblicato su arXiv (2605.06707) descrive uno studio osservazionale della durata di otto settimane, confrontando 68 output HTML a file singolo provenienti da quattro famiglie di modelli di ragionamento—GPT, Gemini, Grok e Claude—raccolti durante 17 esperimenti pubblici nell'iniziativa "HTML AI Battle" dal 10 dicembre 2025 al 4 febbraio 2026. Ogni output è stato valutato sulla base del video del browser renderizzato, utilizzando valutazioni umane e un livello di giudizio LLM Gemini per misurare l'aderenza al prompt, l'accuratezza funzionale e la qualità dell'interfaccia utente, il tutto condotto secondo un protocollo di interfaccia pubblica standardizzato senza istruzioni personalizzate o regolazioni della personalità. I risultati sono stati formattati per piattaforme di social media, tra cui X (Twitter), TikTok e YouTube. Claude è emerso come la famiglia con le migliori prestazioni, ottenendo costantemente i punteggi medi più alti e vincendo il maggior numero di confronti.

Fatti principali

  • Sono state confrontate 68 generazioni HTML a file singolo in 17 esperimenti pubblici.
  • Gli esperimenti sono stati condotti dal 10 dicembre 2025 al 4 febbraio 2026.
  • Quattro famiglie di modelli testate: GPT, Gemini, Grok e Claude.
  • Non sono state utilizzate istruzioni personalizzate, regolazioni della personalità o prompt di riparazione.
  • La valutazione ha utilizzato punteggi umani e un livello di giudizio LLM Gemini.
  • Gli output sono stati condivisi su X, TikTok e YouTube.
  • Sono stati costruiti due modelli predittivi: per le impressioni su X e la verbosità HTML.
  • Claude è stata la famiglia più forte e coerente.

Entità

Istituzioni

  • arXiv
  • GPT
  • Gemini
  • Grok
  • Claude
  • X
  • TikTok
  • YouTube

Fonti