Claude guida la generazione web LLM in uno studio di 8 settimane

ai-technology · 2026-05-11

Un articolo recentemente pubblicato su arXiv (2605.06707) descrive uno studio osservazionale della durata di otto settimane, confrontando 68 output HTML a file singolo provenienti da quattro famiglie di modelli di ragionamento—GPT, Gemini, Grok e Claude—raccolti durante 17 esperimenti pubblici nell'iniziativa "HTML AI Battle" dal 10 dicembre 2025 al 4 febbraio 2026. Ogni output è stato valutato sulla base del video del browser renderizzato, utilizzando valutazioni umane e un livello di giudizio LLM Gemini per misurare l'aderenza al prompt, l'accuratezza funzionale e la qualità dell'interfaccia utente, il tutto condotto secondo un protocollo di interfaccia pubblica standardizzato senza istruzioni personalizzate o regolazioni della personalità. I risultati sono stati formattati per piattaforme di social media, tra cui X (Twitter), TikTok e YouTube. Claude è emerso come la famiglia con le migliori prestazioni, ottenendo costantemente i punteggi medi più alti e vincendo il maggior numero di confronti.

Fatti principali

Sono state confrontate 68 generazioni HTML a file singolo in 17 esperimenti pubblici.
Gli esperimenti sono stati condotti dal 10 dicembre 2025 al 4 febbraio 2026.
Quattro famiglie di modelli testate: GPT, Gemini, Grok e Claude.
Non sono state utilizzate istruzioni personalizzate, regolazioni della personalità o prompt di riparazione.
La valutazione ha utilizzato punteggi umani e un livello di giudizio LLM Gemini.
Gli output sono stati condivisi su X, TikTok e YouTube.
Sono stati costruiti due modelli predittivi: per le impressioni su X e la verbosità HTML.
Claude è stata la famiglia più forte e coerente.

Entità

Istituzioni

arXiv
GPT
Gemini
Grok
Claude
X
TikTok
YouTube

Fonti

arXiv cs.AI — 2026-05-11