Claude guida la generazione web LLM in uno studio di 8 settimane
Un articolo recentemente pubblicato su arXiv (2605.06707) descrive uno studio osservazionale della durata di otto settimane, confrontando 68 output HTML a file singolo provenienti da quattro famiglie di modelli di ragionamento—GPT, Gemini, Grok e Claude—raccolti durante 17 esperimenti pubblici nell'iniziativa "HTML AI Battle" dal 10 dicembre 2025 al 4 febbraio 2026. Ogni output è stato valutato sulla base del video del browser renderizzato, utilizzando valutazioni umane e un livello di giudizio LLM Gemini per misurare l'aderenza al prompt, l'accuratezza funzionale e la qualità dell'interfaccia utente, il tutto condotto secondo un protocollo di interfaccia pubblica standardizzato senza istruzioni personalizzate o regolazioni della personalità. I risultati sono stati formattati per piattaforme di social media, tra cui X (Twitter), TikTok e YouTube. Claude è emerso come la famiglia con le migliori prestazioni, ottenendo costantemente i punteggi medi più alti e vincendo il maggior numero di confronti.
Fatti principali
- Sono state confrontate 68 generazioni HTML a file singolo in 17 esperimenti pubblici.
- Gli esperimenti sono stati condotti dal 10 dicembre 2025 al 4 febbraio 2026.
- Quattro famiglie di modelli testate: GPT, Gemini, Grok e Claude.
- Non sono state utilizzate istruzioni personalizzate, regolazioni della personalità o prompt di riparazione.
- La valutazione ha utilizzato punteggi umani e un livello di giudizio LLM Gemini.
- Gli output sono stati condivisi su X, TikTok e YouTube.
- Sono stati costruiti due modelli predittivi: per le impressioni su X e la verbosità HTML.
- Claude è stata la famiglia più forte e coerente.
Entità
Istituzioni
- arXiv
- GPT
- Gemini
- Grok
- Claude
- X
- TikTok
- YouTube