Qwen3.6-35B-A3B Supera Claude Opus 4.7 nel Test di Illustrazione AI di un Pellicano
I test comparativi di benchmark condotti da Simon Willison hanno rivelato che il modello Qwen3.6-35B-A3B di Alibaba ha generato illustrazioni SVG superiori di un pellicano in bicicletta rispetto al Claude Opus 4.7 di Anthropic. Il modello Qwen, eseguito come versione quantizzata da 20,9 GB su un MacBook Pro M5 tramite LM Studio, ha prodotto telai di bicicletta più accurati e includeva commenti SVG intelligenti come occhiali da sole su un fenicottero. Willison ha condotto i test il 16 aprile 2026, utilizzando sia il suo benchmark consolidato del pellicano sia un test di riserva segreto che coinvolgeva un fenicottero in monociclo. Pur riconoscendo la natura assurda del benchmark, ha notato una correlazione storica tra la qualità del pellicano e l'utilità del modello, sebbene questa connessione si sia interrotta con questi ultimi risultati. Nonostante le prestazioni di Qwen in questo specifico compito, Willison ha espresso dubbi che il modello quantizzato superi la versione proprietaria di Anthropic in termini di potenza complessiva o utilità.
Fatti principali
- Simon Willison ha pubblicato i risultati dei benchmark comparativi sui modelli AI il 16 aprile 2026
- Il Qwen3.6-35B-A3B di Alibaba ha superato il Claude Opus 4.7 di Anthropic nella generazione di illustrazioni SVG
- Il test prevedeva la creazione di immagini di un pellicano in bicicletta
- Qwen è stato eseguito come modello quantizzato da 20,9 GB su un MacBook Pro M5 utilizzando LM Studio
- Un test secondario prevedeva la generazione di "un fenicottero in monociclo"
- Willison ha notato che Qwen ha prodotto telai di bicicletta migliori e includeva commenti SVG intelligenti
- Il benchmark del pellicano ha storicamente correlato con l'utilità del modello
- Willison ha espresso dubbi che Qwen sia più potente in generale rispetto a Claude Opus 4.7
Entità
Artisti
- Simon Willison
Istituzioni
- Alibaba
- Anthropic
- Unsloth
- LM Studio