Ricerca sull'IA: I LLM Formano 'Società del Pensiero', i Benchmark del Design dei Chip Mostrano Limiti, Huawei Automatizza la Generazione dei Kernel

digital · 2026-04-14

Un documento di ricerca di Google, in collaborazione con l'Università di Chicago e il Santa Fe Institute, indica che sofisticati modelli linguistici come DeepSeek-R1 e QwQ-32B mostrano varie personalità interne mentre affrontano problemi complessi, supportando le teorie del 'simulatore' di Janus del settembre 2022. Lo studio mostra che questi modelli creano modelli del mondo dettagliati per affrontare problemi di chimica organica, scrittura creativa e matematica. In uno studio diverso, UC San Diego e la Columbia University hanno presentato ChipBench, rivelando che i modelli di IA di OpenAI, Anthropic, Google, Meta e DeepSeek faticano con compiti di progettazione di chip nel mondo reale in Verilog, raggiungendo tassi di successo inferiori al 50%. Inoltre, ricercatori di Google DeepMind e altre istituzioni hanno utilizzato un LLM interno basato su Gemini, Aletheia, per risolvere 700 problemi di Erdős, producendo 200 soluzioni candidate, di cui solo 2 erano nuove. L'Università di Nanjing e Huawei hanno sviluppato AscendCraft, raggiungendo un tasso di successo del 98,1% nella compilazione del design dei kernel, sebbene sia ancora inferiore ai kernel GPU esistenti.

Fatti principali

I ricercatori di Google hanno scoperto che LLM come DeepSeek-R1 simulano multiple personalità interne, creando una 'società del pensiero' per la risoluzione dei problemi.
Il benchmark ChipBench mostra che i modelli di IA all'avanguardia hanno prestazioni scarse nella progettazione di chip nel mondo reale, con tassi di successo inferiori al 50% per compiti Verilog.
L'LLM Aletheia di Google DeepMind ha generato 200 soluzioni candidate per problemi di Erdős, con solo 2 considerate soluzioni autonome nuove.
Huawei e l'Università di Nanjing hanno sviluppato AscendCraft, utilizzando LLM per automatizzare il design dei kernel per chip AscendC con una correttezza funzionale del 90,4%.
La ricerca ha coinvolto istituzioni come l'Università di Chicago, il Santa Fe Institute, UC San Diego, la Columbia University e multiple università globali.
I modelli testati includevano DeepSeek-R1, QwQ-32B e varie versioni di OpenAI, Anthropic, Google, Meta e DeepSeek.
La valutazione umana è rimasta cruciale, poiché le soluzioni generate dall'IA richiedevano un filtraggio esperto per identificare risposte corrette e significative.
Gli studi sono stati pubblicati su arXiv, coprendo argomenti dal ragionamento dei LLM al design di chip assistito dall'IA e alla risoluzione di problemi matematici.

Entità

Artisti

Janus
Paul Erdős

Istituzioni

Google
University of Chicago
Santa Fe Institute
University of California at San Diego
Columbia University
OpenAI
Anthropic
Meta
DeepSeek
Google DeepMind
UC Berkeley
Seoul National University
Stanford University
Korea Institute for Advanced Study
University of Cambridge
Brown University
Yonsei University
Concordia University
Academia Sinica
National Taiwan University
Nanjing University
Huawei
LessWrong
arXiv
GitHub

Luoghi

Chicago
United States
Santa Fe
San Diego
California
New York
Berkeley
Seoul
South Korea
Stanford
Cambridge
United Kingdom
Providence
Brown
Yonsei
Concordia
Montreal
Canada
Academia Sinica
Taipei
Taiwan
Nanjing
China

Fonti

Import AI (Jack Clark) — 2026-02-09