Ricerca sull'IA: I LLM Formano 'Società del Pensiero', i Benchmark del Design dei Chip Mostrano Limiti, Huawei Automatizza la Generazione dei Kernel
Un documento di ricerca di Google, in collaborazione con l'Università di Chicago e il Santa Fe Institute, indica che sofisticati modelli linguistici come DeepSeek-R1 e QwQ-32B mostrano varie personalità interne mentre affrontano problemi complessi, supportando le teorie del 'simulatore' di Janus del settembre 2022. Lo studio mostra che questi modelli creano modelli del mondo dettagliati per affrontare problemi di chimica organica, scrittura creativa e matematica. In uno studio diverso, UC San Diego e la Columbia University hanno presentato ChipBench, rivelando che i modelli di IA di OpenAI, Anthropic, Google, Meta e DeepSeek faticano con compiti di progettazione di chip nel mondo reale in Verilog, raggiungendo tassi di successo inferiori al 50%. Inoltre, ricercatori di Google DeepMind e altre istituzioni hanno utilizzato un LLM interno basato su Gemini, Aletheia, per risolvere 700 problemi di Erdős, producendo 200 soluzioni candidate, di cui solo 2 erano nuove. L'Università di Nanjing e Huawei hanno sviluppato AscendCraft, raggiungendo un tasso di successo del 98,1% nella compilazione del design dei kernel, sebbene sia ancora inferiore ai kernel GPU esistenti.
Fatti principali
- I ricercatori di Google hanno scoperto che LLM come DeepSeek-R1 simulano multiple personalità interne, creando una 'società del pensiero' per la risoluzione dei problemi.
- Il benchmark ChipBench mostra che i modelli di IA all'avanguardia hanno prestazioni scarse nella progettazione di chip nel mondo reale, con tassi di successo inferiori al 50% per compiti Verilog.
- L'LLM Aletheia di Google DeepMind ha generato 200 soluzioni candidate per problemi di Erdős, con solo 2 considerate soluzioni autonome nuove.
- Huawei e l'Università di Nanjing hanno sviluppato AscendCraft, utilizzando LLM per automatizzare il design dei kernel per chip AscendC con una correttezza funzionale del 90,4%.
- La ricerca ha coinvolto istituzioni come l'Università di Chicago, il Santa Fe Institute, UC San Diego, la Columbia University e multiple università globali.
- I modelli testati includevano DeepSeek-R1, QwQ-32B e varie versioni di OpenAI, Anthropic, Google, Meta e DeepSeek.
- La valutazione umana è rimasta cruciale, poiché le soluzioni generate dall'IA richiedevano un filtraggio esperto per identificare risposte corrette e significative.
- Gli studi sono stati pubblicati su arXiv, coprendo argomenti dal ragionamento dei LLM al design di chip assistito dall'IA e alla risoluzione di problemi matematici.
Entità
Artisti
- Janus
- Paul Erdős
Istituzioni
- University of Chicago
- Santa Fe Institute
- University of California at San Diego
- Columbia University
- OpenAI
- Anthropic
- Meta
- DeepSeek
- Google DeepMind
- UC Berkeley
- Seoul National University
- Stanford University
- Korea Institute for Advanced Study
- University of Cambridge
- Brown University
- Yonsei University
- Concordia University
- Academia Sinica
- National Taiwan University
- Nanjing University
- Huawei
- LessWrong
- arXiv
- GitHub
Luoghi
- Chicago
- United States
- Santa Fe
- San Diego
- California
- New York
- Berkeley
- Seoul
- South Korea
- Stanford
- Cambridge
- United Kingdom
- Providence
- Brown
- Yonsei
- Concordia
- Montreal
- Canada
- Academia Sinica
- Taipei
- Taiwan
- Nanjing
- China