ARTFEED — Contemporary Art Intelligence

OpenAI Rilascia i Modelli Linguistici Open-Weight GPT-OSS, i Primi Dopo GPT-2 del 2019

digital · 2026-04-14

OpenAI ha introdotto i suoi primi modelli linguistici di grandi dimensioni open-weight dal lancio di GPT-2 nel 2019: gpt-oss-20b e gpt-oss-120b. Questi modelli sono progettati per l'uso locale su una singola GPU con MXFP4 e incorporano modifiche architetturali notevoli, come l'eliminazione del dropout, l'implementazione di Rotary Position Embedding (RoPE) e l'utilizzo di funzioni di attivazione Swish/SwiGLU. Presentano inoltre moduli Mixture-of-Experts (MoE), Grouped Query Attention (GQA), un meccanismo di attenzione a finestra scorrevole con un contesto di 128 token e RMSNorm. Con 2,1 milioni di ore di addestramento su H100 su un dataset incentrato sulle STEM, includono sia fine-tuning supervisionato che apprendimento per rinforzo. Il modello da 20B opera su una GPU consumer da 16 GB, mentre quello da 120B richiede un H100 con 80 GB. Entrambi sono disponibili con licenza Apache 2.0.

Fatti principali

  • OpenAI ha rilasciato gpt-oss-20b e gpt-oss-120b, i suoi primi modelli open-weight dopo GPT-2 del 2019.
  • I modelli possono essere eseguiti localmente su singole GPU grazie all'ottimizzazione MXFP4.
  • Le modifiche architetturali rispetto a GPT-2 includono la rimozione del dropout, l'uso di RoPE, Swish/SwiGLU, MoE, GQA, attenzione a finestra scorrevole e RMSNorm.
  • L'addestramento ha richiesto 2,1 milioni di ore su H100 su un dataset principalmente in inglese focalizzato su STEM, programmazione e conoscenza generale.
  • I modelli sono di tipo reasoning con impostazioni regolabili di 'Sforzo di ragionamento' (basso/medio/alto).
  • Rilasciati con licenza Apache 2.0, descritti come open-weight piuttosto che completamente open-source.
  • Il modello da 20B si adatta a una GPU consumer da 16 GB; il modello da 120B necessita di un singolo H100 da 80 GB.
  • I benchmark mostrano prestazioni competitive rispetto a modelli proprietari come GPT-5 e modelli open-weight come Qwen3.

Entità

Artisti

  • Sebastian Raschka, PhD

Istituzioni

  • OpenAI
  • Hugging Face
  • Google
  • LM Arena
  • Ahead of AI

Fonti