La Supervisione Verbale di Processo Potenzia il Ragionamento degli LLM Senza Addestramento
Esiste un nuovo metodo chiamato Supervisione Verbale di Processo (VPS) che migliora la capacità di ragionamento dei grandi modelli linguistici introducendo critiche da un modello più sofisticato, senza necessità di addestramento aggiuntivo. Ad esempio, sul benchmark GPQA Diamond, GPT-5.4 ha raggiunto un'impressionante accuratezza del 94,9% con un budget di round R=4, superando il precedente record del 94,1% senza modifiche ai gradienti. Su AIME 2025, VPS aiuta particolarmente i modelli meno potenti, aumentando le loro prestazioni dall'11,7–26,7% a un sorprendente 63,3–90,0%, con un balzo fino a 63,3 punti. A parità di potenza di calcolo, VPS supera Reflexion fino a 12,1 punti e Self-Consistency@5 di 5,0 punti su GPQA, più 8,3 punti su LiveCodeBench V6.
Fatti principali
- VPS è un framework senza addestramento che utilizza critiche strutturate in linguaggio naturale da un supervisore più forte.
- Su GPQA Diamond, GPT-5.4 (High) | GPT-5.4 (Low) raggiunge il 94,9% a R=4, superando lo stato dell'arte del 94,1%.
- Su AIME 2025, VPS aumenta i punteggi dei modelli deboli dall'11,7-26,7% al 63,3-90,0% (fino a +63,3 punti).
- A parità di calcolo, VPS supera Reflexion da +8,5 a +12,1 punti.
- VPS supera Self-Consistency@5 di +5,0 pp su GPQA e +8,3 pp su LiveCodeBench V6.
- VPS introduce un quarto asse: la granularità della supervisione verbale esterna.
- I risultati coprono GPQA Diamond, AIME 2025 e LiveCodeBench V6.
- VPS funziona sia con modelli chiusi che aperti.
Entità
Istituzioni
- arXiv
- GPQA Diamond
- AIME 2025
- LiveCodeBench V6