OpenDeepThink: Ragionamento Parallelo tramite Aggregazione Bradley-Terry

ai-technology · 2026-05-16

Un nuovo framework computazionale per il test-time, chiamato OpenDeepThink, utilizza un confronto a coppie Bradley-Terry per identificare i candidati di ragionamento LLM più efficaci. Questa tecnica valuta diversi candidati simultaneamente, consentendo all'LLM di valutare coppie casuali e compilare i voti in una classifica generale. I candidati con il punteggio più alto vengono conservati, con il top 75% modificato sulla base di feedback in linguaggio naturale dalle valutazioni, mentre il 25% più basso viene eliminato. Negli esperimenti, OpenDeepThink ha migliorato l'Elo Codeforces effettivo di Gemini 3.1 Pro di +405 punti in otto round consecutivi di chiamate LLM, impiegando circa 27 minuti. Questo metodo affronta la sfida di selezionare il miglior candidato senza un verificatore di verità di base, poiché le valutazioni puntuali degli LLM tendono a essere rumorose e distorte. La ricerca è disponibile su arXiv con l'identificatore 2605.15177.

Fatti principali

OpenDeepThink utilizza il confronto a coppie Bradley-Terry per la selezione dei candidati.
L'LLM giudica coppie casuali di candidati e aggrega i voti in una classifica globale.
I candidati con il punteggio più alto vengono conservati; i primi tre quarti vengono mutati utilizzando critiche in linguaggio naturale.
L'ultimo quarto dei candidati viene scartato a ogni generazione.
L'Elo Codeforces di Gemini 3.1 Pro è aumentato di +405 punti in otto round (~27 minuti).
Il metodo scala in ampiezza campionando più candidati in parallelo.
Affronta il collo di bottiglia della selezione senza un verificatore di verità di base.
Articolo disponibile su arXiv: 2605.15177.

OpenDeepThink: Ragionamento Parallelo tramite Aggregazione Bradley-Terry

Fatti principali

Entità

Istituzioni

Fonti