TTExplore: Un Framework per Agenti LLM per Inferire Regole Implicite
I ricercatori hanno proposto Test-Time Exploration (TTExplore), un framework che consente agli agenti basati su Large Language Model (LLM) di inferire regole implicite—vincoli nascosti che non possono essere osservati direttamente—attraverso l'interazione. Il framework utilizza un componente pensatore per analizzare la cronologia delle interazioni e guidare un attore, affrontando il comune fallimento degli agenti in ambienti governati da tali regole. Per addestrare il pensatore, il team introduce un pipeline di apprendimento per rinforzo stabile che sfrutta punteggi accurati a livello di compito per superare l'instabilità della valutazione di traiettorie di ragionamento profondo. Il lavoro è pubblicato su arXiv con l'identificatore 2605.24828.
Fatti principali
- Gli agenti LLM spesso falliscono in ambienti con regole implicite.
- TTExplore utilizza un componente pensatore per inferire vincoli nascosti.
- Il framework include un pipeline di apprendimento per rinforzo stabile per l'addestramento.
- L'articolo è disponibile su arXiv con ID 2605.24828.
- L'approccio mira a ridurre i cicli ripetitivi di tentativi ed errori.
Entità
Istituzioni
- arXiv