Compilazione del Contesto dell'Agente: Addestramento degli LLM sulle Traiettorie degli Agenti
La Compilazione del Contesto dell'Agente (ACC) è una tecnica innovativa che trasforma le traiettorie degli agenti provenienti da aree come la ricerca, l'ingegneria del software e le interrogazioni di database in coppie domanda-risposta a lungo contesto per l'addestramento di grandi modelli linguistici. La messa a punto supervisionata tradizionale spesso trascura le risposte degli strumenti e si concentra esclusivamente sulla selezione degli strumenti a livello di turno, creando una lacuna nella supervisione. L'ACC mitiga questo problema fondendo le richieste originali con gli output degli strumenti e le osservazioni ambientali su più turni, consentendo ai modelli di sintetizzare prove disperse. Questa strategia sfrutta le ampie traiettorie generate dagli agenti durante la risoluzione dei problemi, che includono l'utilizzo degli strumenti e la raccolta di osservazioni su numerosi turni. Di conseguenza, riduce la dipendenza dalla costosa cura di documenti lunghi o dalla sintesi euristica del contesto.
Fatti principali
- 1. L'ACC converte le traiettorie degli agenti in coppie QA a lungo contesto
- 2. La SFT standard degli agenti maschera le risposte degli strumenti e addestra solo la selezione degli strumenti a livello di turno
- 3. L'ACC combina le domande originali con le risposte degli strumenti e le osservazioni ambientali
- 4. Le traiettorie provengono da agenti di ricerca, ingegneria del software e interrogazione di database
- 5. Il metodo affronta il punto cieco della supervisione nell'addestramento standard
- 6. Gli agenti producono traiettorie massive quando risolvono problemi
- 7. Le prove necessarie per rispondere alle domande sono sparse su più turni
- 8. L'ACC riduce la necessità di costosa cura di documenti lunghi o sintesi euristica del contesto
Entità
—