Il dataset When2Speak migliora la gestione dei turni di parola nei modelli linguistici per conversazioni multi-partecipante

ai-technology · 2026-05-09

When2Speak è un dataset sintetico di nuova concezione volto a migliorare la capacità dei grandi modelli linguistici di individuare i momenti appropriati per parlare durante discussioni multi-partecipante. Comprende oltre 215.000 istanze provenienti da 16.000 dialoghi con un numero di partecipanti compreso tra 2 e 6, mostrando una varietà di stili conversazionali, toni e dinamiche tra i parlanti. Il dataset si concentra specificamente sulla modellazione delle scelte PARLARE vs. SILENZIO a ogni turno conversazionale. Un processo di generazione in quattro fasi integra ancoraggio al mondo reale, potenziamento strutturato, creazione controllata di trascrizioni e supervisione adatta per il fine-tuning. Sia il dataset che la pipeline di generazione sono completamente open-source, promuovendo riproducibilità e adattamento a domini conversazionali specifici. Questa iniziativa affronta un problema significativo nell'efficacia dei LLM, poiché i modelli esistenti causano spesso interruzioni nelle interazioni di gruppo, danneggiando la coerenza complessiva.

Fatti principali

Dataset denominato When2Speak
Oltre 215.000 esempi
Derivato da 16.000 conversazioni
Coinvolge da 2 a 6 parlanti
Modella le decisioni PARLARE vs. SILENZIO
Pipeline di generazione in quattro fasi
Completamente open-source
Affronta il problema delle interruzioni nelle conversazioni multi-partecipante

Entità

—

Fonti

arXiv cs.AI — 2026-05-09