Speech Annotator
JSONL
Полный датасет

Все одобренные чанки с массивом сегментов segments[]. Одна строка = один чанк.

{
  "audio": "uuid.wav",
  "duration": 18.2,
  "chunk_type": "vad_chunk",
  "segments": [...]
}
ASR плоский
Плоский ASR-датасет

Конкатенация текста всех речевых сегментов без временны́х меток. Один файл = одна строка.

{
  "audio": "uuid.wav",
  "text": "добрый день...",
  "language": "rus"
}
JSON
Диалог источника

Полный диалог из чанков одного источника с абсолютными временны́ми метками. Требует NDA.