Speech Annotator

  1. Перейдите на страницу Транскрипция и нажмите «Получить задание».
  2. Прослушайте аудио с помощью плеера.
  3. Добавьте сегменты — нажмите «Добавить сегмент» или выделите регион на осциллограмме.
  4. Для каждого сегмента укажите: тип (Речь/Событие), спикера, эмоцию, язык, уверенность и текст.
  5. При необходимости сохраните черновик (Ctrl+S) для продолжения позже.
  6. Сдайте задание (Ctrl+Enter). Транскрипция уйдёт на проверку ревьюеру.

  • Обновите страницу (F5) — иногда аудио не успевает загрузиться.
  • Проверьте подключение к серверу.
  • Убедитесь, что браузер не блокирует автовоспроизведение — нажмите Play вручную.
  • Если проблема повторяется, пропустите чанк и получите следующий.

  • В работе — чанк назначен разметчику
  • На проверке — ожидает ревью
  • Одобрено — принят ревьюером
  • Отклонено — отклонён ревьюером
  • Частично — черновик или пропущен

У каждого задания есть таймер 30 минут. Если время вышло:
  • Чанк автоматически возвращается в пул доступных заданий.
  • Вы можете получить новое задание нажав «Получить задание».
  • Сохраняйте черновики (Ctrl+S), чтобы не терять прогресс.
КлавишаДействие
SpaceВоспроизведение / Пауза
← / →Перемотка ±5 секунд
Shift + ← / →Точная перемотка ±1 секунда
Ctrl + EnterСдать задание
Ctrl + SСохранить черновик
Ctrl + NДобавить сегмент
Ctrl + ZУдалить последний сегмент
EscПропустить задание (с подтверждением)
?Подсказка горячих клавиш
AОдобрить (страница ревью)
RВернуть на доработку (страница ревью)
XОтклонить (страница ревью)
Правила транскрипции
  • Транскрибируйте «как есть» — сохраняйте фонетические ошибки, разговорные формы, незаконченные слова.
  • Code-switching (суржик) — казахско-русские гибриды фиксируются точно: «баратынмын туда», «сделайшы».
  • Не добавляйте пунктуацию, которой не было в речи.
  • Незавершённые слова пишите как есть: «я хо-», «подо-».
  • Самоисправления: «я думаю... то есть я уверен что».
  • Спикеры нумеруются с 1 в рамках данного файла — не присваивайте реальные имена.
  • Временны́е метки — начало и конец относительно начала WAV-файла (секунды).
  • Звуковые события добавляйте как отдельные сегменты с типом «Событие».
  • Уверенность: high — речь чёткая, medium — слышно, но не всё, low — трудно разобрать.
Эмоции
  • neutral — нейтральный тон, деловое общение.
  • excited — возбуждённый, взволнованный.
  • irritated — раздражённый, недовольный.
  • happy — радостный, позитивный.
  • tired — усталый, монотонный.
Звуковые события
  • keyboard — звук клавиатуры
  • paper — шелест бумаги
  • ventilation — шум вентиляции
  • phone_ring — звонок телефона
  • door — звук двери
  • unclear_speech — невнятная речь вдали
  • noise_unidentified — неопределённый шум
Политика конфиденциальности и Соглашение NDA

Доступ к данной системе предоставляется только авторизованным сотрудникам, подписавшим соглашение о неразглашении (NDA).

Ваши обязательства:
  • Не распространять, не копировать и не передавать третьим лицам аудиозаписи, транскрипции и любые данные, к которым вы получили доступ.
  • Не обсуждать содержимое записей за пределами рабочего контекста.
  • Немедленно сообщать о случаях несанкционированного доступа или утечки данных.
  • Использовать систему только в целях разметки данных в рамках проекта.
NDA-изоляция:

Разметчики без NDA не видят позицию чанка в исходной записи. Это исключает возможность воссоздать полный разговор.

Ответственность:

Нарушение данного соглашения влечёт за собой немедленное прекращение доступа и может иметь правовые последствия.