Распознавание речи

Система распознавания речи позволяет транскрибировать — преобразовывать разговорную речь в текст online и offline. Сервис дополнен нейросетевыми моделями отсеивания шумов, распознавания эмоций, оценки пола и возраста абонента.

Нейросетевая модель отсеивания шумов

Гибкие программные интерфейсы

Распознавание эмоций

Определение пола и возраста

Online и offline преобразование в текст (транскрибирование) спонтанной разговорной речи
Быстрая адаптация под любые задачи заказчика
Интеграция с коммуникационной платформой заказчика
Временные метки для быстрого поиска нужного фрагмента
Поддержка форматов аудиофайлов WAV, MP3, AIFF, WMA, FLAC, OGG и др.
Расшифровка записи телефонных разговоров низкого качества
Определение и обработка многоканальных аудио- и видеофайлов
Обучение модели распознавания речи для любой сферы

Сферы применения

Протоколирование
Call-центры
Расшифровка телефонных обращений
Smart гаджеты
Голосовое заполнение документов
Cоздание субтитров для аудио- и видеоконтента
Интеллектуальный агент (голосовой робот, помощник оператора, голосовой офисный ассистент)

Как это работает

Речь абонента поступает в сервер распознавания. Для обработки речь разбивается на фреймы по 10 миллисекунд.

Фреймы с шумом отсеиваются при помощи рекуррентной нейросети.

Очищенная речь абонента поступает в акустическую модель, которая преобразует последовательность звуковых импульсов в фонемы.

Поток фонем проходит через лингвистическую модель, представляющую собой конечный автомат для преобразования последовательностей. Таким образом речь преобразуется в текст фразы.

Для уточнения результатов распознавания используется дополнительная лингвистическая модель, основанная на нейросетевой архитектуре RNNLM.

Используя свёрточную нейронную сеть, робот способен с точностью до 97% определять пол абонента и его возраст со средней погрешностью в 6 лет.