как работает распознавание речи

Распознавание речи

Система распознавания речи позволяет транскрибировать — преобразовывать разговорную речь в текст online и offline. Сервис дополнен нейросетевыми моделями отсеивания шумов, распознавания эмоций, оценки пола и возраста абонента.
Нейросетевая модель отсеивания шумов
Гибкие программные интерфейсы
Распознавание эмоций
Определение пола и возраста
  • Online и offline преобразование в текст (транскрибирование) спонтанной разговорной речи
  • Быстрая адаптация под любые задачи заказчика
  • Интеграция с коммуникационной платформой заказчика
  • Временные метки для быстрого поиска нужного фрагмента
  • Поддержка форматов аудиофайлов WAV, MP3, AIFF, WMA, FLAC, OGG и др.
  • Расшифровка записи телефонных разговоров низкого качества
  • Определение и обработка многоканальных аудио- и видеофайлов
  • Обучение модели распознавания речи для любой сферы
  • Система распознавания речи обучена
    на 1 000+
    часов реальных разговоров
  • Скорость распознавания
    речи за 0,3c
    процессорного времени
  • Тематические словари общим объёмом более
    2 млн
    слов с возможностью пополнения

Сферы применения

  • Протоколирование
  • Call-центры
  • Расшифровка телефонных обращений
  • Smart гаджеты
  • Голосовое заполнение документов
  • Cоздание субтитров для аудио- и видеоконтента
  • Интеллектуальный агент (голосовой робот, помощник оператора, голосовой офисный ассистент)

Как это работает

Речь абонента поступает в сервер распознавания. Для обработки речь разбивается на фреймы по 10 миллисекунд.
Фреймы с шумом отсеиваются при помощи рекуррентной нейросети.
Очищенная речь абонента поступает в акустическую модель, которая преобразует последовательность звуковых импульсов в фонемы.
Поток фонем проходит через лингвистическую модель, представляющую собой конечный автомат для преобразования последовательностей. Таким образом речь преобразуется в текст фразы.
Для уточнения результатов распознавания используется дополнительная лингвистическая модель, основанная на нейросетевой архитектуре RNNLM.
Используя свёрточную нейронную сеть, робот способен с точностью до 97% определять пол абонента и его возраст со средней погрешностью в 6 лет.

Распознавание речи

Технология распознавания речи VS Robotics позволяет транскрибировать в текст любую спонтанную разговорную речь в online и offline режимах. Программа «распознавание речи» лежит в основе системы речевой аналитики для контакт-центров. Преобразование текста в речь применяется для протоколирования встреч, расшифровки телефонных разговоров, в работе голосового робота-оператора, при создании субтитров и в других направлениях. В компании VS Robotics уже существуют словари с тематиками из разных сфер бизнеса общим объемом более 2 миллионов слов с возможностью online пополнения.VS Robotics может внедрить модуль автоматического распознавания речи в call-центр вашей организации в минимальные сроки.