- Online и offline преобразование в текст (транскрибирование) спонтанной разговорной речи
- Быстрая адаптация под любые задачи заказчика
- Интеграция с коммуникационной платформой заказчика
- Временные метки для быстрого поиска нужного фрагмента
- Поддержка форматов аудиофайлов WAV, MP3, AIFF, WMA, FLAC, OGG и др.
- Расшифровка записи телефонных разговоров низкого качества
- Определение и обработка многоканальных аудио- и видеофайлов
- Обучение модели распознавания речи для любой сферы
Сферы применения
Как это работает
Речь абонента поступает в сервер распознавания. Для обработки речь разбивается на фреймы по 10 миллисекунд.
Фреймы с шумом отсеиваются при помощи рекуррентной нейросети.
Очищенная речь абонента поступает в акустическую модель, которая преобразует последовательность звуковых импульсов в фонемы.
Поток фонем проходит через лингвистическую модель, представляющую собой конечный автомат для преобразования последовательностей. Таким образом речь преобразуется в текст фразы.
Для уточнения результатов распознавания используется дополнительная лингвистическая модель, основанная на нейросетевой архитектуре RNNLM.
Используя свёрточную нейронную сеть, робот способен с точностью до 97% определять пол абонента и его возраст со средней погрешностью в 6 лет.
Распознавание речи
Технология распознавания речи VS Robotics позволяет транскрибировать в текст любую спонтанную разговорную речь в online и offline режимах. Программа «распознавание речи» лежит в основе системы речевой аналитики для контакт-центров. Преобразование текста в речь применяется для протоколирования встреч, расшифровки телефонных разговоров, в работе голосового робота-оператора, при создании субтитров и в других направлениях. В компании VS Robotics уже существуют словари с тематиками из разных сфер бизнеса общим объемом более 2 миллионов слов с возможностью online пополнения.VS Robotics может внедрить модуль автоматического распознавания речи в call-центр вашей организации в минимальные сроки.
Вас может заинтересовать
Все продукты