Платформа Elementary выявила самые востребованные виды разметки данных

Команда платформы Elementary (проект VS Robotics) проанализировала задачи по подготовке данных от заказчиков и выявила самые востребованные виды разметки по итогам прошлого года. Более половины заданий, размещенных на платформе, связаны с разметкой текста.

40% от общего объема всех заданий на платформе занимает разметка текста: оценка и классификация текста по набору характеристик, выделение именованных сущностей (NER) и ключевых слов, расстановка знаков препинания, ударений. В 2022 году спрос на данную разметку увеличился на 15% по сравнению с предыдущим. Кроме того, вдвое вырос запрос на разметку сложных текстовых диалогов (20% заданий) для обучения моделей, способных отвечать на сложносочиненные предложения человека на широкую тематику.

Разметка изображений занимает второе место по количеству запросов (22%). Такую разметку чаще всего заказывают производители умных устройств, разработчики мобильных приложений, а также программного обеспечения для умных видеокамер.

В числе прочих задач — разметка аудио и видео (13%) и так называемые «полевые задания» по сбору необходимых данных (5%), требующие дополнительных физических действий (например, сфотографировать припаркованный автомобиль на тротуаре или определить располагается ли по данному адресу физически конкретная компания с определённым названием).

«Развитие искусственного интеллекта невозможно без разметки данных, необходимых для машинного обучения. В связи с растущей популярностью использования голосовых помощников, пришедшим на замену IVR-меню, мы видим значительное увеличение количества запросов на разметку текста. Эта тенденция наблюдается во всех организациях финансовой сферы, в учреждениях здравоохранения. С каждым годом рынок разметки данных охватывает все больше сфер и это ставит перед нами более сложные и амбициозные задачи», — отметил руководитель VS Robotics Дмитрий Теплицкий.